六月 2014

View all on this date written articles further down below.

10位國際頂尖資料探勘大師

近年來巨量資料(Big Data)的風行,讓沈寂20多年的資料探勘(Data Mining)技術又再度熱絡起來,並且延燒到企業中,像是前陣子甫落幕的活動,華碩與亞太資料探勘及知識發掘會議(Pacific-Asia Conference on Knowledge Discovery and Data Mining,簡稱PAKDD)共同舉辦的國際性大數據探勘競賽,就嘗試將為期5年的維修紀錄作為比賽的原始資料,要求參賽者推測出各元件每月報修數量的預測模型。 而每個領域都有所屬的專家,因此這邊筆者整理了國際頂尖10位的資料探勘專家,該排名依據是由Google Scholar中的文章引用次數(Cited),通常引用次數越高,也代表該名學者的學術聲望越高。 接下來讓我們一同向大師學習,依據排名這10位大師分別是Trevor Hastie、Jeffrey Ullman、Jinyan Li、Jeongkyu Lee、Vipin Kumar、Jiawei Han、Rakesh Agrawal、John Canny、Philip S. Yu、Christos Faloutsos,以下表格包含排序與引用次數。 Trevor Hastie與Jeffrey Ullman分別是史丹佛大學(Stanford University)的統計與電腦科學教授。其中Trevor Hastie教授以R語言作為主要工具,所撰寫的The Elements…

想進蘋果也要懂Big Data

原圖網址 最近全世界都吹起Big Data風潮,連蘋果(Apple)也一同蠢蠢欲動。最新的蘋果職缺中,今年2014年5月14日,蘋果的廣告部門開了一個高級軟體工程師的職缺。 筆者將職缺需求整理如下,提供相關的產業參考: 超過五年的軟體工程與資料分析的經驗。 熟悉的工具須要包含Java、Python、Hadoop、R、SPSS、SAS。 具有網路廣告的分析經驗。 懂SQL,也就是過去大家熟悉的關聯式資料庫。 理論的部分要懂資料探勘(Data mining)、資料匹配(Data matching)、機器學習(Machine learning)、 統計(Statistical techniques)、實驗設計(Experimental design)、最佳化(Optimization)。 具有大量數據的處理經驗,像是處理單位高達PB(Petabyte)以上的資料量。 具有解決真實問題的經驗。 獨立的工作能力。 關注資料分析的準確率與品質。 以上主要的徵求內容,在台灣算是跨科系才能學到的能力,筆者舉例如下: Java較偏資工系。 R較偏統計系。 Python與Hadoop可能偏資管系或資工系。 SQL的部分偏資工與資管。 理論的部分資管跟資工都可以選修到,有些還是必修,但最佳化(Optimization)的課反而在工管系才可能碰到。當然現在有所謂的「資訊科學系」可能前述理論與工具都可能學習到。而個人覺得工具面的部份包含Java、Python、Hadoop、R這些開放原始碼,大部分都還是要靠學生自行學習。 最難的部分是在領域知識,像是蘋果的職缺需求就要網路廣告的分析經驗,對岸有些職缺需要懂金融、商業等領域知識的,這些領域知識在學校反而偏向是商業類科系才可能碰到,譬如筆者在大學修的廣告學、消費者行為,都需要跨修到企管系。 面對於這種職缺需要多年養成的職缺,企業不可能要求求職者百分之百都會以上技能,因為有些求職者即使會以上技能,個性與相處上反而也有問題,只能盡量取人格特質與技能較為平均的人才。 以筆者的經驗,通常一般行情是很難請到具有上述能力的人才。 因此筆者就根據企業所要發展的方向來決定這些能力的比重。 像是工作在分析比重較高,就會著重在R與Python的能力,且具有商業分析概念,且具備「溝通」能力的人才,因為他一般的工作就是協助進行資料分析,並產製BI報表或平台的能力。而R跟Python本身就能完成這些事情,所以工作反而是在溝通與呈現,以及應用統計、資料探勘、機器學習等理論在實務上。…

ETL:學校沒教好的資料功夫

我們何其有幸,生在一個資訊大爆炸的時代。 距今 5.3 億年前的寒武紀時期,短短數千萬年間,物種大量出現,幾乎所有動物的「門」都在這一時期出現了。由於出現大量的較高等生物以及物種多樣性,這一情形被稱為生命大爆發,或是寒武紀大爆發 (Cambrian Explosion)。 五億年前,生命大爆發。五億年後的今天,資訊大爆發。 從結構來看,資料可以分為結構化、半結構化、非結構化三大類。從資料來源區分,資料種類眾多,例如商業資料、科學資料、政府資料、醫療資料、或是社交網路資料等等。 意思是說,我們現在要面對的資料,已經不再是單一來源了。原始資料不但散落各處,還得先設法清洗整理,才能開始進行分析。 可是,若打開各大學的課程表,我們卻很難找到爬挖資料和清洗資料的相關課程。 這就是 DSP 開設《資料爬理析 Python 實戰班》的原因。 資料爬理析,業界俗稱 ETL,是指 Extraction, Transform 和 Load 這三個處理資料的階段。經過這三個階段,資料才能被好好使用。 倘若缺乏整理乾淨的資料,我們空有一身資料分析的能力,還是巧婦難為無米之炊,不可能從事任何有意義的分析工作。 ETL 入門不難,但是要精通卻不容易。這種技能,不僅需要通曉十八般武藝,更需要大量的實務經驗,方能勝任。 我們曾經討論過,掌握這種寶貴的經驗和知識已經很困難了,若是要設計成課程,找出最有效率的方式,傳授給學員,更是難上加難。 我們在五月份開了第一次課,挑戰這個艱鉅的任務。 我們非常感謝首期學員的熱烈回饋意見,讓我們瞭解到,對於資料爬理析,我們的課程安排和大家的期望是相當接近的。這對於講師 David、助教 Richard…

化繁複於無形,絲絲入扣

今天我很榮幸受邀參加由《DSP 資料科學計畫》共同發起單位 SYSTEX/Etu 所舉辦的年度盛會:Big Data Taiwan 2014。該活動相當成功,不僅具備國際水準,講者也包括國際資料科學界的重量級公司。更重要的是,其中一位講者是 DSP 校友。 Judy Wu 參加過《資料科學計畫 ─ 團訓班 2》,是位行銷人,而不是工程師。她今天的任務是要在短短四十分鐘內,介紹一個艱深冷硬的資料產品:「精準推薦解決方案」。 一間公司要介紹自家產品的優勢,通常會搬出一大堆對自己有利的數據,告訴台下的觀眾:你們不買會後悔。 Judy 沒有這樣做。 她採取了一個讓人眼睛一亮的作法。明明是要介紹一個資料產品 (data product),Judy 的簡報,從頭到尾卻沒有提到任何一個數字(但是有放一些數學方程式當做背景圖案)。她訴諸感性,用溫暖的語調,從使用者的角度,娓娓訴說使用推薦系統之後,對生活的影響。 用資料說故事的最高境界:化繁複於無形。 Good Job!