2014-07-04 Hsieh Johnson

站在101鳥瞰資料科學

任何時代都有資料科學的問題,最早的資料科學可以追溯到統治者在處理軍役戶政以及農業畜牧的問題上,經典的例子就是人口調查農產品改良試驗。 接著數據分析被應用到工業界中,譬如提高產能與改善良率的統計方法。同時,經濟學、社會學、生命科學…也開始透過統計方法來描述現象、驗證假說。近來計算 機科學發展成熟,資料儲存的成本降低,從大數據中萃取有用資訊的演算技術逐漸受到重視,這種從大數據中尋找挖掘可供決策的規則就是所謂的資料探勘 (Data mining)。事實上,從古到今資料科學的本質並沒有不同,改變的只是因應人類活動型態的轉變,使得數據的收集方式及其分析方法跟著轉變罷了。現在Big Data很熱門,卻也陷入Big的迷思,忘了資料科學的本質其實是在Data上。

談到Data,必須先說明資料如何收集。一般來說可以分成top- down與bottom-up兩種。所謂的top-down係指企業主在資料收集前,有既定的問題想要解答,譬如某樂利杯咖啡的企業想要訂定飲品的優惠行 銷策略,這時候必須透過收集各個分店每種飲品在各種時間與季節的銷售數據,甚至是特殊優惠活動時飲品的銷售記錄等等資料,進行數據分析以回答問題。另一種 bottom-up是從既有資料中尋找規則,譬如從前述飲品的銷售數據中,歸納出那些飲品組合最受到消費者喜愛,讓企業達到飲品事先推薦、飲品銷售預測等 等目的。當然,資料的收集並不侷限是top-down或是bottom-up,而是兩者上上下下的循環,藉由不斷的調整為企業創造最大的利益。以上例子, 可以被應用在一間小店上,也可以用在全台展店數百家的企業上,甚至可以用在全球五大洲擁有數千間連鎖分店的企業之上。對於資料科學而言,無論資料規模的大 小,透過Data來解決問題的本質是始終不變的。差別僅在於時代的進步,資料收集的方式比以往方便也更加多元。當然相對於可以在中小規模的數據上使用的統 計方法,套到大數據時會有運算效率不彰的問題,但我認為這是技術上的問題,並不影響基本的統計思維。

data-science-word-could

data science word cloud, made by Marina Yuan

把問題收斂,如果企業主想要利用Data來 (無論是Big Data, Middle Data 還是 Small Data) 提升企業的營運,該怎麼做?第一步多半是想找一位精通資料科學的專業人才吧。但是當他們想要這麼做時,卻發現找不到這種人才。真的是這樣嗎?

我以為資料科學基本的流程是這樣子的:

  1. 列出企業想要透過Data解決的問題
  2. 記錄所有可能有助於找出答案的Data
  3. 從Data中萃取出規則以回答問題

每段流程都是獨門的學問,能夠同時精通三者的人才真的是少之又少,能夠識別這種人才的企業更是寥寥無幾。何不從上述三段流程各別尋找對應的人才呢? 企業主需要的可能是一位資料科學專家,也可以是一個實力堅強的資料科學團隊。從具有實務經驗的人才庫中尋找第一階段的人選;從具有資料倉儲經驗的人才庫中 尋找第二階段的人選;再從具備資料分析能力的人才庫中尋找第三階段的人選。而我所參與的 Data Science Program (DSP) 課程設計的目標,除了各自培養三個階段的人才之外,同時也注重這三種人才的交流與整合。 其中DSP團訓班課 程設計的目的就是把這三種人才放在一個團隊裡面,透過各種資料科學面向的課程以及team project的實戰方式,整合出一個完整的資料科學團隊。再補充兩個概念。第一,上述三段流程並不完全是由上至下來執行,而是需要團隊成員彼此不斷的交 流與溝通才能成就出良好的分析結果。第二,已經具備上述三種之中任一種職能的人,透過團訓的過程培養第二、第三種職能並不困難。

總之,我想要強調的有兩點:1. 現階段的資料科學正處於Big Data的浪潮上,Big的確是當前資料的主要特徵,但是核心主角仍然落在Data上,透過數據的深度分析,將數據轉化成可供企業決策的資訊與知識,才是 資料科學中心思想。2. 資料科學這門領域既深且廣,能完全精通此道者無疑是萬中選一的逸才。不過,若能透過資料科學團隊的合作方式,也不失為一種降低資料科學門檻的方法。

原文出處:讀數一格

Hsieh Johnson

國立清華大學統計所博士,致力推廣資料科學,透過統計的建模與分析,用數字解決現實世界的問題。