2015-12-24 Hsieh Johnson

【‪DSP Data Challenge】群眾外包,協助企業解決營運問題

舉辦資料競賽,解決企業營運問題。

DSP智庫驅動痞客邦合作舉辦「痞客邦 Visitor Log 資料挑戰賽」,由痞客邦提供網站訪客的瀏覽紀錄 (visitor log) 抽樣資料,讓參賽隊伍以此為基礎,從網站訪客瀏覽痞客邦所有網頁的紀錄中找出規律,建構預測模型,推估這些訪客在某段特定時間內的造訪次數。

痞客邦共同創辦人 Jay 表示,痞客邦不僅僅是社群內容創作平台,更是群眾知識與經驗的匯聚平台。若能精準預測網站流量,對公司的內容經營、廣告業務或是系統開發都有相當大的助益。

20151219_144017_HDR

各方好手,異曲同工

為期一個月的競賽,吸引了不同背景、不同領域的各方好手參賽。在12月19日的成果發表會,我們也邀請到四位績優選手分享成功祕辛。

四位分享成果選手之中,第一名是正在就讀中研院 TIGP-SNHCC 學程的博士生陳志明 (最後成績 80.77),第二名是中研院語言所的博士後研究員徐峻賢 (80.05),第三名是太古汽車的數據分析師葉智韜 (79.31),以及第五名來自慧邦科技的工程師陳逸凡 (74.22)。

四位的分享內容各具特色,譬如陳逸凡來自遊戲公司,採用的是遊戲業分析玩家常用的 NES model (新玩家/老玩家/沈睡玩家 模型),將痞客邦的訪客以最近幾個禮拜造訪情況區分為New, Existing, Sleeping 三種類型,依據各種類型各自進行估計。

20151219_145920_hdr-1024x576

葉智韜提出了一個 newbies can try 的比賽經驗,好好使用 Excel 算算平均數就可以得到還不錯的成效,其中預測精準的秘辛在於透過觀察訪客行為 (探索性資料分析, EDA) 移除離群值 (outliers)、找出特殊趨勢。

20151219_151420-1024x576

 

徐峻賢博士展現了他在腦神經科學研究上的專業,把訪客瀏覽數據以文章類別做合併,透過合併後的時間序列數據進行整體趨勢的預測,接著再依特定權重計算個別訪客的造訪次數。核心的技術是以中研院院士 黃鍔等人在2009年所提出的總體經驗模態分解法 (Ensemble Empirical Mode Decomposition),分解出訪次數的時序趨勢,再利用線性混合效果模型 (Linear Mixed Effect Model) 以及離群值校正得到精準的預測結果。

20151219_153117-1024x576

 

陳志明是各種資料競賽的常客,他首先從策略面上分享各大競賽前段班的特徵,以及如何精益求精更進一步的歷程。接著分享他如何對資料做觀察,擬訂策略、偵測離群值,透過區間平均的概念進行訪客瀏覽次數的預測。最後,陳志明再對 DSP競賽平台提出了誠懇的建議與期許。


20151219_154956-1024x576

總結以上,這幾位前段班的資料分析師背景多樣性高,使用的分析手法也不盡相同。但他們的共同點在於分析策略:

  1. 觀察資料,認識趨勢
  2. 挑選分析方法,篩選變數,建立模型,取得初步成果
  3. 剔除離群值,輔以基於情境脈絡的主觀判斷,以提升預測準確度

在自由交流時間,每位講者都被觀眾團團包圍,問到活動會場管理人員出來趕人還不願離開。

透過這次資料競賽的加持,不僅激發出資料人的熱情,更讓提供資料的企業透過群眾外包方式募集創意,證明針對單一問題,是可以發掘多元的解決之道。

講者投影片:

Hsieh Johnson

國立清華大學統計所博士,致力推廣資料科學,透過統計的建模與分析,用數字解決現實世界的問題。

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *