DSP 資料科學學習地圖

身處在巨量資料的時代,如何從資料提煉價值是社會、企業、政府三者共同面臨的課題,資料科學 (Data Science) 這門領域在這樣的環境下應運而生。這門新興領域吸引許多不同領域的專家前仆後繼地投入,是以它的定義既多且雜,一言以蔽之,就是一個「跨」字。

從以資料科學解決真實問題的工作流程來看,可以分成四個步驟:

  1. 定義問題、規劃藍圖
  2. 蒐集資料、整理資料
  3. 建立模型、分析資料
  4. 以分析結果回答問題

每一個步驟都需要不同領域的專業能力,能夠確實執行所有工作流程的人,我們稱他為資料科學家 (Data Scientist)。這種橫跨多重領域的人才,需要浸淫在特定議題很長一段時間,並且熟悉資料蒐集與整理的技術,精通資料分析的知識,除此之外,還需要規劃並執行資料科學專案的專才。在現實生活中,擁有這種能力的超人無疑是萬中選一,想要靠少數的超人來解決所有的問題不異是天方夜譚。因此,DSP 認為集合一組在不同領域各有所長的資料科學團隊 (Data Science Team),也是一種發揮資料價值的方式。

DSP 團隊汲取過往的資料科學活動、課程與實戰經驗,從上述的四段工作流程歸納出資料科學團隊的三大核心角色:資料經理人 (步驟1 & 4)、資料工程師 (步驟2) 以及資料分析師 (步驟3)。以培育具有解決真實問題能力的資料科學團隊為前提,規劃了DSP資料科學學習地圖 (請見下圖)。從學習如何站在資料的肩膀上,解決問題的《資料思考》開始,分別開設《資料經理人學程》《資料工程師學程》以及《資料分析師學程》,各個學程由淺入深展開理論與實務兼具之教育訓練。最後,各種角色再一同參加以個案研究與小組作業為主的《資料科學團訓班》,體驗資料科學團隊的實際工作流程作為一個完整的結訓。

以下就學習地圖的內容做一個簡單的說明:

《資料思考》(Data Thinking)
本課程為6小時的入門課程 (記為D1),傳授如何以資料思考的觀點來面對真實問題,透過一連串的實例分享,幫助學員體會以資料科學解決問題的流程。

  • 《資料經理人學程》(Data Managers Track)
    本學程共計48小時必修課程,與若干自由選修課程。必修課程由淺入深分三個階段進行心法與實作訓練 (三段課程記為M1、M2與M3)。從企業管理觀點切入問題,藉由資料探索問題的脈絡,定義問題的範疇,進而規劃資料科學團隊的工作藍圖。
  • 《資料工程師學程》(Data Engineers Track)
    本學程共計48小時必修課程,與若干自由選修課程。必修課程由淺入深分三個階段進行心法與實作訓練 (三段課程記為E1、E2與E3)。從如何執行資料搜集計劃開始,再到將資料整理成易於分析的資料結構。接著學習從小資料管理開始,進階到處理大量資料,以及資料應用的環境部署,養成建構基礎設施的能力。
  • 《資料分析師學程》(Data Analysts Track)
    本學程共計48小時必修課程,與若干自由選修課程。必修課程由淺入深分三個階段進行心法與實作訓練 (三段課程記為A1、A2與A3)。從真實問題轉換至資料科學問題開始,學習如何以探索性分析建立模型假設,透過模型執行預測性分析,提出推論並輔助決策,在第三個階段則加入資料分析系統開發、增進大數據分析效益等務實的技能。
  • 《資料科學團訓班》(Data Science Capstone Projects)
    本課程為DSP推出的實戰課程,共計24小時 (記為D2),提供一個匯聚各種資料科學角色的環境,包含經理人、領域專家、資料工程師、設計師、資料分析師等。透過小組專案的方式,在講師群的輔導之下,組隊執行實戰訓練,處理實際問題,學以致用。
DSP資料科學學習地圖

DSP資料科學學習地圖 ─ 從《資料思考》(Data Thinking, D1)  課程起始,劃分為資料經理人學程  (Manager Track)、工程師學程 (Engineer Track) 以及分析師學程 (Analyst Track) 。待各種角色都具備時,將開設《資料科學團訓班》(Capstone Project, D2) 進行小組專案,處理實際問題,學以致用。