資料科學

資料科學教育,跨領域的實踐

實踐資料科學一個字「跨」,跨領域合作是從事資料科學教育與研究的最高原則。今年 9/2 (三) 由國立政治大學、淡江大學與DSP 智庫驅動聯合主辦了一場《資料科學教學經驗分享會》,由政治大學新聞系陳百齡教授、DSP智庫驅動謝宗震博士,以及多位參與過跨領域課程的同學輪番上場分享。 教授經驗 在研究與教學上,與政大資科具有深厚合作關係的陳百齡教授提到跨領域合作有幾個重點: 相信:要相信合作真的產生價值 了解:要了解對方的語言,建立暢通的溝通窗口 互助:要替對方找出貢獻,合作才能長久 業師經驗 專注於推廣資料科學的謝宗震博士,更不吝分享他從業界角度是如何看待資料科學教育,他認為資料科學訓練必須包含三種核心元素: 團訓:跨科系、跨領域的團隊合作,才能夠觸發不同背景學員的交流,交織出更全面的資料科學專案。 實作:真的做過才知道如何作戰,在教練的引領下,每位學員都能夠適當的運用所學完成專案。 應用:每個人都需要資料思考,唯有如此才能找出具有商業價值或社會價值的應用,如此才會有更深入的學習動機。 學員經驗 與會分享經驗的學生們,包含人文社會科學與資訊科學的學生,他們提到: 資料思考很重要:參與過DSP資料營隊的學生都提到他們最大的收穫是資料思考方法與探索性資料分析的重要性。 更有成就感:資訊背景的學生提到在跨領域小組專案中做出來的成果,因為具有社會價值,相較於在本科系上做的課程專案更具有成就感。 成果更高質:傳播背景的學生提到他們跟跨領域團隊合作執行資料專案的過程,因為技術與工具的支援能夠做出更深入的成果。也能夠了解,在時間壓力下資料整理會是多複雜。 熱烈討論 會中來自各地的老師們熱烈討論著資料科學教育該如何實踐,譬如: 四天的DSP資料營學生具有強烈的學習熱情,怎麼樣將他延續自18週的正式課程? 跨領域課程不可能只是9週資訊課、9週傳播課,該如何設計讓學生有更好的體驗? 資訊人在跨領域合作的過程中,是不是只能扮演工具人的角色? DSP資料營有沒有可能到中南部遍地開花? 討論過程中,各種想法建議五花八門,不知道讀者們有沒有好的想法呢?總之,為學生設計的DSP資料營即將在中南部開設囉,敬請期待!  同場加映  

服貿事件 X 資料科學 ╱ 謝宗震

近期服貿議題越演越烈,自318學生佔領國會,324 學生攻佔行政院與強制驅離事件發生後。我以為身為一個統計人,應該用自己的專長來關心這個議題。有鑑於此,我問自己一個問題:抗議現場的情況與各家媒體報導的真實性為何? 事實上,討論真實性這種虛無飄渺的概念並不容易,所以我退而求其次考慮比較能夠量化的問題,即報導之間的關聯性。 有了這個想法之後,我蒐集了g0v.today提供的現場文字轉播資料,學生族群常用的PTT服貿版資料,以及幾家新聞的報導資料進行初步分析,3/25號晚上在臉書上發布了一張實驗性分析圖,並且徵求夥伴幫忙擷取各家媒體更完整的服貿報導資料。 這兩天,感謝很多人熱心的幫忙。無論是資料的提供、文本挖掘技術的交流還是媒體分析經驗的分享等等 (感謝Ronny, Marsan, 文心, Toley and 家齊)。我用更嚴謹的方法得到了以下關聯性分析結果, 先說圖怎麼看,曲線的粗細表示報導來源之間的相關性強度。再說我的主要發現: 蘋果日報與所有報導來源都有高度的關聯性 報導來源可以分成左右兩群,右半邊是一般的媒體報導,左半邊則是蘋果日報與民間報導。 儘管PTT與現場文字轉播的關聯性在所有報導來源中是最高的。但是,PTT與各大新聞媒體的關聯性都偏低。 至於分析方法,簡單來說就是以關鍵字找相似度。我用R當作主要分析工具,參考家齊與嘉葳參與Taiwan R user group在

如果這輩子只能選修一堂硬派的資料分析課程

根據 LinkedIn 最新統計,「資料分析」名列該網站全球熱門工作技能排行榜第一名,比各種資訊工程開發管理的技能還要搶手。     資料科學不但橫跨多個領域,而且觀念和技術一直與時俱進,這對想入門的初學者可能是個頗大的困擾。試想這個情境:你是一位職場新鮮人,在學期間可能曾經學過(或是聽過)一些資料處理和分析的知識,例如:程式語言、數學統計、計量方法、機器學習甚至是資料探勘,因為興趣或是求職的需求,現在決定要認真學習資料分析。 你將會面對以下的考量: 學習地圖 教材選擇 課程規劃 工具 實作練習 同儕討論 教練或導師 現在市面上有很多內容相當豐富的線上課程,我鼓勵大家盡量嘗試。若你能努力自學,循序漸進認識資料分析的基礎理論和技術,恭喜你。 若你想浸潤於一個可以和同儕切磋、與講師互動討論的環境,或是在很有限的時間內獲得最大的學習效果,挑選一個適合自己學習風格的實體課程,或許是個不錯的選擇。 若你想要在極短時間內吸收高強度的知識,從實踐中體驗資料真理並且享受資料分析的樂趣,而非「光聽不練」,那麼,你可以考慮加入 DSP 的課程。 不過,這時候你可能又會面臨一個新的問題:DSP 針對「資料分析師」的養成課程眾多,從淺到深,有工具上手課、資料分析基礎班、進階班等等,究竟應該在哪個階段才進來上課? 我個人的建議: 從DSP 學習地圖來看,最淺或較深的課程 (即 DSP 的 A0 或是 A2…

資料科學的學習許願清單

由於想要跨入(或是剛剛入行)資料科學領域工作的人專業背景相當繁雜,而資料科學又是一個跨越多個傳統知識範疇的新領域,因此 DSP 希望集思廣益,瞭解不同專業背景者的學習需求,進而邀請各界專業人士,共同設計對應的課程。 開放諮詢主題:資料科學的個人學習地圖 開放諮詢時間:發佈日期開始隨時可以提出建議,之後將定期彙整需求,擇期公開報告。 許願範例: 聽說資料科學家是 21 世紀最性感的職業,我是管理學院畢業的,從來沒寫過程式,究竟該如何入門呢? 我是資工系畢業,會寫 PHP (or Python) 程式,想要學習爬資料、清資料的方法。 我是電子商務公司的產品經理,只會 Excel,想要學習如何從營運報表中找到問題,發現商機。 我是視覺設計師,由於工作需要,想要學習如何使用 d3.js。 我從事統計分析工作,由於公司沒有買我最會用的套裝統計軟體,因此想要學學 R 語言。 我服務於某某 NGO(環境、教育、婦女、兒童等等),我們組織擁有多年又大量的個案資料,卻不知道該如何使用。我該學哪些知識,才能解決這個問題? 輪到你囉!歡迎使用下面的留言版,開始許願!   (Image Credit)