三月 2015

View all on this date written articles further down below.

給非本科系的資料工程入門課

  身處在海量資料的浪潮上的資料科學時代,不論是即將踏入社會的新鮮人,或者是尋求更上一層樓的中堅份子來說,能夠額外練就一些資料科學的相關職能,對於工作效率、職場發展無疑是大大加分。 假設你是一個懂得基本統計的社會科學研究分析員,或者是協助主管處理資料的分析人員,DSP 即將推出的《E1: 資料工程基礎班》,正是為了想更有效率處理資料的你,所準備的基礎入門班。 你的工作很可能符合以下的描述: 幾乎沒有程式寫作的相關的經驗 平時的工作有80%的時間在把各種電子問卷、資料庫的結果整理成標準格式以進行資料分析 會用 Excel 整理資料,精通 copy-and-paste 大法,無法處理 txt, csv, xlsx 之外的資料檔 當欄位需要比「矩陣轉置」更複雜的整理時,顯得束手無策 不清楚什麼是資料分割 (data filter, select)、資料合併 (data combine)、資料連結 (data join) 那麼我建議,你應該學習一個具有效率,而且可以半自動化、重複使用的資料整理技術。 對於大多數非資訊領域的朋友們來說,這些是學校沒有教的,無法在日常工作中精進的。但是,當你跨過這樣的基礎資訊工程的門檻後,你的工作效率、職場價值將會有飛躍性的提升。 如果你想要站在講師群的肩膀上,省卻過多自主摸索的時間;如果你想要身處在一個與同儕切磋、講師討論的學習環境;如果你想要把手弄髒,自己完成一個資料專案,而非「光聽不練」!歡迎你參與DSP推出的《E1: 資料工程基礎班》,本課程邀請具有多元資料庫互動實務經驗的講師,以淺顯易懂搭配實務的教學方法,一步步帶領學員進入資料工程的殿堂。(《E1:…

服貿事件 X 資料科學 ╱ 謝宗震

近期服貿議題越演越烈,自318學生佔領國會,324 學生攻佔行政院與強制驅離事件發生後。我以為身為一個統計人,應該用自己的專長來關心這個議題。有鑑於此,我問自己一個問題:抗議現場的情況與各家媒體報導的真實性為何? 事實上,討論真實性這種虛無飄渺的概念並不容易,所以我退而求其次考慮比較能夠量化的問題,即報導之間的關聯性。 有了這個想法之後,我蒐集了g0v.today提供的現場文字轉播資料,學生族群常用的PTT服貿版資料,以及幾家新聞的報導資料進行初步分析,3/25號晚上在臉書上發布了一張實驗性分析圖,並且徵求夥伴幫忙擷取各家媒體更完整的服貿報導資料。 這兩天,感謝很多人熱心的幫忙。無論是資料的提供、文本挖掘技術的交流還是媒體分析經驗的分享等等 (感謝Ronny, Marsan, 文心, Toley and 家齊)。我用更嚴謹的方法得到了以下關聯性分析結果, 先說圖怎麼看,曲線的粗細表示報導來源之間的相關性強度。再說我的主要發現: 蘋果日報與所有報導來源都有高度的關聯性 報導來源可以分成左右兩群,右半邊是一般的媒體報導,左半邊則是蘋果日報與民間報導。 儘管PTT與現場文字轉播的關聯性在所有報導來源中是最高的。但是,PTT與各大新聞媒體的關聯性都偏低。 至於分析方法,簡單來說就是以關鍵字找相似度。我用R當作主要分析工具,參考家齊與嘉葳參與Taiwan R user group在