七月 2014

View all on this date written articles further down below.

【看資料找故事工作坊】開放報名

你的工作需要經常看數字說話嗎? 妳是新聞工作者?你是需要看數字說話的人?不知道怎麼從媒體快速抓出議題?面對一組有些陌生、或是有點複雜的資料,要如何迅速瞭解相關議題的領域知識?要如何掌握資料的脈絡與結構?又要如何有系統地對資料進行探索,觀察基本趨勢或異常之處,進而提出值得深入探討的問題? 探索性資料分析 (Exploratory Data Analysis, EDA) 主要是透過資料視覺化分析的一些方法,循序漸進,認識資料。EDA 不但是對資料把脈、望聞問切的技術,更是一種科學態度的實踐。 【看資料找故事工作坊】將以團隊工作坊的形式,使用真實的政府採購標案資料,傳授 EDA 的基本方法,帶領學員走一趟探索之旅,學習如何透過資料分析,發掘關鍵問題。 基本資訊 時間:8 月 2 日 - 8 月 3 日 地點:台北市內湖區瑞光路 318 號精誠資訊大樓(捷運文湖線港墘站) 報名網站:http://www.etusolution.com/DSP/edm_dsp_Stories.html 課程目標 學員應該自我期許,達成下列的學習目標: 學會如何迅速掌握資料的脈絡與結構 學會如何透過資料認識一個原本陌生的議題領域…

大數據探索航空資料-美國聯邦航空管理局

最近筆者剛好讀到有關於大數據應用於航空資料分析,覺得內容值得整理介紹給相關領域的朋友們參考,一直忙到暑假才有時間整理文章。記得上Data Science Program的課程中,曾有學生邀請筆者至某航空公司擔任顧問,但筆者實在是分身乏術,因此希望這一篇能夠給航空界的朋友們一些參考。 這篇是2009年刊登在知名期刊Knowledge-Based Systems上的學術研究,主要是應用決策樹(Decision trees)從美國聯邦航空管理局(FAA)的數據來挖掘出可能會出現航空事故的特徵。研究所採用的分析工具為Megaputer Intelligence所開發的PolyAnalyst與挪威科技大學開發的Rosetta。 筆者並非航空領域的專家,只是單就從大數據的角度來跟讀者分享研究的作法,所以若有敘述有誤,請多指教。 飛航安全是國際間大家都很在意的事情,像前陣子馬來西亞航空370號班機事件就是一個遺憾的事件。而過去航空業所累積的資料非常多,在研究中有提到像是飛行員報告(Pilot reports)、保養報告(Maintenance reports)、事件報告(incident reports)、延遲報告(Delay reports)等都是可以拿來作為資料分析的基礎。因此透過資料探勘的技術從過去的歷史資料挖掘一些可能會造事故的特徵,可以盡量讓飛航的事故減少。 這篇研究的資料取自美國聯邦航空管理局(Federal Aviation Administration簡稱FAA),美國為了要提升「飛航安全」,所以建置了航空安全資料分析與分享平台(Safety Information Analysis and Sharing簡稱ASIAS),讀者若有興趣可以逕自上網查詢資料,其中有個資料庫叫做AIDS,不是愛滋病喔,全名是Accident/Incident Data System,該資料庫收錄從1978年以來的航空事故資料,相當豐富。 研究採用了2000年到2006年共6年的航空資料,並且依據美國國家運輸安全委員會(National Transportation Safety Board)所定義的事件屬性進行整理,筆者將其整理如下: 事件報告的識別號碼 事件發生的日期 事件發生的城市 事件發生的國家…

12本免費的巨量資料分析書籍

幾本由專家介紹的免費巨量資料分析書籍,包含R、Python、MATLAB等語言。也可以從這些書籍中發現目前巨量資料分析的理論主要還是以統計學、資料探勘與機器學習為主。 An Introduction to Statistical Learning with Applications in R The Elements of Statistical Learning A Programmer’s Guide to Data Mining Probabilistic Programming & Bayesian Methods for Hackers Think Bayes,…

站在101鳥瞰資料科學

任何時代都有資料科學的問題,最早的資料科學可以追溯到統治者在處理軍役戶政以及農業畜牧的問題上,經典的例子就是人口調查與農產品改良試驗。 接著數據分析被應用到工業界中,譬如提高產能與改善良率的統計方法。同時,經濟學、社會學、生命科學…也開始透過統計方法來描述現象、驗證假說。近來計算 機科學發展成熟,資料儲存的成本降低,從大數據中萃取有用資訊的演算技術逐漸受到重視,這種從大數據中尋找挖掘可供決策的規則就是所謂的資料探勘 (Data mining)。事實上,從古到今資料科學的本質並沒有不同,改變的只是因應人類活動型態的轉變,使得數據的收集方式及其分析方法跟著轉變罷了。現在Big Data很熱門,卻也陷入Big的迷思,忘了資料科學的本質其實是在Data上。 談到Data,必須先說明資料如何收集。一般來說可以分成top- down與bottom-up兩種。所謂的top-down係指企業主在資料收集前,有既定的問題想要解答,譬如某樂利杯咖啡的企業想要訂定飲品的優惠行 銷策略,這時候必須透過收集各個分店每種飲品在各種時間與季節的銷售數據,甚至是特殊優惠活動時飲品的銷售記錄等等資料,進行數據分析以回答問題。另一種 bottom-up是從既有資料中尋找規則,譬如從前述飲品的銷售數據中,歸納出那些飲品組合最受到消費者喜愛,讓企業達到飲品事先推薦、飲品銷售預測等 等目的。當然,資料的收集並不侷限是top-down或是bottom-up,而是兩者上上下下的循環,藉由不斷的調整為企業創造最大的利益。以上例子, 可以被應用在一間小店上,也可以用在全台展店數百家的企業上,甚至可以用在全球五大洲擁有數千間連鎖分店的企業之上。對於資料科學而言,無論資料規模的大 小,透過Data來解決問題的本質是始終不變的。差別僅在於時代的進步,資料收集的方式比以往方便也更加多元。當然相對於可以在中小規模的數據上使用的統 計方法,套到大數據時會有運算效率不彰的問題,但我認為這是技術上的問題,並不影響基本的統計思維。 把問題收斂,如果企業主想要利用Data來 (無論是Big Data, Middle Data 還是 Small Data) 提升企業的營運,該怎麼做?第一步多半是想找一位精通資料科學的專業人才吧。但是當他們想要這麼做時,卻發現找不到這種人才。真的是這樣嗎? 我以為資料科學基本的流程是這樣子的: 列出企業想要透過Data解決的問題 記錄所有可能有助於找出答案的Data 從Data中萃取出規則以回答問題 每段流程都是獨門的學問,能夠同時精通三者的人才真的是少之又少,能夠識別這種人才的企業更是寥寥無幾。何不從上述三段流程各別尋找對應的人才呢? 企業主需要的可能是一位資料科學專家,也可以是一個實力堅強的資料科學團隊。從具有實務經驗的人才庫中尋找第一階段的人選;從具有資料倉儲經驗的人才庫中 尋找第二階段的人選;再從具備資料分析能力的人才庫中尋找第三階段的人選。而我所參與的 Data…

DSP 贊助 #SmartGov 政府開竅系列會議

政府如何更 Smart,更開竅? 在網路時代,所有公共服務都面臨前所未有的挑戰。政府不只缺乏瞭解現況的工具,遑論運用網路提供更好的服務。如何善用網路思維,透過資料洞見,建立更敏捷的公共服務,是所有數位使用者的期待。以政府採購為例,2013 年政府採購總金額約為 1.4 兆元,佔了將近一成的國內生產毛額。若能導入前瞻思維與作法,發掘真正需求與機會,讓採購開竅,不但能讓日漸拮据的政府預算花得更精明,還能為社會提供龐大的創新發展機會。 本次前所未有的《SmartGov 政府開竅》系列會議,由各界先進共同發起。如何抓住網民的心,打造更好的公共服務?會中將帶來最新實務、最佳作法!精采可期,請勿錯過! 誰適合參加? 打算參加今年年底選舉的候選人及其競選團隊 想要知道如何運用資料推動政策創新的非營利組織 想吸收新知的慾望高於獲取公務人員終身學習時數的政府工作者 希望從資料的視角監督公共政策品質的媒體從業人員 很想改善公共政策制定過程與品質的熱血市民 開竅日期、地點? 日期:2014/07/19 13:00 ~ 17:00 地點:新北市消防局局本部(新北市板橋區南雅南路二段15號 ) 相關連結 網站 http://smartgov.center 報名 http://cft.kktix.cc/events/smartgov