資料思考

運用資料分析,幫交通開竅

  美國波士頓市上週宣布,將使用被 Google 收購的 Waze 行車行動應用服務所提供的即時資訊,改善市區雙排停車的問題。 在台灣談論智慧交通的時候,通常都是物以類聚,各類領域專家分別開會,很少看到多種交通方式的專家齊聚一堂的畫面,也因此不容易激盪出跨域的創新火花。 但是,我們想嘗試看看。 在《DSP 資料開竅.企業論壇》,我們費盡心思,邀請了捷運、公車、計程車、汽車以及公共運輸管理的重量級領域專家,同台分享對於智慧交通和車聯網的經驗。 講者代表的公司包括:台北捷運、裕隆集團(裕隆電能、華創車電)、台灣大車隊、鼎漢工程顧問公司。 進一步瞭解詳情,請前往《DSP 資料開竅.企業論壇》。   照片來源:Boston Globe.

上天下地,無遠弗屆的地理與衛星科技

面對人口成長瓶頸,經濟版塊移動,以及日益嚴重的氣候威脅,究竟該如何讓城市長智慧?又該如何增加城市的韌性,剛柔並濟,順勢發展,屹立不屈? 近年來「智慧城市」這個名詞被浮濫使用,而所謂物聯網的興起,更加速這個名詞的快速貶值。 彼得杜拉克有句名言:If you can't measure it, you can't manage it. 城市治理,當然要從數據管理開始,而地理與空間資訊,正是城市資料的基礎。 人造衛星從數百到數萬公里的高空對地球拍照或是進行其他形式的測量,提供靜態和即時的測量數據,結合日新月異的地理資訊系統 (GIS),即可掌握地表上、高空中、甚至是地底下的活動。 至於更新的科技,比方說光達 (LiDAR),和傳統衛星拍照相比,不但能突破雲層的遮蔽,更能紀錄解析度讓人咋舌的照片與光譜資料,也難怪被科技公司例如 Google 運用於無人車和街景車,用來數清楚你家屋頂上到底有幾隻貓咪在曬太陽。 本次《DSP 資料開竅.企業論壇》特別邀請到國內三間極具特色的公司(瑞竣科技、北極星測繪科技以及達雲科技),幫大家揭開地理衛星資訊的神秘面紗,進一步認識在 Smart Cities 或是 Resilient Cities 方面,最新的發展趨勢。 進一步瞭解詳情,請前往《DSP 資料開竅.企業論壇》。   照片來源:NASA…

Day 3從構想到實行—2015 DSP 資料科學夏令營@NCCU

延續昨天的課程,今天同學們繼續與資料奮戰!當老闆要求你改方法、改流程,又要迅速產生一份報告卻沒時間寫說明文件的時候,該怎麼辦呢?這時候R markdown就是你的好朋友了。寫報告、作分析一次搞定!更棒的是,加上mathjax還可以完整呈現數學公式,也有簡報、文件等多種變化,產生可重複的報表。今天 DSP 知識長 Johnson 也為大家提點一些該注意的小撇步,echo 和 eval 有什麼作用呢? 下午則是探索式資料分析 (EDA) 進階版 ,以Youbike信義區所有站點的資料作範例,可以看出哪些有趣的現象、解決呢?最後,就是留時間讓同學現學現賣了—如何在一個多小時內,用剛剛學到的分析技巧來解決各組有興趣的問題呢?有好幾組都用上了hackpad即時協作,也有同學在白報紙上草繪出大致的分析架構。 最後利用短短五分鐘時間,和同學敘述目前的結果,即時不如預期,也是可以透露出重要訊息,有組別甚至用了今天早上才教的Rmarkdown。 明天還有一整天的時間,期待同學的完整作品!

A1資料探索疑無路,柳暗分明又一村

Numbers have an important story to tell. They rely on you to give them a clear and convincing voice. -- Stephen Few 《A1資料分析基礎班》進行至第四天,對於化身為資料分析師的各界菁英們對於手上握有的資料集更加深刻有感,自己提案自己做,從資料整理到資料探索性的視覺化,各組學員們無一不捲起袖子用各種剛學到的資料視覺化的技巧挖掘潛藏在資料深處的寶藏。 學習R語言很難,想在短短四天把R學起來做 EDA 更是難上加難。有賴講師群的努力,透過多年實戰經驗,選擇最有效率的分析套件,把 R語言的學習路徑縮到最短。在實作課程中,助教群更是手把手地解決學員各種疑難雜症,使得學員得以在密集的課程中,展現令人驚豔的成果。 從第一天講述的「資料思考」(data thinking) 開始,到最後一天的「數據為大」作結,講師們替學員破除「大數據」(Big…

A1眾裡分析千百度,資料卻在組織闌珊處

分析顯而易見的事情需要非凡的思想。- Alfred North Whitehead 連日來的滂汑大雨,卻未曾澆熄一群來自專業經理人、工程師、研究員與醫師等不同從業菁英對於資料分析的學習熱情,甚至一整個企業部門的專業團隊假日和大家一起求知若渴對於資料分析的無限想像,從 data thinking 到 data exploring 過程裡,激盪不同資料集透過 R語言 探索出資料背後的故事。   為什麼 探索性資料分析 (EDA) 為何如此引人注目? 資料分析師 通常透過有效的層級分析後產製大量的作圖,善用視覺化的呈現使資料更加有感親合,得以適度的看資料圖示說故事,能夠幫助管理階層回饋到現有的環節做出好決策,甚至形成未來的影響力,良性循環所帶來的影響都會優化管理的下一步,不妨從本期學員兩天初步探索資料心得,觀察他們已經具備 data thinking 能力,例如:     ※比較區域車數,爬析YouBike增設站點分配。     ※藉由車數與天氣比對出各站點成功租借機率。  …

給非本科系的資料工程入門課

  身處在海量資料的浪潮上的資料科學時代,不論是即將踏入社會的新鮮人,或者是尋求更上一層樓的中堅份子來說,能夠額外練就一些資料科學的相關職能,對於工作效率、職場發展無疑是大大加分。 假設你是一個懂得基本統計的社會科學研究分析員,或者是協助主管處理資料的分析人員,DSP 即將推出的《E1: 資料工程基礎班》,正是為了想更有效率處理資料的你,所準備的基礎入門班。 你的工作很可能符合以下的描述: 幾乎沒有程式寫作的相關的經驗 平時的工作有80%的時間在把各種電子問卷、資料庫的結果整理成標準格式以進行資料分析 會用 Excel 整理資料,精通 copy-and-paste 大法,無法處理 txt, csv, xlsx 之外的資料檔 當欄位需要比「矩陣轉置」更複雜的整理時,顯得束手無策 不清楚什麼是資料分割 (data filter, select)、資料合併 (data combine)、資料連結 (data join) 那麼我建議,你應該學習一個具有效率,而且可以半自動化、重複使用的資料整理技術。 對於大多數非資訊領域的朋友們來說,這些是學校沒有教的,無法在日常工作中精進的。但是,當你跨過這樣的基礎資訊工程的門檻後,你的工作效率、職場價值將會有飛躍性的提升。 如果你想要站在講師群的肩膀上,省卻過多自主摸索的時間;如果你想要身處在一個與同儕切磋、講師討論的學習環境;如果你想要把手弄髒,自己完成一個資料專案,而非「光聽不練」!歡迎你參與DSP推出的《E1: 資料工程基礎班》,本課程邀請具有多元資料庫互動實務經驗的講師,以淺顯易懂搭配實務的教學方法,一步步帶領學員進入資料工程的殿堂。(《E1:…

服貿事件 X 資料科學 ╱ 謝宗震

近期服貿議題越演越烈,自318學生佔領國會,324 學生攻佔行政院與強制驅離事件發生後。我以為身為一個統計人,應該用自己的專長來關心這個議題。有鑑於此,我問自己一個問題:抗議現場的情況與各家媒體報導的真實性為何? 事實上,討論真實性這種虛無飄渺的概念並不容易,所以我退而求其次考慮比較能夠量化的問題,即報導之間的關聯性。 有了這個想法之後,我蒐集了g0v.today提供的現場文字轉播資料,學生族群常用的PTT服貿版資料,以及幾家新聞的報導資料進行初步分析,3/25號晚上在臉書上發布了一張實驗性分析圖,並且徵求夥伴幫忙擷取各家媒體更完整的服貿報導資料。 這兩天,感謝很多人熱心的幫忙。無論是資料的提供、文本挖掘技術的交流還是媒體分析經驗的分享等等 (感謝Ronny, Marsan, 文心, Toley and 家齊)。我用更嚴謹的方法得到了以下關聯性分析結果, 先說圖怎麼看,曲線的粗細表示報導來源之間的相關性強度。再說我的主要發現: 蘋果日報與所有報導來源都有高度的關聯性 報導來源可以分成左右兩群,右半邊是一般的媒體報導,左半邊則是蘋果日報與民間報導。 儘管PTT與現場文字轉播的關聯性在所有報導來源中是最高的。但是,PTT與各大新聞媒體的關聯性都偏低。 至於分析方法,簡單來說就是以關鍵字找相似度。我用R當作主要分析工具,參考家齊與嘉葳參與Taiwan R user group在

必學的10個R套件

圖:R de jeu R軟體已在這兩年如黑馬般,串升到十大必學語言之一。從各種數據可以觀察到,由於R的開發者專注做資料分析這塊,因此資料分析的資源非常豐富,也奠定R這個工具在處理資料的獨特定位。 不過R的套件(Package)或稱R包,其實非常的豐富,目前已經有6,328 (2015/02/18)個套件,一定會有人想知道,到底哪些套件使用頻率最多,且被推薦使用。 所以筆者收集了不同的排名報告,包含Data Camp、yhat、R-statistics blog、Revolutions,整理了您不能不學的10個R套件。 整理如下: ggplot2 這個套件是玩R繪圖必須知道的套件, 擁有非常強大的繪圖功能。早些年ggplot2與lattice同為高級繪圖套件,不過看來ggplot2略勝一籌。 plyr 這個套件可以將vector、list、data.frame的資料做快速的切割、應用、組合,是非常好用的套件,像是join功能,可以做inner、left、right、full等join功能。plyr可以讓工程師以資料庫的概念,有效率的把玩資料。 dplyr 這個套件跟plyr類似,但是針對data.frame、data.table、以及多種資料庫為基礎的資料。將資料做快速的切割、應用、組合,尤其處理大量資料,dplyr是非常好用的工具。   reshape2 這個套件可以幫助我們將資料進行縱向、橫向轉換,筆者發現對於該套件處理連續型或時間資料是非常好用的,如空氣品質資料、證券行情資料等。通常會再搭配dplyr,讓資料分析事半功倍。   Rcpp 這個套件更不用多說了,它可以讓R跟C++做完美的融合,演算法玩深一點的朋友就會發現,這個套件是調整效能的最佳工具。 digest 該套件對於資工領域的人應該不陌生,digest可以用來處理雜湊函式(hash function),對岸譯為哈希表。雜湊函式通常是用來做資料壓縮,使資料量變小,常見像是網頁數位簽署、登入驗證、壓縮程式,甚至是現在的NoSQL Key-Value儲存概念,都有雜湊函式(Hash Function)的身影。值得一提的是這個套件的貢獻者Wush Wu是唯一台灣人,且也是Taiwan R…

R語言大進擊!奮進的DSP Data Camp@NCCU

經過一天半的集中訓練,將各位學員的 #R語言 從基礎到Regression的潛力都迸發出來,也讓同學再行檢視第一天所構思的主題是否已釐清問題與細緻化,接著開始試做小部分資料集,把內部資料集與外部資源重新整合好達到產品的最小可行性。明天就要正式上場的成果發表會,今(1/21)看到同學們努力奮進地再探過程囉! 1.「我愛劉金標」   2.「Ubike微笑調度」   3.「叫我包租婆」   4.「You-UBike」   5.「DSP學生省錢大作戰」   更有趣的內容,敬請明天繼續期待最終回DSP 資料科學冬令營,無緣沒跟上隊的朋友不要氣餒,1月底還有4天的《A1: 資料分析基礎班》,座位有限趕緊報名吧! 註:成果授權方式:各組產出作品成果歸屬該隊成員共有,他人若轉載或引用在商業用途,請務必取得作者同意並註明出處。 進擊的資料分析班 >> 《A1: 資料分析基礎班》顛覆傳統的教學方法,透過四天的密集課程,從資料思考的訓練開始,使用適當的商業案例與分析工具,帶領學員由淺入深,探索資料內涵,瞭解並描述資料與資料之間的微妙關聯,進而建立解釋資料趨勢的統計模型。最後,經由分組合作,綜合演練所學,完成一個小型專案。 開課時間:2015年1月31日、2月1日、2月7日、2月8日 詳細資訊

如果這輩子只能選修一堂硬派的資料分析課程

根據 LinkedIn 最新統計,「資料分析」名列該網站全球熱門工作技能排行榜第一名,比各種資訊工程開發管理的技能還要搶手。     資料科學不但橫跨多個領域,而且觀念和技術一直與時俱進,這對想入門的初學者可能是個頗大的困擾。試想這個情境:你是一位職場新鮮人,在學期間可能曾經學過(或是聽過)一些資料處理和分析的知識,例如:程式語言、數學統計、計量方法、機器學習甚至是資料探勘,因為興趣或是求職的需求,現在決定要認真學習資料分析。 你將會面對以下的考量: 學習地圖 教材選擇 課程規劃 工具 實作練習 同儕討論 教練或導師 現在市面上有很多內容相當豐富的線上課程,我鼓勵大家盡量嘗試。若你能努力自學,循序漸進認識資料分析的基礎理論和技術,恭喜你。 若你想浸潤於一個可以和同儕切磋、與講師互動討論的環境,或是在很有限的時間內獲得最大的學習效果,挑選一個適合自己學習風格的實體課程,或許是個不錯的選擇。 若你想要在極短時間內吸收高強度的知識,從實踐中體驗資料真理並且享受資料分析的樂趣,而非「光聽不練」,那麼,你可以考慮加入 DSP 的課程。 不過,這時候你可能又會面臨一個新的問題:DSP 針對「資料分析師」的養成課程眾多,從淺到深,有工具上手課、資料分析基礎班、進階班等等,究竟應該在哪個階段才進來上課? 我個人的建議: 從DSP 學習地圖來看,最淺或較深的課程 (即 DSP 的 A0 或是 A2…

資料科學的種子,我們在《政府標案松》

「婉君表妹」將要種下一顆種子 2014年12月18日蘋果日報頭條新聞提到,桃園縣前副縣長在5月驚爆涉嫌貪瀆前曾向企業家索賄。 這則貪瀆索賄的事件在當時鬧得沸沸揚揚,桃園縣選舉也間接遭到波及。 這則新聞讓我們再次看見中國幾千年來常見議題不斷上演,就連20年前周星馳的電影「威龍闖天關」也大辣辣演出:廠商向官員行賄!官員向廠商索賄! 這種問題通常只有行賄跟索賄雙方,或廉政署、調查局等專門人員才會接觸,此外要將其定罪的過程更耗費大量的司法、行政、警政、新聞等資源。   這顆資料科學的種子,政府標案松 目的不在於發現法務部廉政署負責的弊端,因為行賄收賄過程絕對不是靠數據就能解釋、就能判斷。 目的也不在於發現行政院公共工程委會歸納的採購樣態異常(一個即將消失的部會),因為單一的採購行為不容易詮釋背後隱含的行政作業與採購趨勢。 我們希望在大數據的時代中,用資料科學的心法與技術扮演柯南,探索政府標案松長甚麼樣子,尋找隱藏在數據背後的趨勢。   政府標案松的品種與基本特徵 DSP目前培育出兩個品種,一是串連北中南東油電水議題的經濟部(一歲),其二是生長在台灣北部的北北基(三歲)。這兩個品種,各別由成千上萬的枝葉所覆蓋.... 政府採購標案,可以分成三個類別(特徵):工程、財務、勞務。(採購法第7條) 1.工程:指在地面上下新建、增建、改建、修建、拆除構造物與其所屬設備及改變自然環境之行為,包括建築、土木、水利、環境、交通、機械、電氣、化工及其他經主管機關認定之工程。 2.財物:指各種物品(生鮮農漁產品除外)、材料、設備、機具與其他動產、不動產、權利及其他經主管機關認定之財物。 3.勞務:指專業服務、技術服務、資訊服務、研究發展、營運管理、維修、訓練、勞力及其他經主管機關認定之勞務。   廠商的投標得標關係 每一採購案都會在政府採購網站公告,並由廠商領標、備標、投標。 廠商的投標得標關係有幾種 A. 由1個廠商投標,1個廠商得標。 B. 由M個廠商投標,1個廠商得標,M-1個廠商沒有得標。 C. 由M個廠商投標,N個廠商得標,M-N個廠商沒有得標。   這裡先拋出幾個有趣的議題: 1.有沒有那些機關?或者哪類型的案子,經常出現A類的情況。…

是的!我想要用資料看世界

坐在金庫上面是什麼感覺,若是不得其門而入? 大數據超展開的時代,我們是資料的提供者,也是資料的使用者;是資料分析的受惠者,也是被迫貢獻的受害者。資料產生資訊、資訊萃取知識、知識生成智慧,於是我們的生活被資料所驅動著,企業或個人掌握越多資料,就越有主導的能力。 而你,今天「資料」了嗎? 如果答案是肯定的,代表你感受到這股如海嘯般巨量資料浪潮,感受到鋪天蓋地的資料分析行銷詞彙,感受到掌握資訊的種種好處。開始想學習、掌握、運用資料,讓生活變得更美好,主動或被動的。當然,身為勞工,或許只是想避免被這股潮流給淹滅。在老闆索取解決方案的時候,能夠理性解構問題,資料佐證邏輯。最好,能夠組織資料團隊面對更大問題。 是的,我想要用資料看世界 學習從來就不是愉悅的,但這次,DSP 與經理人月刊合作,省去艱澀學術詞彙,以資料思考為支點,資料分析技巧為槓桿,我們共同開設 11/27 統計+資料分析課程-《大數據時代的管理密技》。課程佐以豐富商業案例探討,例如如何運用資料思考架構,判別高價值顧客、鑑別叛逃客戶、建構搭售商品策略。 你,想用資料看世界嗎? 【課程資訊】 報名網頁:http://goo.gl/i0Kq9s 上課時間:2014年11月27日(週四) 09:00-17:00 上課地點:YOUR SPACE,台北市光復南路102號3樓 【課程大綱】 09:00-10:30 從資料思考到資料策略 10:45-12:00 問對問題的方法、最常用的資料分析方法 12:00-13:00 午餐 13:30-14:30 資料分析流程:蒐集資料、分析資料、解讀資料 14:45-17:00 商業個案研究 誰是肥羊客戶 誰是叛逃客戶 哪些商品可以一起搭售 【講師】…

自我挑戰,更上一層樓

當你的服務受到市場肯定,因此開始提供更多元的服務,雖然熱鬧風光依舊,但是似乎開始有些對焦不順的感覺,該怎麼辦? DSP 一開始很單純,只有《團訓班》一種課程,而課程的設計原則是基於「如果一輩子只能上一堂資料分析課」的前提。後來,我們陸續提供新的課程,例如《資料爬理析 Python 實戰班》、《看資料找故事》等等。 課程選擇增加,固然滿足了一些人的學習需求,卻意外造成另外一些人的困擾。不只一位學員問過「我究竟該學哪一門課」或是「我該先學哪一門課」之類的問題。甚至還有企業的老闆問我:「我究竟該派員工去上哪一門課才對?」 這是一個警訊。 因此,我們決定先暫緩開課的腳步。停下來想想下一步該怎麼走,才能超越自我,更上一層樓。 今天秋陽高照,我們和一些對資料科學推廣教育有著共同熱誠的朋友相約於淡水河畔的關渡自然公園。一夥人迎著徐徐涼風,伴隨著蟲鳴鳥叫,重新檢討最基本,也是最重要的學習地圖。 在大自然的懷抱裡,眾人果然妙思連連,靈感不絕。從如何彌補學校教育之不足、滿足業界工作具體需求、各種資料工具的使用、到如何提升學習效率,均有所探討。最後,更是將討論收斂為一張「資料科學學習地圖」。 這張學習地圖將會對映到所謂的資料科學流程 (the data science process),不但能讓組成資料科學團隊的各種角色,清楚掌握本身的相對定位以及發展軌道,還可以讓 DSP 在研發課程時,更精準地定義範疇以及目標受眾。 師者,所以傳道、授業、解惑也。 值此教師節前夕,我們雖不敢以師自稱,但是仍然自我鞭策,要把「傳道、授業、解惑」做得更好。 請大家拭目以待!

大數據探索航空資料-達美航空

Logo/達美航空、攝影/Jerry 繼續本系列主題,本次介紹的應用是來自達美航空(Delta Air Lines),達美航空在這幾年扶搖直上,於2010年完成跟西北航空合併之後,已經成為全世界航線里程與客運機隊規模最大的航空公司。 這篇文章是2014年由SapientNitro廣告公司的數據分析師Myles Harrison所分享的文章,介紹它應用主成分分析(Principal Component Analysis)與K平均算法(k-means)去分析達美航空的飛機數據。 Myles Harrison從達美航空的官方網站(Delta.com)取出客機本身的數據,以AIRBUS A330-200為例,就包含巡行航速(Cruising speed)、載客數(Accommodation)等16種可以被量化的資料,像Wi-Fi就可以用Y跟N來做表示,網站上一共提供了44架客機的數據。 ※原文中提到的客機型號為AIRBUS A319 VIP,可被量化的屬性共33種。 筆者這邊整理他分析的過程,有興趣可以回到原文去查看他所撰寫的R原始碼。 進行探索式資料分析(Exploratory data analysis),發現這些數據有許多正相關(Positive correlation) 接著採用主成分分析(Principal component analysis)進行降維的動作,找到可以解釋85%的數據的主成分。 最後採用K平均算法(k-means)將數據分成4種群組。 原作整理分析結果如下: 第1個群組只有一架飛機,就是Airbus A319 VIP,本身就是有錢人才會搭的飛機。 第2個群組為CRJ 100/200's、E120…