Wu Jerry

View all authors posts further down below.

必學的10個R套件

圖:R de jeu R軟體已在這兩年如黑馬般,串升到十大必學語言之一。從各種數據可以觀察到,由於R的開發者專注做資料分析這塊,因此資料分析的資源非常豐富,也奠定R這個工具在處理資料的獨特定位。 不過R的套件(Package)或稱R包,其實非常的豐富,目前已經有6,328 (2015/02/18)個套件,一定會有人想知道,到底哪些套件使用頻率最多,且被推薦使用。 所以筆者收集了不同的排名報告,包含Data Camp、yhat、R-statistics blog、Revolutions,整理了您不能不學的10個R套件。 整理如下: ggplot2 這個套件是玩R繪圖必須知道的套件, 擁有非常強大的繪圖功能。早些年ggplot2與lattice同為高級繪圖套件,不過看來ggplot2略勝一籌。 plyr 這個套件可以將vector、list、data.frame的資料做快速的切割、應用、組合,是非常好用的套件,像是join功能,可以做inner、left、right、full等join功能。plyr可以讓工程師以資料庫的概念,有效率的把玩資料。 dplyr 這個套件跟plyr類似,但是針對data.frame、data.table、以及多種資料庫為基礎的資料。將資料做快速的切割、應用、組合,尤其處理大量資料,dplyr是非常好用的工具。   reshape2 這個套件可以幫助我們將資料進行縱向、橫向轉換,筆者發現對於該套件處理連續型或時間資料是非常好用的,如空氣品質資料、證券行情資料等。通常會再搭配dplyr,讓資料分析事半功倍。   Rcpp 這個套件更不用多說了,它可以讓R跟C++做完美的融合,演算法玩深一點的朋友就會發現,這個套件是調整效能的最佳工具。 digest 該套件對於資工領域的人應該不陌生,digest可以用來處理雜湊函式(hash function),對岸譯為哈希表。雜湊函式通常是用來做資料壓縮,使資料量變小,常見像是網頁數位簽署、登入驗證、壓縮程式,甚至是現在的NoSQL Key-Value儲存概念,都有雜湊函式(Hash Function)的身影。值得一提的是這個套件的貢獻者Wush Wu是唯一台灣人,且也是Taiwan R…

大數據探索航空資料-達美航空

Logo/達美航空、攝影/Jerry 繼續本系列主題,本次介紹的應用是來自達美航空(Delta Air Lines),達美航空在這幾年扶搖直上,於2010年完成跟西北航空合併之後,已經成為全世界航線里程與客運機隊規模最大的航空公司。 這篇文章是2014年由SapientNitro廣告公司的數據分析師Myles Harrison所分享的文章,介紹它應用主成分分析(Principal Component Analysis)與K平均算法(k-means)去分析達美航空的飛機數據。 Myles Harrison從達美航空的官方網站(Delta.com)取出客機本身的數據,以AIRBUS A330-200為例,就包含巡行航速(Cruising speed)、載客數(Accommodation)等16種可以被量化的資料,像Wi-Fi就可以用Y跟N來做表示,網站上一共提供了44架客機的數據。 ※原文中提到的客機型號為AIRBUS A319 VIP,可被量化的屬性共33種。 筆者這邊整理他分析的過程,有興趣可以回到原文去查看他所撰寫的R原始碼。 進行探索式資料分析(Exploratory data analysis),發現這些數據有許多正相關(Positive correlation) 接著採用主成分分析(Principal component analysis)進行降維的動作,找到可以解釋85%的數據的主成分。 最後採用K平均算法(k-means)將數據分成4種群組。 原作整理分析結果如下: 第1個群組只有一架飛機,就是Airbus A319 VIP,本身就是有錢人才會搭的飛機。 第2個群組為CRJ 100/200's、E120…

國際排名Top 50新興大數據服務公司(2014)

美國知名通路媒體(CRN),最近整理了2014年國際排名前100大的新興Big Data公司,筆者根據國外論壇報導,整理排名前50名公司來進行分享。 這些公司有65%都在美國矽谷,公司的服務項目包大數據的基礎設施建設、數據分析、數據管理等。值得注意的是,這些公司的平均年齡都小於4年,且服務項目都各有專注,像是Pivotal與Xplenty專門處理Big Data的基礎設施,而Alpine Data Labs與Numerify為數據分析的專業。 以下筆者將一一簡單介紹這50個新興的大數據服務公司(以英文字母順序排名)。 Actifio公司於2009年成立,位於馬薩諸塞州沃爾瑟姆。提供處理數據擴張(Data Sprawl)的數據管理平台,包含數據備份、數據還原、軟體開發與測試。 Aerospike公司成立於2009年,位在加州山景城。提供處理即時運算、NoSQL數據庫的高效能應用 Alpine Data Labs公司成立於2010年,位於加州舊金山。提供以Hadoop為基礎的數據分析平台。 Alteryx's公司成立於2010年,位於加州爾灣。提供處理混合結構化、非結構化的數據分析軟體,功能包含預測、統計等。 Appuri公司成立於2012年,位於華盛頓州雷德蒙。提供以雲端為基礎的數據管理與分析系統,以及PB(Petabyte)等級的數據倉儲平台。 Ayasdi公司成立於2008年,位於加州帕羅奧圖。提供結合機器學習的拓樸分析技術(Topological Data Analysis),協助企業解決複雜的商業問題。 Chartio公司成立於2010年,位於加州舊金山。提供以雲端為基礎的數據視覺化軟體,使企業可不用開發自己的數據倉儲。 Cirro公司成立於2010年,位於加州阿里索維耶荷。提供新一代的數據整合平台,協助企業的非技術人員,能夠輕鬆執行複雜的分析任務。 Citus Data公司成立於2010年,位於加州舊金山。該公司研發自己的數據庫CitusDB,該分散式分析數據庫可協助企業處理以幾秒鐘處理PB(Petabyte)等級的數據量。 ClearStory Data公司成立於2011年,位於加州帕羅奧圖。提供數據智慧的軟體,協助企業能夠輕鬆連結不同的異質數據來源,並進行分析。 Cloudera公司成立於2008年,位於加州帕羅奧圖。提供以Hadoop為基礎的系統管理平台與數據管理工具。 Concurrent公司成立於2008年,位於加州舊金山。提供以中介技術為主的服務,企業可透過該技術進行大數據的開發、部署、運行與管理應用。 Continuuity公司成立於2011年,位於加州帕羅奧圖。提供以Hadoop為主的雲端部署技術,協助企業快速與輕鬆的建立大數據的應用。 Continuum Analytics公司成立於2011年,位於德克薩斯州奧斯汀。提供大數據管理、跨平台視覺化商業智慧分析平台。 Couchbase公司成立於2011年,位於加州山景城。主要開發Couchbase…

「2014 台灣資料科學愛好者年會」精彩資料一次讀完

8/30~8/31於中央研究院舉辦的「2014 台灣資料科學愛好者年會」告一段落。 順手整理這兩天的精彩文章、演講與課程的簡報給大家參考! 共8篇文章、16份簡報、6場R課程簡報。   文章: 臺灣資料科學家直擊:當機器學習遇上大資料技術 Data Science Conference 2014 Kicks Off in Taipei Taiwan Taiwan’s Pioneering Conference on Data Science台灣資料科學愛好者年會: Day 2 Highlights 臺灣資料科學家直擊:醫療迷思追追追,用健保大資料分析來破解 臺灣首度舉辦資料科學愛好者年會,傳遞從資料創造價值的理念 台灣資料科學家直擊:370種遺傳病一測就知!預防醫學如何運用資料科學 臺灣資料科學家直擊:Gogolook如何貫徹資料科學精神讓LINE母公司願意花6億收購 全臺資料科學家周末齊聚南港,價值百萬年薪的經驗大公開…

大數據探索航空資料-美國聯邦航空管理局

最近筆者剛好讀到有關於大數據應用於航空資料分析,覺得內容值得整理介紹給相關領域的朋友們參考,一直忙到暑假才有時間整理文章。記得上Data Science Program的課程中,曾有學生邀請筆者至某航空公司擔任顧問,但筆者實在是分身乏術,因此希望這一篇能夠給航空界的朋友們一些參考。 這篇是2009年刊登在知名期刊Knowledge-Based Systems上的學術研究,主要是應用決策樹(Decision trees)從美國聯邦航空管理局(FAA)的數據來挖掘出可能會出現航空事故的特徵。研究所採用的分析工具為Megaputer Intelligence所開發的PolyAnalyst與挪威科技大學開發的Rosetta。 筆者並非航空領域的專家,只是單就從大數據的角度來跟讀者分享研究的作法,所以若有敘述有誤,請多指教。 飛航安全是國際間大家都很在意的事情,像前陣子馬來西亞航空370號班機事件就是一個遺憾的事件。而過去航空業所累積的資料非常多,在研究中有提到像是飛行員報告(Pilot reports)、保養報告(Maintenance reports)、事件報告(incident reports)、延遲報告(Delay reports)等都是可以拿來作為資料分析的基礎。因此透過資料探勘的技術從過去的歷史資料挖掘一些可能會造事故的特徵,可以盡量讓飛航的事故減少。 這篇研究的資料取自美國聯邦航空管理局(Federal Aviation Administration簡稱FAA),美國為了要提升「飛航安全」,所以建置了航空安全資料分析與分享平台(Safety Information Analysis and Sharing簡稱ASIAS),讀者若有興趣可以逕自上網查詢資料,其中有個資料庫叫做AIDS,不是愛滋病喔,全名是Accident/Incident Data System,該資料庫收錄從1978年以來的航空事故資料,相當豐富。 研究採用了2000年到2006年共6年的航空資料,並且依據美國國家運輸安全委員會(National Transportation Safety Board)所定義的事件屬性進行整理,筆者將其整理如下: 事件報告的識別號碼 事件發生的日期 事件發生的城市 事件發生的國家…

12本免費的巨量資料分析書籍

幾本由專家介紹的免費巨量資料分析書籍,包含R、Python、MATLAB等語言。也可以從這些書籍中發現目前巨量資料分析的理論主要還是以統計學、資料探勘與機器學習為主。 An Introduction to Statistical Learning with Applications in R The Elements of Statistical Learning A Programmer’s Guide to Data Mining Probabilistic Programming & Bayesian Methods for Hackers Think Bayes,…

10位國際頂尖資料探勘大師

近年來巨量資料(Big Data)的風行,讓沈寂20多年的資料探勘(Data Mining)技術又再度熱絡起來,並且延燒到企業中,像是前陣子甫落幕的活動,華碩與亞太資料探勘及知識發掘會議(Pacific-Asia Conference on Knowledge Discovery and Data Mining,簡稱PAKDD)共同舉辦的國際性大數據探勘競賽,就嘗試將為期5年的維修紀錄作為比賽的原始資料,要求參賽者推測出各元件每月報修數量的預測模型。 而每個領域都有所屬的專家,因此這邊筆者整理了國際頂尖10位的資料探勘專家,該排名依據是由Google Scholar中的文章引用次數(Cited),通常引用次數越高,也代表該名學者的學術聲望越高。 接下來讓我們一同向大師學習,依據排名這10位大師分別是Trevor Hastie、Jeffrey Ullman、Jinyan Li、Jeongkyu Lee、Vipin Kumar、Jiawei Han、Rakesh Agrawal、John Canny、Philip S. Yu、Christos Faloutsos,以下表格包含排序與引用次數。 Trevor Hastie與Jeffrey Ullman分別是史丹佛大學(Stanford University)的統計與電腦科學教授。其中Trevor Hastie教授以R語言作為主要工具,所撰寫的The Elements…

想進蘋果也要懂Big Data

原圖網址 最近全世界都吹起Big Data風潮,連蘋果(Apple)也一同蠢蠢欲動。最新的蘋果職缺中,今年2014年5月14日,蘋果的廣告部門開了一個高級軟體工程師的職缺。 筆者將職缺需求整理如下,提供相關的產業參考: 超過五年的軟體工程與資料分析的經驗。 熟悉的工具須要包含Java、Python、Hadoop、R、SPSS、SAS。 具有網路廣告的分析經驗。 懂SQL,也就是過去大家熟悉的關聯式資料庫。 理論的部分要懂資料探勘(Data mining)、資料匹配(Data matching)、機器學習(Machine learning)、 統計(Statistical techniques)、實驗設計(Experimental design)、最佳化(Optimization)。 具有大量數據的處理經驗,像是處理單位高達PB(Petabyte)以上的資料量。 具有解決真實問題的經驗。 獨立的工作能力。 關注資料分析的準確率與品質。 以上主要的徵求內容,在台灣算是跨科系才能學到的能力,筆者舉例如下: Java較偏資工系。 R較偏統計系。 Python與Hadoop可能偏資管系或資工系。 SQL的部分偏資工與資管。 理論的部分資管跟資工都可以選修到,有些還是必修,但最佳化(Optimization)的課反而在工管系才可能碰到。當然現在有所謂的「資訊科學系」可能前述理論與工具都可能學習到。而個人覺得工具面的部份包含Java、Python、Hadoop、R這些開放原始碼,大部分都還是要靠學生自行學習。 最難的部分是在領域知識,像是蘋果的職缺需求就要網路廣告的分析經驗,對岸有些職缺需要懂金融、商業等領域知識的,這些領域知識在學校反而偏向是商業類科系才可能碰到,譬如筆者在大學修的廣告學、消費者行為,都需要跨修到企管系。 面對於這種職缺需要多年養成的職缺,企業不可能要求求職者百分之百都會以上技能,因為有些求職者即使會以上技能,個性與相處上反而也有問題,只能盡量取人格特質與技能較為平均的人才。 以筆者的經驗,通常一般行情是很難請到具有上述能力的人才。 因此筆者就根據企業所要發展的方向來決定這些能力的比重。 像是工作在分析比重較高,就會著重在R與Python的能力,且具有商業分析概念,且具備「溝通」能力的人才,因為他一般的工作就是協助進行資料分析,並產製BI報表或平台的能力。而R跟Python本身就能完成這些事情,所以工作反而是在溝通與呈現,以及應用統計、資料探勘、機器學習等理論在實務上。…