九月 2014

View all on this date written articles further down below.

大數據探索航空資料-達美航空

Logo/達美航空、攝影/Jerry 繼續本系列主題,本次介紹的應用是來自達美航空(Delta Air Lines),達美航空在這幾年扶搖直上,於2010年完成跟西北航空合併之後,已經成為全世界航線里程與客運機隊規模最大的航空公司。 這篇文章是2014年由SapientNitro廣告公司的數據分析師Myles Harrison所分享的文章,介紹它應用主成分分析(Principal Component Analysis)與K平均算法(k-means)去分析達美航空的飛機數據。 Myles Harrison從達美航空的官方網站(Delta.com)取出客機本身的數據,以AIRBUS A330-200為例,就包含巡行航速(Cruising speed)、載客數(Accommodation)等16種可以被量化的資料,像Wi-Fi就可以用Y跟N來做表示,網站上一共提供了44架客機的數據。 ※原文中提到的客機型號為AIRBUS A319 VIP,可被量化的屬性共33種。 筆者這邊整理他分析的過程,有興趣可以回到原文去查看他所撰寫的R原始碼。 進行探索式資料分析(Exploratory data analysis),發現這些數據有許多正相關(Positive correlation) 接著採用主成分分析(Principal component analysis)進行降維的動作,找到可以解釋85%的數據的主成分。 最後採用K平均算法(k-means)將數據分成4種群組。 原作整理分析結果如下: 第1個群組只有一架飛機,就是Airbus A319 VIP,本身就是有錢人才會搭的飛機。 第2個群組為CRJ 100/200's、E120…

國際排名Top 50新興大數據服務公司(2014)

美國知名通路媒體(CRN),最近整理了2014年國際排名前100大的新興Big Data公司,筆者根據國外論壇報導,整理排名前50名公司來進行分享。 這些公司有65%都在美國矽谷,公司的服務項目包大數據的基礎設施建設、數據分析、數據管理等。值得注意的是,這些公司的平均年齡都小於4年,且服務項目都各有專注,像是Pivotal與Xplenty專門處理Big Data的基礎設施,而Alpine Data Labs與Numerify為數據分析的專業。 以下筆者將一一簡單介紹這50個新興的大數據服務公司(以英文字母順序排名)。 Actifio公司於2009年成立,位於馬薩諸塞州沃爾瑟姆。提供處理數據擴張(Data Sprawl)的數據管理平台,包含數據備份、數據還原、軟體開發與測試。 Aerospike公司成立於2009年,位在加州山景城。提供處理即時運算、NoSQL數據庫的高效能應用 Alpine Data Labs公司成立於2010年,位於加州舊金山。提供以Hadoop為基礎的數據分析平台。 Alteryx's公司成立於2010年,位於加州爾灣。提供處理混合結構化、非結構化的數據分析軟體,功能包含預測、統計等。 Appuri公司成立於2012年,位於華盛頓州雷德蒙。提供以雲端為基礎的數據管理與分析系統,以及PB(Petabyte)等級的數據倉儲平台。 Ayasdi公司成立於2008年,位於加州帕羅奧圖。提供結合機器學習的拓樸分析技術(Topological Data Analysis),協助企業解決複雜的商業問題。 Chartio公司成立於2010年,位於加州舊金山。提供以雲端為基礎的數據視覺化軟體,使企業可不用開發自己的數據倉儲。 Cirro公司成立於2010年,位於加州阿里索維耶荷。提供新一代的數據整合平台,協助企業的非技術人員,能夠輕鬆執行複雜的分析任務。 Citus Data公司成立於2010年,位於加州舊金山。該公司研發自己的數據庫CitusDB,該分散式分析數據庫可協助企業處理以幾秒鐘處理PB(Petabyte)等級的數據量。 ClearStory Data公司成立於2011年,位於加州帕羅奧圖。提供數據智慧的軟體,協助企業能夠輕鬆連結不同的異質數據來源,並進行分析。 Cloudera公司成立於2008年,位於加州帕羅奧圖。提供以Hadoop為基礎的系統管理平台與數據管理工具。 Concurrent公司成立於2008年,位於加州舊金山。提供以中介技術為主的服務,企業可透過該技術進行大數據的開發、部署、運行與管理應用。 Continuuity公司成立於2011年,位於加州帕羅奧圖。提供以Hadoop為主的雲端部署技術,協助企業快速與輕鬆的建立大數據的應用。 Continuum Analytics公司成立於2011年,位於德克薩斯州奧斯汀。提供大數據管理、跨平台視覺化商業智慧分析平台。 Couchbase公司成立於2011年,位於加州山景城。主要開發Couchbase…

「2014 台灣資料科學愛好者年會」精彩資料一次讀完

8/30~8/31於中央研究院舉辦的「2014 台灣資料科學愛好者年會」告一段落。 順手整理這兩天的精彩文章、演講與課程的簡報給大家參考! 共8篇文章、16份簡報、6場R課程簡報。   文章: 臺灣資料科學家直擊:當機器學習遇上大資料技術 Data Science Conference 2014 Kicks Off in Taipei Taiwan Taiwan’s Pioneering Conference on Data Science台灣資料科學愛好者年會: Day 2 Highlights 臺灣資料科學家直擊:醫療迷思追追追,用健保大資料分析來破解 臺灣首度舉辦資料科學愛好者年會,傳遞從資料創造價值的理念 台灣資料科學家直擊:370種遺傳病一測就知!預防醫學如何運用資料科學 臺灣資料科學家直擊:Gogolook如何貫徹資料科學精神讓LINE母公司願意花6億收購 全臺資料科學家周末齊聚南港,價值百萬年薪的經驗大公開…

政府和地理資訊業界不想讓你學會的地理資料神奇應用

地理資訊和生活息息相關,應用更是無窮,比方說地理空間資料的分析應用以及近年相當熱門的行動上網適地性應用。既然如此,為何一般人還是覺得地理資訊和自己無關? 有一個可能的解釋。台灣的地理資訊長期處於封閉的狀態,在早年的戒嚴時期,地圖就是管制品,甚至不准帶出國門。解嚴之後,雖然有所開放,但是「地理資訊產業」還是一個屬於少數人參與的鄉村俱樂部,僅有從台灣地理界各大門派出身的人才有機會玩,才玩得起。 政府從 1991 年開始推動「國土資訊系統計畫」,而 2006-2015 的十年計畫總預算更是超過兩百億元! 這兩百億新台幣的成果,主要是各種資料的蒐集與整理。以資料種類來分,包括九大類: 國土規劃 地籍 基本地形圖 環境品質 交通網路 公共管線 自然環境 生態資源 社會經濟 這裡面其實有著很多亟富價值的資料,除了圈內人之外,很少人知道它的存在,遑論使用。 地理資料能怎麼用? 我簡單舉幾個例子。 1. 選舉、人口、所得統計(2010年高雄市長選舉投票結果與所得分布比較圖) 2. 高雄氣爆地圖(事故區域、危險熱點與避難所位置) 3. 人類移動的軌跡(Facebook 社交網路地圖) 4. 都市計畫與都市更新(資料疊圖與分析) 5. 土地分區查詢(炒地皮和其他用途皆可)…