二月 2015

View all on this date written articles further down below.

必學的10個R套件

圖:R de jeu R軟體已在這兩年如黑馬般,串升到十大必學語言之一。從各種數據可以觀察到,由於R的開發者專注做資料分析這塊,因此資料分析的資源非常豐富,也奠定R這個工具在處理資料的獨特定位。 不過R的套件(Package)或稱R包,其實非常的豐富,目前已經有6,328 (2015/02/18)個套件,一定會有人想知道,到底哪些套件使用頻率最多,且被推薦使用。 所以筆者收集了不同的排名報告,包含Data Camp、yhat、R-statistics blog、Revolutions,整理了您不能不學的10個R套件。 整理如下: ggplot2 這個套件是玩R繪圖必須知道的套件, 擁有非常強大的繪圖功能。早些年ggplot2與lattice同為高級繪圖套件,不過看來ggplot2略勝一籌。 plyr 這個套件可以將vector、list、data.frame的資料做快速的切割、應用、組合,是非常好用的套件,像是join功能,可以做inner、left、right、full等join功能。plyr可以讓工程師以資料庫的概念,有效率的把玩資料。 dplyr 這個套件跟plyr類似,但是針對data.frame、data.table、以及多種資料庫為基礎的資料。將資料做快速的切割、應用、組合,尤其處理大量資料,dplyr是非常好用的工具。   reshape2 這個套件可以幫助我們將資料進行縱向、橫向轉換,筆者發現對於該套件處理連續型或時間資料是非常好用的,如空氣品質資料、證券行情資料等。通常會再搭配dplyr,讓資料分析事半功倍。   Rcpp 這個套件更不用多說了,它可以讓R跟C++做完美的融合,演算法玩深一點的朋友就會發現,這個套件是調整效能的最佳工具。 digest 該套件對於資工領域的人應該不陌生,digest可以用來處理雜湊函式(hash function),對岸譯為哈希表。雜湊函式通常是用來做資料壓縮,使資料量變小,常見像是網頁數位簽署、登入驗證、壓縮程式,甚至是現在的NoSQL Key-Value儲存概念,都有雜湊函式(Hash Function)的身影。值得一提的是這個套件的貢獻者Wush Wu是唯一台灣人,且也是Taiwan R…

Data Mixer #1

DSP 資料人集會是一個資料經理人、資料分析師、視覺設計師和資料工程師的聚會,輕鬆愉悅、開放交流,我們固定每月集會。 首次集會我們將探討企業資料思考,並討論未來聚會主題。 ► Agenda 18:30 - 19:00 開放進場 19:00 - 20:00 DSP 資料學習計畫「資料科學學習地圖」及「企業資料思考」開放討論 20:00 - 21:30 自由交流 ► Who Should Attend 資料經理人、資料分析師 & 資料工程師 對探索資料價值有興趣者 想規劃個人資料學習計畫者 想幫公司引進資料思考、探索資料價值相關教育訓練課程者 ► When…