資料分析

2016 DSP 資料科學夏令營,參與學員的真心話

「2016 DSP資料科學夏令營@NCCU」圓滿落幕囉,這次DSP找來實力與中二程度兼具的講師群,讓同學們在緊湊扎實還累到爆的營隊中縈繞著歡笑與淚水。同學們在各組專案的表現真的是讓大家驚呼連連,這幾天陸續收到同學們的真實心裡話,這些真讓DSP的講師群們非常感動唷~ 政大公行,積極進取的同學A: 受到會計老師的啟發,對於 R 語言產生了好奇心,並報名這次四天的夏令營活動。第一次參加短期專案報告的營隊,很充實也學到多過去未曾學習到的知識,講師的實務經驗豐富,提供我對於資料分析與統計知識應用更多的想像空間,助教和藹可親,用心幫我們 debug,不同背景的組員們互相學習同心協力,在短時間內分工合作完成一份不錯的成果,這四天收穫良多,奠定了不少寶貴的 R 語言基礎,很棒的活動。 政大MBA,群策群力的同學B: 對我來說,參加這次的營隊是個很好的學習過程。提供了一個自我檢視的機會,解決問題、執行能力也會受到考驗。在極短的時間內,需要大家跨領域合作能力與專案管理能力。了解自己在完成專案的過程中,應該在團隊裡扮演甚麼樣的角色,並更明確知道自己的長處與不足之處,藉以做後續的加強或補足,抓住自己在團隊的定位。 由於學員的背景差異很大,講師和助教非常專業能夠幫助不同程度的人都能在課堂上有所收穫,而最重要的是助教的專業也讓大家可以從過程中得到一些很立即的幫助、建議,可以感覺到助教十分用心解決學員問題,並營造非常愉悅的學習環境,讓沒有基礎的同學在面對 R 語言時也不會害怕或抗拒,相信對於和我一樣沒有程式背景的同學也會因為助教的熱誠與專業而更加喜歡 R 語言的魅力! 輔大企管,學習不倦的同學C: 為期四天DataCamp@NCCU在掌聲與歡笑中完美落幕,從Day1的懵懂到現在終於有了成長的感覺,LEVEL UP+。感謝強大的助教群的耐心教學,你們給的comment跟經驗談真的很棒!! 謝謝組員們強的carry,沒有你們沒有最後的成果 GOOD!! 在各路高手中能成為一個TEAM既是幸運也是緣分,相互交流的感覺真的很開心,我們的成長也隨之而來。 雖然每天跟專案時間賽跑超超超超超超超累 = =+ 但看著生命在燃燒卻又綻放如煙火般的絢爛奪目,心中真的是有無限的滿足與感謝,腳踏實地享受生活的感覺真的頗爽的XDD 哥學的不是coding,是一種態度 逢甲資工,全力以赴的同學D: 終於回台中了,四天先感謝組員carry,每天7點多起床2點多睡覺,整天盯著電腦有種已經開始上班的fu,台北真的是一個好地方,每個人都有自己的想法,看事情的面向也差很多,認識了不少新朋友,希望未來還有機會再見面。 淡江統計,努力上進的同學E:…

最棒的寒假禮物!「DSP 資料科學冬令營」真實感動同學的學習與收穫

這次我們DSP智庫驅動為了造福中南部的同學,有更多機會認識從資料思考到探索性資料分析的厲害之道,1/19 – 1/22特在中部靜宜大學舉辦「DSP 資料科學冬令營@PU」,此次同學們的反應可說是相當認真學習,和在北部舉辦夏令營的同學相較,完全是不同人文風格取向,有的專案會積極找尋商業價值,有的專案會思考幫助社會公益,不管哪種樣貌各有千秋,只能說同學們~大家該給自己一個最大的讚!這幾天陸續收到同學們的真實心裡話,這些真讓DSP的講師群們非常感動唷~    積極進取的同學A: 這四天學到了豐富的資料分析與思考的概念,從一開始的題目訂定、過程中不斷的的討論與互動、還有因為要改題目的方向的困難,一整天下來晚上還要繼續燒腦袋思考題目,而且組員來自不同學系背景,所以也獲得不少平常自己不會去想到的面向,而且還可以聽到其他組的分享,與組員互動相當有趣,受益良多。R語言也學到了不少基礎知識,遇到問題的時候助教也會提供協助,可以快速且順利解決想要解決的問題。 努力上進的同學B: 這是我第一次參加資料科學營,我覺得很特別,每組都有來自不同領域的成員,因為這次的活動巧妙的認識與共事,活動過程中,我接觸到許多有別以往的知識,如ggplot2、dplyr、用 markdown製作簡報以及資料收集和分析的方法,四天的活動很匆促,但對自己完成的專案覺得還不錯,很高興有這個機會,認識這麼多對資料有興趣的人,也謝謝老師這四天用心的帶領! 認真以赴的同學C: 這四天專題尋找,光是要決定題目要費了很大一筆功夫,方向以及深度都要全方位的考慮到,對於程式的初學者來說,要跑一些程式圖,完全幫不上忙,只能幫忙小組整理資料、資料分類。這四天來,真的學到了不少東西跟一些R語言進階程式,之前在學校只有學到股票分析以及如果算選擇權的權利金而已。 學習不倦的同學D: 記得第一天要在短時間內生出專案的主題時覺得超級困難,對於該找哪些資料、該呈現甚麼圖表也完全沒概念。但是後來在學習R的過程中,慢慢的迸出一些新的想法,也發現一些可以學以致用的圖,最後把它們呈現在我們的專案中,非常有趣。而且四天要生出專案雖然過程蠻崩潰的,但是很感謝講師及助教們,給了我們很大的幫助,也在每天報告完再聽講師及助教給我們的許多建議中,學習到很多簡報以及資料呈現的技巧。 團結力量大的同學E: 雖然當初是被主任威脅來的,但是這四天是個不一樣的新體驗,透過這次的課程,對用R的畫圖方法又多了一些,也知道了Markdown這個東西,這是系上沒有教的,是一種新發現;以往的報告總是和自己系上,有相同背景,這次的小組則變成不同背景的人一起做分析,有不同看法,對資料有不同認知,也會激發出不同的成果,很開心這四天的參與。 群策群力的同學F: 這次很榮幸參與這次的活動,從資料思考到視覺呈現,雖然我是財數系但是有coding的基礎,還一度被認為是資工系,還蠻容易上手R的,對於這次我最享受的應該就是跟組員們一起做報告的過程吧,大家都把各自的看家本領都拿出來了,讓我大開眼界。 反應聰穎的同學G: 本身是資工系,在面對大數據、資料處理時經常使用Database、Excel...等或是直接使用程式處理資料。這次來到這個營隊除了對R有了初步的認識以外,還學習到立即能夠派上用場的能力(ggplot2、ggmap...等)感覺收穫滿滿!感謝講師們的用心,講師們年紀與學員相仿較未有距離感也是此次營隊我最愛的地方之一XD! 集思廣益的同學H: 從一開始不懂R語言,到後面資料分析,四天之內大家都會利用回家一起討論,並且有問題就趕快更改資料內容,這樣的TEAM使我們大家迅速的成長,這樣的營隊讓我學習到不只團隊合作,在短時間內有效率地做出一個小專案。 合作無間的同學I: 在這四天裡,學到許多R統計語言的語法,也認識很多不同學校不同系所的朋友們,雖然已經放寒假了,但花了這四天假期來冬令營,非常充實,也非常有幫助性,多增加自己在資訊軟體的能力,對自己未來的幫助很大!很謝謝DSP團隊        每一次的夏令營與冬令營都是DSP智庫驅動走進校園,貼近各位國家未來棟樑人才的最好時機,所以每一回講師與助教也都全力以赴,希望能給同學們最好的認真態度,同學們~為了更好的前程,我們一起努力加油唷!

無遠弗屆拉近溝通距離的IoT與車聯網

昨(1/6)舉辦於金華官邸Start-Up Hub 青創基地舉辦1月Data Mixer「當智慧生活物聯網注入資料科學 DNA」,分享從當物聯網遇到智慧家電,以及車聯網中的技術秘辛哪裡耐人尋味的故事,此次好些相關領域與指標性龍頭業者積極參與,明顯感受到拍照率相當高又持久的分享會,可見關注程度很吸睛! 探索智慧家電的應用情境看漲 當互聯網+遇上家電變成了智慧家電,如何讓無所不在的家電有聰明的概念,到底要讓它們智慧化到應用的場景絕不只是連網而已,背後是軟硬兼具需要各種語言的交合想像大不同,從原型設計、組裝零件到市場量產。此次讓DSP智庫驅動 Tim遠征大陸、日本、美國等地走訪,明顯感受在地組成的智慧團隊文化差異性很大,因此未來的智慧家電,因著各地發展蘊底性格將造就不同的趨勢風貌,例如大陸地區有整個滿滿像光華商場的大型建物,裡面販售各式各樣的零組件,所以開發成本可以大幅降低。 而美國矽谷會看到工程師善用「群眾智慧」解決開發模組的問題,挑戰4天就要開發一個模組功能,隨時要有心理準備,當討論不到一半就有不少人像背後靈從中插入參與,透過高度腦力激盪多向溝通,讓原本空空如也的Github突然暴增就是因為互相點燃火花加乘靈感就來了,既隨興又不盲從的美國團隊合作精神。 想像IoT物聯網‬思維下的‎資料思考面向 從美國矽谷經驗反應出的面向,應包含big data, fast data, edge analytics and real-time insights」,當中的big data係指因為不斷成長而讓資料數據達到10B +Rows(5TB) 以上,像是風力、水力發電機的資料;fast data是指因為從Sensors感應所持續獲得的資料數據,應該也要1秒達到1M以上的程度才能稱之,這可以讓台灣的廠商思考一下自身產品獲取的資料規模是否夠大夠快,以及面對收集有用的資料與有效率分析流程的挑戰,反思一下台灣企業應該打理建設到哪個階段! 這10年內各大車廠紛紛自建數據中心 不難想像多螢幕載體乘載大量資訊的需求,隨著人類文明的發展,無感式接軌滲入了我們的生活,不只是智慧型手機,汽車上的多項精密設備已能接收大量數據,準確計算發生情境,進而推演這位駕駛行為背後的意涵,Jerry舉例VOLVO可能強調安全係數多一點的數據收集、雙B可能在意馳騁快感多一點的情境數據,各大車廠都想為客戶帶來更多備受禮遇的個人化需求,特殊差異化的市場發展是必然,所以從後端胃納的資訊拋到資料中心後,將形成這個品牌可以快速到各個國家發展在地化的數據網絡,資料所介接的開源技術體系其實很複雜龐大,基於服務層級協議多方合作,包含回饋到前端如何從「設計開發、供應鏈更迭、個人化保險、影像辨識即時支援、車內金流支付、自動駕駛、應用行為APP、代理商廣宣等」發展情境大不同,這些透過技術切分出的無痛式資訊幫助企業,確保創新與捕捉商機,間接提升了客戶對於汽車品牌的好感度大幅提升,所以從資料角度來看羊毛出在狗身上,還是狗自己因為自己的喜好習性被重視,得以很樂意的付錢。 大膽預見車聯網即將發生的效益與挑戰 1.透過汽車平台銷售「產品」變成提供各式「服務」;2.產生同業競爭差異化,與創造破壞式創新;3.強化客戶體驗,與消費者關係更緊密,CRM更確實;4.縮短製造與開發時間;5.因為擁有獨一無二的資料,品牌更清楚您的客戶需求,提高競爭力。 同時,在準備踏入車聯網這個龐大體系燒錢之前,請認真思考傳統思維是否能夠轉變?供應鏈網絡的廠商是否願意被整合? 產品結合服務後是否能夠真正落實?解決資訊安全可能造成的疑慮?以上皆是的話,歡迎你一起透過車聯網讓人性應用面向更偉大的航線。

A1資料探索疑無路,柳暗分明又一村

Numbers have an important story to tell. They rely on you to give them a clear and convincing voice. -- Stephen Few 《A1資料分析基礎班》進行至第四天,對於化身為資料分析師的各界菁英們對於手上握有的資料集更加深刻有感,自己提案自己做,從資料整理到資料探索性的視覺化,各組學員們無一不捲起袖子用各種剛學到的資料視覺化的技巧挖掘潛藏在資料深處的寶藏。 學習R語言很難,想在短短四天把R學起來做 EDA 更是難上加難。有賴講師群的努力,透過多年實戰經驗,選擇最有效率的分析套件,把 R語言的學習路徑縮到最短。在實作課程中,助教群更是手把手地解決學員各種疑難雜症,使得學員得以在密集的課程中,展現令人驚豔的成果。 從第一天講述的「資料思考」(data thinking) 開始,到最後一天的「數據為大」作結,講師們替學員破除「大數據」(Big…

服貿事件 X 資料科學 ╱ 謝宗震

近期服貿議題越演越烈,自318學生佔領國會,324 學生攻佔行政院與強制驅離事件發生後。我以為身為一個統計人,應該用自己的專長來關心這個議題。有鑑於此,我問自己一個問題:抗議現場的情況與各家媒體報導的真實性為何? 事實上,討論真實性這種虛無飄渺的概念並不容易,所以我退而求其次考慮比較能夠量化的問題,即報導之間的關聯性。 有了這個想法之後,我蒐集了g0v.today提供的現場文字轉播資料,學生族群常用的PTT服貿版資料,以及幾家新聞的報導資料進行初步分析,3/25號晚上在臉書上發布了一張實驗性分析圖,並且徵求夥伴幫忙擷取各家媒體更完整的服貿報導資料。 這兩天,感謝很多人熱心的幫忙。無論是資料的提供、文本挖掘技術的交流還是媒體分析經驗的分享等等 (感謝Ronny, Marsan, 文心, Toley and 家齊)。我用更嚴謹的方法得到了以下關聯性分析結果, 先說圖怎麼看,曲線的粗細表示報導來源之間的相關性強度。再說我的主要發現: 蘋果日報與所有報導來源都有高度的關聯性 報導來源可以分成左右兩群,右半邊是一般的媒體報導,左半邊則是蘋果日報與民間報導。 儘管PTT與現場文字轉播的關聯性在所有報導來源中是最高的。但是,PTT與各大新聞媒體的關聯性都偏低。 至於分析方法,簡單來說就是以關鍵字找相似度。我用R當作主要分析工具,參考家齊與嘉葳參與Taiwan R user group在

快樂的寒假熱活學習就在DSP Data Camp @NCCU

今(1/19)來自來自台北、新竹、台南、高雄以及屏東各地的同學們,一起聚集在政大DSP 資料科學冬令營邁向 #資料科學家 的路徑,首先#NCCU 陳百齡老師勉勵大家在這個創新的實驗會有不同資料的火花呈現,接著DSP CK和同學們說明這4天的遊戲規則,相信戳合不同背景、專長、性別的多元思維,這番資料思維大作戰將會很有趣。   一開始熱鬧登場的講師Rafe帶著各位同學用 #群眾智慧 一起來重新想像定義到底什麼是 #資料思考 ,由邏輯、有資料分析、有理論基礎下如何有個聰明的開始,才能從Data到Information往Knowledge進行。即便在強大的Coding找出解決問題的一個「點」之前,仍應該要先釐清定義好問題,能從Mind Map爬梳你的TA在Low power單一訊息要如何往High power移動,找到真實的Root Cause。當中有位同學舉例了在他創業中真槍實彈的經驗,促成他很想要來參加冬令營的重要理由,就是極度需要在 #商業模式 前驅動作的 #資料分析能幫助釐清大前提以便優化轉換率,來看看Code for Healthcare經驗什麼是達到好的混搭 mash up。   下午緊接登場的Alto老師告訴我們如何從雜亂無章的資料中,能夠找出創新的想法後再重新分類,例如紐約311一張來電圖就能表達時間、比例、項目等,逐年檢查後仍被客訴最多的項目,未來可能將被優先立法的方向。現在Big data的時代可同時讓線上調教的工具相當多元且更簡易,而對於所蒐集到資料的方式,一定要反覆去詢問及檢視,同學不妨也可以進階學習如Vlookup等功能,把文字資料抓進來後要有效率如何整理,如果出現規律就應該檢視這個區塊,例如利用3個資料集開始進行更聰明的分類,檢視像是排序是否有可能重複或是有些空格有特定意義,每次都要思索做完後是否還可以聰明再進化。   各組第一回初步發想: 「叫我包租婆」 「省錢大作戰」 「U Bike微笑調度」…

《A1: 資料分析基礎班》開放報名

企業已經逐漸掌握資料蒐集與儲存的方法與工具。然而,隨著資料日益增長與龐雜,如何從資料找出問題或商機,卻是越來越艱鉅的挑戰。因此,「統計分析與資料探勘」成為目前全世界最搶手的工作技能,也就很容易理解了。 面對堆積成山的資料原石,這些資料分析師,專注於運用資料思考方法,發揮一點點巧思,將資料逐步琢磨為讓人眼睛一亮的寶石。 《A1: 資料分析基礎班》顛覆傳統的教學方法,透過四天的密集課程,從資料思考的訓練開始,使用適當的商業案例與分析工具,帶領學員由淺入深,探索資料內涵,瞭解並描述資料與資料之間的微妙關聯,進而建立解釋資料趨勢的統計模型。最後,經由分組合作,綜合演練所學,完成一個小型專案。   —-> 前往報名 <—-   【課程目標】 學員應該自我期許,達成下列學習目標: 認識資料思考的方法 製作可以再利用的資料分析程式碼 (reproducible code for data analysis) 資料匯入與整理 探索式資料分析 基本統計分析 假設檢定 迴歸分析 小組合作,從頭到尾完成一個資料專案   【上課時間與地點】 時間:2015 年1月31日、2月1日、2月7日、2月8日(連續兩個週末,共四天,每日10:00 - 17:00)…

用最熱門的R語言─航向資料科學的偉大航道

隨著科技的快速發展,人類逐漸能夠利用海量數據的方式,為自然與社會中的各種活動做記錄。在巨量、即時與多樣的海量資料面前,世界上各種棘手的難題,似乎都有機會找到解答。然而,解答的前提在於能夠藉由資料分析歸納出複雜問題的模型,進而預測答案。資料分析扮演了至關重要的角色。 在寬廣無垠的資料之海中,進行資料分析如同海上尋寶,最基本的需求就是要有一艘能夠乘風破浪的船艦。R 語言具有免費、跨平台、佔有率高、可塑性高等優勢,各式各樣的 R 社群蓬勃發展。在國際知名的 KDnuggets 論壇統計當中,R 語言已經連續三年獲得資料科學家最常使用的資料分析語言第一名。 透過經驗豐富的老水手領航,往往能夠少走一些冤枉路。DSP 設計《R 語言探索之旅》課程的初衷在於幫助有志一同航向偉大航道的夥伴們備妥出航的船隻,航向資料分析領域的藍海。本課程很榮幸邀請到

《R 語言的探索之旅》12/13 課程開放報名

[A0] R 語言的探索之旅 面對撲面而來的資料浪潮,包含 Google、Facebook、Intel、Pfizer、Bank of America 等國際級企業,都已經採用 R 語言進行資料分析,許多全球一流大學如 Stanford、Johns Hopkins 和 UCLA 也將 R 視為資料分析課程的先修科目。根據國際知名的 KDnuggets 論壇統計,R 語言已經連續三年獲得資料科學家最常使用的資料分析語言第一名的殊榮。 《R 語言的探索之旅》將帶領想要踏入資料分析殿堂的學員,從問題導向的資料萃取和資料清理開始,進行基本的統計分析與資料視覺化,再進一步探索資料的趨勢與潛在意涵。讓資料從生澀冷硬的數位食材,搖身成為風險評估與決策輔助的美味佳餚。   ■■■■■■  報名網頁:http://goo.gl/aJIeyF  ■■■■■■   課程特色 本課程屬於 《DSP…