Hsieh Johnson

View all authors posts further down below.

2016 DSP 資料科學夏令營,參與學員的真心話

「2016 DSP資料科學夏令營@NCCU」圓滿落幕囉,這次DSP找來實力與中二程度兼具的講師群,讓同學們在緊湊扎實還累到爆的營隊中縈繞著歡笑與淚水。同學們在各組專案的表現真的是讓大家驚呼連連,這幾天陸續收到同學們的真實心裡話,這些真讓DSP的講師群們非常感動唷~ 政大公行,積極進取的同學A: 受到會計老師的啟發,對於 R 語言產生了好奇心,並報名這次四天的夏令營活動。第一次參加短期專案報告的營隊,很充實也學到多過去未曾學習到的知識,講師的實務經驗豐富,提供我對於資料分析與統計知識應用更多的想像空間,助教和藹可親,用心幫我們 debug,不同背景的組員們互相學習同心協力,在短時間內分工合作完成一份不錯的成果,這四天收穫良多,奠定了不少寶貴的 R 語言基礎,很棒的活動。 政大MBA,群策群力的同學B: 對我來說,參加這次的營隊是個很好的學習過程。提供了一個自我檢視的機會,解決問題、執行能力也會受到考驗。在極短的時間內,需要大家跨領域合作能力與專案管理能力。了解自己在完成專案的過程中,應該在團隊裡扮演甚麼樣的角色,並更明確知道自己的長處與不足之處,藉以做後續的加強或補足,抓住自己在團隊的定位。 由於學員的背景差異很大,講師和助教非常專業能夠幫助不同程度的人都能在課堂上有所收穫,而最重要的是助教的專業也讓大家可以從過程中得到一些很立即的幫助、建議,可以感覺到助教十分用心解決學員問題,並營造非常愉悅的學習環境,讓沒有基礎的同學在面對 R 語言時也不會害怕或抗拒,相信對於和我一樣沒有程式背景的同學也會因為助教的熱誠與專業而更加喜歡 R 語言的魅力! 輔大企管,學習不倦的同學C: 為期四天DataCamp@NCCU在掌聲與歡笑中完美落幕,從Day1的懵懂到現在終於有了成長的感覺,LEVEL UP+。感謝強大的助教群的耐心教學,你們給的comment跟經驗談真的很棒!! 謝謝組員們強的carry,沒有你們沒有最後的成果 GOOD!! 在各路高手中能成為一個TEAM既是幸運也是緣分,相互交流的感覺真的很開心,我們的成長也隨之而來。 雖然每天跟專案時間賽跑超超超超超超超累 = =+ 但看著生命在燃燒卻又綻放如煙火般的絢爛奪目,心中真的是有無限的滿足與感謝,腳踏實地享受生活的感覺真的頗爽的XDD 哥學的不是coding,是一種態度 逢甲資工,全力以赴的同學D: 終於回台中了,四天先感謝組員carry,每天7點多起床2點多睡覺,整天盯著電腦有種已經開始上班的fu,台北真的是一個好地方,每個人都有自己的想法,看事情的面向也差很多,認識了不少新朋友,希望未來還有機會再見面。 淡江統計,努力上進的同學E:…

《KAMERA 急診資料挑戰賽》得獎者點評

台灣緊急醫療資料活化的首次實踐 台灣首見為期兩個月的緊急醫療資料競賽《KAMERA 急診資料挑戰賽》,於上個月順利落幕,前三名的隊伍從上百組的參賽隊伍中脫穎而出。第一名是清大統計所碩一的團隊(李少芃、楊承翰、陳以臻,成績:99.076);第二名是中研院與政大合作之TIGP-SNHCC學程的博士生陳志明(成績:99.041),同時也是《痞客邦 Visitor Log 資料挑戰賽》的第一名;第三名則是由台積電品管工程師、和碩大數據工程師組成的團隊(宋培源、王宜婷,成績:98.879)奪得。 成果分享會於 4/29(五)高雄市消防局國際會議廳舉行,會中高醫外傷科主任陳昭文醫師提到急診壅塞的種種困境,點出緊急醫療資料需要活化、透明、互惠,以及《KAMERA 急診資料挑戰賽》計畫的前世今生。緊接著是本次競賽前三名的隊伍成果分享,以下分別對其點評。       第三名:KMeans 創造新變數,GEE 建構預測模型 第三名隊伍的兩位參賽者目前任職於台積電品管、和碩大數據部門(宋培源、王宜婷),為清華統計碩班同學。他們的預測策略先從探索性資料分析 (exploratory data analysis, EDA) 開始,使用大量的 boxplot 觀察出急診室檢傷總人數與醫院、班次、月份的關係,接著做K-Means分群法對檢傷總數,創造出新變數 group 加入 GEE 預測模型 (Generalized Estimating Equation,…

【‪DSP Data Challenge】群眾外包,協助企業解決營運問題

舉辦資料競賽,解決企業營運問題。 DSP智庫驅動與痞客邦合作舉辦「痞客邦 Visitor Log 資料挑戰賽」,由痞客邦提供網站訪客的瀏覽紀錄 (visitor log) 抽樣資料,讓參賽隊伍以此為基礎,從網站訪客瀏覽痞客邦所有網頁的紀錄中找出規律,建構預測模型,推估這些訪客在某段特定時間內的造訪次數。 痞客邦共同創辦人 Jay 表示,痞客邦不僅僅是社群內容創作平台,更是群眾知識與經驗的匯聚平台。若能精準預測網站流量,對公司的內容經營、廣告業務或是系統開發都有相當大的助益。 各方好手,異曲同工 為期一個月的競賽,吸引了不同背景、不同領域的各方好手參賽。在12月19日的成果發表會,我們也邀請到四位績優選手分享成功祕辛。 四位分享成果選手之中,第一名是正在就讀中研院 TIGP-SNHCC 學程的博士生陳志明 (最後成績 80.77),第二名是中研院語言所的博士後研究員徐峻賢 (80.05),第三名是太古汽車的數據分析師葉智韜 (79.31),以及第五名來自慧邦科技的工程師陳逸凡 (74.22)。 四位的分享內容各具特色,譬如陳逸凡來自遊戲公司,採用的是遊戲業分析玩家常用的 NES model (新玩家/老玩家/沈睡玩家 模型),將痞客邦的訪客以最近幾個禮拜造訪情況區分為New, Existing, Sleeping 三種類型,依據各種類型各自進行估計。 葉智韜提出了一個…

資料科學冬令營第一階段錄取名單公佈囉!

令人期待的2016 DSP 資料科學冬令營@PU 第一階段錄取名單公布囉! 感謝各位同學的熱情響應,資料科學不只是少數幾種學科的專利,而是需要從多元角度切入。我們希望讓不同學經歷背景的同學透過營隊活動共同發想、激盪創意。為了提高營隊成員的多樣性,我們從性別、科系、區域,還有同學們認真填寫的報名理由進行審查評估,得到第一階段錄取名單。 第一階段的錄取人數為37名 (營隊預計招收42名),來自北中南6間大學,包含資管、資工、統計、數學、公衛、法律、藝術等科系,學生的男女比例為 2 : 1,大學生與研究生比例為 3 : 2。 錄取的同學記得快去收信,在12/28 (一) 前完成繳費動作喔! 第一階段未獲錄取的同學們別灰心,您仍有機會在第二階段審查中獲得錄取資格。 第二階段報名截止日為2016/1/5,最後機會,趕緊把握喔(笑) ~ 以下為2016 DSP 資料科學冬令營@PU 第一階段錄取名單,錄取的同學記得收信並在 12/28 (一) 前完成繳費動作喔! 何O翰 林O倫 張O俐 連O竹…

資料科學夏令營第二階段錄取公告

令人期待的2015 DSP 資料科學夏令營@NCCU 第二階段錄取名單公布囉! 這個階段我們選擇了18位正取以及9位備取生,正取的18位同學來自9所不同的大專院校,12種不同領域的系所,男女比例為5:4,大學生與研究生比例為 2 : 1。 以下為2015 DSP 資料科學夏令營@NCCU 第二階段錄取名單,錄取的同學記得快去收信,並且在6/12 (五) 前完成報名動作喔! 正取18名 楊O仁 洪O群 王O閔 陳O穎 李O 游O榕 曾O立 周O任 賴O宏 蕭O安 鄧O玉 李O雅 王O傑 黃O惠 劉O瑄…

資料科學夏令營第一階段錄取名單公佈囉!

令人期待的2015 DSP 資料科學夏令營@NCCU 第一階段錄取名單公布囉! 感謝各位同學的熱情響應,資料科學不只是少數幾種學科的專利,而是需要從多元角度切入。我們希望讓不同學經歷背景的同學透過營隊活動共同發想、激盪創意。為了提高營隊成員的多樣性,我們從性別、科系、區域,還有同學們認真填寫的報名理由進行審查評估,得到第一階段錄取名單。 第一階段的錄取人數為30名 (營隊預計招收42名),來自北中南9間大學,包含資管、資工、商管、統計、傳播、公衛等科系,學生的男女比例為 2 : 1,大學生與研究生比例為 6 : 4。 錄取的同學記得快去收信,在5/29 (日) 前完成報名動作喔! 第一階段未獲錄取的同學們別灰心,您仍有機會在第二階段審查中獲得錄取資格。 第二階段報名截止日為2015/6/5,快來幫你的學校插旗(笑) ~ 以下為2015 DSP 資料科學夏令營@NCCU 第一階段錄取名單,錄取的同學記得在5/29 (日) 前完成報名動作喔! 王O霖 李O嘉 姜O慈 陳O元 馮O昭…

給非本科系的資料工程入門課

  身處在海量資料的浪潮上的資料科學時代,不論是即將踏入社會的新鮮人,或者是尋求更上一層樓的中堅份子來說,能夠額外練就一些資料科學的相關職能,對於工作效率、職場發展無疑是大大加分。 假設你是一個懂得基本統計的社會科學研究分析員,或者是協助主管處理資料的分析人員,DSP 即將推出的《E1: 資料工程基礎班》,正是為了想更有效率處理資料的你,所準備的基礎入門班。 你的工作很可能符合以下的描述: 幾乎沒有程式寫作的相關的經驗 平時的工作有80%的時間在把各種電子問卷、資料庫的結果整理成標準格式以進行資料分析 會用 Excel 整理資料,精通 copy-and-paste 大法,無法處理 txt, csv, xlsx 之外的資料檔 當欄位需要比「矩陣轉置」更複雜的整理時,顯得束手無策 不清楚什麼是資料分割 (data filter, select)、資料合併 (data combine)、資料連結 (data join) 那麼我建議,你應該學習一個具有效率,而且可以半自動化、重複使用的資料整理技術。 對於大多數非資訊領域的朋友們來說,這些是學校沒有教的,無法在日常工作中精進的。但是,當你跨過這樣的基礎資訊工程的門檻後,你的工作效率、職場價值將會有飛躍性的提升。 如果你想要站在講師群的肩膀上,省卻過多自主摸索的時間;如果你想要身處在一個與同儕切磋、講師討論的學習環境;如果你想要把手弄髒,自己完成一個資料專案,而非「光聽不練」!歡迎你參與DSP推出的《E1: 資料工程基礎班》,本課程邀請具有多元資料庫互動實務經驗的講師,以淺顯易懂搭配實務的教學方法,一步步帶領學員進入資料工程的殿堂。(《E1:…

用最熱門的R語言─航向資料科學的偉大航道

隨著科技的快速發展,人類逐漸能夠利用海量數據的方式,為自然與社會中的各種活動做記錄。在巨量、即時與多樣的海量資料面前,世界上各種棘手的難題,似乎都有機會找到解答。然而,解答的前提在於能夠藉由資料分析歸納出複雜問題的模型,進而預測答案。資料分析扮演了至關重要的角色。 在寬廣無垠的資料之海中,進行資料分析如同海上尋寶,最基本的需求就是要有一艘能夠乘風破浪的船艦。R 語言具有免費、跨平台、佔有率高、可塑性高等優勢,各式各樣的 R 社群蓬勃發展。在國際知名的 KDnuggets 論壇統計當中,R 語言已經連續三年獲得資料科學家最常使用的資料分析語言第一名。 透過經驗豐富的老水手領航,往往能夠少走一些冤枉路。DSP 設計《R 語言探索之旅》課程的初衷在於幫助有志一同航向偉大航道的夥伴們備妥出航的船隻,航向資料分析領域的藍海。本課程很榮幸邀請到

資料科學 in 白色巨塔

身為一位統計背景的資料科學愛好者,能夠應用所學來回饋社會是多麼興奮的事。日前到高雄參與 Code for Healthcare ─ 以醫療為主題的跨領域 hackathon,正是貢獻所學的機會。這樣的場合參與成員至少包含:高雄氣爆的受災戶、第一線的救災、醫護人員、醫事、醫務管理人員、資料科學家、系統工程師、設計師。 資料科學是一門實實在在的入世學問,理論與技術專精的資料科學家能夠與第一線的 domain experts 進行團隊合作才能完全發揮該學門的精神。前線人員提出他們面臨的真實問題,透過跨領域團隊合作才能夠提出確實的建議。譬如在這兩天的時間中,我所參與的兩個團隊分別提出: 高高屏地區緊急醫療能量的初步估計模型; 利用醫務管理平台的數據提出改善現有流程的建議。 已故劇團國寶李國修先生曾提到:「一輩子做好一件事,就功德圓滿」。透過跨領域的交流,讓不同領域的專家能協力合作,如此一來,成就的豈止一件好事? 本文同步刊載於《讀數一格》。

站在101鳥瞰資料科學

任何時代都有資料科學的問題,最早的資料科學可以追溯到統治者在處理軍役戶政以及農業畜牧的問題上,經典的例子就是人口調查與農產品改良試驗。 接著數據分析被應用到工業界中,譬如提高產能與改善良率的統計方法。同時,經濟學、社會學、生命科學…也開始透過統計方法來描述現象、驗證假說。近來計算 機科學發展成熟,資料儲存的成本降低,從大數據中萃取有用資訊的演算技術逐漸受到重視,這種從大數據中尋找挖掘可供決策的規則就是所謂的資料探勘 (Data mining)。事實上,從古到今資料科學的本質並沒有不同,改變的只是因應人類活動型態的轉變,使得數據的收集方式及其分析方法跟著轉變罷了。現在Big Data很熱門,卻也陷入Big的迷思,忘了資料科學的本質其實是在Data上。 談到Data,必須先說明資料如何收集。一般來說可以分成top- down與bottom-up兩種。所謂的top-down係指企業主在資料收集前,有既定的問題想要解答,譬如某樂利杯咖啡的企業想要訂定飲品的優惠行 銷策略,這時候必須透過收集各個分店每種飲品在各種時間與季節的銷售數據,甚至是特殊優惠活動時飲品的銷售記錄等等資料,進行數據分析以回答問題。另一種 bottom-up是從既有資料中尋找規則,譬如從前述飲品的銷售數據中,歸納出那些飲品組合最受到消費者喜愛,讓企業達到飲品事先推薦、飲品銷售預測等 等目的。當然,資料的收集並不侷限是top-down或是bottom-up,而是兩者上上下下的循環,藉由不斷的調整為企業創造最大的利益。以上例子, 可以被應用在一間小店上,也可以用在全台展店數百家的企業上,甚至可以用在全球五大洲擁有數千間連鎖分店的企業之上。對於資料科學而言,無論資料規模的大 小,透過Data來解決問題的本質是始終不變的。差別僅在於時代的進步,資料收集的方式比以往方便也更加多元。當然相對於可以在中小規模的數據上使用的統 計方法,套到大數據時會有運算效率不彰的問題,但我認為這是技術上的問題,並不影響基本的統計思維。 把問題收斂,如果企業主想要利用Data來 (無論是Big Data, Middle Data 還是 Small Data) 提升企業的營運,該怎麼做?第一步多半是想找一位精通資料科學的專業人才吧。但是當他們想要這麼做時,卻發現找不到這種人才。真的是這樣嗎? 我以為資料科學基本的流程是這樣子的: 列出企業想要透過Data解決的問題 記錄所有可能有助於找出答案的Data 從Data中萃取出規則以回答問題 每段流程都是獨門的學問,能夠同時精通三者的人才真的是少之又少,能夠識別這種人才的企業更是寥寥無幾。何不從上述三段流程各別尋找對應的人才呢? 企業主需要的可能是一位資料科學專家,也可以是一個實力堅強的資料科學團隊。從具有實務經驗的人才庫中尋找第一階段的人選;從具有資料倉儲經驗的人才庫中 尋找第二階段的人選;再從具備資料分析能力的人才庫中尋找第三階段的人選。而我所參與的 Data…