lee lovely

View all authors posts further down below.

大數據可以猛如潮水,水能覆舟亦能載舟!

3/9(三)當天最熱門的新聞大概就是Alpha Go擊敗棋士李世乭!人機大戰開打的敗亡,是否代表人工智慧已經造成人類的威脅則尚不可得知。但是,當晚我們在青創基地舉辦的Data Mixer 每一招卻想得是如何讓機器與資料的協作,幫助人類生命得以更加美好,所以資料如潮水能覆舟亦能載舟。 活化緊急醫療資源 – KAMERA 急診資料挑戰賽 自2010年起,高屏緊急醫療應變聯盟 (KAMERA project) 開發了一個跨院急診壅塞即時監測系統,是目前台灣最大型的緊急醫療監測雲端系統。DSP去年與KAMERA共同舉辦工作坊,將分享資料人與緊急醫療體系的合作經驗,包含括領域團隊的合作,從地方消防局到中央衛福部,到醫院這一段的緊急醫療資料動線有了完整的鋪陳,這一段資料旅程的寶貴是彙整了許多第一線人員,在現場實際接觸的動態情形更顯得來不易,包括對於送急診的司機大哥而言,他們希望有即時的資料可以告訴他們要將病患的往哪裡正確位置送去最得宜,未來這可以將理論與技術完整勾稽後,將得以協助跨領域團隊應用在醫事管理上更有效率! 今年DSP與KAMERA繼續合作舉辦資料挑戰賽,利用群眾外包的智慧,共同檢視高屏地區發生災難危急時,(1)什麼樣的情形需要和外部地區求援?(2)醫院各自平時和可額外承載外傷人數的最大乘載量又為何?對於參賽者的貼心小提醒!急診數據可能會有週期性,周間/周日要考慮,甚至是尖峰時段在哪裡?這個競賽到2016/4/10上傳到為止,歡迎各界高手來PK KAMERA 急診資料挑戰賽。 怪獸電力房屋 – 當開放資料遇上節電綠能 我們善用開放資料,將台電資料調出每戶平均用電量、總戶數、老人比例、總和所得稅、樓層面積等資料混搭與交叉比對,再把離群值挑出後,可以知道每個台北市行政區的村里用電量情形,目前可以分析爬梳出來,例如:(1)老人多半集中在士林區、(2)耗電量集中在內湖區賣場、台北車站區域,也許未來可以推估各自村里的商業應用找出價值,例如耗電量高但是人少的地區,可能需要檢視是否為老型住宅,可能需要老舊的管線或電器用品需要汰換;另外,有許多老人的區域可以開立有療癒系的商店,或是長照看護的診所等,都可以透過電力的檢視,將資源重新配置用在最需要的地方做調幅。 掌握機器學習的工具與應用 《

最棒的寒假禮物!「DSP 資料科學冬令營」真實感動同學的學習與收穫

這次我們DSP智庫驅動為了造福中南部的同學,有更多機會認識從資料思考到探索性資料分析的厲害之道,1/19 – 1/22特在中部靜宜大學舉辦「DSP 資料科學冬令營@PU」,此次同學們的反應可說是相當認真學習,和在北部舉辦夏令營的同學相較,完全是不同人文風格取向,有的專案會積極找尋商業價值,有的專案會思考幫助社會公益,不管哪種樣貌各有千秋,只能說同學們~大家該給自己一個最大的讚!這幾天陸續收到同學們的真實心裡話,這些真讓DSP的講師群們非常感動唷~    積極進取的同學A: 這四天學到了豐富的資料分析與思考的概念,從一開始的題目訂定、過程中不斷的的討論與互動、還有因為要改題目的方向的困難,一整天下來晚上還要繼續燒腦袋思考題目,而且組員來自不同學系背景,所以也獲得不少平常自己不會去想到的面向,而且還可以聽到其他組的分享,與組員互動相當有趣,受益良多。R語言也學到了不少基礎知識,遇到問題的時候助教也會提供協助,可以快速且順利解決想要解決的問題。 努力上進的同學B: 這是我第一次參加資料科學營,我覺得很特別,每組都有來自不同領域的成員,因為這次的活動巧妙的認識與共事,活動過程中,我接觸到許多有別以往的知識,如ggplot2、dplyr、用 markdown製作簡報以及資料收集和分析的方法,四天的活動很匆促,但對自己完成的專案覺得還不錯,很高興有這個機會,認識這麼多對資料有興趣的人,也謝謝老師這四天用心的帶領! 認真以赴的同學C: 這四天專題尋找,光是要決定題目要費了很大一筆功夫,方向以及深度都要全方位的考慮到,對於程式的初學者來說,要跑一些程式圖,完全幫不上忙,只能幫忙小組整理資料、資料分類。這四天來,真的學到了不少東西跟一些R語言進階程式,之前在學校只有學到股票分析以及如果算選擇權的權利金而已。 學習不倦的同學D: 記得第一天要在短時間內生出專案的主題時覺得超級困難,對於該找哪些資料、該呈現甚麼圖表也完全沒概念。但是後來在學習R的過程中,慢慢的迸出一些新的想法,也發現一些可以學以致用的圖,最後把它們呈現在我們的專案中,非常有趣。而且四天要生出專案雖然過程蠻崩潰的,但是很感謝講師及助教們,給了我們很大的幫助,也在每天報告完再聽講師及助教給我們的許多建議中,學習到很多簡報以及資料呈現的技巧。 團結力量大的同學E: 雖然當初是被主任威脅來的,但是這四天是個不一樣的新體驗,透過這次的課程,對用R的畫圖方法又多了一些,也知道了Markdown這個東西,這是系上沒有教的,是一種新發現;以往的報告總是和自己系上,有相同背景,這次的小組則變成不同背景的人一起做分析,有不同看法,對資料有不同認知,也會激發出不同的成果,很開心這四天的參與。 群策群力的同學F: 這次很榮幸參與這次的活動,從資料思考到視覺呈現,雖然我是財數系但是有coding的基礎,還一度被認為是資工系,還蠻容易上手R的,對於這次我最享受的應該就是跟組員們一起做報告的過程吧,大家都把各自的看家本領都拿出來了,讓我大開眼界。 反應聰穎的同學G: 本身是資工系,在面對大數據、資料處理時經常使用Database、Excel...等或是直接使用程式處理資料。這次來到這個營隊除了對R有了初步的認識以外,還學習到立即能夠派上用場的能力(ggplot2、ggmap...等)感覺收穫滿滿!感謝講師們的用心,講師們年紀與學員相仿較未有距離感也是此次營隊我最愛的地方之一XD! 集思廣益的同學H: 從一開始不懂R語言,到後面資料分析,四天之內大家都會利用回家一起討論,並且有問題就趕快更改資料內容,這樣的TEAM使我們大家迅速的成長,這樣的營隊讓我學習到不只團隊合作,在短時間內有效率地做出一個小專案。 合作無間的同學I: 在這四天裡,學到許多R統計語言的語法,也認識很多不同學校不同系所的朋友們,雖然已經放寒假了,但花了這四天假期來冬令營,非常充實,也非常有幫助性,多增加自己在資訊軟體的能力,對自己未來的幫助很大!很謝謝DSP團隊        每一次的夏令營與冬令營都是DSP智庫驅動走進校園,貼近各位國家未來棟樑人才的最好時機,所以每一回講師與助教也都全力以赴,希望能給同學們最好的認真態度,同學們~為了更好的前程,我們一起努力加油唷!

無遠弗屆拉近溝通距離的IoT與車聯網

昨(1/6)舉辦於金華官邸Start-Up Hub 青創基地舉辦1月Data Mixer「當智慧生活物聯網注入資料科學 DNA」,分享從當物聯網遇到智慧家電,以及車聯網中的技術秘辛哪裡耐人尋味的故事,此次好些相關領域與指標性龍頭業者積極參與,明顯感受到拍照率相當高又持久的分享會,可見關注程度很吸睛! 探索智慧家電的應用情境看漲 當互聯網+遇上家電變成了智慧家電,如何讓無所不在的家電有聰明的概念,到底要讓它們智慧化到應用的場景絕不只是連網而已,背後是軟硬兼具需要各種語言的交合想像大不同,從原型設計、組裝零件到市場量產。此次讓DSP智庫驅動 Tim遠征大陸、日本、美國等地走訪,明顯感受在地組成的智慧團隊文化差異性很大,因此未來的智慧家電,因著各地發展蘊底性格將造就不同的趨勢風貌,例如大陸地區有整個滿滿像光華商場的大型建物,裡面販售各式各樣的零組件,所以開發成本可以大幅降低。 而美國矽谷會看到工程師善用「群眾智慧」解決開發模組的問題,挑戰4天就要開發一個模組功能,隨時要有心理準備,當討論不到一半就有不少人像背後靈從中插入參與,透過高度腦力激盪多向溝通,讓原本空空如也的Github突然暴增就是因為互相點燃火花加乘靈感就來了,既隨興又不盲從的美國團隊合作精神。 想像IoT物聯網‬思維下的‎資料思考面向 從美國矽谷經驗反應出的面向,應包含big data, fast data, edge analytics and real-time insights」,當中的big data係指因為不斷成長而讓資料數據達到10B +Rows(5TB) 以上,像是風力、水力發電機的資料;fast data是指因為從Sensors感應所持續獲得的資料數據,應該也要1秒達到1M以上的程度才能稱之,這可以讓台灣的廠商思考一下自身產品獲取的資料規模是否夠大夠快,以及面對收集有用的資料與有效率分析流程的挑戰,反思一下台灣企業應該打理建設到哪個階段! 這10年內各大車廠紛紛自建數據中心 不難想像多螢幕載體乘載大量資訊的需求,隨著人類文明的發展,無感式接軌滲入了我們的生活,不只是智慧型手機,汽車上的多項精密設備已能接收大量數據,準確計算發生情境,進而推演這位駕駛行為背後的意涵,Jerry舉例VOLVO可能強調安全係數多一點的數據收集、雙B可能在意馳騁快感多一點的情境數據,各大車廠都想為客戶帶來更多備受禮遇的個人化需求,特殊差異化的市場發展是必然,所以從後端胃納的資訊拋到資料中心後,將形成這個品牌可以快速到各個國家發展在地化的數據網絡,資料所介接的開源技術體系其實很複雜龐大,基於服務層級協議多方合作,包含回饋到前端如何從「設計開發、供應鏈更迭、個人化保險、影像辨識即時支援、車內金流支付、自動駕駛、應用行為APP、代理商廣宣等」發展情境大不同,這些透過技術切分出的無痛式資訊幫助企業,確保創新與捕捉商機,間接提升了客戶對於汽車品牌的好感度大幅提升,所以從資料角度來看羊毛出在狗身上,還是狗自己因為自己的喜好習性被重視,得以很樂意的付錢。 大膽預見車聯網即將發生的效益與挑戰 1.透過汽車平台銷售「產品」變成提供各式「服務」;2.產生同業競爭差異化,與創造破壞式創新;3.強化客戶體驗,與消費者關係更緊密,CRM更確實;4.縮短製造與開發時間;5.因為擁有獨一無二的資料,品牌更清楚您的客戶需求,提高競爭力。 同時,在準備踏入車聯網這個龐大體系燒錢之前,請認真思考傳統思維是否能夠轉變?供應鏈網絡的廠商是否願意被整合? 產品結合服務後是否能夠真正落實?解決資訊安全可能造成的疑慮?以上皆是的話,歡迎你一起透過車聯網讓人性應用面向更偉大的航線。

資料人同樂會~用心感受資料帶來的人性與溫度

昨(12/11)於金華官邸Start-Up Hub 青創基地舉辦「Data Mixer資料人同樂會」,DSP回首本(2015)年度我們與大家一起用資料完成了哪些重要項目,對於台灣這寶島而言,是新創企業發揮創意,與傳統企業知曉轉型,欲多加善用開放資料(Open Data)與大數據(Big Data)活躍度大增的一年,相信結果對於產官學研與社群都有的滿滿收穫,也有意想不到的精彩,例如前(12/10)台灣在國際組織OKF的開放資料評比( OKF Global Open Data Index 2015)名列第一的表現榮登多家媒體報導,看待此國際競爭仍有各自表態,不管是名次、項目還是指標導引績效實用度等操作內涵,且待大家2016年資料力更加精采可期! 協助非營利透過資料追求更美好 DSP Johnson知識長提供「公益加值資料工作坊」幾個有趣的成果貢獻,例如雙連視障關懷基金會探求【視障按摩師的就業公平機會】用各項圖表超完美展開視覺化的呈現,更有條理的解析視障按摩師在時間、收入與地點的分布如何做調勻與開發機會;瑞信兒童醫療基金會關心現行【病童申請醫療補助人數下降】似乎與常識理解並不相同,所以透過探索性資料分析 (EDA) 了解背後真正原因,才得以幫助真正需要的病童;台灣環境資訊協會希冀了解因從事工業活動產生的【重金屬排放小旅行】如何汙染這片土地,進而影響台灣人民的健康情形。 雖然工作坊實際只有一天半,但能藉由跑完大量且有效資料產出的價值已很驚人,資料視覺化的呈現更讓大夥兒嘖嘖稱奇,認真看待這個環境已有的直接與間接問題,最終能更有同理心的想要發揮資料的力量改造社會的大問題,這裡的溫暖不再只是想想而已,而捲起袖子不等於走向街頭,我們透過資料科學的方式積極參與,這份心這個力道其實真的可以做很多有益福祉的事情!   推動政府採購資料走向國際舞台 今年DSP智庫驅動與法人單位合作進行一項重要的國際參與,以CKAN方式透過實質的資料力量,將年達上千億經濟規模的「政府採購資料」放進世界的脈絡中,對於政府、企業、納稅人來說這個生態圈是值得關注的重要議題。剛好,台灣現正朝向以科技化方式透明治理,故而透過本專案影響作用,希冀朝向更簡明的方式將其標準化或建立完整SOP,便於管理人檢視資源配置是否發生物以類聚或是高度集中化情形,得以有效率挹注關心,所幸現已有政府機關願意積極共襄盛舉,另外,參與這個具有代表性的國際組織,藉由互動式討論出的合作議題所帶來的活絡效益,相信後續發酵會越加明顯吧!   用資料科學看商圈選址的現代風水 對於零售業而言這是一個很大動盪的一年,從松青超市易主可能就是零售量販與超市的版圖轉移,現在的資訊情報透過非常多樣化的資料混搭 (Mash-Up),才能得以更精準的計算與競爭對方的相對距離有多近,這次的主題實況展演真是太精彩嘞,藉由商圈的評估與選址精密的計算點、線、面之外,還添入了許多開放資料集與蒐集超混搭內部的重要情報,經測量多維度的時空交錯所跑出的Location、Location、Location,相當於人流、金流、商流、資訊流做完密集整合的體現,這就是看商圈錢潮最佳風水的科學法門,就不難想見這是個具有聰明腦曉得提早擁抱與應用資料多樣性的企業,勇於追求知己知彼,百戰不殆的至高境界!   「健保核刪」關係著周遭每個你、我、他 台灣的健保財務資料目前尚未全部公開,但是過程中已產生的核刪資訊結果,卻可能是影響病患實際就醫品質的重要風險,欲收集散落在各地「申報:核刪」資訊做比對檢視合理性,到底是否核刪資料有跡可循,還是可能是沒原因沒道理的輪流問題?如何讓醫師無壓力地提供給病患有品質的所有選項,避免不得已可能會被刪的有限選項?是否牽涉哪些利益團體,可能間接損害國民的健康,造成國力逐步衰微的徵兆?這是個全民繳健保的時代,相對地也應該能逐步掌握知的權利,大家除了追問頂新問題,也可以透過資料作其他項目有意義的實質貢獻,歡迎有志之士響應這個關心全民的資料公開活動。希冀最終能屏除不必要的浪費資源之外,也兼顧民眾能更安心掌握健保補助的醫療狀態。   DSP與各位愛好資料的夥伴們~年終歲末之際回首本年度,因為資料多樣性賦予豐富產業生命力,能為眾多領域帶來嶄新變化漸露萌芽且紮實的進展,DSP時時與各位一起關心資料相關最新動態,期許未來2016年的各項應用領域更加如實如質地蓬勃發展!

跨域動腦想像力,整合資料促公益

日前(11/6)於金華官邸Start-Up Hub 青創基地舉辦以「Data for Social Good」為二次深度主題的Data Mixer資料人聚會,比上次(10/7)的D4SG議題又更聚焦了些非營利組織的故事,DSP智庫驅動與開拓文教基金會祈願幫助即將在11/28-29的公益加值資料工作坊暖身,透過更有品質與概念的資料集中借題發揮找端倪,善用不同的資源整合找到最大的符合效益。 今次提出初步資料並發想議題概念的朋友們,包含「瑞信兒童醫療基金會、大渡山學會、國際生命線台灣總會、中華民國家庭照護者關懷總會、‎主婦聯盟環境保護基金會‬、‎雙連視障關懷基金會‬」等提出他們自己尋找已久的疑惑,欲徵求跨界領域的不同朋友和他們作伙,用不同的思考方式或是動手做,希望能釐清未知的線索,目的並不是在超級短的時間內求出最精準的答案,但是細分資料內容的過程中,即便全然去個資識別化,仍足以有不同樣貌的故事脈絡有跡可循,這些案例其實從不遙遠,只不過是發生在每個大城市、小角落裡不同大小人物的真實事情,傾聽他們娓娓道來!   善用資料擺對資源,找到對社會的真心關懷與純愛 除了事先預備的議題,現場加碼的朋友也都很厲害,故事信手拈來,列舉如下: 少子化是必然,但兒童在尚未長大成人階段,所遭遇到的醫療環境是否能適當配置資源,尤其當與補助條件下的量化數字做優化,比對家庭經濟因素質化條件,這些結果可能不一定如大家所想像。 同樣地,少子化延伸到高等教育的實施,如果大專院校的部分轉型會是應然,那該如何提早讓學校這端預估學生對某些科系的學習意願,利用學校的強項資源,幫助未來學生發揮他們的天賦潛能。 早期社會與現今社會所面臨的狀況大不同,有人是為了學業、工作、婚姻、人際等原因求助於生命線,透過自1986年後至今長達30幾年資料累積,不同資料欄位,除了一般常見的屬性,另外還有更細緻的標籤,例如星期、談話時間、用語、原因等,不常見但很有特色,如能找出高危險群因子的徵兆,或許可以更早幫助解決這些個人化的窘境。 少子化對應的就是老年化,這個龐大的社會議題不只是勞動人口的老化,更是經濟體制的縮影,現在的我們已經感受到需要對需要照護者的關懷,繼5月通過長照法後,希望也加速通過長照保險法。期待能夠整理出全台灣的照護機構、可用床位等服務能量,也能夠讓民眾知曉鄰近居家地區的所在情形,讓未來開放資料與開辦長照計畫有政策上的實質結合。 非營利組織可以被想像到如財務短缺、志工招募等議題,還有身心障礙者如視障者具備工作能力,但遇到組織調人力、成本等資源協調考量該是怎麼配置,也蠻常見於眾多不同類型組織,但非營利項目可能條件無法用精確的數字衡量計算,使用的標準不標準對於管理人員又該怎麼看待。 這些事情都在台灣活生生的上演,這麼多值得感動你我他的故事,最美麗的風景應該是放下身段服務社會的人心,關懷大眾的你怎麼能錯過11/28-29在南港的「公益加值資料工作坊」,歡迎非營利組織工作者、政府工作者、社會企業實踐者、資料分析師、資料工程師、說故事的人,敬請提早報名以免向隅!

學員心得分享~當真實資料遇上饒富趣味的AB Test

非常感動身為培育未來「資訊科學」種子的我們,今天收到了來自教育訓練學員聖翔最真誠的心得,與老師們分享他此次對於 AB Test 課程的個人感想,讓學員們本以為一段話可以帶過的實驗設計,沒想到同學字裡行間充滿了滿滿地學習熱情,面對真實資料的的挑戰動力越來越帶勁,同學們~你的學習精神真是太讚啦!近期還有資料工程和資料思考新課程,對真實資料有興趣的朋友也不妨來看看啦! 資料分析也需要SOP的聰明概念 課程開始先由智庫驅動DSP的Johnson介紹模型思考(Model Thinking),解構每個步驟再開始講解細節。以往在學校或媒體報導上,常會聽到現在最夯的就是「大數據、開放資料、資料探勘」,但每次在腦中都會先浮現對它們的憧憬:「我自己也想來做做看阿!」但不久,內心馬上會有個大疑問出現在腦中「啊!我到底該怎麼下手第一步?」。 Johnson的引導式教學,解除了我一直都在心中盤旋不去的大疑問,同時,我也發現它們其實就是統計學的延伸應用的一部份,也聽到學校提過的ANOVA等統計用詞。這時我心中非常的雀躍,在這時終於感受到在學校所學之知識,可以應用在課堂以外的地方,拿來分析社會上非常現實的真問題(不只是森林中的鳥巢、投擲不同顏色的球到箱子等案例)。透過有系統的資料分析流程,再加上Johnson都會詳細把所運用到的統計理論再加以說明,不但使我在第一時間可以順利的去理解「資料分析師」所做的工作內容,重新審視自己對統計學的理解與應用程度,點燃新的興趣。   企業面對真實問題該怎麼檢視 還在校園中學習徘徊的我,很少有機會可以接觸到企業真正面臨並試圖解決的問題,但和參加這堂課的同學們聊天過程中,漸漸接觸到了這些有趣的問題,也在小組專案討論中運用所學的分析流程,和組員們討論如何設計解決問題的方法,例如旅遊業者資訊長所提出的問題,是存在於我平時想也沒想過的小細節中,想要知道在旅遊業者的買家在整個購物流程中會發生的事情。可惜的是課程時數太短,實際的演練先到實驗設計,希望以後有機會更深入探討,或在真正的實務上可以自己找出實際有用的問題點,做解剖後實際的去設計AB實驗並取得應有的資料,再透過所學的方法分析資料,導出一個具有價值的資訊。   誘發具價值指標的學習目標 最後,智庫驅動這堂 AB Test實驗設計課程,使我深深的體會到校園比較缺乏的東西,就是「具體目標」。因為沒有這實質目標,讓同學徘徊在學校的課程學習中,但不知道可以從這些課堂中,所學之知識真正的應用該執行在何處,因而無法以身感受興趣,最後導致沒有動力而頹廢。我覺得這種課程得需求應該不只是在企業上,也在還在努力尋找人生方向的學生們上。一個小小的契機,也很有可能會萌發出一巨大能量的可能性,讓現代得年輕人更有動力的去追求新知,為台灣未來做出有意義的貢獻!

善用資料力成為造福社會的推進力

日前(10/7)於金華官邸Start-Up Hub 青創基地舉辦以「Data for Social Good」為主題的Data Mixer資料人聚會,滿滿地好朋友、老朋友和新朋友們齊聚關注~如何善用資料的力量,讓社會公益的資源挹注,能運用的更有效率、更具價值,好讓每個希望的種子本身就有能力展翅飛翔!我們一起用資料的力量改造社會吧!   Data for Social Good需要你、我、他 DSP智庫驅動的CK執行長介紹了「

與中央部會攜手合作,資料跨界思考助決策

今(104)年8月6-14日,由智庫驅動、國家發展委員會及開拓文教基金會聯合主辦為期4天【公共政策與治理 - 資料思考工作坊】,在班主任 行政院副院長張善政引領之下,參訓學員為跨20個中央部會30多名菁英種子,各組初探以房價、農業、消防、選舉、交通等為研提方向,領域專家學習遇多樣化資料取捨時,運用不只是以IT背景者所會的專業知識,更善用資料多樣性做活化發揮,期以未來擬定策略發展貫通脈絡之一致性,或是改善便民服務措施更親民。各組專案成果初探表現具風範,不僅實踐跨部會密集溝通交流,更促進創意發想層級找問題大不同,藉由資料混搭應用完成的雛型,經初步發現了些重要的因果洞見,這些蛛絲馬跡的線索仍值得後續釐清與追蹤。 班主任 行政院副院長張善政與學員們於結訓交流分享心得及經驗,首先,各部會仍需加速完成資料盤點綜整情形,藉由透析不同類別的有用資料來源,各部會相關單位才得以互相支援利匯報,以提供混搭應用的實踐基礎。再者,目前遇到眾多資料,經檢視欄位屬性應與其他單位所擁有資料具高度相關,卻遇到疏漏缺疑之憾的瓶頸,應查明是否排除無法取得的原因,如能跨部會直接取得綜理,以利整合到位,得節省大量的人力與時間成本避免重工。最後,從過去缺乏資料可用至今資料氾濫成災,面對大數據多亂雜疑的當下,現今處於撈取、清理、彙整、分析、建模的不斷循環過程,需要歷經反覆幾次的檢視再檢視,稍能解決當下的難題合理性,但驗證到源頭的真實樣貌,如欲做為提早發現的警示功能防弊端,這些見微知著的過程與功夫還需花上些時間,不管是統計回推或預測這是持續的過程,期勉各位齊努力。 這4天的學習與經驗交流,智庫驅動講師們不斷提醒著學員們如何利用資料創造價值,應有目的性地做資料分析,需要在資料分析流程中釐清各資料層級,當完成EDA資料分析後,並注意到資料邏輯性、因果性及限制性,才會產生資料建模的真正關係,以免結果缪誤失真理。此次課程提供了諸多國內外政府施行的應用案例,與視覺化分析的多項運用,提供各部會學員後續延伸發想之參考。國內於推動Open Data邊學邊做至今,更加清楚理解應以最後目的而開放,而非以開放為目的。此次跨20個中央部會種子擦出高度創意火花皆表現亮眼,相信國內政府機關未來推行與擬定發展政策時,透過資料思考到爬理分析,將更有效率地幫助執行團隊展現兼具高度、廣度與深度的重要決策施行。

A1資料探索疑無路,柳暗分明又一村

Numbers have an important story to tell. They rely on you to give them a clear and convincing voice. -- Stephen Few 《A1資料分析基礎班》進行至第四天,對於化身為資料分析師的各界菁英們對於手上握有的資料集更加深刻有感,自己提案自己做,從資料整理到資料探索性的視覺化,各組學員們無一不捲起袖子用各種剛學到的資料視覺化的技巧挖掘潛藏在資料深處的寶藏。 學習R語言很難,想在短短四天把R學起來做 EDA 更是難上加難。有賴講師群的努力,透過多年實戰經驗,選擇最有效率的分析套件,把 R語言的學習路徑縮到最短。在實作課程中,助教群更是手把手地解決學員各種疑難雜症,使得學員得以在密集的課程中,展現令人驚豔的成果。 從第一天講述的「資料思考」(data thinking) 開始,到最後一天的「數據為大」作結,講師們替學員破除「大數據」(Big…

A1眾裡分析千百度,資料卻在組織闌珊處

分析顯而易見的事情需要非凡的思想。- Alfred North Whitehead 連日來的滂汑大雨,卻未曾澆熄一群來自專業經理人、工程師、研究員與醫師等不同從業菁英對於資料分析的學習熱情,甚至一整個企業部門的專業團隊假日和大家一起求知若渴對於資料分析的無限想像,從 data thinking 到 data exploring 過程裡,激盪不同資料集透過 R語言 探索出資料背後的故事。   為什麼 探索性資料分析 (EDA) 為何如此引人注目? 資料分析師 通常透過有效的層級分析後產製大量的作圖,善用視覺化的呈現使資料更加有感親合,得以適度的看資料圖示說故事,能夠幫助管理階層回饋到現有的環節做出好決策,甚至形成未來的影響力,良性循環所帶來的影響都會優化管理的下一步,不妨從本期學員兩天初步探索資料心得,觀察他們已經具備 data thinking 能力,例如:     ※比較區域車數,爬析YouBike增設站點分配。     ※藉由車數與天氣比對出各站點成功租借機率。  …

R語言大進擊!奮進的DSP Data Camp@NCCU

經過一天半的集中訓練,將各位學員的 #R語言 從基礎到Regression的潛力都迸發出來,也讓同學再行檢視第一天所構思的主題是否已釐清問題與細緻化,接著開始試做小部分資料集,把內部資料集與外部資源重新整合好達到產品的最小可行性。明天就要正式上場的成果發表會,今(1/21)看到同學們努力奮進地再探過程囉! 1.「我愛劉金標」   2.「Ubike微笑調度」   3.「叫我包租婆」   4.「You-UBike」   5.「DSP學生省錢大作戰」   更有趣的內容,敬請明天繼續期待最終回DSP 資料科學冬令營,無緣沒跟上隊的朋友不要氣餒,1月底還有4天的《A1: 資料分析基礎班》,座位有限趕緊報名吧! 註:成果授權方式:各組產出作品成果歸屬該隊成員共有,他人若轉載或引用在商業用途,請務必取得作者同意並註明出處。 進擊的資料分析班 >> 《A1: 資料分析基礎班》顛覆傳統的教學方法,透過四天的密集課程,從資料思考的訓練開始,使用適當的商業案例與分析工具,帶領學員由淺入深,探索資料內涵,瞭解並描述資料與資料之間的微妙關聯,進而建立解釋資料趨勢的統計模型。最後,經由分組合作,綜合演練所學,完成一個小型專案。 開課時間:2015年1月31日、2月1日、2月7日、2月8日 詳細資訊

快樂的寒假熱活學習就在DSP Data Camp @NCCU

今(1/19)來自來自台北、新竹、台南、高雄以及屏東各地的同學們,一起聚集在政大DSP 資料科學冬令營邁向 #資料科學家 的路徑,首先#NCCU 陳百齡老師勉勵大家在這個創新的實驗會有不同資料的火花呈現,接著DSP CK和同學們說明這4天的遊戲規則,相信戳合不同背景、專長、性別的多元思維,這番資料思維大作戰將會很有趣。   一開始熱鬧登場的講師Rafe帶著各位同學用 #群眾智慧 一起來重新想像定義到底什麼是 #資料思考 ,由邏輯、有資料分析、有理論基礎下如何有個聰明的開始,才能從Data到Information往Knowledge進行。即便在強大的Coding找出解決問題的一個「點」之前,仍應該要先釐清定義好問題,能從Mind Map爬梳你的TA在Low power單一訊息要如何往High power移動,找到真實的Root Cause。當中有位同學舉例了在他創業中真槍實彈的經驗,促成他很想要來參加冬令營的重要理由,就是極度需要在 #商業模式 前驅動作的 #資料分析能幫助釐清大前提以便優化轉換率,來看看Code for Healthcare經驗什麼是達到好的混搭 mash up。   下午緊接登場的Alto老師告訴我們如何從雜亂無章的資料中,能夠找出創新的想法後再重新分類,例如紐約311一張來電圖就能表達時間、比例、項目等,逐年檢查後仍被客訴最多的項目,未來可能將被優先立法的方向。現在Big data的時代可同時讓線上調教的工具相當多元且更簡易,而對於所蒐集到資料的方式,一定要反覆去詢問及檢視,同學不妨也可以進階學習如Vlookup等功能,把文字資料抓進來後要有效率如何整理,如果出現規律就應該檢視這個區塊,例如利用3個資料集開始進行更聰明的分類,檢視像是排序是否有可能重複或是有些空格有特定意義,每次都要思索做完後是否還可以聰明再進化。   各組第一回初步發想: 「叫我包租婆」 「省錢大作戰」 「U Bike微笑調度」…

R語言的探索之旅,教你按圖索驥從0開始

12/13(六)《R語言的探索之旅》在冷颼颼的一大早,學員們仍舊精神抖擻地準時到課,雖然帶著些微惺忪未醒仍興奮地想學習超好用的R工具,講師Wush開始說明了R是來自世界上最專業的統計學家,還可以輸出高品質的視覺化,以及如何創造驚人的潛力,能夠容易和其他工具整合的優勢。 圖片出處:Statistician Careers Information 一開始的時候未接觸過的學員容易在操作介面上卡卡的,所幸Johnson知識長和我們可愛的年輕的女性助教們下場耐心指導,立刻解決學員第一線的問題,操作過程沒有誤差到能馬上跟上講師的進度,由淺入深的過程講師Wush都在課堂上再次複述,好確認解答學員的好奇發問,並用我們提供的台電資料進行小練習或小挑戰ex.「計算各年度製造業的用電量是社會服務業的多少倍?」、「選取出版業合計的歷年用電消耗資料」等等。以藉機來測試一下學員是不是真的知曉會操作了?這個路徑總是要痛一回後才能往後深度邁進,DSP專屬學習地圖上(如下圖)的A0表示這是一個重要源頭而不是結束,其中挑戰路徑還有更多元豐富的進階可以學習進展,因應OPEN DATA開放資料和BIG DATA大數據混搭多元的未來,相信學員將來和公司其他跨部門溝通R語言的過程中,可以深深感受一個共通的基礎上發揮更好效益,不再雞同鴨講了。 雖然本次許多學員以前沒有接觸過R語言,中間休息時還有不少學員渾然忘我的練習,彷彿忘記了時間的存在感,直至最後下課時好像燃燒了不少體力和腦力,有點難度但是都是非常值得學習的挑戰經驗,開始認同R的神奇魅力,也期待下一階段進階班的開立。預計未來的2個月,將會按「DSP專屬學習地圖」如下規劃陸續開設屬於「經理人」和「分析師」的相關課程,歡迎各界朋友關注我們的最新消息。

12/28「政府標案黑客松」~歡迎有志的您一起幫政府採購資料開竅!

一、緣起 DSP 智庫驅動本著社會服務的精神,將政府電子採購網歷年公開決標資料轉換成便於分析的資料表,目的在於讓政府的資料更透明、更親民[註2]。適逢國家重大選舉,在諸位新官上任之前,我們號召各界有志之士,透過科學性資料分析,檢視政府採購預算之使用情況,找出問題,發現契機。 • 資料,我們準備好了 • 領域專家也邀請了 • 就等大家一起來揭開政府採購的神秘面紗,幫採購開竅吧!   二、活動資訊 • 活動時間:2014 年 12 月 28 日(日)09:00 - 17:30 • 活動地點:台北市復興北路一號三樓之2 (深擊設計) • 主辦單位:DSP 智庫驅動、Code for Tomorrow • 推廣單位:OKFN…

面對大數據,我們透過管理攻略正在挖掘資料金礦!

今(11/27)來自不同領域的菁英們專注探究《大數據時代的管理攻略》應有的態度與思維。BIG DATA至今在各行各業都能應用上,從零售、顧問、航空、建築、金融到食品製造業等都有用武之地,還有許多重視資料價值的利益相關者,然而BIG DATA的迷思並不是多就是好,問題在於如果都是同一種資料的差異性不大,筆數多少反而不是問題,重點在於需要不同「多樣性資料」才能交叉分析,例如紐約收到311通報下水道經常堵塞的原因排放很多種,當中有些是家庭或是餐廳不正當排放,如何稽查2萬多家餐廳查出違規的大量排汙業者?試圖把「餐廳名單與下水道地理資料、與有處理購買排汙服務的業者」交叉去看,發現過濾後的違規名單比對高達95%,因此應先把小資料處理好再處理大資料才是正道。 CK(劉嘉凱)提到如從行銷角度來看,解構BIGDATA這幾個字(也是縮寫),可以由顧客模型、智慧預測、微細的行為追蹤、跨裝置限制、歸因模型、即時性、可行動性釋之。但目前公司組織遇到的多半是處於物有不足(工具)、智有不明(專業領域知識)、數有不逮(數學統計),要如何跨領域做資料分析,所以更需要使用資料科學方法帶來好的資料分析,以解決真實世界的問題,舉凡現在不管是醫療產業,還是智慧城市都有了更深入的應用。 資料思考掌握資料即是資產是經濟資源,對應到人資應該開出什麼職缺?才能幫助公司營運效率提升。例如Capital One從小公司開始勇於挑戰創新,一開始就嘗試計算出信用卡資料,應該針對不同顧客模型做差別定價跳脫傳統思維大翻身。從資料中萃取知識到建立資料分析思維,進一步塑造資料驅動的企業文化。 首先,可以觀察公司組織拿資料驅動做為決策類型,到底老闆想要解決的是一次性?還是經常性問題?例如預知美國颶風來臨前,多放一些事前準備物資,WELMART關心的不只是常見手電筒,而是利用BIG DATA跑出「啤酒和草莓餅乾」當作真正存糧因應。資料分析的目標不僅僅是從BI商業智慧知道發生了什麼狀況之外,還要能輔助進一步未來能做出什麼決策,因此資料科學的角度來看,需要一個清楚全觀的PM來確認背後動機、該問對什麼問題,再把資料處理流程中從工程師到分析師對應不同技巧的需求,來幫助公司做決策的技巧,包含和團隊中的溝通及專業知識,從「DSP學習地圖」了解每一種角色類別(專業經理人、工程師、分析師、設計師等)該如何入門下手,循序漸進的脈絡幫助你或是公司的資料達到成熟度,包含每個階段的需求不同,關心如何取得資料→描述資料→探索資料→預測→行動建議。 這是資訊爆炸的時代,也是注意力缺乏的時代,如何讓你的公司向REAL-TIME MARKETING終極目標前進,尤其現在是社交網路和手持裝置與帶動BIG DATA的興起,讓FUNNEL到CUSTOMER JOURNEY的每個階段都在產生許多資料,如何從顧客一進門開始就開始計算他的背景,並能合理預測推薦,當中眾多行為其實是跨地理疆界,看看國外競選的方式知曉釐清差異性後,漸漸拉出許多傳統無法計算到的境界,今天我們用眾多的個案來檢視他們背後的DATA-DRIVEN,讓學員紛紛學到對應的真正TA是誰,才能設計出對應的行銷方法。 Johnson(謝宗震)提到的資料分析心法,資料科學的方法從觀察現狀、問對問題→將問題轉成科學模型→進行分析計算→將結果導回「真實世界」的問題,在有限的時間下要如何分配學習資源呢?在2013年底試做一個關於當時新聞報導豪宅的小專案,先定義問題:如何「預測」頂級豪宅的市場價格?找出影響成交價的重要因子,及預測相似物件的市場價格,跑出結果和當時最後「實際」最後成交價相當接近,雖不中也不遠矣! 但資料也是有極限的,數據化的紀錄總是會喪失部分訊息,BIG DATA的議題中要關心哪些資料是重要的?以及資料蒐集的方法也許必須先釐清,重點不在大資料還是小資料,而是哪些變數因子是重要且有用性,不管是拿來找結果還是做預測,才能精準判斷好的行為驅動,例如1948年最具戲劇性的美國總統大選與民調結果失誤差很多,WHY?檢視背後操作方法,當中「隨機抽樣」是非常重要的。 Jerry(吳柏翰)帶來的「實際商業個案」讓所有學員聽得津津有味,即便到最後大家保持精神抖擻的專注聆聽著,到底是什麼魔法讓大家看的點頭如搗蒜呢?老闆總有想知道的績效問題,大家一起來挖掘資料金礦,包含透過三個不同產業特性找出「誰是高利潤(肥羊)客戶、誰會當叛逃客戶、到底是哪些商品該一起搭售」?除了經驗判斷外,我們手上握有資料集的時候,還需要更資料科學的作為,首先定義好老闆到底是想要知道或是解決什麼問題?例如目前各大電信業者很關心手機門號的客戶租約一旦快要到期,是否有可能分析出他是否會被其他業者吸引而跳槽?是否現有業者需要提出更好的方案當作誘因? 問對問題並找對真正影響營收或利潤的可能變數,並且要用正確的方法分析,Jerry用好幾種方法一步步帶著學員解析過程,最後大家還能清楚知道真正的結果與背後意義到底是怎麼被換算出來的,並破解傳統一次性結論的盲點,才不會產生見樹不見林或是見林不見樹的謬誤,則造成預估與實際誤差很大,只有用對好的方法才能讓大家縮短夢想與實際的差距,所以同時呼籲為什麼需要「資料科學團隊」,因為幫助的不只是個人資料思考的延伸,而是帶來企業以資料作為決策的輔助工具,讓你的公司組織運作起來更有效率! 今DSP智庫驅動和經理人月刊合作的課程很精采,課後仍有許多學員排隊等候與我們激盪不同的想法或想進一步學習其他進階內容,包含12/13 《R語言的探索之旅》也讓大家非常期待,不管學員們想要來課堂上課吸收新知,或是徵求企業內訓、企業諮詢的朋友們,如果有進一步需求,歡迎與我們service@dsp.im保持聯繫。