lee lovely

View all authors posts further down below.

11/22 DSP資料狂想派對~感謝各界共襄盛舉

風和日麗的美好星期六,很高興能和大家聚在「天地人文創」,參加「DSP資料狂想派對」就是Opening Party,分享從社群走向公司的喜悅。 從Code for tomorrow和SYSTEX/Etu共同發起的子計畫Data Science Program開始,在這一年來,DSP成功舉辦數次規模不同的課程與主協辦、參與SmartGov政府開竅會議與Code for Healthcare工作坊等及Hackthon活動,而在各界絡繹不絕的需求之中,我們也發現作為社群不足之處,DSP 智庫驅動便誕生了。 活動一開始,由DSP智庫驅動大家長劉嘉凱(CK)為大家解釋何謂「資料思考」,也就是透過資料分析、發揮資料價值,來解決各層面的問題。其實資料與我們並不遙遠,只要用對方法,透過循序漸進學習,甚至進一步導入組織現有管理流程。 Johnson :

DSP資料狂想派對

  資料的大量增長已經是事實,如何提取資料的價值,也成了社會、商業與政府的共同利益課題。綜觀資料價值的提取,資料科學的能量,在不同的領域,均扮演關鍵的價值轉兌力量。 資料固然很有價值,但是需要「人」去發掘、去運用。 為解決社會各界資料科學人才嚴重短缺的問題,全國第一家以培育資料科學人才為目標的社會企業「DSP 智庫驅動」(dsp.im) 成立了。 我們的三個發展方向: 透過教育訓練,培養資料科學家解決真實問題的能力。 提供顧問諮詢服務,協助商業、非營利或政府組織導入資料思考以提升營運效率。 發揮資料力量,解決社會問題。 我們誠摯邀請 DSP 的老朋友、想要探索資料科學的樂趣或是想用資料力解決社會問題的新朋友,前來與我們交流,聽聽我們的理想,瞭解如何參與,或是給我們一些指教。 活動資訊 活動時間:2014 年 11 月 22 日(六)14:00 - 17:00 活動地點:天地人文創(台北市齊東街 74 號 1 樓,捷運忠孝新生站 2 號出口,往齊東街7分鐘) 活動議程…

橫看成嶺側成峰,遠近高低各不同,未識故事真面目,只緣身在資料中

今(8/3)延續第二天的 DSP 課程「看資料找故事工作坊」,一開始由講師嘉凱和柏翰先幫大家暖暖身,複習昨天實作重點,緊接著學員們腦力激盪與資料產生火花,好構思 team project 發展主題。 一個精彩的故事值得傳頌千古,話說好久好久以前… 但同學們謹記在 pitch 前,先思忖清楚在採購資訊生命週期中,將檢視標的範疇、時程、金額等關鍵欄位哪些是必要或需求的資料盤點,及該用哪個解決方法。有趣的是在聚合多面向資料時,如何將洋蔥層層剝開不流淚,問對問題、找對方向、發掘關連,好在開放資料與海量資料裡直指文本分析脈絡而不迷路。 當各組發表專案主題時,關注面向豐富多元各有巧思極具創意,例如工程類、教育類、標案類等,此時功力深厚的助教們隨團協助辨識出真議題,幫助各組直指核心問題及實作轉換資料時困難之處,在這些饒富趣味的議題建構下,不斷反覆在假設與驗證擺盪,運用邏輯不斷檢視正確性,或是純屬訛誤非異常。一張好的圖表勝過千言萬語,但發現冰山底下的關鍵指標卻往往更驚人,交織出的數字與故事抽絲剝繭,即將發現潛藏的意義。 在有限的寶貴時間裡,大大小小的資料與圖表交疊,各組發揮創意,點出幾個大重點實屬不易,只能說橫看成嶺側成峰,遠近高低各不同,未識故事真面目,只緣身在資料中,值得後續再追蹤觀察,各組重點如下: Love TW愛台十二建設:試圖整理標餘款與機關關係。 公務員出國追追追:歸類考察事由、地點等。 孩子的教育不能等:關心教育建設的資源配置。 95281:欲追蹤限制性標案分類情形。 誰在做豆腐渣工程:匯理最低價得標者與稽核情形。 最後,由講師宗震及其他講師、助教分享個人學習歷程,期許學員們能夠成為全方位資料科學家,統計、程式、專業三大項度中扣合深度,這是一條提升層次的必經要道,經過這一番學習洗禮,相信大家不僅能成為 sexy 的資料科學家,還能有所收穫再上一層。

千萬資料可以化約成幾個數字,但每個數字背後都有一個故事

這是最好的時代,也是最壞的時代;這是智慧的時代,也是愚蠢的時代;這是堅信的時代,也是疑慮的時代;這是光明的季節,也是黑暗的季節;這是希望的春天,也是絕望的冬天;我們什麼都有,也一無所有。ー狄更斯《雙城記》 在波濤洶湧的時代浪潮下,更值得我們用心省思,該用什麼角度來關懷這個社會,例如前(7/31)發生高雄氣爆事件損失重大,然而 Code for Healthcare 更早前於高雄開始關注醫療品質改善相關議題,這次事件讓更多朋友挹注關心,欲知善用資訊可以更有效率協助更多需要幫助的待援角落。試想如果我們能善用資料科學,用真實的資料爬梳出背後,來驅動改善週遭的大小環節,或許每個人的小日子在大時代底下,可以過的更從容自在,讓生命的故事更有意義又精彩。 今(8/2)由 Code for Tomorrow 籌備委員會與 精誠集團/Etu 所共同舉辦的 DSP 課程「看資料找故事工作坊」熱鬧登場,此次有許多各界菁英與會聆聽,這次使用的資料與機關採購相關,這麼酷的事讓每個人都聚精會神聽得津津有味,眼睛都亮了起來! 首先登場的講師 Code for Tomorrow 的徐子涵,帶領大家從資料當中找出故事的脈絡文本,可觀察英美數位媒體發現許多趨勢並非舊事,多能善用資源經營更細膩的環節,學員們如能從本身的背景 Know How 探索出問題就是莫大的價值。我們試圖讓說故事從策展的角度整套流程出發,找出以人為本的相互關係,爬梳環環相扣的故事情節。 故事揭開序幕,回想英國衛報1821年5月已有了開放資料的雛型,至今 WikiLeaks 所帶來的資訊衝擊,試想當媒體在關注特有議題時,會如何處理機密摘要欄位、特有術語等以正確解讀資料數據,則需要一群具有專業素養的團隊來層層解構。現今頗值得思考,媒體在組織上該有什麼結構性的變化,有什麼流程可以自動化或外部化,以幫助在龐大真實資料樣貌中,獲取實質意義與價值。 緊接著,由講師台大天災中心博士後研究員李孟學,剖析政府採購與資料科學之間耐人尋味的故事,試圖幫大家從採購資訊生命週期中,激盪出不同層次值得省思的議題。說故事之始就要反覆提問,何謂廠商專業度、機關的執行能量、施工查核檢視品質或是否有異常等結構性議題,可以從緊湊扣合的流程中釐清出些許蛛絲馬跡,在每個冰山一角的底下還有許多可以解構的真實,由資料科學角度來做政府採購預警藍圖,便可以降低不確定及詭譎的因子,讓採購風險做好更完善的防弊措施。 下午開始,由講師清華統計所博士後研究員謝宗震和學員們講解,如何用好的研究方法探索資料,透過反覆觀察千萬資料,替資料把脈找出故事脈絡。探索資料型態時,講師提醒學員在觀察單一變數時,謹記著區分類別型資料及數值型資料的要訣,以及當使用不同的圖形技巧時,為何可以看出同樣資料但是有不同解讀的端倪。 另外,還有一些小訣竅值得注意,例如南丁格爾玫瑰圖並不是圓餅圖,而是扇形圖拉,小護士不只是小護士,南丁格爾當時已能將數據視覺化。講師很認真和學員們說明先要探索問題目的,是要做對照、找關係、看趨勢,才選用哪些合適的技術性方法和資料與之交疊進行分析。期許學員們身為資料科學家就要像廚師一樣,看再多的食譜也還是要親自下廚,才知道練好功夫的真方法。 最後,由講師 Code for Tomorrow 的劉嘉凱分享該如何看資料找故事,就從探索性資料的實作下手,學會如何迅速掌握資料的脈絡與結構。最關鍵的第一步按圖索驥盤點資料,大家一起來玩資料吧!先用公式取出所需要的資料欄位,再篩選分析進行標的分類,雖然大家原背景及所學程度不一,過程中難免會有卡卡小挫折,但這時實力堅強又可愛的助教群紛紛下場協助救援,所以同學們都不用擔心啦!嘉凱老師很細心地一一說明,在轉換中經常發生的Tips該如何處理才適切合理,減少大家走冤枉路的時間,各位朝下一步奮進吧! 今天課程結束前,DSP 學員們還認真地思考推敲學習目標所對應到的資料與項目流程,相信產出結果會非常精彩,敬請期待!

這個驛站的終點,卻也是下一個新起點

我們活在當下,見證著紛擾的當代歷史,都堅持著信念,多元聲音或許都只是單純傳達不想就此認命或定局,除了一聲輕輕嘆息,此時上演的太陽花學運,更多人選擇用行動表達最原始的渴望,不管理性還是被操弄,仍充斥混亂的語言與符號的叢林裡,到底是被普羅大眾解讀為是民主還是失序,不妨平心靜氣試圖透過資料科學著手,從上億筆 data經由分類轉化再選粹分析出「反服貿事件」,或能得出背後要傳達的深層意義與潛藏價值,即使我們無法倒回東窗事發的剎那,但仍拜網路科技發達,讓互動過程的時效性、便利性、傳播效能較以往更加,於此,我們更需要正視資料科學對於每日面臨決策的你、我、他,提供較為精準客觀的分析判斷。 DSP 發起單位之一,精誠集團 Etu 的 Fred 期許著「DSP團訓班2」的學員們能學習到「跨界專業分工合作」,結識一群共同對資料價值探索有熱情的夥伴,最後可以回饋所學於自身或組織,亦或有機會結夥創業賺大錢、結夥做資料科學公益等都是很好的目標,終得以讓DSP持續深耕發芽茁壯。 另一個發起單位 Code for Tomorrow 的 CK 預告未來進階班將分為兩階段的實作,從如何整理、蒐集、應用資料等方向著手的 ETL,讓在場很多同學眼睛都發亮了,迫不急待想要立馬報名下一階段。另外 CfT 亦順利推動了醫學界與資料科學的交流,將於 4/18(五) 於高雄的 Code for Healthcare (un)conference 熱烈登場。 本期同學們在密集短打的實作訓練中,發揮了團隊的潛能與同儕絕佳的默契,不僅平日上班外,額外花費心力於週末間不斷淬煉之專案作品完整度都很高,從聚焦核心到視覺化樣貌呈現,多獲得肯定與重視,頗期待他們未完待續的下一階段呈現。 去蕪存菁的作品—眾裡尋他千百度,驀然回首,那人卻在,燈火闌珊處。 「無殼蝸牛聯盟-房價正義」目標欲解決買房苦惱主因,不外乎從自備款該準備多少錢?該區合理房價是多少?房仲出的價錢可議價?參考意見有房仲及親朋好友,到底誰說的比較可靠呢?作品以鄉鎮市區為單位,整理新北市板橋區資料,從取出非租賃資料、把35個變數有效減少至9個變數,如型態、車位、隔間、管理、房價等。把一般人最關切的「地理位置」,變成可以分析座標連結,還可推估出總價的合理上下界線,未來甚至可提供銀行業者作為房屋鑑價參考。 「航海王-部落客銀行」分析的是 PIXNET 開放的資料集,目的協助媒合適當的廠商與部落客所建立的透明化平台,當中部落客也可透析自身的優劣勢。過程包含 部落客分群設定包含發文數、回應數、好友數、訂閱數、總hit數。 分析在某個分類的活躍程度。…

視覺化分析熱點,快速抓住你眼球

延續著昨(3/15)資料探勘Data Mining的課程,Jerry老師分享像是amazon如何靠著推薦系統2013年創造營收達USD$171億美金,較同期成長24%等知名案例。同時也提醒著「資料科學計畫-團訓班」同學們為何探勘過程中,常犯的決策樹會分錯或單邊肥大?原因很多種,弄錯結果就大不同。同學們拼命點著頭…唷!原來是這樣阿!緊接著,Muyueh老師登場和大家說說視覺化表達樣式,例如台灣某縣市地區的累積交通事故排行榜,啥!清晨時分交通事故量較少,但都非死即傷的比例很高,原因其實不難理解。 Muyueh老師今天很high一邊演繹過程,一邊提問Tips,同學反應很踴躍,這次專案實作的資料引用除了「不動產交易實價登錄」,另新增與痞客邦PIXNET合作的資料,如熱門照片、人氣部落格的詮釋資料、訪客紀錄等,能讓同學們接續踴躍組隊參加Pixnet Hackathon,這麼具有量化及質化的呈現,一旦能完成這些具有語意聯結的高度分析,產生的資料同步達到近似Linked Data的FU吧! 光是「座標」還是「時間」呈現也大有學問,想知道老師如何解答視覺化諸多關鍵因素之間的關連性,不來上課真的是太可惜了啦!此時,助教一定要下場了解同學們的實作情形,同學亦步亦趨地隨著老師的流程步驟,進行望、聞、觀、切來看咱家想要問的疑難雜症,好像算該事件的流年命盤般做沙盤推演,不論點線面呈現表達直的、橫的或斜的樣式,好變成專屬你的熱點圖。 第一期的學姊/助教Cindy教學另一個實用的軟體工具,套用預計匯入的資料,提出他們之前的實作經驗分享給學弟妹參考,並說明有哪些特好用的範本可遵循,同學真是太幸福了!!幫助大家激活大腦,想像「準成品」的樣貌,同學們下午雖然是開放,但也沒有閒著,或坐或站或半蹲的討論狀,讓人佩服他們求知若渴的學習精神,讚!

沉浸在R的異想世界

今(3/9)「資料科學計畫-團訓班」同學們相見歡,熱鬧哄哄地趕緊複習著昨天的習題,延伸前一天的重要課程,繼續用R來學統計學,今日Johnson老師提醒「合併資料」太重要了,同學們也目不轉睛地亦步亦趨跟上老師的視窗腳步,遇到疑難雜症時,講師助教群紛紛下場協助教學。 探索資料R步驟,奠定養成基礎厚  資料探險的第一步就是要用最簡單的方法,可用好看易讀的圖表勝過千言萬語,也要留心圖表適合應用在什麼場合,例如直方圖是看一個連續型資料,和長條圖功能並不同唷!另外,延伸想想看Netfilx能預測這些影片觀賞後的評價,誤差不超過半顆星的百萬model是如何辦到的呢? Johnson老師進一步深入講解,透過眾多隨手可得的有趣案例幫助大家來了解,及熱門的選舉議題相信又會引起一波討論熱潮,還有多款model實用教戰守則任君選用,讓同學們都聽得津津有味呢!  善用視覺小眉角,一目了然多更多  CK老師剖析在巨量資料中精挑細選出重點,轉成資料視覺化的美化工程日趨重要,好幫助對方一眼洞悉當中的差異化,分享了很多小技巧、關鍵零組件和必備工具,例如要怎麼表達核四公投這件事呢!謹記Make Stories simple,「錢途Money bunch」就很符合這個標準唷! 現在有很多套裝軟體、Illustrator、Code可供自由選擇,但很可惜,並沒有完美的方法能全然一體適用,還是要看自己想要解決什麼樣問題,同步回歸到最初命題觀察視角為何,才可能詮釋這些資料和數據,找趨勢、拉關係、做比較,讓背後的故事「為什麼」有感更有力,例如地圖就是最好的資料視覺化的展現,但也要注意因果關係是否產生Bias謬誤,例如路不平的資訊回報,顯示坑洞多顯示在較高所得的區域,為何反而和我們原始想的表象不一樣呢? 思考Team Project與達到最終目標雛型前,除了一定要先問對問題,一路蜿蜒的實作過程裡,將從哲家之眼、詩人之心、巧匠之手逐步精進。 令人振奮的Team Project,刺激可能再聚焦  Johnson老師帶著大家從不動產交易實價登錄資料練習R實作,同學們全神貫注認真演練指令,深怕跟不上老師提醒的眉眉角角,因為接著就要導引到Team Project之所用,將拉出的資料與分析大不同。 同學又開始瘋狂激烈的討論,如何短時間調整讓團隊有效地聚焦到同一個目標,任何人也可以針對發表內容再追問,相信今日也會和昨天一樣,下了課~仍舊燈火通明,大家繼續奮戰吧!