千萬資料可以化約成幾個數字,但每個數字背後都有一個故事

這是最好的時代,也是最壞的時代;這是智慧的時代,也是愚蠢的時代;這是堅信的時代,也是疑慮的時代;這是光明的季節,也是黑暗的季節;這是希望的春天,也是絕望的冬天;我們什麼都有,也一無所有。ー狄更斯《雙城記》

在波濤洶湧的時代浪潮下,更值得我們用心省思,該用什麼角度來關懷這個社會,例如前(7/31)發生高雄氣爆事件損失重大,然而 Code for Healthcare 更早前於高雄開始關注醫療品質改善相關議題,這次事件讓更多朋友挹注關心,欲知善用資訊可以更有效率協助更多需要幫助的待援角落。試想如果我們能善用資料科學,用真實的資料爬梳出背後,來驅動改善週遭的大小環節,或許每個人的小日子在大時代底下,可以過的更從容自在,讓生命的故事更有意義又精彩。

今(8/2)由 Code for Tomorrow 籌備委員會與 精誠集團/Etu 所共同舉辦的 DSP 課程「看資料找故事工作坊」熱鬧登場,此次有許多各界菁英與會聆聽,這次使用的資料與機關採購相關,這麼酷的事讓每個人都聚精會神聽得津津有味,眼睛都亮了起來! 首先登場的講師 Code for Tomorrow 的徐子涵,帶領大家從資料當中找出故事的脈絡文本,可觀察英美數位媒體發現許多趨勢並非舊事,多能善用資源經營更細膩的環節,學員們如能從本身的背景 Know How 探索出問題就是莫大的價值。我們試圖讓說故事從策展的角度整套流程出發,找出以人為本的相互關係,爬梳環環相扣的故事情節。

徐子涵

故事揭開序幕,回想英國衛報1821年5月已有了開放資料的雛型,至今 WikiLeaks 所帶來的資訊衝擊,試想當媒體在關注特有議題時,會如何處理機密摘要欄位、特有術語等以正確解讀資料數據,則需要一群具有專業素養的團隊來層層解構。現今頗值得思考,媒體在組織上該有什麼結構性的變化,有什麼流程可以自動化或外部化,以幫助在龐大真實資料樣貌中,獲取實質意義與價值。

緊接著,由講師台大天災中心博士後研究員李孟學,剖析政府採購與資料科學之間耐人尋味的故事,試圖幫大家從採購資訊生命週期中,激盪出不同層次值得省思的議題。說故事之始就要反覆提問,何謂廠商專業度、機關的執行能量、施工查核檢視品質或是否有異常等結構性議題,可以從緊湊扣合的流程中釐清出些許蛛絲馬跡,在每個冰山一角的底下還有許多可以解構的真實,由資料科學角度來做政府採購預警藍圖,便可以降低不確定及詭譎的因子,讓採購風險做好更完善的防弊措施。

李孟學

下午開始,由講師清華統計所博士後研究員謝宗震和學員們講解,如何用好的研究方法探索資料,透過反覆觀察千萬資料,替資料把脈找出故事脈絡。探索資料型態時,講師提醒學員在觀察單一變數時,謹記著區分類別型資料及數值型資料的要訣,以及當使用不同的圖形技巧時,為何可以看出同樣資料但是有不同解讀的端倪。 另外,還有一些小訣竅值得注意,例如南丁格爾玫瑰圖並不是圓餅圖,而是扇形圖拉,小護士不只是小護士,南丁格爾當時已能將數據視覺化。講師很認真和學員們說明先要探索問題目的,是要做對照、找關係、看趨勢,才選用哪些合適的技術性方法和資料與之交疊進行分析。期許學員們身為資料科學家就要像廚師一樣,看再多的食譜也還是要親自下廚,才知道練好功夫的真方法。

謝宗震

最後,由講師 Code for Tomorrow 的劉嘉凱分享該如何看資料找故事,就從探索性資料的實作下手,學會如何迅速掌握資料的脈絡與結構。最關鍵的第一步按圖索驥盤點資料,大家一起來玩資料吧!先用公式取出所需要的資料欄位,再篩選分析進行標的分類,雖然大家原背景及所學程度不一,過程中難免會有卡卡小挫折,但這時實力堅強又可愛的助教群紛紛下場協助救援,所以同學們都不用擔心啦!嘉凱老師很細心地一一說明,在轉換中經常發生的Tips該如何處理才適切合理,減少大家走冤枉路的時間,各位朝下一步奮進吧!

劉嘉凱

今天課程結束前,DSP 學員們還認真地思考推敲學習目標所對應到的資料與項目流程,相信產出結果會非常精彩,敬請期待!