我們活在當下,見證著紛擾的當代歷史,都堅持著信念,多元聲音或許都只是單純傳達不想就此認命或定局,除了一聲輕輕嘆息,此時上演的太陽花學運,更多人選擇用行動表達最原始的渴望,不管理性還是被操弄,仍充斥混亂的語言與符號的叢林裡,到底是被普羅大眾解讀為是民主還是失序,不妨平心靜氣試圖透過資料科學著手,從上億筆 data經由分類轉化再選粹分析出「反服貿事件」,或能得出背後要傳達的深層意義與潛藏價值,即使我們無法倒回東窗事發的剎那,但仍拜網路科技發達,讓互動過程的時效性、便利性、傳播效能較以往更加,於此,我們更需要正視資料科學對於每日面臨決策的你、我、他,提供較為精準客觀的分析判斷。
DSP 發起單位之一,精誠集團 Etu 的 Fred 期許著「DSP團訓班2」的學員們能學習到「跨界專業分工合作」,結識一群共同對資料價值探索有熱情的夥伴,最後可以回饋所學於自身或組織,亦或有機會結夥創業賺大錢、結夥做資料科學公益等都是很好的目標,終得以讓DSP持續深耕發芽茁壯。
另一個發起單位 Code for Tomorrow 的 CK 預告未來進階班將分為兩階段的實作,從如何整理、蒐集、應用資料等方向著手的 ETL,讓在場很多同學眼睛都發亮了,迫不急待想要立馬報名下一階段。另外 CfT 亦順利推動了醫學界與資料科學的交流,將於 4/18(五) 於高雄的 Code for Healthcare (un)conference 熱烈登場。
本期同學們在密集短打的實作訓練中,發揮了團隊的潛能與同儕絕佳的默契,不僅平日上班外,額外花費心力於週末間不斷淬煉之專案作品完整度都很高,從聚焦核心到視覺化樣貌呈現,多獲得肯定與重視,頗期待他們未完待續的下一階段呈現。
去蕪存菁的作品—眾裡尋他千百度,驀然回首,那人卻在,燈火闌珊處。
「無殼蝸牛聯盟–房價正義」目標欲解決買房苦惱主因,不外乎從自備款該準備多少錢?該區合理房價是多少?房仲出的價錢可議價?參考意見有房仲及親朋好友,到底誰說的比較可靠呢?作品以鄉鎮市區為單位,整理新北市板橋區資料,從取出非租賃資料、把35個變數有效減少至9個變數,如型態、車位、隔間、管理、房價等。把一般人最關切的「地理位置」,變成可以分析座標連結,還可推估出總價的合理上下界線,未來甚至可提供銀行業者作為房屋鑑價參考。
「航海王–部落客銀行」分析的是 PIXNET 開放的資料集,目的協助媒合適當的廠商與部落客所建立的透明化平台,當中部落客也可透析自身的優劣勢。過程包含
- 部落客分群設定包含發文數、回應數、好友數、訂閱數、總hit數。
- 分析在某個分類的活躍程度。
- 根據內容關鍵字,找出其他面向的潛在優勢。
廠商關心部落客的分類、相片分類及拍照時間,以了解部落客的生活型態,對投放代言的產品效果可能因此而大不同。
「愛住易–找尋銀髮幸福宅」提供銀髮族退休人口的好所在,以人為本的核心,居家生活品質為主要訴求,包含鄰近地區是否有醫療院所、休閒設施等,得出換屋需求,該世代的他們具有比較好的經濟能力,對於生活要求較高。本作品重點不只是物件間的距離,更重要的是該區域可提供的服務能量。從銀髮族關心的關鍵,篩選出幸福最適宅的友善行政區(每萬個老人可以獲得資源的比例),得出可能結果目前是內湖排名最高、萬華排名最低,核心在於處理讓人感到幸福的因素,未來將縮小行政區域,改以生活圈來表達,另這個作品的視覺化呈現方式達到簡單、淺顯、易讀,讓現場很多人大呼驚艷的上乘表現。
「小資“救世“組–千金買房‧萬金買鄰」重點在於如何選擇自己喜愛的好鄰居類型,條件值包含美食、交通、教育、購物等,檢索出該區域生活輪廓與經緯度定位,以中山區為範圍,資料來源從不動產實價登錄、Google Place、PIXNET 地區照片等,計算出瀏覽次數高且熱門區域,並得出推薦分數,可從每坪單價可推算出自身能負擔的能力區間,後續研究美食文章與房價是否有正相關,以推估符合心目中的理想。
「Captain-Hot Zone」取得資料來源為 PIXNET 做分類熱門照片,利用 CartoDB 做資料圖層,純有熱點不夠看,用Curation比對過的熱點才犀利,協助需求者後續決策分析,加上軌跡的概念讓規劃更效率,例如把這些熱點以季節做為分類標示,可以幫助使用者快速找出私房景點,而UI同時也是本作品關注之處。
Johnson老師分享了近期的服貿事件X資料科學,藉由前5個大家經常關注的媒體,如 g0v 現場文字轉播、PTT 服貿版、蘋果日報、中時電子報、聯合新聞網,利用「關鍵字」計算出關聯性,透過曲線粗細表示關係強度,得出現場文字轉播跟 PTT 關聯性最大,以及媒體間的關聯性很高。
黑貘分享了從資料科學看學運儀表板,以「服貿東西軍」為例,重視 “civic technology” 維度所關注民意呈現,目前進行式「林克傳說」試圖了解民意透明化的全民政治,剖析各媒體管道發佈的訊息,透過廣大使用者分享後,最後實質所關注的潛在重要議題為何?所處理運算及分析的資料,已經是幾億筆的 data 透過降冪到10的5次方,除了從服貿東西軍來觀察媒體光譜,不妨由人民力量展現圖仔細找出蛛絲馬跡,例如學運是在什麼時段,或在什麼地點都是最熱門的焦點。這些實作透過緊密的交叉比對,通常可獲得真實有趣的結果。
資料科學養成的過程,讓我們從慣性的主觀印象來解讀任何大小事件的繁瑣決策,轉移到如何聚焦,以視覺化呈現多樣化分析的真實結果,這條路即便一路蜿蜒,仍是值得不斷精進的道路。
討論區:http://cft.io