《KAMERA 急診資料挑戰賽》得獎者點評

台灣緊急醫療資料活化的首次實踐

台灣首見為期兩個月的緊急醫療資料競賽《KAMERA 急診資料挑戰賽》,於上個月順利落幕,前三名的隊伍從上百組的參賽隊伍中脫穎而出。第一名是清大統計所碩一的團隊(李少芃、楊承翰、陳以臻,成績:99.076);第二名是中研院與政大合作之TIGP-SNHCC學程的博士生陳志明(成績:99.041),同時也是《痞客邦 Visitor Log 資料挑戰賽》的第一名;第三名則是由台積電品管工程師、和碩大數據工程師組成的團隊(宋培源、王宜婷,成績:98.879)奪得。

成果分享會於 4/29(五)高雄市消防局國際會議廳舉行,會中高醫外傷科主任陳昭文醫師提到急診壅塞的種種困境,點出緊急醫療資料需要活化、透明、互惠,以及《KAMERA 急診資料挑戰賽》計畫的前世今生。緊接著是本次競賽前三名的隊伍成果分享,以下分別對其點評。

20160429_143347_HDR

 

 

 

第三名:KMeans 創造新變數,GEE 建構預測模型

第三名隊伍的兩位參賽者目前任職於台積電品管、和碩大數據部門(宋培源、王宜婷),為清華統計碩班同學。他們的預測策略先從探索性資料分析 (exploratory data analysis, EDA) 開始,使用大量的 boxplot 觀察出急診室檢傷總人數與醫院、班次、月份的關係,接著做K-Means分群法對檢傷總數,創造出新變數 group 加入 GEE 預測模型 (Generalized Estimating Equation, 廣義估計方程式),最後依分群結果作為模型加權,透過交叉驗證法 (Cross Validation) 選擇最終模型,取得 98.879 分的成績。

第二名:計算星期間的平均,結合月份間的趨勢

第二名的參賽者為中研院與政大合作之TIGP-SNHCC學程的博士生陳志明,背景是資訊工程。志明首先透過大量的 Line charts 觀察資料的趨勢,包含急診室人潮在平日/假日的差異,不同班次、月份、醫院的差異。接著他將預測模型拆成兩塊:1). 依星期、班次、醫院計算急診室的平均檢傷總數;2). 依連續兩月份相同時段計算平均變化程度 (月份的斜率)。結合兩者得出最終預測模型,取得 99.041 分的成績。

第一名:中重度醫院再細分,雙層預測模型得冠

第一名是清華統計所碩一的團隊(李少芃、楊承翰、陳以臻),在資料探索的部分,他們使用 Line charts 觀察不同時間急診室檢傷總人數的特徵,相關係數矩陣觀察找出醫病比例、檢傷三級人數與總人數有高度線性相關,接著發現醫院間除了中、重度分級之外,還可以再進一步細分,依照醫院細分結果再各自建構雙層線性預測模型。最後取得本次最高成績 99.076 分。

 

總結以上,前三名的資料分析師背景包含統計與資訊,統計背景的分析師使用的工具是R語言,資訊背景者則使用Python。第一、三名的預測方法是標準的統計模型,第二名則是以直觀的平均值配合,月變化量的分析策略進行預測。這邊可以發現統計與資訊背景的資料分析師的預測模型的選用上有鮮明地的不同。

透過這次急診資料挑戰賽是台灣緊急醫療資料活化的首次實踐,不僅做到資料開放,更激發出資料人的熱情,在改善緊急醫療窘迫的議題上,開啟了新一扇窗,證明針對單一問題,是可以發掘多元的解決之道。

 

延伸閱讀

Leave a Reply