大數據探索航空資料-美國聯邦航空管理局

大數據探索航空資料系列-美國聯邦航空管理局

最近筆者剛好讀到有關於大數據應用於航空資料分析,覺得內容值得整理介紹給相關領域的朋友們參考,一直忙到暑假才有時間整理文章。記得上Data Science Program的課程中,曾有學生邀請筆者至某航空公司擔任顧問,但筆者實在是分身乏術,因此希望這一篇能夠給航空界的朋友們一些參考。

這篇是2009年刊登在知名期刊Knowledge-Based Systems上的學術研究,主要是應用決策樹(Decision trees)從美國聯邦航空管理局(FAA)的數據來挖掘出可能會出現航空事故的特徵。研究所採用的分析工具為Megaputer Intelligence所開發的PolyAnalyst與挪威科技大學開發的Rosetta

筆者並非航空領域的專家,只是單就從大數據的角度來跟讀者分享研究的作法,所以若有敘述有誤,請多指教。

飛航安全是國際間大家都很在意的事情,像前陣子馬來西亞航空370號班機事件就是一個遺憾的事件。而過去航空業所累積的資料非常多,在研究中有提到像是飛行員報告(Pilot reports)、保養報告(Maintenance reports)、事件報告(incident reports)、延遲報告(Delay reports)等都是可以拿來作為資料分析的基礎。因此透過資料探勘的技術從過去的歷史資料挖掘一些可能會造事故的特徵,可以盡量讓飛航的事故減少。

這篇研究的資料取自美國聯邦航空管理局(Federal Aviation Administration簡稱FAA),美國為了要提升「飛航安全」,所以建置了航空安全資料分析與分享平台(Safety Information Analysis and Sharing簡稱ASIAS),讀者若有興趣可以逕自上網查詢資料,其中有個資料庫叫做AIDS,不是愛滋病喔,全名是Accident/Incident Data System,該資料庫收錄從1978年以來的航空事故資料,相當豐富。

研究採用了2000年到2006年共6年的航空資料,並且依據美國國家運輸安全委員會(National Transportation Safety Board)所定義的事件屬性進行整理,筆者將其整理如下:

  1. 事件報告的識別號碼
  2. 事件發生的日期
  3. 事件發生的城市
  4. 事件發生的國家
  5. 事件發生的機場
  6. 事件的操作類型
  7. 事件結果
  8. 在飛行時間的操作
  9. 事件所涉及的製造商
  10. 涉及事件的飛機型號
  11. 飛機的序列號
  12. 飛機的操作者姓名
  13. 發生事件的主要領域
  14. 飛機的官方註冊代碼
  15. 所有涉及致命傷害的總人數
  16. 所有非涉及致命傷害的總人數
  17. 飛機的引擎製造商
  18. 飛機的引擎型號
  19. 飛機的引擎組碼(Group code)
  20. 飛機上的引擎數量
  21. 飛行員證書(是/否)
  22. 飛行員總飛行時數
  23. 在事件中飛行員的飛行時數

由於要進行探勘的屬性非常的多,研究過程首先採用Link charts,從上述屬性找出與事故死傷相關性最高的分析屬型。接著為了求研究的嚴謹度,採用了粗糙集(Rough sets)來進行屬性縮減的動作,並選擇用基因演算法(Genetic Algorithm)作為屬性縮減(Reduce)與挑選(Selector)的方法,最後整理出23個資料集與屬性組合,再以決策樹進行這些分析,找出研究目標。

值得注意的是,研究中利用Link analysis時發現「事件發生的日期」、「事件發生的國家」、「事件類型(通用或運輸)」、「飛機損壞的類型」、「操作類型」、「飛行的計畫(目視飛行規則、儀表飛行規則等)」、「飛機引擎的數量」、「飛行員證書」這8個屬性跟航空事故有相關。

接著又以粗糙集的方式從8個屬性中又挑出「事件發生的日期」、「國家」、「操作類型」3個屬性,並指出這些是與航空事故有極度相關的屬性。

第一個跟第二個屬性資料很容易辨識,就是日期與時間而以,筆者列出第三個「操作類型」中所包含的資料,整理如下:

  1. 農業型
  2. 商業型
  3. 出租
  4. 承運
  5. 一般
  6. 跳傘
  7. 部分營運商
  8. 訓練
  9. 其他業務
  10. 輕量車輛運輸

※這裡的操作類型依筆者的理解,是指航班服務的項目。

最後研究中洋洋灑灑列出很多條研究規則,有興趣的讀者可從參考文獻再去閱讀,筆者直接整理這些規則的研究結果如下:

  1. 與航空事故有密切關係的屬性有「事件發生的日期」、「國家」、「操作類型」。
  2. 「事件發生的日期」、「事件發生的國家」、「事件類型(通用或運輸)」、「飛機損壞的類型」、「操作類型」、「飛行的計畫(目視飛行規則、儀表飛行規則等)」、「飛機引擎的數量」、「飛行員證書」這些屬性也值得參考。
  3. 「跳傘的航班」與「輕量車輛運輸」發生事故的機率較高,因為在眾多規則中,它們組合重複出現次數較高。
  4. 於2001年8月28日到 2002年3月25日的一般運輸容易發生事故,筆者認為是這段時間國際的事故較多,導致分析結果。

從本篇文章可以很快的找到應用大數據於航空資料的方法,像是採用相關係數、粗糙集、決策樹等方法,當然研究方法不只一種,像是基礎設施(硬體設施)若夠,也許透過相關係數找到可以特徵屬性後,就可以直接跑決策樹。所以筆者很鼓勵企業只要有經濟能力,都要打造一個資料科學團隊,人不用太多,每天例行的工作就是協助公司研究如何將「資料加值」就好,創造出來的經濟價值絕對難以想像。

以這篇研究來說,找到跳傘航班與輕量車輛運輸較容易發生事故,公司就可以深入了解原因,改善問題並且持續追蹤,降低傷害,減少事故就可以減少飛機的購置成本。

從資料的挑選、清洗、整理一直到分析,甚至到評價結果,大部分都還是需要人為做輔助處理資料,且處理資料的過程就會影響後續的探勘結果。相信筆者,如果用其他挑選屬性的方式,又可以找到其他不同的發現。所以為什麼企業一定要有資料科學團隊,因為產生的結果需要不斷的被驗證與確認,才能夠上系統運作。

尤其在雲端、物聯網的環境下,資料爆炸已經不能忽視,企業何不及早做好準備,迎接龐大的資料浪潮?

參考資料:
Classification rule discovery for the aviation incidents resulted in fatality
Federal Aviation Administration
Safety Information Analysis and Sharing
Accident/Incident Data System
Rosetta
PolyAnalyst

 

原文出處:資料科學實驗室