ETL:學校沒教好的資料功夫

ETL Course Prep Meeting

我們何其有幸,生在一個資訊大爆炸的時代。

距今 5.3 億年前的寒武紀時期,短短數千萬年間,物種大量出現,幾乎所有動物的「門」都在這一時期出現了。由於出現大量的較高等生物以及物種多樣性,這一情形被稱為生命大爆發,或是寒武紀大爆發 (Cambrian Explosion)。

五億年前,生命大爆發。五億年後的今天,資訊大爆發。

從結構來看,資料可以分為結構化、半結構化、非結構化三大類。從資料來源區分,資料種類眾多,例如商業資料、科學資料、政府資料、醫療資料、或是社交網路資料等等。

意思是說,我們現在要面對的資料,已經不再是單一來源了。原始資料不但散落各處,還得先設法清洗整理,才能開始進行分析。

可是,若打開各大學的課程表,我們卻很難找到爬挖資料和清洗資料的相關課程。

這就是 DSP 開設《資料爬理析 Python 實戰班》的原因。

資料爬理析,業界俗稱 ETL,是指 Extraction, Transform 和 Load 這三個處理資料的階段。經過這三個階段,資料才能被好好使用。

倘若缺乏整理乾淨的資料,我們空有一身資料分析的能力,還是巧婦難為無米之炊,不可能從事任何有意義的分析工作。

ETL 入門不難,但是要精通卻不容易。這種技能,不僅需要通曉十八般武藝,更需要大量的實務經驗,方能勝任。

我們曾經討論過,掌握這種寶貴的經驗和知識已經很困難了,若是要設計成課程,找出最有效率的方式,傳授給學員,更是難上加難

我們在五月份開了第一次課,挑戰這個艱鉅的任務。

我們非常感謝首期學員的熱烈回饋意見,讓我們瞭解到,對於資料爬理析,我們的課程安排和大家的期望是相當接近的。這對於講師 David、助教 Richard 與 Jimmy、以及其他工作人員,都是莫大的鼓勵。

現在,根據第一期學員的珍貴意見,我們修訂了課程內容,希望即將前來上課的學員們,能有更美好的學習經驗。

大家下週末見!

(圖片:講師 David 和助教 Richard 正在開心地密謀 6/21-22 上課用的隱藏關卡和彩蛋。)