DSP 資料爬理析 Python 實戰班

如何了解透過收集網路資訊來了解網路動態,已是趨勢。在想飛之前得先學會跑步,分析資料之前先首要學會爬資料與處理資料,才有有事半功倍之效。 本課程首創以程式語言+資料庫+主題演練整合課程,以Python 為主要工具,採用的實作訓練方式,使用真實的政府網站為資料來源,傳授如何定義資料產品、從網路萃取與清理資料、資料庫儲存、並進行初步資料分析的基礎方法,讓你知道為何而戰,為誰而戰。

立即報名

課程目標

學員應該自我期許,達成下列學習目標:

  • 學會使用Python進行資料介接與儲存
  • 學會使用資料庫處理資料
  • 學習撰寫結構化查詢語言 (SQL Query)
  • 學會定義與規劃一個簡單的資料產品 (Data Product)
  • 學會使用 Python 從網路萃取、清理資料、並匯入資料庫
  • 學會使用 Python 對資料進行基本分析

時間與地點

  • 時間:2015 年 8/1、2、8、9(連續兩個週末,共四天,每日10:00 – 17:00,中午休息一小時)
  • 地點:台北市南港區三重路19-11號4樓(南港軟體園區一期E棟)

課程大綱

第一天 (Python 快速上手)

  • 設定 Python 運作環境
  • Python 簡介
  • 撰寫第一個 Python 腳本 (.py)
    • Python 基本實作
    • 各種資料型態、控制結構與函式
    • 模組的匯入與概念
    • 資料互動實作
    • 設計資料流程
    • 資料收集
    • 資料轉換
    • 資料讀取
  • 小型專案
  • In-memory Extract-Transform-Load

第二天 (資料庫快速上手)

  • 資料庫簡介
  • 資料庫評估解決方案要點
  • 資料庫基本實作
  • 基礎查詢
    • 運算式與函數式
    • CRUD Index / Primary Key / Foreign Key
    • Normalization / Denormaliztion
    • Join
  • Python + 資料庫實作
  • 資料庫效能提升實務
  • 小型專案
    • In-disk Transform-Load

第三天 (資料爬理析 1, Extract-Transform-Load 1)

  • 資料產品定義
  • 資料收集 (Data collection)
    • Reading local files of various file formats
    • Scrapping unstructured web data with Python crawlers
  • 資料清理 (Data cleansing)
    • Data filtering
    • Merging data

第四天 (資料爬理析 2, Extract-Transform-Load 2)

  • 資料轉換 (Data transformation)
    • Data reshaping
    • Formatting
    • Normalization
  • 資料讀取 (Data loading)
    • Database CRUD with Python
  • 資料分析 (Data analysis)
    • Descriptive Statistics with Python

課程方案

本次課程由淺入深,採二種方案販售,有興趣的朋友請依照您的背景知識選擇最適合的方案。

方案A:Python + 資料庫 + ETL(1) + ETL(2) (Day 1-4, 24小時)

方案B:ETL(1) + ETL(2) (Day 3-4, 12小時)

 

先備知識

我們建議報名者在各個課程方案中至少具備以下技能或心理準備,以獲取較好的學習效果:

  • 方案A
    • 可以接受黑底白字命令列
    • 想嘗試編寫 Python 語言
    • 想嘗試進行資料庫基本實作
    • 想嘗試執行資料撈取與基本分析
  • 方案B
    • 已熟悉Python語言的基本操作
    • 想嘗試進行資料庫基本實作
    • 想嘗試執行資料爬取與資料儲存
    • 想嘗試基本爬蟲資料分析

上課器材與工具軟體

學員須自備可以無線上網的筆記型電腦,建議使用下列作業系統:

  • Windows 7 或以上 / Mac OS X 10.9 或以上 / Ubuntu 14.04 或以上
  • 不建議平板電腦

適合對象

本課程著重於資料工程,適合具備任何一種程式語言的基本使用經驗 (方案A)、以及Python 語言使用經驗 (方案B)。

適合對象包括:

  • 社會科學想跨足資料科學領域者
  • 想培養資料工程職能的資料分析師
  • 具有程式語言基本使用經驗,想學習資料庫理論與實作者
  • 想學習資料庫實務者
  • 想學習基本爬蟲技術者

 

立即報名

講師介紹

Tim 許文昌 (Tim) Taipei.py 月會主辦人之一。 2012 年參與 Evernote Hackathon,榮獲台灣區冠軍;2014 百度開放雲 Hackathon,獲得最有潛力獎。 曾任職於趨勢科技,目前跟好朋友創辦了洞悉科技,希望可以做出讓世界更好的好服務,好軟體。
Tim 丘祐瑋 (David Chiu) David 是一位致力於提供 Data-as-a-Service 的創業者與資料科學家,熟悉使用 Hadoop 進行巨量資料處理,暨長時間專注使用各式 Data Mining 技術從事資料分析;為台灣 Python 及 R 社群的忠實聽眾,喜愛參與社團交流與分享,希望能多了解如何使用 Python & R 讓資料分析更簡單上手。

(主辦單位保留修改活動內容的權利。)

報名、費用與錄取方式

  • 課程費用:
    • 方案A:定價12,800元整(含稅)
    • 方案B:定價8,800元整(含稅)
  • 名額:預計 30 名,額滿為止。
  • 一般學員
    • 先繳費,先錄取。
  • 企業夥伴優惠
    • 企業夥伴員工,八折優惠。
    • 先繳費,先錄取。
    • 最多保留 8 個名額。
    • 有意加入合作夥伴的企業請洽:service@dsp.im 。
  • 非營利組織和政府單位優惠
    • 特別保留 3 個五折優惠名額,提供予非營利組織和政府單位之正式員工。
    • 報名時請填寫完整組織名稱,由主辦單位進行資格審查與錄取,非先報名先錄取。
    • 請勿在收到繳費通知前逕行繳費,以免超額收取。
    • 若有未經確認逕行繳費狀況,主辦單位有權拒絕錄取。

繳費截止期限

2015 年 7 月 27 日,星期一截止。

立即報名

方案A

方案B

Python (8/1, 六)

V

資料庫 (8/2, 日)

V

爬理析 1 (8/8, 六)

V V

爬理析 2 (8/9, 日)

V V

早鳥票

7/8-7/25

10,240

報名截止

一般票

7/25-7/27

12,800

報名截止

8,800

報名截止

特惠票(企業夥伴、NPO/GOV)申請截止

 

(本課程收款服務由 Allpay 歐付寶 提供,敬請在繳費截止期限前完成繳費動作。)