OpenEdu | 中華開放教育平台

新聞網站資料擷取與整理
新聞網站資料擷取與整理
註冊課程
開課機構
推動大學程式設計教學
課程分類
應用科學
課程子類
物聯網
學習時數
每週1小時
上課語言
中文
字幕語言
無字幕
修課費用
免費
江玥慧
江玥慧
國立政治大學
助理教授

美國德州大學奧斯汀總校區學習科技博士,現任教於國立政治大學資訊科學系,以開授給非資訊相關科系學生修習之程式設計通識課程為主。研究領域為數位學習、資訊教育、數位人文與教育機器人。曾於業界從事資訊系統設計與開發的工作多年,期望能將過去的實務經驗融入於跨領域的程式設計課程中,幫助非資訊相關科系的學生體會程式設計與日常生活的相關性,並鼓勵學生思考與嘗試運用程式設計解決跨領域問題的可能性。

課程簡介

本課程模組為Python之進階課程,以新聞網站資料擷取與整理之實務應用專案為主軸,經由六個單元引導學習者逐步完成網站資料取得、資料結構化、資料清理、資料儲存、資料視覺化等步驟。

課程目標

在這門課中,將會一步步帶領學習者利用網路爬蟲和資料探勘完成一份完整的專案。當中包含: -從BBC中文站、PTT八卦版等網站自動化的蒐集資料。 -學習常見的資料儲存方式和操作手段。 -運用搜集到的資料進行視覺化分析

適用對象

已具備Python程式設計基礎的學習者

課程特色

本課程模組為Python之進階課程,以新聞網站資料擷取與整理之實務應用專案為主軸,經由六個單元引導學習者逐步完成網站資料取得、資料結構化、資料清理、資料儲存、資料視覺化等步驟。

課程進度

第一週:課程介紹與專案說明、資料取得- 爬蟲初探

第二週:熟悉組成網頁的HTML

第三週:剖析HTML-Beautiful Soup

第四週:資料儲存-Pandas DataFrame

第五週:資料儲存-SQLite

第六週:資料分析應用-文字雲、文本情感分析

學習成效評量

專案實作

先備知識

-已熟悉Python基礎語法,如:輸入輸出、迴圈、自訂函數...

-大致認識Python內建資料結構,如:list, tuple, dict...