【108-1】自動網路語料擷取與語料爬梳

開課機構

國立中正大學

課程分類

人文藝術

課程子類

語言

學習時數

每週3小時

上課語言

中文

字幕語言

無字幕

修課費用

免費

展開全部教師介紹

吳俊雄

國立中正大學

教授兼所長

主要經歷

國立中正大學語言學研究所教授兼所長

國立中正大學語言學研究所教授

國立中正大學語言學研究所副教授

課程簡介

語料對研究語言學及計算語言學，都是不可或缺的資料，依賴已建立的語料庫雖然方便，但是卻有無法即時取得真正語言使用者之語料的缺憾，而語料庫所收錄的文本、文類，也不見得符合研究者所需。對計算語言學家而言，因為要處理真正在使用的語言，對取得即時語料更是有需要。因而，本課程旨在訓練學生利用Python模組BeautifulSoup來撰寫網路爬蟲以自動蒐集網路上的語料/資料，以及re來做初步的語料爬梳及簡單的資訊擷取。

課程目標

(一)培養語言學家自動從網路上蒐集語料並初步爬梳語料的能力，以建立能即時反應現代語言使用的語料庫，提供語言學、計算語言學研究使用。

(二) 培養自動從網路蒐集所需之資料，做進一步分析的能力。

適用對象

語言學研究所、大學高年級文學院、社科院、英外語系，對語言學、語料庫、計算語言學有興趣的學生

課程特色

數位工具/技術應用：本課程將訓練學生使用Python及其模組BeautifulSoup做為實現(implement)爬蟲的工具，並利用模組Jieba及RE在做斷詞及初步語料爬梳。

課程領域：語言學、計算語言學

課程進度

CH2 (a) 課程簡介；(b) 下載anaconda mini、建立虛擬環境scraping、在該環境中安裝BeautifulSoup4、Spyder、Jupyter Notbook(c) Python 物件介紹
CH3 Python 物件介紹
CH4 Python 物件介紹
CH6 Python物件介紹
CH7 a. Python物件介紹 b. 網頁擷取
CH8 網站擷取
CH9 網站擷取
CH10 網頁擷取
CH11 網頁擷取
CH12 a. 利用bs4.BeautifulSoup()來讀取中研院平衡語料庫的xml檔 b. 利用Python class來當成一種model，用來儲存爬取不同網頁的內容資訊、網頁結構資訊，等。
CH13 a. 利用Python class來當成一種model，用來儲存爬取不同網頁的內容資訊、網頁結構資訊，等。(Part II)b. 介紹Scrapy
CH14 Scrapy Part II (介紹xpath及css)
CH15 爬取JavaScript
CH16 a. 爬蟲與API：簡介API及藉由API來做擷取資料 b. 將資料以pandas整理並做統計圖及描述性統計
CH17 Term project due; oral presentation of term project