準備語料
取得語料的方式 {getting-corpus}
做文字探勘之前要先有語料,以下介紹幾種取得中文語料的方式。
- 公開資料
- 維基百科中文版:維基百科是一個包含大量文字資料的開源平台,這些資料多為描述性和客觀性的文章,適合用作一般語料。
- 政府開放資料平台:這些平台通常會提供大量文本資料,如法律文件、新聞稿、統計報告等。
- 網路爬蟲
- 新聞網站:使用網路爬蟲技術,可以從各大新聞網站擷取文章作為語料。
- 社群媒體:從微博、微信公眾號等社交媒體平台爬取用戶發布的文本。
- 自建問卷或訪談
- 問卷調查:通過線上問卷蒐集特定主題或者範疇的文本資料。
- 口頭訪談:進行訪談後,將訪談內容轉寫成文字作為語料。
- 專業資料庫
- 學術論文數據庫:如CNKI(中國知網), 提供大量學術研究相關的文本。
- 專業報告:如市場研究報告、產業報告等。
- 語料資料集
- 中研院。
- 研究原始資料。
- 自然語言生成(NLG)模型
- 使用GPT、BERT等模型生成文本:雖然這些文本是機器生成的,但也能用於某些特定研究場景。
- 商業與產業界數據
- 公司年報與財報:這些公開資料通常含有大量的文字描述,包括公司策略、市場分析等。
- 專利文本:產業專利通常包含豐富的技術描述,可作為專業領域語料。
- 開源程式碼註解:GitHub中的中文註解:對於軟體相關的研究,程式碼註解可以是很好的語料。
準備好語料 {preparing-corpus}
案例一:爬蟲(PTT)
步驟一:選擇目標板塊,首先確定你想要從哪個 PTT 板塊抓取資料。
步驟二:設定爬蟲參數,決定你要抓取的日期範圍、文章數量等。
步驟三:編寫爬蟲腳本,使用 rvest 的函數來抓取和解析網頁。
步驟四:整理資料,使用 dplyr 或 stringr
來處理和清洗數據,通常需要去除標籤、廣告或無關的信息。
步驟五:存儲語料,將清洗後的語料存儲為 txt、csv 或其他方便處理的格式。
案例二:維基文庫
步驟一:選擇領域: 維基文庫有各種主題,從歷史到科學,選擇你研究相關的領域。
步驟二:下載數據: 維基文庫通常允許你以各種格式下載整個文章或特定範圍的文章。
步驟三:數據清洗: 刪除不必要的標籤和格式,只保留純文本。
步驟四:數據整合: 將多個文檔整合成一個大型的語料庫。
案例三:語料資料集
步驟一:找到資料集: 網上有多個公開的語料資料集,例如 Common Crawl、Wikipedia dumps 等。
步驟二:下載並解壓縮: 下載所選擇的語料資料集並解壓縮。
步驟三:預處理: 根據你的需求,可能需要進一步清洗或格式化數據。
步驟四:數據分析: 使用 NLP 工具進行初步的數據分析,以確定是否適用於你的研究。