[Day 13] 文字探勘之前要先準備語料

15th鐵人賽 r r語言文字探勘 text mining

rlover

2023-09-28 00:57:20

705 瀏覽

分享至

準備語料

取得語料的方式 {getting-corpus}

做文字探勘之前要先有語料，以下介紹幾種取得中文語料的方式。

公開資料
- 維基百科中文版：維基百科是一個包含大量文字資料的開源平台，這些資料多為描述性和客觀性的文章，適合用作一般語料。
- 政府開放資料平台：這些平台通常會提供大量文本資料，如法律文件、新聞稿、統計報告等。
網路爬蟲
- 新聞網站：使用網路爬蟲技術，可以從各大新聞網站擷取文章作為語料。
- 社群媒體：從微博、微信公眾號等社交媒體平台爬取用戶發布的文本。
自建問卷或訪談
- 問卷調查：通過線上問卷蒐集特定主題或者範疇的文本資料。
- 口頭訪談：進行訪談後，將訪談內容轉寫成文字作為語料。
專業資料庫
- 學術論文數據庫：如CNKI（中國知網）, 提供大量學術研究相關的文本。
- 專業報告：如市場研究報告、產業報告等。
語料資料集
- 中研院。
- 研究原始資料。
- 自然語言生成（NLG）模型
- 使用GPT、BERT等模型生成文本：雖然這些文本是機器生成的，但也能用於某些特定研究場景。
商業與產業界數據
- 公司年報與財報：這些公開資料通常含有大量的文字描述，包括公司策略、市場分析等。
- 專利文本：產業專利通常包含豐富的技術描述，可作為專業領域語料。
- 開源程式碼註解：GitHub中的中文註解：對於軟體相關的研究，程式碼註解可以是很好的語料。

準備好語料 {preparing-corpus}

案例一：爬蟲（PTT）

步驟一：選擇目標板塊，首先確定你想要從哪個 PTT 板塊抓取資料。
步驟二：設定爬蟲參數，決定你要抓取的日期範圍、文章數量等。
步驟三：編寫爬蟲腳本，使用 rvest 的函數來抓取和解析網頁。
步驟四：整理資料，使用 dplyr 或 stringr
來處理和清洗數據，通常需要去除標籤、廣告或無關的信息。
步驟五：存儲語料，將清洗後的語料存儲為 txt、csv 或其他方便處理的格式。

案例二：維基文庫

步驟一：選擇領域: 維基文庫有各種主題，從歷史到科學，選擇你研究相關的領域。
步驟二：下載數據: 維基文庫通常允許你以各種格式下載整個文章或特定範圍的文章。
步驟三：數據清洗: 刪除不必要的標籤和格式，只保留純文本。
步驟四：數據整合: 將多個文檔整合成一個大型的語料庫。

案例三：語料資料集

步驟一：找到資料集: 網上有多個公開的語料資料集，例如 Common Crawl、Wikipedia dumps 等。
步驟二：下載並解壓縮: 下載所選擇的語料資料集並解壓縮。
步驟三：預處理: 根據你的需求，可能需要進一步清洗或格式化數據。
步驟四：數據分析: 使用 NLP 工具進行初步的數據分析，以確定是否適用於你的研究。