iT邦幫忙

2023 iThome 鐵人賽

DAY 13
0
AI & Data

用R語言玩轉文字探勘系列 第 13

[Day 13] 文字探勘之前要先準備語料

  • 分享至 

  • xImage
  •  

準備語料

取得語料的方式 {getting-corpus}

做文字探勘之前要先有語料,以下介紹幾種取得中文語料的方式。

  • 公開資料
    • 維基百科中文版:維基百科是一個包含大量文字資料的開源平台,這些資料多為描述性和客觀性的文章,適合用作一般語料。
    • 政府開放資料平台:這些平台通常會提供大量文本資料,如法律文件、新聞稿、統計報告等。
  • 網路爬蟲
    • 新聞網站:使用網路爬蟲技術,可以從各大新聞網站擷取文章作為語料。
    • 社群媒體:從微博、微信公眾號等社交媒體平台爬取用戶發布的文本。
  • 自建問卷或訪談
    • 問卷調查:通過線上問卷蒐集特定主題或者範疇的文本資料。
    • 口頭訪談:進行訪談後,將訪談內容轉寫成文字作為語料。
  • 專業資料庫
    • 學術論文數據庫:如CNKI(中國知網), 提供大量學術研究相關的文本。
    • 專業報告:如市場研究報告、產業報告等。
  • 語料資料集
    • 中研院。
    • 研究原始資料。
    • 自然語言生成(NLG)模型
    • 使用GPT、BERT等模型生成文本:雖然這些文本是機器生成的,但也能用於某些特定研究場景。
  • 商業與產業界數據
    • 公司年報與財報:這些公開資料通常含有大量的文字描述,包括公司策略、市場分析等。
    • 專利文本:產業專利通常包含豐富的技術描述,可作為專業領域語料。
    • 開源程式碼註解:GitHub中的中文註解:對於軟體相關的研究,程式碼註解可以是很好的語料。

準備好語料 {preparing-corpus}

案例一:爬蟲(PTT)

步驟一:選擇目標板塊,首先確定你想要從哪個 PTT 板塊抓取資料。
步驟二:設定爬蟲參數,決定你要抓取的日期範圍、文章數量等。
步驟三:編寫爬蟲腳本,使用 rvest 的函數來抓取和解析網頁。
步驟四:整理資料,使用 dplyr 或 stringr
來處理和清洗數據,通常需要去除標籤、廣告或無關的信息。
步驟五:存儲語料,將清洗後的語料存儲為 txt、csv 或其他方便處理的格式。

案例二:維基文庫

步驟一:選擇領域: 維基文庫有各種主題,從歷史到科學,選擇你研究相關的領域。
步驟二:下載數據: 維基文庫通常允許你以各種格式下載整個文章或特定範圍的文章。
步驟三:數據清洗: 刪除不必要的標籤和格式,只保留純文本。
步驟四:數據整合: 將多個文檔整合成一個大型的語料庫。

案例三:語料資料集

步驟一:找到資料集: 網上有多個公開的語料資料集,例如 Common Crawl、Wikipedia dumps 等。
步驟二:下載並解壓縮: 下載所選擇的語料資料集並解壓縮。
步驟三:預處理: 根據你的需求,可能需要進一步清洗或格式化數據。
步驟四:數據分析: 使用 NLP 工具進行初步的數據分析,以確定是否適用於你的研究。


上一篇
[Day 12] R語言中的文件資料結構
下一篇
[Day 14] 掌握關鍵技術與概念 - 前篇
系列文
用R語言玩轉文字探勘30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言