iT邦幫忙

2025 iThome 鐵人賽

DAY 16
0
AI & Data

30 天打造 App 評論洞察系統:用 AI 讓產品團隊更懂用戶系列 第 16

【Day 15】利用大型語言模型(LLM)加速資料標註流程

  • 分享至 

  • xImage
  •  

在前幾篇文章中,我們深入探討了資料標註的原則與品質控管。然而,傳統的機器學習方法往往需要龐大的人工標註量,這不僅耗時,也耗費大量人力成本。為了應對這個挑戰,我開始思考如何利用**大型語言模型(LLM)**來加速標註流程,實現半自動化標註,進而減少手動工作量。

這種方法的核心概念是:
讓 LLM 擔任「初級標註員」,先進行初步的批量標註,然後再由人工進行精確的審核與校正。我們把精力集中在處理複雜的訓練模型設計上。


提示詞設計範例

以下是一個設計範例,可以讓 LLM 針對顧客評論進行情緒分類:

提示詞內容

請將顧客評論分辨其情緒分類,並標記為「正面」、「中性」或「負面」。請同時說明您的分類理由。如果評論內容無法明確判定情緒,請將其歸類為「中性」。

#顧客評論
{review}

#回答格式
情緒分類: [正面/中性/負面]
理由: [簡述分類原因]

#限制條件
1. 每個評論僅能歸類為一種情緒分類。
2. 如果評論內容涉及多個不同面向,請綜合考量整段內容,並根據其主要情緒進行整體判斷。
3. 確保您的回答完整涵蓋所有顧客評論,並依照上述格式以繁體中文回答問題。

關鍵設計要點

  1. 明確的目標與任務
    開頭就清楚定義 LLM 需要做什麼,也就是「分辨情緒分類」與「說明理由」。

  2. 參數化輸入
    使用 {review} 設定參數變量,方便程式化地批量讀取已建立好的評論 JSON 資料。

  3. 強制回答格式
    透過 #回答格式 來規範 LLM 的輸出,確保資料結構化,便於後續的程式處理與分析。

  4. 詳盡的限制條件
    這部分至關重要。它定義了標註的邊界與規則,例如「單一分類」與「綜合考量主要情緒」,確保 LLM 的判斷邏輯與我們的人工標註標準一致。


結語

透過這個簡單但精確的提示詞設計,我們可以讓 LLM 快速、高效地完成初步的資料標註工作,但可能因為串接 LLM 會耗費較高的 token 成本,若資料量非常大的情況,需要評估成本效益是否合適。

當 LLM 標註完後所產生的標註結果,需要進行品質驗證,與人工標註結果進行比對,確保資料的準確性。


上一篇
【Day 14】標註品質控管與一致性檢查:為什麼資料標註不能馬虎?
下一篇
【Day 16】訓練語言模型的選擇:為什麼我用 BERT?
系列文
30 天打造 App 評論洞察系統:用 AI 讓產品團隊更懂用戶18
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言