在進行情感分析模型訓練之前,資料標註(Data Annotation) 是一個非常關鍵的步驟。透過標註,模型才能夠理解資料所對應的情緒與主題,進而學習如何進行自動化分類。
在本次專案中,我們進行了兩種標註:
情緒分類標註的目標是判斷使用者在評論中所表達的情感傾向。這類分類通常較直觀,比較容易判斷,例如:
除了情緒之外,如果只知道「顧客是滿意或不滿意」往往不夠,因為我們還需要理解「他們滿意或不滿意的原因」。這就涉及到主題分類標註。
在主題分類中,可以根據不同產業特性來設計標註的分類架構。以 電商產業 為例,消費者的購買行為大致可以拆解為以下幾個面向:
帳號與認證
商品搜尋與瀏覽
商品資訊與庫存
購物車與結帳
售後服務與會員權益
其他/特殊問題
透過這樣的主題分類,模型不僅能判斷評論是「正面或負面」,還能辨識顧客所反映的問題屬於哪個流程環節。
「APP 一直登入失敗」
→ 主題:帳號與認證
→ 情緒:負面
「商品圖片很清楚,價格也合理」
→ 主題:商品資訊與庫存
→ 情緒:正面
「配送速度很快,但包裝有破損」
→ 主題:售後服務與會員權益
→ 情緒:中性偏負面
資料標註的設計會直接影響到模型的輸出價值。透過「情緒分類」與「主題分類」的結合,我們不僅能分析 「顧客開心或不開心」,還能回答 「顧客為什麼會開心或不開心」,進而把資料真正轉化為對業務決策有幫助的洞察。