Day 13：Hugging Face 魔法工坊 —— 馴服評論哥布林 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2025 iThome 鐵人賽

DAY 13

0

AI & Data

AI-ction！我的超級瑪莉歐闖關歷險記：用自動化破關，收集時間金幣系列第 13 篇

Day 13：Hugging Face 魔法工坊 —— 馴服評論哥布林

17th鐵人賽

2025-09-27 23:59:52

201 瀏覽

分享至

繼昨天穿越水管、探索 Hugging Face 魔法工坊之後，今天我們要進入另一個挑戰場——從TripAdvisor上的旅客真實評論中提煉寶藏！

目標是把冗長的評論轉化為可直接分析的精華資訊，包括：摘要、關鍵字與情緒判斷。就像面對情感哥布林，我們必須學會讀懂文字的力量，才能掌握資料背後的寶藏。

關於AI 魔法工坊裡的文字處理魔法

TF-IDF：純粹只看每個詞出現的頻率和它在所有文件中出現的稀有度。它不管前後文，單純靠統計算重要性。適合用來抓關鍵字或算文件相似度，是最基礎的法術。
RNN：它具有記憶力，會一步步讀文本，注意前後順序，能捕捉上下文。比 TF-IDF 聰明，但記憶力跟金魚一樣等級，容易忘掉前面的內容。常用在文本生成或情感分析。
Transformer：它一次看整篇文章，用「自注意力」抓取長距離的關聯。效率高、能抓全局語意，完勝傳統 RNN。
BERT：基於 Transformer 的預訓練模型，它可以雙向理解詞語在左右語境中的意思，預訓練好之後再用在分類、問答、摘要上。比 Transformer 更懂語意，但運算需求也更高。

冒險任務步驟：資料讀入 → 關鍵字提取 → 摘要 → 情緒分析 → 下載資料

Step 1：資料讀入

使用 files.upload()上傳檔案，把 TripAdvisor 上的旅客評論讀入 Colab。

Step 2：關鍵字提取

冒險中難免踩到「烏龜殼」──就是遇到一些麻煩或意外狀況。
剛開始引用extract模型，抓取到的關鍵字幾乎是「and, the, to」這類沒意義的單字...
這才想起要善用TF-IDF停用詞，並利用關鍵字分數找出評論中的核心詞彙，幫助後續分析。

Step 3：摘要

使用Hugging Face 「Falconsai/text_summarization」模型(基於Transformer架構)，將冗長評論濃縮成短句，快速掌握核心。

Step 4：情緒分析

使用Hugging Face 「nlptown/bert-base-multilingual-uncased-sentiment」模型(基於BERT架構)，快速判斷評論情緒興級，便於後續洞察。

Step 5：下載資料

使用 files.download()將分析結果存回 CSV，作為後續可視化或報告輸入。

成果呈現

今天解鎖的新技能：

🍄 關鍵字提取技能：用 TF-IDF 尋找最具影響力的詞彙
🍄 長文本摘要魔法：掌握把原始評論濃縮成精華摘要的能力
🍄 情緒判斷力：理解評論情緒，為後續分析提供量化依據

📓 小結：

今天，我們成功將旅客評論從原礦變成寶石：摘要、關鍵字、情緒標籤全數到位。
這不僅加速了資料分析流程，也為未來進一步挑戰「資料整合與視覺化」打下基礎。

Day 12：穿越水管的另一端 —— AI 加值的魔法調味

Day 14：評論水晶球視覺化 —— 喚醒數據幻象師

系列文

AI-ction！我的超級瑪莉歐闖關歷險記：用自動化破關，收集時間金幣共 30 篇

目錄

RSS系列文訂閱系列文

4 人訂閱

完整目錄

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙