Day 17：探索自然語言處理（NLP）與文字資料分析

2025 iThome 鐵人賽

DAY 17

Software Development

來一場軟體開發學習之旅系列第 17 篇

17th鐵人賽

Liu Po Yi

2025-09-18 09:21:09

239 瀏覽

分享至

隨著人工智慧技術的進展，自然語言處理（NLP, Natural Language Processing）成為一個極為重要的研究與應用領域。NLP的核心目標是讓電腦能夠理解與生成人類語言，進而協助我們處理龐大的文字資料。今天，我們就來探討NLP的基本概念與應用，並以Python程式範例實際操作。

一、NLP的主要任務
文字前處理
分詞（Tokenization）：將句子切割成詞彙或子詞。
去除停用詞（Stop Words）：過濾的、是、了，等無意義的詞彙。
詞幹提取（Stemming）與詞形還原（Lemmatization）：將字詞還原成基本型態，例如running → run。

語意分析
情感分析（Sentiment Analysis）：判斷文字是正向、負向或中立情緒。

主題建模（Topic Modeling）：探索文本中潛在的主題結構。
應用範例
聊天機器人（Chatbot）
搜尋引擎（Search Engines）
自動翻譯（Machine Translation）
文件摘要（Text Summarization）

二、Python與NLP的實作情感分析
我們來使用Python的NLTK(Natural Language Toolkit) 套件進行簡單的情感分析。
import nltk
from nltk.sentiment import SentimentIntensityAnalyzer

#下載所需的資源
nltk.download('vader_lexicon')

#建立情感分析器
sia = SentimentIntensityAnalyzer()

#測試文字
sentences = [
"I love this product! It works perfectly.",
"This is the worst service I have ever experienced.",
"The movie was okay, not too bad but not great either."
]

#分析情感分數
for text in sentences:
score = sia.polarity_scores(text)
print(f"文字：{text}")
print(f"情感分數：{score}\n")

輸出範例：
文字：I love this product! It works perfectly.
情感分數：{'neg': 0.0, 'neu': 0.294, 'pos': 0.706, 'compound': 0.8519}

文字：This is the worst service I have ever experienced.
情感分數：{'neg': 0.639, 'neu': 0.361, 'pos': 0.0, 'compound': -0.8233}

文字：The movie was okay, not too bad but not great either.
情感分數：{'neg': 0.167, 'neu': 0.667, 'pos': 0.167, 'compound': 0.0}

我們可以看到每一段文字的情感分數，包括：
neg（負向情緒）
neu（中立情緒）
pos（正向情緒）
compound（整體評分，範圍 -1 到 +1）

三、NLP的挑戰與未來
語言歧義性：同一個詞在不同語境下可能有不同意思。
跨語言問題：不同語言的結構與文化背景差異，使多語 NLP 更具挑戰。
深度學習的應用：隨著Transformer架構（如 BERT、GPT）的興起，NLP 的精準度有了巨大提升。
未來，NLP將持續改變我們與資訊互動的方式，無論是搜尋、翻譯、智能客服，甚至教育與醫療，都將受惠於這項技術。

認識了NLP的核心任務與挑戰，並透過Python的NLTK套件進行情感分析實作。
未來我們還能深入探討更進階的NLP模型，例如BERT或GPT，進一步理解語意的複雜性。