DAY 41 AWS用於文字與文件處理的服務

2025 iThome 鐵人賽

自我挑戰組

17th鐵人賽

364 瀏覽

AWS AI Managed Services

Amazon Comprehend

用於NLP的服務
完全managed且serverless架構
提取關鍵詞、地點、人物、品牌或事件，並判斷文字的情緒傾向(正面或負面)
透過tokenization與part of speech tagging解析文字，也能自動依照主題整理多個文字檔案
ex: 分析客戶互動，找出導致正面或負面體驗的因素；自動建立並依主題分組的文章
進階功能 - Custom Classification(自訂分類)
自行定義如何分類文件，支援多種檔案格式(文字檔、PDF、Word、影像)
支援real-time analysis(單個文件)與asynchronous analysis(多個文件處理in batch way)
1. 先建立訓練資料並上傳至Amazon S3
2. Comprehend自動建立並訓練Custom Classifier model
3. 模型便能辨識文件屬於哪一類別
內建功能 - Named Entity Recognition(NER)
從文字中擷取預先定義的通用實體，例如人物、地點、組織、日期以及其他標準類別
ex: 一段文字有部分被劃線標註，NER可以識別出人名是人物、7/31是日期
Custom Entity Recognition
針對特定業務需求訓練模型，用來辨識自訂名詞或關鍵片語
ex: 模型在文件中能擷取其中的"保單號碼"或與"客戶升級處理"相關的字詞
需要事先準備範例文件並提供要搜尋的實體清單給Comprehend
也支援real-time analysis與asynchronous analysis