iT邦幫忙

2025 iThome 鐵人賽

0
自我挑戰組

找工作期間不要讓自己太廢系列 第 41

DAY 41 AWS用於文字與文件處理的服務

  • 分享至 

  • xImage
  •  

AWS AI Managed Services

  • 是針對各種任務預 pre-trained的ML服務
  • 用於文字與文件處理: Amazon Comprehend、Amazon Translate、Amazon Textract
  • 影像辨識: Amazon Rekognition
  • 搜尋服務: Amazon Kendra
  • 聊天機器人: Amazon Lex
  • 語音合成與語音轉文字: Amazon Polly、Amazon Transcribe
  • 推薦系統: Amazon Personalize
  • 全面機器學習開發: Amazon SageMaker

Amazon Comprehend

  • 用於NLP的服務
  • 完全managed且serverless架構
  • 提取關鍵詞、地點、人物、品牌或事件,並判斷文字的情緒傾向(正面或負面)
  • 透過tokenization與part of speech tagging解析文字,也能自動依照主題整理多個文字檔案
  • ex: 分析客戶互動,找出導致正面或負面體驗的因素;自動建立並依主題分組的文章
  • 進階功能 - Custom Classification(自訂分類)
    自行定義如何分類文件,支援多種檔案格式(文字檔、PDF、Word、影像)
    支援real-time analysis(單個文件)與asynchronous analysis(多個文件處理in batch way)
    1. 先建立訓練資料並上傳至Amazon S3
    2. Comprehend自動建立並訓練Custom Classifier model
    3. 模型便能辨識文件屬於哪一類別
  • 內建功能 - Named Entity Recognition(NER)
    從文字中擷取預先定義的通用實體,例如人物、地點、組織、日期以及其他標準類別
    ex: 一段文字有部分被劃線標註,NER可以識別出人名是人物、7/31是日期
  • Custom Entity Recognition
    針對特定業務需求訓練模型,用來辨識自訂名詞或關鍵片語
    ex: 模型在文件中能擷取其中的"保單號碼"或與"客戶升級處理"相關的字詞
    需要事先準備範例文件並提供要搜尋的實體清單給Comprehend
    也支援real-time analysis與asynchronous analysis

用於NLP的服務在進行模型訓練後,具備文字分析、Custom Classification、NER、Custom Entity Recognition

Amazon Translate

  • 語言翻譯服務,能夠協助將內容本地化,例如將網站或應用程式翻譯成多種語言

Amazon Textract

  • 從任何掃描文件中擷取文字、手寫內容與資料的服務
  • ex:上傳駕照,Textract會自動分析其中的資訊,並將結果以資料格式輸出,如出生日期、文件編號等
  • 支援tables與forms、PDF、images等

上一篇
DAY 40 ML專案流程&Hyperparameter Tuning
系列文
找工作期間不要讓自己太廢41
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言