DAY 42 AWS 語音合成與語音轉文字服務

2025 iThome 鐵人賽

自我挑戰組

17th鐵人賽

370 瀏覽

Amazon Transcribe

自動將語音轉換為文字
使用DL的Automatic Speech Recognition(ASR)
Redaction(自動去識別化): 可自動移除個人可識別資訊(Personally Identifiable Information, PII)，例如年齡、姓名或身分證
Automatic Language Identification: 可以辨識語音中的多種語言
ex: 字幕生成、客服通話轉錄成文字
提升Transcribe的轉錄精準度，如特定領域或非標準術語正確轉錄
Custom Vocabulary，將特定詞彙、片語或領域專有名詞加入詞彙表
Custom Language Models針對語境，比如my crow service與microservice音類似，但根據語境的不同Transcribe會理解詞語在特定領域中的正確用法
最好的做法是Custom Vocabulary與Custom Language Models一起使用
Toxicity Detection
Speech Cues: 分析語音的語調與音高，例如如果語氣中帶有憤怒就會被標記
Text-based Cues: 分析說出的文字內容，例如髒話或仇恨言論會被偵測
檢測的範圍包含，sexual harassment、hate speech、threat、abuse、profanity、insult、graphic