iT邦幫忙

2025 iThome 鐵人賽

0
自我挑戰組

找工作期間不要讓自己太廢系列 第 42

DAY 42 AWS 語音合成與語音轉文字服務

  • 分享至 

  • xImage
  •  

Amazon Transcribe

  • 自動將語音轉換為文字
  • 使用DL的Automatic Speech Recognition(ASR)
  • Redaction(自動去識別化): 可自動移除個人可識別資訊(Personally Identifiable Information, PII),例如年齡、姓名或身分證
  • Automatic Language Identification: 可以辨識語音中的多種語言
  • ex: 字幕生成、客服通話轉錄成文字
  • 提升Transcribe的轉錄精準度,如特定領域或非標準術語正確轉錄
    Custom Vocabulary,將特定詞彙、片語或領域專有名詞加入詞彙表
    Custom Language Models針對語境,比如my crow service與microservice音類似,但根據語境的不同Transcribe會理解詞語在特定領域中的正確用法
    最好的做法是Custom Vocabulary與Custom Language Models一起使用
  • Toxicity Detection
    Speech Cues: 分析語音的語調與音高,例如如果語氣中帶有憤怒就會被標記
    Text-based Cues: 分析說出的文字內容,例如髒話或仇恨言論會被偵測
    檢測的範圍包含,sexual harassment、hate speech、threat、abuse、profanity、insult、graphic

Amazon Polly

  • 與Transcribe相反,Polly將文字轉換為逼真的語音
  • Lexicons: 自訂特定文字的發音,比如AWS的發音為Amazon Web Services
  • Speech Synthesis Markup Language(SSML): 控制文字如何發音(低聲、縮寫發音、重音)
  • Voice engine: 提供多種語音類型,最新的語音引擎可產生逼真的人聲
  • Speech mark: 提供音訊中每個單詞或句子的開始與結束位置,比如用於唇形同步lip-syncing或語音播放時highlight顯示正在說的文字

上一篇
DAY 41 AWS用於文字與文件處理的服務
下一篇
DAY 43 AWS影像辨識服務
系列文
找工作期間不要讓自己太廢43
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言