iT邦幫忙

2023 iThome 鐵人賽

DAY 27
0
AI & Data

嘗試在AI世界闖蕩系列 第 27

Day 27 AI的核心應用:電腦的聽覺與視覺(TTS、、Real Time Voice Cloning、CV)

  • 分享至 

  • xImage
  •  

語音合成Speech Synthesis=文字轉語音Text-to-speech(TTS)

輸入一段文字後,透過訓練學習與建立模型,將文字轉換成對應語音的技術。
https://ithelp.ithome.com.tw/upload/images/20231009/20163102H2lbHd6kwC.jpg

  • 需要性:
    1.知識吸收的問題:以聽力來吸收知識。
    2.情境的需求:開車的導航語音、運動的指示語音等。
    3.規模的問題:客服自動化的服務客戶。
    4.障礙的問題:協助視障人士靠聽力瞭解知識與外界。
    5.疲勞問題:聽覺相較式絕壁較不容易疲勞。
  • 主要應用:有聲書、導航語音、視障模具、Podcast、電話語音服務IVR、社交機器人
  • 主要學習模式:
    ➊串接合成的TTS(Concatenative Synthesis TTS)
    使用預錄方式由人類將各自詞的發音錄製好,經處理放入語音資料庫,分析入的文字架構,再從語音資料庫提取對應的聲音,進行串接縫合平滑化處理,最後輸出文本對應的語音句子。
    ➋參數合成的TTS(Parametric Method TTS)
    透過特徵工程,選出各種語音特徵來做訓練,訓練完成後一句輸入的文本由模式自動產生對應的聲音,不過此方法自然與逼真性有所限制。
    ➌深度學習的TTS
    代表為Google推出的Wavenet。

即時換聲系統Real Time Voice Cloning

Google推出的此類系統:SV2TTS。

利用Speaker Encoder預先錄下特定人的語音,抽取其音訊特徵,接著整合至傳統文字語音網路,來一起完成並放入文字轉語音系統內,整合近兩個特徵直,再透過Wavenet,即可將輸入的文字透過這個特定人的聲音,輸出至TTS系統用在不同的應用上。

不過此系統若被不肖人士利用將會帶來負面影響,例如:詐騙集團用來模仿親人聲音或主管聲音作詐欺的事件。

架構圖:
https://ithelp.ithome.com.tw/upload/images/20231009/20163102oGBDUevVJL.jpg


電腦視覺Computer Vision(CV)

透過對圖像與影片分析處理,去識別偵測其內部有用的資訊來支援決策的技術。

核心應用分為:

  1. 圖像分析:人臉辨識Facial Recognition、人臉鑑別Facial Verification、圖像分類Image Classification、物件偵測Object Detection
  2. 視頻分析:物件追蹤Object Tracing、行為識別Behavior Recognition

參考來源:人工智慧:概念應用與管理 林東清


上一篇
Day 26 AI核心應用:電腦聽覺與視覺(語音辨識)
下一篇
Day 28 AI的核心應用:電腦的聽覺與視覺(圖像分析/分類/分割/定位、物件偵測)
系列文
嘗試在AI世界闖蕩31
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言