Day 27 AI的核心應用:電腦的聽覺與視覺(TTS、、Real Time Voice Cloning、CV) - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2023 iThome 鐵人賽

DAY 27

0

AI & Data

嘗試在AI世界闖蕩系列第 27 篇

Day 27 AI的核心應用:電腦的聽覺與視覺(TTS、、Real Time Voice Cloning、CV)

15th鐵人賽

團隊臣無禮

2023-10-12 10:27:39

1748 瀏覽

分享至

語音合成Speech Synthesis=文字轉語音Text-to-speech(TTS)

輸入一段文字後，透過訓練學習與建立模型，將文字轉換成對應語音的技術。

需要性:
1.知識吸收的問題:以聽力來吸收知識。
2.情境的需求:開車的導航語音、運動的指示語音等。
3.規模的問題:客服自動化的服務客戶。
4.障礙的問題:協助視障人士靠聽力瞭解知識與外界。
5.疲勞問題:聽覺相較式絕壁較不容易疲勞。
主要應用:有聲書、導航語音、視障模具、Podcast、電話語音服務IVR、社交機器人
主要學習模式:
➊串接合成的TTS(Concatenative Synthesis TTS)
使用預錄方式由人類將各自詞的發音錄製好，經處理放入語音資料庫，分析入的文字架構，再從語音資料庫提取對應的聲音，進行串接縫合平滑化處理，最後輸出文本對應的語音句子。
➋參數合成的TTS(Parametric Method TTS)
透過特徵工程，選出各種語音特徵來做訓練，訓練完成後一句輸入的文本由模式自動產生對應的聲音，不過此方法自然與逼真性有所限制。
➌深度學習的TTS
代表為Google推出的Wavenet。

即時換聲系統Real Time Voice Cloning

Google推出的此類系統:SV2TTS。

利用Speaker Encoder預先錄下特定人的語音，抽取其音訊特徵，接著整合至傳統文字語音網路，來一起完成並放入文字轉語音系統內，整合近兩個特徵直，再透過Wavenet，即可將輸入的文字透過這個特定人的聲音，輸出至TTS系統用在不同的應用上。

不過此系統若被不肖人士利用將會帶來負面影響，例如:詐騙集團用來模仿親人聲音或主管聲音作詐欺的事件。

架構圖:

電腦視覺Computer Vision(CV)

透過對圖像與影片分析處理，去識別偵測其內部有用的資訊來支援決策的技術。

核心應用分為:

圖像分析:人臉辨識Facial Recognition、人臉鑑別Facial Verification、圖像分類Image Classification、物件偵測Object Detection
視頻分析:物件追蹤Object Tracing、行為識別Behavior Recognition

參考來源:人工智慧:概念應用與管理林東清

Day 26 AI核心應用:電腦聽覺與視覺(語音辨識)

Day 28 AI的核心應用:電腦的聽覺與視覺(圖像分析/分類/分割/定位、物件偵測)

系列文

嘗試在AI世界闖蕩共 31 篇

目錄

RSS系列文訂閱系列文

6 人訂閱

完整目錄

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19838 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙