iT邦幫忙

2018 iT 邦幫忙鐵人賽
DAY 7
0

延續AI NEXT大會揭密Alexa是怎麼練成的Topic
這次的主題是聲學模型的部分

跟各位介紹一下,語音辨識系統框架主要包含四大部分->分別是 1.訊號處理 2. 聲學模型 3. 解碼器 4. 後端處理

https://ithelp.ithome.com.tw/upload/images/20171210/20107290CUXVJPXAaZ.jpg

首先,Alexa會對麥克風蒐集來的聲音,進行一些訊號處理,將訊號轉換到頻域,從每10毫秒語音提出一個特徵向量,提供給後面的聲學模型。聲學模型負責把聲訊分類成不同的音素。接下來就是解碼器,可以得出概率最高的 一串詞串,最後一步是後端處理,就是將單詞組合而成容易讀取的字檔。

在這過程當中,都會用到機器學習和深度學習的部分。


聲學模型為一個分類器,底部是匯入資訊,隱藏層將向量轉化到最後一層裡的音素概率,這是一個典型的神經網路。

Alexa是一個美式英語的語音辨識系統,所以會匯出美式英文中的各個音素。在Echo初發表時,Amazon錄製了幾千小時的美式英語語音來訓練神經網路模型。

2016/9發行德語版Echo,如果從頭來過一遍用幾千個小時德語語音來訓練,成本相當高。所以這個神經網路模型很棒的地方,就是可以透過”遷移學習”,保持原有網路其他層不變,只把最後一層換成德語。

兩種不同的語言,音素很多不一樣,但仍然有很多相同的部分,所以,可以只使用少量的德語的訓練資料,在稍作改變的模型上最終可以得到不錯的結果。

https://ithelp.ithome.com.tw/upload/images/20171210/201072905lRy0qU8X3.jpg


Yes

(本文為擷取TechNews聲學模型部分來為大家做分享,請詳以下資料來源)

資料來源: TechNews, Association of Technology and Innovation


上一篇
[Day6] Alexa的深度學習基礎框架
下一篇
[Day8] 錨定語音偵測與雙連音片段
系列文
讓我們一起來見見歐美語音助理界的當紅炸子雞-Alexa 吧!8
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言