iT邦幫忙

2023 iThome 鐵人賽

DAY 18
0
AI & Data

AI與語音辨識系列 第 18

DAY18 語音辨識前端之前言—上

  • 分享至 

  • xImage
  •  

早安安!


前言

這部分會稍微大概的提及語音前端的處理方式,接著之間進入到最後的實作,再次申明,真的真的想理解更深入的邦友,可以直接去看看這本書書了喔!

正文

在語音辨識中,雜訊、干擾、殘響無處不在,在麥克風擷取的語音中,這些都會降低語音辨識的辨識率,雜訊的東東可以參考下圖,我們之間進入前端的概述講解吧!

https://ithelp.ithome.com.tw/upload/images/20231003/20161780FfbspG4s9x.jpg

傳統的語音前端演算法是VAD、降噪及AEC,下圖是他們的一個框架。

https://ithelp.ithome.com.tw/upload/images/20231003/20161780RI2fOHT5kg.jpg

其中VAD的作用是檢測這段有雜訊的音訊中,是否有語音,聽起來很簡單,但這個演算法在語音互動系統中有著非常重要的作用,其可以加入有Always-on的系統中,在這邊,這種演算法會被作為一級演算法,會在機器後台一直運行,在檢測到語音後直接喚醒後面的語音喚醒或聲紋辨識。由於行動裝置對功耗都有要求,因此一直在後台運行就會有困難,而VAD演算法還有一個重要功能是找到一段語音的起點及終點,並以此對資料進行切割,除此之外,VAD演算法是許多演算法的基礎,如降噪及AEC中,都可根據VAD的結果使用不同的處理策略。


參考書籍:Hey Siri及Ok Google原理:AI語音辨識專案真應用開發
參考網站:今日無
學習對象:ChatGPT


上一篇
DAY17 語音辨識的基礎,來了解語音訊號part10(最後一篇)
下一篇
DAY19 語音辨識前端之前言—下
系列文
AI與語音辨識30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言