iT邦幫忙

2023 iThome 鐵人賽

DAY 26
0
AI & Data

AI與語音辨識系列 第 26

DAY26 語音辨識的前端—單通道降噪篇 part1

  • 分享至 

  • xImage
  •  

早上好~


單通道降噪是一種用於改善語音品質的數位信號處理技術。它的主要目標是在只有單個麥克風或麥克風的音訊通道下,減少環境噪音對語音訊號的干擾。它幫助提高語音訊號的清晰度,使語音處理系統在嘈雜環境中更加可靠。

貝氏準則下的MMSE

在語音辨識中,MMSE(最小均方誤差估計)根據貝氏準則用於降噪,以改進語音辨識的性能。這是一個常見的技術,特別是在環境嘈雜的情況下,其中降噪是提高語音辨識準確性的關鍵。

  1. 基本原理
  • 貝氏準則下的MMSE降噪是基於以下思想:我們有一個混合了語音信號和噪音的觀察信號,我們希望估計語音信號,同時減少噪音的影響。
  • 這通常通過將語音信號建模為一個隨機變數,並使用觀察到的信號和已知的語音模型(通常是高斯混合模型)進行最佳估計。
  1. 貝氏估計
  • 在貝氏準則下,我們使用貝氏估計來估計語音信號。這是一個基於貝氏定理的方法,它使用觀察到的信號和先前的知識(語音模型和噪音模型)來計算最可能的語音信號。
  1. MMSE 估計
  • 在貝氏估計中,MMSE 估計是一種特殊的估計方法,它最小化估計誤差的均方值。在降噪中,它專注於最大程度地減少噪音對語音信號的干擾,以提高語音辨識的準確性。
  1. 應用
  • 降噪技術在語音辨識系統中是至關重要的。通常,麥克風捕捉到的語音信號可能受到環境噪音、回音等的影響。降噪技術有助於減少這些干擾,提供更清晰的語音信號,從而改善語音辨識性能。

使用MMSE作為標準的最佳化方法,雖然在數學上完全成立並且也比較容易處理,然而如果考慮到人耳的聽覺特性,因為人耳對於音量及音訊的感應非線性,而是接近對數關係,所以MMSE準則在主觀聽感並不一定是最優解。語音訊號的的動態範圍相當寬,高能量和低能量之間往往有數量級的差異,所以可以使用更為進階的IMCRA雜訊估計和log-MMSE估計器,可以取得更好的偵測結果。


參考書籍:Hey Siri及Ok Google原理:AI語音辨識專案真應用開發
參考網站:今日無
學習對象:ChatGPT


上一篇
DAY25 語音辨識的前端—VAD篇 part6
下一篇
DAY27 語音辨識的前端—單通道降噪篇 part2
系列文
AI與語音辨識30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言