嗨囉,今天過得好嗎?來更深入的了解語音辨識吧!
第一次接觸這個部分,當然要好好的理解有關他的歷史,我們了解了一前人們的研究歷程,就可以更理解大概會學到什麼,語音辨識本身會牽扯到的領域非常地廣泛:訊號處理、電腦科學、人工智慧、語言學等,而語音辨識在時間上的發展大致可以分為三個時期⋯⋯
早在1950年代左右,貝爾實驗室就已經完成了對於英文數字的發音辨識,在冷戰時期,前蘇聯研究員加上日本研究員,他們碰地擦出了火花,一起研究並提出了時間對齊這個概念,這個方法就是之後流行的DTW(Dynamic Time Warping,動態時間規整)的基礎,這個方法無法分辨不同人說話的方式,但它可以基於動態規劃對語音進行片段延長或縮短,與目標聲音進行匹配,以提高辨識的準確率。
1980年代時,人們相信如果可以好好分析聲音,那麼就可以好好地把語言辨識出來,但是因為人類說出來的一句話對機器來說太過複雜,而無法好好辨識,所以,遇到了這種很複雜的排列組合問題,那麼就得勤勞的硬爆開這個問題,因此,語音辨識研究慢慢轉向統計方法,所以這時候的主流隱馬爾可夫模型(Hidden Markov Model,HMM)、高斯混合模型(Gaussian Mixture Model,GMM)就出現了, GMM-HMM模型的結合使語音辨識系統能夠同時考慮語音的時間演變和特徵的統計分佈,從而提高了辨識的性能。
Geoffrey Hinton及其同事在2012年的一項研究中首次成功地引入深度神經網絡(Deep Neural Networks,DNN) 來改進語音辨識的性能。他們將DNN應用於語音特徵的前端處理,用以替代傳統的GMM-HMM模型。這個方法被稱為深度神經網絡聲學建模(Deep Neural Network Acoustic Modeling,DNN-HMM),讓它在語音辨識方面有了爆發性的進展。大家看到深度學習這個方法可行而且非常好用,便開始努力研究,使深度學習成為現今的主流,以下是深度學習對語音辨識的影響:
更高的準確性:深度學習方法,已經取代了傳統的基於統計模型的方法,如高斯混合模型(GMM)和隱馬爾可夫模型(HMM),深度學習模型能夠更好地捕捉複雜的語音特徵和模式,從而實現更高的辨識準確性。
端到端學習:深度學習使得端到端(End-to-End)學習成為可能,這意味著從原始語音訊號直接學習到語音識別的過程,這簡化了語音辨識流程,並可提高了系統的性能。
多模態處理:深度學習模型可以輕鬆處理多種模態的語音數據,包括語音訊號、文本轉錄和語音情感分析等,這樣的多模態處理有助於提高語音辨識系統的功能性。
適應性和泛化:深度學習模型具有很好的適應性和泛化能力,能夠處理不同口音、噪聲和語言變體,從而使語音辨識系統更加強大和好用。
實時性能:深度學習技術的發展使得實時語音辨識成為可能,這對於語音助手、語音命令控制和語音搜索等應用非常重要。
總之,在語音辨識中,HMM和GMM是兩個重要的統計模型,它們是互相扶持的好友,互相幫忙、了解,以建立強大的語音辨識系統,準確地識別和理解語音訊號。
參考書籍:Hey Siri及Ok Google原理:AI語音辨識專案真應用開發
參考網站:今日無
學習對象:ChatGPT