近年來由於電腦硬體技術的提升使得機器/深度學習(Machine/Deep Learning)技術蓬勃發展,讓人工智慧成為了當紅炸子雞,在各式各樣的領域都能夠看到深度學習的應用達到了與人類水平相當甚至是更理想的成果,像是人臉辨識、自然語言處理、推薦系統、AlphaGo等等。語音相關的領域當然也不會缺席這波深度學習的熱潮,Apple 的語音助理 Siri 就是一個常見的例子。
要能夠讓深度學習的技術應用在語音領域,最重要的一點就是要讓電腦能夠聽得懂人類講的話,也就是所謂的自動語音辨識(Automation Speech Recognition, ASR),簡稱語音辨識。當電腦能夠聽得懂人話之後,我們就會想要進一步的希望電腦也能夠理解人類說話時所隱含的情緒,情緒的展現能夠讓對方更清楚的了解訊息所代表的含義,因此衍生出了另外一個應用領域-語音情緒辨識(Speech Emotion Recognition)。
以現有的各種語音辨識相關技術而言,語音內容若是清楚乾淨無雜訊的,電腦辨識的結果幾乎能和我們所期望的相符合。但是在現實生活的環境中會有許多干擾語音內容的雜訊、噪音,輕則像是人們之間的交談聲,重如施工工地或是飛機起降時的噪音,這些環境的噪音往往會造成語音辨識的效果變差。
在看完了以上關於深度學習在語音領域的應用簡介之後,希望各位能對語音辨識、語音情緒辨識有初步的認識。
接下來的29天,要分享的內容主要包含以下3個部分:
第一天的內容就到這邊了,接下來就準備進入語音辨識的世界了!