聲音的應用領域與AI連結

第 12 屆 iThome 鐵人賽

DAY 14

AI & Data

文明的進程：人溝通、機器溝通到神溝通系列第 14 篇

12th鐵人賽

竹風之翼

2020-09-22 00:50:20

2675 瀏覽

分享至

現在的AI科技產品，在「聽聲辨曲」這方面算是精準度很高，最簡單的例子就是用手機語音助理辨認，當我聽到廣播正在播放歌曲，並不知道這是哪位歌手，只要透過語音助理聽個幾秒，馬上就可以從YOUTUBE中搜出歌手資訊並播放，看似精確度高，但之前筆者寫過如果透過人說話的語音，仍會因為聲調的差別，讓語音助理辨識錯誤。雖然聲音有些難以捉摸，也有點抽象，但卻是科技發明中佔有領先的地位，例如聲納、電話、電報、錄音機、麥克風、蜂鳴警報器、無線電、手機等發明，其中聲納更利用在第二次世界大戰，偵查敵方潛艦的行蹤，再採取行動反制；當然也有漁船利用聲納去探測捕魚熱區，進而省去看海吃飯的時間，短時間將所漁獲送到最近漁港賣掉套現，巧妙的利用聲音的特性，改變世界的生活。

目前在臺灣的聲音科技當中，在法律鑑識的領域中，發展了很長的一段時間，也有健全的聲紋資料庫可資運用，隨著犯罪事件越趨複雜，要讓嫌疑人或犯人認罪，聲紋比對的符不符合，成為左右判罪的要素之一，首先會採集犯人的通訊錄音檔，這包括LINE、手機、市話等通話紀錄，當然也要通過合法的申請監聽，不然隨意監聽是會惹出大麻煩。採樣的犯人錄音光碟，就會送到相關法務單位實驗室進行聲紋比對，會用聲紋頻譜分析儀產生波紋，再利用波紋去比對是否相符，若遇到較為狡猾的犯人，比對的模組就要增加，會在犯人「生活習慣」中去取得證據，反之，也可以藉由聲紋比對去平反冤屈。

無論擷取聲音的產品如何進步，「電」與「磁」是發展途徑中一直不可或缺的元素，舉凡麥克風、喇吧、耳機、錄音設備都是相同原理，例如錄音是先把聲音的振動轉換成電流信號，然後電流信號透過放大器傳到錄音磁頭，再透過線圈去轉換成磁場，主要還是要看電流信號的大小，也就是說聲音是藉由磁化傳導道錄音設備上儲存，這是聲音儲存的基本原理。

至少了解在進入AI在聲音處理的學習耳朵，最基本就是麥克風，擷取各方聲音時，也取決於麥克風品質的好壞，如何排除環境所造成干擾的噪音，是讓音檔純淨的關鍵之一，也可以利用影像剪輯軟體，去剪除不必要的噪音，所以利用編輯軟體改變原始聲音或加音效，已不是太過困難的技術，這些技術也廣泛利用在電影和音樂製作上，但不管是原始音或者後製音處理的多出色，聲音資料庫的建立是產業中的共識，運用才會便捷，省去人工的後製。最後，人工智慧的學習成熟度，就如同我們人類聽到熟悉的旋律，就可以隨口唱出，因為我們大腦資料庫已幫我們千百次記憶，運用這個思路，未來聲音不再需要耗費時間，便可隨機運用於生活上。