現在的AI科技產品,在「聽聲辨曲」這方面算是精準度很高,最簡單的例子就是用手機語音助理辨認,當我聽到廣播正在播放歌曲,並不知道這是哪位歌手,只要透過語音助理聽個幾秒,馬上就可以從YOUTUBE中搜出歌手資訊並播放,看似精確度高,但之前筆者寫過如果透過人說話的語音,仍會因為聲調的差別,讓語音助理辨識錯誤。雖然聲音有些難以捉摸,也有點抽象,但卻是科技發明中佔有領先的地位,例如聲納、電話、電報、錄音機、麥克風、蜂鳴警報器、無線電、手機等發明,其中聲納更利用在第二次世界大戰,偵查敵方潛艦的行蹤,再採取行動反制;當然也有漁船利用聲納去探測捕魚熱區,進而省去看海吃飯的時間,短時間將所漁獲送到最近漁港賣掉套現,巧妙的利用聲音的特性,改變世界的生活。
目前在臺灣的聲音科技當中,在法律鑑識的領域中,發展了很長的一段時間,也有健全的聲紋資料庫可資運用,隨著犯罪事件越趨複雜,要讓嫌疑人或犯人認罪,聲紋比對的符不符合,成為左右判罪的要素之一,首先會採集犯人的通訊錄音檔,這包括LINE、手機、市話等通話紀錄,當然也要通過合法的申請監聽,不然隨意監聽是會惹出大麻煩。採樣的犯人錄音光碟,就會送到相關法務單位實驗室進行聲紋比對,會用聲紋頻譜分析儀產生波紋,再利用波紋去比對是否相符,若遇到較為狡猾的犯人,比對的模組就要增加,會在犯人「生活習慣」中去取得證據,反之,也可以藉由聲紋比對去平反冤屈。
無論擷取聲音的產品如何進步,「電」與「磁」是發展途徑中一直不可或缺的元素,舉凡麥克風、喇吧、耳機、錄音設備都是相同原理,例如錄音是先把聲音的振動轉換成電流信號,然後電流信號透過放大器傳到錄音磁頭,再透過線圈去轉換成磁場,主要還是要看電流信號的大小,也就是說聲音是藉由磁化傳導道錄音設備上儲存,這是聲音儲存的基本原理。
至少了解在進入AI在聲音處理的學習耳朵,最基本就是麥克風,擷取各方聲音時,也取決於麥克風品質的好壞,如何排除環境所造成干擾的噪音,是讓音檔純淨的關鍵之一,也可以利用影像剪輯軟體,去剪除不必要的噪音,所以利用編輯軟體改變原始聲音或加音效,已不是太過困難的技術,這些技術也廣泛利用在電影和音樂製作上,但不管是原始音或者後製音處理的多出色,聲音資料庫的建立是產業中的共識,運用才會便捷,省去人工的後製。最後,人工智慧的學習成熟度,就如同我們人類聽到熟悉的旋律,就可以隨口唱出,因為我們大腦資料庫已幫我們千百次記憶,運用這個思路,未來聲音不再需要耗費時間,便可隨機運用於生活上。