Day 3: 人工智慧在音樂領域的應用 (各層面的應用二)

13th鐵人賽 midi audio 自動伴奏譜面辨識

fd2

團隊森上梅友前

2021-09-18 00:02:22

3502 瀏覽

分享至

今天我們接續昨天的話題繼續來聊聊AI在音樂領域上除了作曲以外的各方面應用。

譜面辨識/採譜系統

這邊先給一個概念：
在音樂檔的格式上來說，我們可以概括的分成兩大類：

Midi音訊檔
Audio音訊檔

Midi檔案為Musical Instrument Digital Interface的簡稱，
它是一個工業標準的電子通訊協定，可以把它想像在數位的公制音樂單位，它可以讓、電腦、手機或任何數位裝置上都依照相同的格式以達到互相連接，調整和同步的目的。
詳情可參閱維基百科midi

而Audio則包含了諸如MP3、WAV、FLAC、AAC...等等，裡面又可進一步細分為無失真格式與有損格式。

之所以要先介紹這兩種格式是因為，現在大部份的音樂檔案都為Audio格式，不論是MP3還是WAV還是其他格式，而這種格式對於AI的角度來說是相對比較沒有用的資料。
如果今天一首音樂以Midi的格式呈現，那麼他可以隨意的丟上任何一台設備，並照著公定的格式去讀取裡面的所有資訊 (音軌、音高、節拍、長度、音量...等等)，有了這些資訊，對於AI來說就有了相當重要的資料去做後續的處理。
畢竟人工智慧說穿了，其實主要依靠的還是背後非常大量的資料，有了資料，才能夠有有效的去設計這些人工智慧的應用。因此Midi的最大優勢就是裡面包含了大量且電腦可以直接讀取的音樂資訊，進一步的成為AI內部分析的重要部份；
而相對的Audio格式的音樂檔案，對於電腦來說是無法直接分析取得裡面的音樂資訊的。
我們換個方式來做比喻：
Midi可以想成是一張撲滿料的Pizza，你可以清楚的看出上面有蕃茄、蘑菇、臘腸、起司、橄欖與麵皮。

~~鳳梨：我呢QQ?~~

而Audio則是水餃/鍋貼之流，所有的餡料都已經混合好並包在一起。

那麼回到譜面辨識/採譜系統的應用介紹，這個應用最主要的重點就是在於他可以將原本不是Midi格式的檔案透過技術上的分析與辨識從而得到能夠被電腦所使用的格式，並進一步的讓AI能夠使用這些資料來做進一步的應用。
這邊相關的技術會比較偏重於音樂資訊檢索(Music Information Retrieval，MIR)
相關的研究可以參考中研院蘇黎博士的這篇文章。
此外國外也有許多相關的研究在針對音訊檔案去做分析與採譜，畢竟就如我前面所說的:
AI的本質就是大量的Data，有了Data才能夠訓練出有用的AI。