在2022年年底ChatGPT爆炸般的橫空出世後,各種AIGC相關應用如雨後春筍般不斷地冒出來,雖然對於ChatGPT來說,AI的音樂生成還無法像其他領域應用一般,只要對ChatGPT下對關鍵字就能夠獲得良好效果 (如翻譯、閱讀理解、寫文章、創作歌詞等等),然後透過對於文本(text)的處理,AI在音樂領域上也有了新的突破與發展。
如昨天所介紹的,過往的AI音樂作曲通常都是在Midi領域上用規則或是模型去做訓練,通常提供給用戶的也是已經設定好的關鍵字去做選擇 (音樂風格、流派、速度、調性、心情、主題等等),而在Audio音頻生成與語文本轉換的領域開始發展以後,則演化成了只需要下Prompt即可讓模型生成音樂,而Google所推出的MusicLM即是這隻穿雲箭。
莫札特:...
在今年(2023)一月間,Google推出新的音樂型AIGC生成工具的Demo展示: MusicLM
在這個Demo版本裡MusicLM介紹了只要下了Prompt(關鍵字)後模型即可生成出對應的音樂,例如:
The main soundtrack of an arcade game. It is fast-paced and upbeat, with a catchy electric guitar riff. The music is repetitive and easy to remember, but with unexpected sounds, like cymbal crashes or drum rolls.
街機遊戲的主要配樂。 它節奏明快、歡快,帶有朗朗上口的電吉他即興重複段。 音樂重複且易於記憶,但帶有意想不到的聲音,例如鈸撞擊聲或鼓聲。
A fusion of reggaeton and electronic dance music, with a spacey, otherworldly sound. Induces the experience of being lost in space, and the music would be designed to evoke a sense of wonder and awe, while being danceable.
雷鬼音樂和電子舞曲的融合,帶有空間感、超凡脫俗的聲音。 引發迷失在太空中的體驗,音樂的設計旨在喚起一種驚奇和敬畏的感覺,同時可以跳舞。
Slow tempo, bass-and-drums-led reggae song. Sustained electric guitar. High-pitched bongos with ringing tones. Vocals are relaxed with a laid-back feel, very expressive.
慢節奏、貝斯和鼓主導的雷鬼歌曲。 持續的電吉他。 帶有鈴聲的高音手鼓。 聲音輕鬆有一種悠閒的感覺,很有表現力。
生成的結果可以到MusicLM Example頁面聆聽。
其實在MusicLM之前,Google自己的AudioML以及OpenAI的Jukebox也嘗試過對於Audio音樂直接做生成,而MusicLM的優勢在於擁有相較於過往來比,更大量的訊聯模型以及長達280000小時的訓練資料庫,在現在這個資料完整性就是模型成敗的年代,MusicLM自然能夠產生出比過往更好的結果。
而這個Demo的產品,在2023年五月Google I/O上,Google宣布將會開放讓用戶自行輸入文字產出高品質音樂,讓這個Text to Music的產品從單純Demo展示的階段進化成為人人可用的AI作曲工具。
在使用上,用戶可以自由地輸入喜歡的Prompt,例如上面範例裡較為完整的描述,也可以只下幾個關鍵字,例如海邊、爵士、放鬆等等,當然你關鍵字寫得越詳細,AI模型也會有更多的資訊來幫你生成出你心理所期待的音樂。
除此之外,MusicLM也提供了圖像生成音樂的功能,在這個功能上你可以提供一張圖像給他,並且附上該圖像的描述(所以其實還是Prompt的應用),而MusicLM則會依照圖像以及Prompt來生成出對應的音樂。
目前MusicLM仍然還處於測試排隊階段,有興趣的用戶可以先註冊加入排隊,等待排到的時候。
在Google MusicLM吹哨之後,各家也開始加入這個新興的戰場,我們明天再來繼續看看還有什麼有趣的AI Audio音樂生成的工具。