前情提要: 我們已將Demucs的model大致上完成了,基本上基礎架構就這樣,之後有些架構是將某個部分換掉而已。
當中的bottleneck用lstm,以那篇論文發表的年代來說,GPU計算力還沒那麼強,又要要求快速,所以採用lstm,那之後有其他論文換成self-attention,效果又更上一層,又有多層decoder的架構….等等,基本上都是從最基礎的開始延伸。
今天想比較輕鬆地介紹幾個我認為不錯的github,可以看看各種技術,像我自己兩年多來做了六七個專案,很多奇怪的技術都碰過,但有些技術相輔相成,你永遠不知道甚麼時候會用到。
第一個不陌生的就是常提到的whisper,真的是花了很大量的語料才能訓練出這麼好的效果。
https://github.com/SYSTRAN/faster-whisper
另一個是中國近幾個月釋出的model,基本上在中文方面強很多,速度自己實測下來也蠻快的。
https://github.com/FunAudioLLM/SenseVoice
一樣幾個來自中國的模型,都是用了大量的資料訓練出來,我自己短暫的訓練過TTS,說實話蠻麻煩的,主要是音檔的品質要夠,訓練出來才不會太奇怪,再來是語料時數及語者,在台灣很難有這類的資源。
https://github.com/FunAudioLLM/CosyVoice
https://github.com/RVC-Boss/GPT-SoVITS
https://github.com/2noise/ChatTTS
https://github.com/fishaudio/fish-speech
一樣是中國的模型,這部分我非常佩服中國的資料集,當中有model是拿200k的語者訓練出來,我曾經有自己收集 過濾 整理過,光做出5k語者就花了很多時間跟功夫,人家隨便資料就200k,真是太恐怖了。
https://github.com/modelscope/3D-Speaker
另一個是nvidia訓練出來的英文,不過人數方面就少很多了
https://huggingface.co/nvidia/speakerverification_en_titanet_large
我自己是很看好mamba,速度相比transformer是真的快蠻多的,有興趣的可以上網查查。
https://github.com/state-spaces/mamba
應用在圖像:
https://github.com/hustvl/Vim
https://github.com/MzeroMiko/VMamba
應用在語音:
https://github.com/xi-j/Mamba-ASR
https://github.com/xi-j/Mamba-TasNet
應用在LLM:
https://developer.nvidia.com/blog/nvidia-nemo-accelerates-llm-innovation-with-hybrid-state-space-model-support/
https://huggingface.co/tiiuae/falcon-mamba-7b
https://github.com/NVIDIA/NeMo
https://github.com/espnet/espnet
https://github.com/speechbrain/speechbrain
https://github.com/modelscope/FunASR
今天輕鬆一點介紹一下我有看過的github,有些我有實際下去做,有些是看論文的效果不錯,蠻建議可以多看,也可以去研究自己喜歡的部分,總之在碩士期間盡量多學點一定不吃虧。