把「聲音 → 文字」
流程:
收集資料:大量的語音錄音 + 對應逐字稿(最好有多種口音、音量、背景雜訊)
資料前處理:
降噪、切分語音片段,把音檔轉成 梅爾頻譜 (Mel-spectrogram)
模型選擇:
1.傳統:HMM + GMM
2.現在主流:深度學習模型(RNN, Transformer, wav2vec 2.0, Whisper)。
訓練:讓模型學習「語音特徵 ↔ 文字」對應關係
微調:針對特定領域(例如醫療、客服)加上專屬詞庫
語音合成(Text-to-Speech, TTS)
把「文字 → 聲音」
流程:
收集語音資料:
找一位聲音清晰的配音員錄製數小時以上(幾千到幾萬句)配對的「文字 + 音檔」
前處理:
把文字轉成 音素(語音單位),避免多音字問題,把音檔轉成梅爾頻譜
模型選擇:
1.Tacotron 2(Google)、FastSpeech、VITS(現代端到端)
2.聲碼器(Vocoder,如 WaveNet、HiFi-GAN)把頻譜轉成真實波形
訓練:學習「文字/音素 → 聲音特徵 → 波形」
應用:可以生成不同語氣、情感,甚至做聲音克隆