▋前言
語音轉文字是整個系統的基礎。如果逐字稿不準確,後續的語者分離與情緒分析都會失去價值。
▋內容
我們採用了 Whisper 作為 STT 模型,原因有三:
高準確率:在我們的抽樣測試中,準確率超過 98%。
抗噪表現佳:即使在課堂背景音下,依然能維持穩定輸出。
多語言支援:若混和兩種以上語言亦適用,適合台灣常見的雙語課程。
與傳統 STT(如 Google Speech-to-Text)相比,Whisper 在長語音與多說話者場景下更具優勢。這讓它特別適合教育場合。
此外,我們在流程中加入了音訊切分與正規化,避免一次處理過長的語音段落,進一步提升準確率。
👉 在這裡也要特別說明,本系列文為了保護平台資料,不會公開原始教學錄音內容。後續若展示實驗流程,將會使用 公開雙人對話語料庫 作為替代資料。這類雙人對話錄音通常具有以下特點:
聲音重疊(overlap):雙方可能同時開口,增加轉錄難度。
語速差異大:有的人說話快、有的人斷句慢,模型需要能適應不同語速。
口語化表達:常包含語助詞(uh、um)、重複詞或不完整句子。
背景音干擾:即使是雙人錄音,也可能伴隨環境噪音或迴音。
情境轉換:雙人對話常隨著主題變換而出現語意跳躍,對模型語境理解是挑戰。
這些特點不僅真實反映線上課程的語音挑戰,也能驗證我們的系統是否具備足夠的穩健性(Robustness)。
▋下回預告
下一篇將進入第二個模組:語者分離 (Speaker Diarization)。
▋參考資料
Speaker Diarization Using OpenAI Whisper
Robust Speech Recognition via Large-Scale Weak Supervision