▋前言
30天前,我們從一個簡單的構想出發:「如果能自動分析老師與學生在課堂中的語音互動,
是否就能幫助教育平台更客觀地評估教學品質?」
這個構想已被實作成一套完整的 AI 教學語音分析系統。我們從資料探勘、語音辨識、講者識別、情緒分析到地端 LLM 整合,一步步將理論變成落地應用。今天的文章,我們一起回顧這段歷程。
▋系統回顧:從聲音到洞察的旅程
整個系統可分為四大核心模組與兩層應用架構:
語音轉文字 (STT) — 使用 Whisper
語者分離 (Speaker Diarization) — 使用 NVIDIA NeMo
語者識別 (Speaker Recognition) — 基於 pyannote.audio
的 X-vector 模型
語音情緒辨識 (Speech Emotion Recognition) — 使用 SpeechBrain + Wav2Vec
此外,我們加入地端 LLM(Ollama + LLaMA3),將逐字稿與情緒分析結合成「AI 教學報告」—— 讓機器不只是辨識聲音,而是理解教學互動的脈絡。
▋資料探勘與多資料集驗證
為了確保系統的通用性,我們依序測試了三個資料集:
資料集 | 特點 | 應用重點 |
---|---|---|
AMI Corpus | 多人會議實錄 | 驗證語者混雜時的分離能力 |
Switchboard | 雙人電話對話 | 測試對話分離與情緒變化 |
IEMOCAP | 劇本式情緒語音 | 測試情緒辨識的穩定性與真實感 |
透過這些資料集,我們發現:
Whisper 在長語音下的穩定性明顯優於傳統 STT。
NeMo 的 Diarization 雖然強大,但在聲音重疊時仍需後處理優化。
情緒辨識中的 Happy 標籤常誤判為「語氣柔和」而非真正的快樂,提醒我們情緒 ≠ 情感詞彙。
這些細節讓系統更貼近「真實世界的語音互動」。
▋從技術到教育應用
這套系統的落地價值不僅是技術指標,而是教育上的新可能:
教師回饋自動化
學生複習輔助
教育平台洞察
▋困難與學習
這 30 天,我們面臨過許多挑戰:
NeMo 分群與教師比對邏輯導致 speaker 標籤對不上。
Whisper 在情緒強烈的語段出現字詞誤轉。
開源資料集格式差異大,標註方式不一致。
但這些錯誤讓我們更深入理解:
AI 系統不是「一次建好」,而是透過實驗與修正不斷進化。
▋未來展望
接下來,我們還可以在三個方向延伸研究:
多語言與跨文化語音辨識
多模態分析 (Audio + Video)
教育應用平台化
▋結語
這 30 天的分享,從競賽開始,到理解教育的本質結束。筆者透過參與挑戰,督促自己在工作之餘,也能和大家分享這個語音辨識系統的成果。但時間有限,還有很多可以改進跟優化的地方,歡迎大家透過這個系列文再自行發展,或者直接留言交流,感謝所有關注這系列的讀者,我們有緣再見。