iT邦幫忙

2025 iThome 鐵人賽

DAY 30
0

▋前言


30天前,我們從一個簡單的構想出發:「如果能自動分析老師與學生在課堂中的語音互動,
是否就能幫助教育平台更客觀地評估教學品質?」

這個構想已被實作成一套完整的 AI 教學語音分析系統。我們從資料探勘、語音辨識、講者識別、情緒分析到地端 LLM 整合,一步步將理論變成落地應用。今天的文章,我們一起回顧這段歷程。

▋系統回顧:從聲音到洞察的旅程


整個系統可分為四大核心模組與兩層應用架構:

  1. 語音轉文字 (STT) — 使用 Whisper

    • 逐字稿準確率超過 95%,可抗噪並支援多語系。
  2. 語者分離 (Speaker Diarization) — 使用 NVIDIA NeMo

    • 自動區分多人對話中的不同發言者。
  3. 語者識別 (Speaker Recognition) — 基於 pyannote.audio
    的 X-vector 模型

    • 精準比對老師與學生身份,準確率達 99%。
  4. 語音情緒辨識 (Speech Emotion Recognition) — 使用 SpeechBrain + Wav2Vec

    • 解析學生情緒變化,輸出時序化的情緒曲線。

此外,我們加入地端 LLM(Ollama + LLaMA3),將逐字稿與情緒分析結合成「AI 教學報告」—— 讓機器不只是辨識聲音,而是理解教學互動的脈絡。

▋資料探勘與多資料集驗證


為了確保系統的通用性,我們依序測試了三個資料集:

資料集 特點 應用重點
AMI Corpus 多人會議實錄 驗證語者混雜時的分離能力
Switchboard 雙人電話對話 測試對話分離與情緒變化
IEMOCAP 劇本式情緒語音 測試情緒辨識的穩定性與真實感

透過這些資料集,我們發現:

  • Whisper 在長語音下的穩定性明顯優於傳統 STT。

  • NeMo 的 Diarization 雖然強大,但在聲音重疊時仍需後處理優化。

  • 情緒辨識中的 Happy 標籤常誤判為「語氣柔和」而非真正的快樂,提醒我們情緒 ≠ 情感詞彙。

這些細節讓系統更貼近「真實世界的語音互動」。

▋從技術到教育應用


這套系統的落地價值不僅是技術指標,而是教育上的新可能:

  1. 教師回饋自動化

    • 系統可生成「學生參與度分析」與「課堂情緒變化報告」。
  2. 學生複習輔助

    • 提供清晰逐字稿與時間標註,方便對照聽力與口說練習。
  3. 教育平台洞察

    • 平台可利用統計結果評估課程互動品質,做為改進依據。

▋困難與學習


這 30 天,我們面臨過許多挑戰:

  • NeMo 分群與教師比對邏輯導致 speaker 標籤對不上。

  • Whisper 在情緒強烈的語段出現字詞誤轉。

  • 開源資料集格式差異大,標註方式不一致。

但這些錯誤讓我們更深入理解:
AI 系統不是「一次建好」,而是透過實驗與修正不斷進化。

▋未來展望


接下來,我們還可以在三個方向延伸研究:

  1. 多語言與跨文化語音辨識

    • 加入台灣英語學習者口音的本地化語料,提升實用性。
  2. 多模態分析 (Audio + Video)

    • 結合臉部表情與聲音情緒,達成更完整的課堂互動評估。
  3. 教育應用平台化

    • 將此系統整合為可部署的教育 SaaS 工具,讓教師能直接上傳音檔、自動生成分析報告。

▋結語


這 30 天的分享,從競賽開始,到理解教育的本質結束。筆者透過參與挑戰,督促自己在工作之餘,也能和大家分享這個語音辨識系統的成果。但時間有限,還有很多可以改進跟優化的地方,歡迎大家透過這個系列文再自行發展,或者直接留言交流,感謝所有關注這系列的讀者,我們有緣再見。


上一篇
Day 29 IEMOCAP 資料應用 — 情緒曲線與動態分析
系列文
AI語音辨識系統:結合聲紋分析與情緒識別30
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言