iT邦幫忙

2025 iThome 鐵人賽

DAY 13
0

▋前言


經過數月開發與競賽挑戰,我們的 AI 語音辨識系統最終成功整合多個模組,並且在比賽評審結果中受到了正向的肯定。今天回顧成果,並展望未來應用。

▋內容


最終成果

  • 課堂逐字稿:語音轉文字準確率 >95%。

  • 講者辨識:老師與學生辨識準確率達 99%。

  • 情緒分析:輸出逐段情緒曲線,輔助理解學生學習狀態。

  • 教學報告:整合文字雲與 LLM 摘要,提供決策依據。

  • 效能表現:在 RTX 3060 + i7-13700 + 32GB RAM 的環境下,50 分鐘錄音可於 5–6 分鐘完成全流程分析。

落地應用價值

  • 使用對象

    1. 一對一英語家教課程:教師與學生是主要使用者。

    2. 教育機構與平台:將此技術作為增值服務,提升課程吸引力。

  • 解決痛點

    1. 逐字稿正確率不足:輕量型 STT 模型常誤轉,降低逐字稿價值。

    2. 語者難以區分:單一音軌錄音難以區分老師與學生,影響課程分析。

    3. 學生參與難量化:教師無法客觀掌握學生的情緒狀態與專注度。

  • 應用價值

    1. 提高教學效率:自動逐字稿減少教師負擔。

    2. 增強學習效果:學生可回顧課堂內容,鞏固成果。

    3. 支持個性化教學:情緒數據輔助教師調整教學方法。

    4. 提升課程品質:教育機構能提供差異化服務,強化競爭力。

  • 成本與可行性

    1. 技術實施成本:包含模型訓練、系統開發與維護。

    2. 設備需求:需 GPU 等基本硬體支援。

    3. 可行性驗證:經實測,所有功能(含 LLM 應用)皆能在本地完成,不須雲端,且能達成 >95% 的正確率。

  • 創新亮點

    1. 多模組整合:將 STT、講者識別、情緒分析、LLM 報告結合,提供全面的課堂監控。

    2. 高精度與擴充性:STT 與講者識別準確率皆超過 95%,未來可擴展至課堂單字統計、文法檢測。

    3. 增值功能:透過逐段情緒分析與地端 LLM,我們能自動生成摘要、文字雲與課程洞察,超越傳統 STT 系統。

  • 未來展望

    1. 應用延伸:可擴展至企業培訓、會議紀錄、客服監控。

    2. 多語言支援:因應中英混合甚至多國語言場景。

    3. 即時應用:未來挑戰「邊錄邊分析」的即時回饋。

    4. 規模化部署:從單機環境到伺服器集群,支援大規模用戶。

▋下回預告


下一篇將分享參賽心得,給未來想挑戰 AI 競賽的人一些建議。


上一篇
Day 12 LLM 技術比較與地端選擇
下一篇
Day 14 比賽成果分享與反思
系列文
AI語音辨識系統:結合聲紋分析與情緒識別15
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言