▋前言
經過數月開發與競賽挑戰,我們的 AI 語音辨識系統最終成功整合多個模組,並且在比賽評審結果中受到了正向的肯定。今天回顧成果,並展望未來應用。
▋內容
最終成果
課堂逐字稿:語音轉文字準確率 >95%。
講者辨識:老師與學生辨識準確率達 99%。
情緒分析:輸出逐段情緒曲線,輔助理解學生學習狀態。
教學報告:整合文字雲與 LLM 摘要,提供決策依據。
效能表現:在 RTX 3060 + i7-13700 + 32GB RAM 的環境下,50 分鐘錄音可於 5–6 分鐘完成全流程分析。
落地應用價值
使用對象
一對一英語家教課程:教師與學生是主要使用者。
教育機構與平台:將此技術作為增值服務,提升課程吸引力。
解決痛點
逐字稿正確率不足:輕量型 STT 模型常誤轉,降低逐字稿價值。
語者難以區分:單一音軌錄音難以區分老師與學生,影響課程分析。
學生參與難量化:教師無法客觀掌握學生的情緒狀態與專注度。
應用價值
提高教學效率:自動逐字稿減少教師負擔。
增強學習效果:學生可回顧課堂內容,鞏固成果。
支持個性化教學:情緒數據輔助教師調整教學方法。
提升課程品質:教育機構能提供差異化服務,強化競爭力。
成本與可行性
技術實施成本:包含模型訓練、系統開發與維護。
設備需求:需 GPU 等基本硬體支援。
可行性驗證:經實測,所有功能(含 LLM 應用)皆能在本地完成,不須雲端,且能達成 >95% 的正確率。
創新亮點
多模組整合:將 STT、講者識別、情緒分析、LLM 報告結合,提供全面的課堂監控。
高精度與擴充性:STT 與講者識別準確率皆超過 95%,未來可擴展至課堂單字統計、文法檢測。
增值功能:透過逐段情緒分析與地端 LLM,我們能自動生成摘要、文字雲與課程洞察,超越傳統 STT 系統。
未來展望
應用延伸:可擴展至企業培訓、會議紀錄、客服監控。
多語言支援:因應中英混合甚至多國語言場景。
即時應用:未來挑戰「邊錄邊分析」的即時回饋。
規模化部署:從單機環境到伺服器集群,支援大規模用戶。
▋下回預告
下一篇將分享參賽心得,給未來想挑戰 AI 競賽的人一些建議。