iT邦幫忙

2025 iThome 鐵人賽

DAY 7
0

▋前言


在 Day 6,我們已經能把不同的說話者分離出來。但若要應用於教育場景,還必須回答更重要的問題:「誰是老師,誰是學生?」這就是講者辨識 (Speaker Recognition, SR) 的任務。

▋內容


語者分離 vs 語者識別

語者分離 (Diarization):把對話切分成不同的人,但不告訴你「是誰」。

語者識別 (Recognition):確認「這個人是老師還是學生」。

我們的流程

註冊 (Enrollment):先收集老師語音樣本,建立聲紋向量。

辨識 (Identification):將課堂音訊分離後的片段,轉換為向量,與老師聲紋比對。

模型方面,我們採用 pyannote.audio 提供的 X-vector 嵌入,並使用 餘弦相似度 (cosine similarity) 來進行比對。

以這樣的設計在本次競賽情境中進行抽樣檢測,在兩人對話場景下,辨識正確率接近 99%,逐字稿因此能辨識出老師與學生分別說出的語句內容。

▋下回預告


下一篇將介紹「語音情緒辨識 (SER)」,探討如何捕捉學生專注或分心的狀態。

▋參考資料


pyannote.audio
X-VECTORS: ROBUST DNN EMBEDDINGS FOR SPEAKER RECOGNITION
X-Vectors: Robust DNN Embeddings for Speaker Recognition


上一篇
Day 6 模組二:語者分離 (Speaker Diarization)
系列文
AI語音辨識系統:結合聲紋分析與情緒識別7
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言