▋前言
在 Day 16 我們談到資料探勘 (EDA) 的一般流程。今天,我們要把這些步驟實際應用在 AMI Meeting Corpus —— 一個包含多講者會議錄音與逐字稿的語料庫。這套資料特別適合檢測我們的「語者分離與識別」模組,因為它的挑戰性很高。
▋內容
AMI Meeting Corpus 的特色
多人會議場景:每段錄音都有 3–5 位講者,常常互相打斷。
逐字稿與時間戳:官方提供完整逐字稿與時間標註。
聲音重疊 (overlap speech) 比例高,對於 speaker diarization 是極大挑戰。
語速與口音差異大:涵蓋不同母語者的英文,模擬線上教學中常見的多樣性。
EDA 探勘重點
錄音長度統計
大部分會議長度在 20–60 分鐘。
確認是否需要分割成較短的片段再送入 STT。
語者分布
平均每場會議約 4 人。
可分析每位講者的發言比例,例如「某人佔比 40%,其他人 20%」。
重疊語音比例
約 10–15% 的時間存在多人同時說話。
這部分會讓 NeMo 的 diarization pipeline 難以正確切分。
逐字稿品質
結論
AMI 適合用來「壓力測試」系統,驗證我們的 speaker diarization 模組在困難場景下的表現。
▋下回預告
下一篇將探勘 Mozilla Common Voice,這是一個開源眾包資料集,幫助我們檢視「多口音與開放場景」的挑戰。
▋參考資料
AMI Corpus
Speaker Diarization with AMI dataset (Pyannote Notebook)
圖片源自AMI Corpus官網