▋前言
在 Day 16–17 我們談到資料探勘的步驟與 Mozilla Common Voice 的語料特性。今天開始,我們將切換到另一個更貼近「雙人自然對話」的資料集——Switchboard。
▋內容
Switchboard (SWBD) 是一個在 1990 年代由美國 Linguistic Data Consortium (LDC) 建立的電話對話語料庫。它的特點如下:
對話規模:2,400 小時的雙人對話,涵蓋 70+ 主題(旅遊、運動、教育、政治…)。
錄音品質:8kHz 電話音質(模擬真實通話場景)。
逐字稿:包含 disfluency(例如 "uh", "you know")、填充詞與修正標註。
說話者多樣性:超過 500 名美國各地的志願者,口音與語速差異豐富。
適合應用場景:
測試 語音辨識 (ASR) 在自然語音下的表現。
驗證 語者分離 (Speaker Diarization) 與 語者辨識 的穩健性。
研究 情緒與語氣分析,特別是在日常對話中的情境。
限制:
授權限制:需透過 LDC 取得,非完全免費。
音質限制:僅有 8kHz,與現代線上課程錄音(16kHz 或 44.1kHz)不同。
▋下回預告
下一篇將實際對 Switchboard 做資料探勘,看看裡面的「對話特徵」對系統設計有什麼啟發。
▋參考資料