▋前言
在前幾天的實驗中,我們使用了 Switchboard 資料集來測試系統的多講者辨識能力。然而,這次遇到了一個特別的狀況:我們取得的音檔並非「混音版本」,而是雙方講者各自獨立錄下的音檔 (sw02001A.wav 與 sw02001B.wav)。
雖然音檔長度相同、時間軸一致,但由於沒有實際混音,導致模型分析結果分離,難以整體判讀。這也揭示了「資料格式一致性」在語音 AI 系統中的關鍵性。
▋內容
這次測試中,我們發現以下三個主要挑戰:
語者分離(Diarization)失效
情緒分析結果分散
系統會對 A 與 B 各自生成 summarize_emotion.txt。
兩份報告無法合併分析,缺乏「互動關係」資訊。
時間軸對齊困難
雖然錄音時間長度一致,但缺乏對齊點(例如同時說話瞬間或背景音觸發)。
直接相加會造成語音錯位與重疊。
以結果為例:
sw02001A_summarize_emotion.txt
Speaker 0 → Neutral 60%, Happy 20%, Sad 10%, Angry 10%
sw02001B_summarize_emotion.txt
Speaker 0 → Neutral 40%, Angry 30%, Sad 20%, Happy 10%
這樣的結果雖可觀察各自情緒分佈,但無法呈現雙方互動情緒變化,失去對話動態的意義。
▋改善方向
為了解決這些問題,我們可以做以下修正方向:
音軌合併 (Audio Merge)
使用 pydub 將 A/B 音檔合併成雙聲道錄音(左 A 右 B)。
使系統可同時處理兩位講者的語音流。
時間同步 (Time Alignment)
多源分析 (Multi-source Pipeline)
▋下回預告
明天我們將展示合併後的分析成果,看看這樣的修改能否讓模型正確識別雙方講話內容與情緒互動,讓 Switchboard 實驗更貼近真實對話分析情境。
▋參考資料
Switchboard
huggingface hhoangphuoc/switchboard