▋前言
在完成資料探勘後,我們接下來要進入實驗設計階段。這一階段的目標是:定義清楚的實驗目標、輸入與評估方式,確保後續的測試與模型比較能有一致性與可信度。
▋內容
一、實驗目的
我們的核心問題是:
「AI 語音辨識系統能否在不同資料條件下,維持高準確率與穩定性?」
為此,我們設計三個層面的實驗:
準確率驗證:Whisper 在口語、重疊語音下的 WER 表現。
語者識別驗證:X-vector 嵌入的語者一致性。
情緒辨識驗證:SpeechBrain + Wav2Vec 在不同語料的精準度差異。
二、實驗架構
整個實驗流程如下:
資料集 → 前處理 → 模型推論 → 結果比對 → 評估指標 → 報告生成
資料集輸入:AMI、Switchboard、IEMOCAP
預處理:音訊切段、正規化、降噪
推論模組:Whisper / NeMo / Pyannote / SpeechBrain
比對機制:Ground truth 對照(字詞、說話者、情緒)
評估指標:WER、DER、Accuracy
報告生成:自動輸出分析摘要(含圖表)
三、設計原則
可重現性 (Reproducibility):相同資料與設定下應得相同結果。
模組化 (Modularity):每個模組可獨立測試。
可擴充性 (Scalability):後續可替換不同模型測試。
▋下回預告
明天將進一步說明三大核心評估指標(WER、DER、Emotion Accuracy)的意涵與計算方式。
▋參考資料