iT邦幫忙

2025 iThome 鐵人賽

DAY 21
0

▋前言


在完成資料探勘後,我們接下來要進入實驗設計階段。這一階段的目標是:定義清楚的實驗目標、輸入與評估方式,確保後續的測試與模型比較能有一致性與可信度。

▋內容


一、實驗目的

我們的核心問題是:

「AI 語音辨識系統能否在不同資料條件下,維持高準確率與穩定性?」

為此,我們設計三個層面的實驗:

準確率驗證:Whisper 在口語、重疊語音下的 WER 表現。

語者識別驗證:X-vector 嵌入的語者一致性。

情緒辨識驗證:SpeechBrain + Wav2Vec 在不同語料的精準度差異。

二、實驗架構

整個實驗流程如下:

資料集 → 前處理 → 模型推論 → 結果比對 → 評估指標 → 報告生成

資料集輸入:AMI、Switchboard、IEMOCAP

預處理:音訊切段、正規化、降噪

推論模組:Whisper / NeMo / Pyannote / SpeechBrain

比對機制:Ground truth 對照(字詞、說話者、情緒)

評估指標:WER、DER、Accuracy

報告生成:自動輸出分析摘要(含圖表)

三、設計原則

可重現性 (Reproducibility):相同資料與設定下應得相同結果。

模組化 (Modularity):每個模組可獨立測試。

可擴充性 (Scalability):後續可替換不同模型測試。

▋下回預告


明天將進一步說明三大核心評估指標(WER、DER、Emotion Accuracy)的意涵與計算方式。

▋參考資料


Whisper GitHub


上一篇
Day 20 從資料到 AI 的整合流程
系列文
AI語音辨識系統:結合聲紋分析與情緒識別21
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言