到目前為止,情緒日記系統已經能同時處理文字情緒分析與語音情緒分析
然而單一路徑總是有盲點:
新增一個 Fusion Gateway API,負責接收文字與音檔,分別呼叫兩個後端,再將結果合併
在實驗過程中我也發現一些限制。語音模型在面對日常語氣時往往傾向於判斷為負向,這很可能與訓練時使用的資料集有關。由於該資料集的錄音多半帶有強烈、誇張的情緒表達(例如大聲、生氣或激動),因此當使用者的語音輸入較為平淡時,模型便誤以為是消極的情緒。此外,目前的融合方法仍僅停留在單純的線性加權,尚未能處理語境中的複雜互動;當文字與語音出現明顯衝突時,也缺乏更細緻的決策邏輯來判斷最貼近真實心情的結果
明天的計畫是加入隱私控制,讓使用者能決定是否保留音檔,或僅存加密後的文字與特徵,讓系統不只是準確,也能令人安心~