今天要做的是:幫日記頁加上語音輸入。不改後端、不碰情緒模型:按下麥克風 → 用瀏覽器把語音直接轉文字 → 自動填進輸入框。今天只做「能按、會聽、吐字、不閃退」
畢竟有些時候想紀錄的事情很多,打字確實比較慢,所以語音輸入還是很重要的(但如果有嚴重的台灣國語還是建議手動打字,不要玩我的語音辨識 ><)
這是進階版難得輕鬆的一天,因為不碰模型、只有前端,就先交給 codex/cursor 產生骨架,再自己微調
我用 Web Speech API(SpeechRecognition) 做語音轉文字,介面簡單,但不同瀏覽器效果不一樣:桌機 Chrome/Edge 比較穩,Safari/iOS 支援度不一。第一次使用會跳麥克風權限,若拒絕要到瀏覽器設定重新開啟。
隱私:這版是「前端轉字」,不同瀏覽器的實作可能會把音訊送到供應商伺服器做辨識(例如 Chrome)。我不會把音檔上傳到自己的後端,只把辨識結果填回輸入框
實際用起來可用,而且蠻順;但標點不太穩,有時候明明停頓了卻沒有逗號或句號
明天又要先脫離情緒日記了,要先把語音情緒辨識打底:先挑一個好取得、授權清楚的公開中文語料,把多種情緒先對映成「正向/中立/負向」三類,做兩個最小 baseline(log-mel 特徵+輕量分類器;或預訓練語音表徵+線性分類頭),用說話者獨立的切分來評估,以 UAR 為主指標,先把驗證集 UAR ≥ 0.6 撐起來;不碰前端與雲端,確保能跑、可複現、結果有紀錄就算過關!