Day 25｜30 天 Vibe Coding：懶得打字，就用講的寫日記

2025 iThome 鐵人賽

DAY 25

生成式 AI

30 天 Vibe Coding：全端 × 機器學習的實作挑戰系列第 25 篇

17th鐵人賽

霓霓

2025-09-25 09:34:02

274 瀏覽

分享至

今天要做的是：幫日記頁加上語音輸入。不改後端、不碰情緒模型：按下麥克風 → 用瀏覽器把語音直接轉文字 → 自動填進輸入框。今天只做「能按、會聽、吐字、不閃退」

畢竟有些時候想紀錄的事情很多，打字確實比較慢，所以語音輸入還是很重要的（但如果有嚴重的台灣國語還是建議手動打字，不要玩我的語音辨識 ><）

開發過程紀錄

這是進階版難得輕鬆的一天，因為不碰模型、只有前端，就先交給 codex／cursor 產生骨架，再自己微調

我用 Web Speech API（SpeechRecognition）做語音轉文字，介面簡單，但不同瀏覽器效果不一樣：桌機 Chrome／Edge 比較穩，Safari／iOS 支援度不一。第一次使用會跳麥克風權限，若拒絕要到瀏覽器設定重新開啟。

隱私：這版是「前端轉字」，不同瀏覽器的實作可能會把音訊送到供應商伺服器做辨識（例如 Chrome）。我不會把音檔上傳到自己的後端，只把辨識結果填回輸入框

實際用起來可用，而且蠻順；但標點不太穩，有時候明明停頓了卻沒有逗號或句號

明日預告

明天又要先脫離情緒日記了，要先把語音情緒辨識打底：先挑一個好取得、授權清楚的公開中文語料，把多種情緒先對映成「正向／中立／負向」三類，做兩個最小 baseline（log-mel 特徵＋輕量分類器；或預訓練語音表徵＋線性分類頭），用說話者獨立的切分來評估，以 UAR 為主指標，先把驗證集 UAR ≥ 0.6 撐起來；不碰前端與雲端，確保能跑、可複現、結果有紀錄就算過關！