iT邦幫忙

2025 iThome 鐵人賽

DAY 25
0
生成式 AI

30 天 Vibe Coding:全端 × 機器學習的實作挑戰系列 第 25

Day 25|30 天 Vibe Coding:懶得打字,就用講的寫日記

  • 分享至 

  • xImage
  •  

今天要做的是:幫日記頁加上語音輸入。不改後端、不碰情緒模型:按下麥克風 → 用瀏覽器把語音直接轉文字 → 自動填進輸入框。今天只做「能按、會聽、吐字、不閃退」

畢竟有些時候想紀錄的事情很多,打字確實比較慢,所以語音輸入還是很重要的(但如果有嚴重的台灣國語還是建議手動打字,不要玩我的語音辨識 ><)


開發過程紀錄

這是進階版難得輕鬆的一天,因為不碰模型、只有前端,就先交給 codex/cursor 產生骨架,再自己微調

我用 Web Speech API(SpeechRecognition) 做語音轉文字,介面簡單,但不同瀏覽器效果不一樣:桌機 Chrome/Edge 比較穩,Safari/iOS 支援度不一。第一次使用會跳麥克風權限,若拒絕要到瀏覽器設定重新開啟。

隱私:這版是「前端轉字」,不同瀏覽器的實作可能會把音訊送到供應商伺服器做辨識(例如 Chrome)。我不會把音檔上傳到自己的後端,只把辨識結果填回輸入框

https://ithelp.ithome.com.tw/upload/images/20250910/20140998D8bzMsOD71.pnghttps://ithelp.ithome.com.tw/upload/images/20250910/20140998DVvELgVuCX.png

實際用起來可用,而且蠻順;但標點不太穩,有時候明明停頓了卻沒有逗號或句號


明日預告

明天又要先脫離情緒日記了,要先把語音情緒辨識打底:先挑一個好取得、授權清楚的公開中文語料,把多種情緒先對映成「正向/中立/負向」三類,做兩個最小 baseline(log-mel 特徵+輕量分類器;或預訓練語音表徵+線性分類頭),用說話者獨立的切分來評估,以 UAR 為主指標,先把驗證集 UAR ≥ 0.6 撐起來;不碰前端與雲端,確保能跑、可複現、結果有紀錄就算過關!/images/emoticon/emoticon33.gif


上一篇
Day 24|30 天 Vibe Coding:把更聰明的情緒模型塞回日記裡
下一篇
Day 26|30 天 Vibe Coding:先找個能用的語音情緒模型再說
系列文
30 天 Vibe Coding:全端 × 機器學習的實作挑戰26
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言