2025 iThome鐵人賽
「 Flutter :30天打造念佛App,跨平台從Mobile到VR,讓極樂世界在眼前實現 ! 」
Day 14
「 Flutter 語音辨識 實戰應用篇 — 生活在地球的勇者啊,你聽過阿彌陀佛嗎(5) 」
前兩天我們已經認識 雲端語音轉文字 以及 實作Google Cloud Speech to Text ,
今天我們就來一起初步認識 「地端語音轉文字」!
Day 14 文章目錄:
一、地端語音轉文字
二、地端vs.雲端
三、套件參考
1. 簡介
地端語音轉文字 指的是不將錄音上傳到外部雲端,
而是在使用者裝置或自家伺服器(內網)完成語音辨識。
備註:
中文常見用詞 「 地端 / 本地部署 」,英文多用「On-Device / On-Premise / Edge」
2. 常見落地型態
(1) 裝置(On-Device / Edge)
直接在手機、平板或邊緣設備上完成語音辨識
優點:離線可用、延遲極低、資料不離機
適合:即時字幕、離線環境、即時語音指令
備註:
裝置端通常具備離線能力,但是否「完全離線」取決於是否仍依賴外部網路(如授權、模型下載、雲端後處理或同步)。
(2) 內網(On-Premise / Self-Hosted)
將 STT 引擎部署在企業自有的伺服器或私有雲
優點:資料不出內網、可彈性擴充
適合:金融、醫療、政府、法遵要求高的場景。
3. 常見應用情境
(1) 智慧筆記:會議逐字稿、課堂講解
(2) 敏感場域:醫病對談、客服錄音
(3) 弱網/無網:偏鄉、大型展館會場
面向 | 地端(On-Device) | 雲端(Cloud STT) |
---|---|---|
隱私 | 音訊保留本機 | 音訊需上傳 |
可離線 | 可離線 | 需網路 |
延遲 | 低且穩定 | 受網路、區域、伺服器影響 |
準確度 / 語言覆蓋 | 視模型與調校 | 通常覆蓋廣、更新快、平均精度較高 |
功能豐富度 | 依引擎而異 | 雲端多數有提供(時間戳記、說話者分離…等) |
整合複雜度 | 需接 FFI / 原生 SDK、音訊前處理、模型載入 | HTTP/gRPC API + 麥克風串流 |
封裝體積 | 模型檔案較大,可能增加數十~數百MB | 幾乎不影響App體積 |
耗電 / 發熱 | 手機端運算,耗電/發熱↑ | 雲端運算,手機端負擔小 |
套件名稱 | 收費 | 支援平台 | 離線能力 | 整合方式 | 常見用途 | 授權(License) | Likes / Pub Points / Downloads(pub.dev,2025-09-28) |
---|---|---|---|---|---|---|---|
whisper_ggml (1.7.0) | 開源 | Android / iOS / Linux / macOS / Windows | 支援離線 ASR | FFI(綁原生推論庫) | 多語字幕、逐字稿 | MIT | 16 / 160 / 630 |
vosk_flutter_2 (1.0.5) | 開源 | Android | 支援離線 ASR | FFI(原生 SDK 綁定) | 低資源裝置、固定詞彙離線轉錄 | Apache-2.0 | 6 / 150 / 345 |
sherpa_onnx (1.12.14) | 開源 | Android / iOS / Linux / macOS / Windows | 支援離線 ASR | FFI(多平台原生封裝) | 本機多功能 ASR(含VAD/標點/說話者分離) | Apache-2.0 | 70 / 140 / 4.24k |
Day14 重點回顧
重點 | 內容 |
---|---|
地端語音轉文字 | 裝置端或私有內網完成語音辨識 |
地端vs.雲端 | 以開發面向比較差異 |
套件參考 | Whisper/Vosk/sherpa-onnx |