iT邦幫忙

2025 iThome 鐵人賽

DAY 14
0
Mobile Development

Flutter :30天打造念佛App,跨平台應用從Mobile到VR,讓極樂世界在眼前實現!系列 第 14

[ Day 14 ] Flutter 語音辨識 實戰應用篇— 生活在地球的勇者啊,你聽過阿彌陀佛嗎(5) #地端語音轉文字

  • 分享至 

  • xImage
  •  

2025 iThome鐵人賽
「 Flutter :30天打造念佛App,跨平台從Mobile到VR,讓極樂世界在眼前實現 ! 」
Day 14
Flutter 語音辨識 實戰應用篇 — 生活在地球的勇者啊,你聽過阿彌陀佛嗎(5) 」


前言

前兩天我們已經認識 雲端語音轉文字 以及 實作Google Cloud Speech to Text ,
今天我們就來一起初步認識 「地端語音轉文字」!

Day 14 文章目錄:
一、地端語音轉文字
二、地端vs.雲端
三、套件參考


一、地端語音轉文字

1. 簡介

地端語音轉文字 指的是不將錄音上傳到外部雲端,
而是在使用者裝置或自家伺服器(內網)完成語音辨識。

備註:
中文常見用詞 「 地端 / 本地部署 」,英文多用「On-Device / On-Premise / Edge」

2. 常見落地型態

(1) 裝置(On-Device / Edge)

直接在手機、平板或邊緣設備上完成語音辨識

優點:離線可用、延遲極低、資料不離機
適合:即時字幕、離線環境、即時語音指令

備註:
裝置端通常具備離線能力,但是否「完全離線」取決於是否仍依賴外部網路(如授權、模型下載、雲端後處理或同步)。

(2) 內網(On-Premise / Self-Hosted)

將 STT 引擎部署在企業自有的伺服器或私有雲

優點:資料不出內網、可彈性擴充
適合:金融、醫療、政府、法遵要求高的場景。

3. 常見應用情境

(1) 智慧筆記:會議逐字稿、課堂講解
(2) 敏感場域:醫病對談、客服錄音
(3) 弱網/無網:偏鄉、大型展館會場


二、地端 vs. 雲端

面向 地端(On-Device) 雲端(Cloud STT)
隱私 音訊保留本機 音訊需上傳
可離線 可離線 需網路
延遲 低且穩定 受網路、區域、伺服器影響
準確度 / 語言覆蓋 視模型與調校 通常覆蓋廣、更新快、平均精度較高
功能豐富度 依引擎而異 雲端多數有提供(時間戳記、說話者分離…等)
整合複雜度 需接 FFI / 原生 SDK、音訊前處理、模型載入 HTTP/gRPC API + 麥克風串流
封裝體積 模型檔案較大,可能增加數十~數百MB 幾乎不影響App體積
耗電 / 發熱 手機端運算,耗電/發熱↑ 雲端運算,手機端負擔小

三、套件參考

套件名稱 收費 支援平台 離線能力 整合方式 常見用途 授權(License) Likes / Pub Points / Downloads(pub.dev,2025-09-28)
whisper_ggml (1.7.0) 開源 Android / iOS / Linux / macOS / Windows 支援離線 ASR FFI(綁原生推論庫) 多語字幕、逐字稿 MIT 16 / 160 / 630
vosk_flutter_2 (1.0.5) 開源 Android 支援離線 ASR FFI(原生 SDK 綁定) 低資源裝置、固定詞彙離線轉錄 Apache-2.0 6 / 150 / 345
sherpa_onnx (1.12.14) 開源 Android / iOS / Linux / macOS / Windows 支援離線 ASR FFI(多平台原生封裝) 本機多功能 ASR(含VAD/標點/說話者分離) Apache-2.0 70 / 140 / 4.24k

Day14 重點回顧

重點 內容
地端語音轉文字 裝置端或私有內網完成語音辨識
地端vs.雲端 以開發面向比較差異
套件參考 Whisper/Vosk/sherpa-onnx

上一篇
[ Day 13 ] Flutter 語音辨識 實戰應用篇— 生活在地球的勇者啊,你聽過阿彌陀佛嗎(4) #雲端語音轉文字 #Google Cloud Speech to Text
系列文
Flutter :30天打造念佛App,跨平台應用從Mobile到VR,讓極樂世界在眼前實現!14
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言