[ Day 12 ] Flutter 語音辨識實戰入門篇 — 生活在地球的勇者啊，你聽過阿彌陀佛嗎(3) #雲端語音轉文字

2025 iThome 鐵人賽

DAY 12

Mobile Development

17th鐵人賽

345 瀏覽

2025 iThome鐵人賽
「 Flutter ：30天打造念佛App，跨平台從Mobile到VR，讓極樂世界在眼前實現 ! 」
Day 12
「 Flutter 語音辨識實戰入門篇 — 生活在地球的勇者啊，你聽過阿彌陀佛嗎(3) 」

前言

前兩天我們已經透過 speech to text ，
實際Demo 用戶端App的語音辨識運作，
並且知道如何實作核心步驟與進行細節設定。

今天我們來認識 語音辨識的實作方法之一「 雲端語音轉文字 」，
並且了解 雲端服務商之間的差異 與 初步認識 Google Cloud Speech to Text！

Day12 文章目錄：
一、雲端語音轉文字
二、雲端服務供應商
三、Google Cloud Speech to Text

1. 簡介

雲端語音轉文字，
又稱雲端自動語音辨識、雲端轉寫（Cloud ASR / Cloud Speech-to-Text）。
指的是：App 將音訊上傳雲端服務商，由雲端模型將語音轉成文字，並將結果回傳。

2. 常見模式

即時串流（Streaming）：邊錄邊傳，雲端回 partial / final 結果，
適合即時字幕、語音助理。

批次轉寫（Batch）：錄完一段檔案（例如 30 分鐘、1 小時）再上傳，
幾分鐘內拿到完整逐字稿，適合會議、訪談、長檔分析。

3. 優點與缺點

優點	缺點/成本
準確度高：多語系與口音覆蓋廣。	依賴網路：網路品質不佳時，可能無法使用或延遲增加。
裝置端負擔小：App 體積小、裝置運算/耗電較低。	成本：依音訊分鐘計費，長時間或大量用戶費用可觀。
生態成熟：維運工具完善。	隱私/合規：音訊上傳雲端處理與存儲，需事先告知/取得同意，並做好加密與存取控管。
擴充功能：關鍵詞加權、內容審查等。	供應商鎖定：API 與費率可能變動，跨雲遷移成本高。

1. 簡介

雲端服務供應商（Cloud Service Provider, CSP）
是提供運算、儲存、AI/ML 等雲端能力的廠商。

以語音轉文字（ASR）來說，雲端服務商讓我們的 App 不必在裝置上載入大模型及負擔維運，只需要將音訊串流或批次上傳到雲端，就能拿到逐字稿。

2.常見的雲端服務商- Cloud ASR

關鍵點	Google Cloud Speech-to-Text	AWS Transcribe	Azure AI Speech	Deepgram	OpenAI Whisper API
Flutter 串接難易度	中： gRPC；有社群套件 google_speech	中：WebSocket， SigV4驗證	中：原生 SDK（iOS/Android）→ 平台通道	易：WebSocket	易：HTTP上傳檔案
即時串流協定	gRPC	HTTP/2 或 WebSocket	SDK 內建串流	WebSocket	無(以批次為主)
批次長檔支援	檔案最長8小時	最長4小時或上限 2 GB	最長4小時或上限 1 GB	檔案上限2GB	檔案上限25MB
關鍵詞辨識強化	有，Speech Adaptation	有，Custom vocabularies	有，Speech Studio Custom Keyword portal	有，Keywords	無內建，靠後處理比對
說話人分離	有	有	有	有	無（需外掛工具）
價格計費	依音訊分鐘數（型號不同價）	依音訊分鐘數	依音訊分鐘數	依音訊分鐘數	依音訊分鐘數
語言覆蓋 / 支援中文辨識	廣 / 有	廣 / 有	廣 / 有	廣 / 依模型	廣 / 有