2025 iThome鐵人賽
「 Flutter :30天打造念佛App,跨平台從Mobile到VR,讓極樂世界在眼前實現 ! 」
Day 12
「 Flutter 語音辨識 實戰入門篇 — 生活在地球的勇者啊,你聽過阿彌陀佛嗎(3) 」
前兩天我們已經透過 speech to text ,
實際Demo 用戶端App的語音辨識運作,
並且知道如何實作核心步驟與進行細節設定。
今天我們來認識 語音辨識的實作方法之一「 雲端語音轉文字 」,
並且了解 雲端服務商之間的差異 與 初步認識 Google Cloud Speech to Text!
Day12 文章目錄:
一、雲端語音轉文字
二、雲端服務供應商
三、Google Cloud Speech to Text
1. 簡介
雲端語音轉文字,
又稱 雲端自動語音辨識、雲端轉寫(Cloud ASR / Cloud Speech-to-Text)。
指的是:App 將音訊上傳雲端服務商,由雲端模型將語音轉成文字,並將結果回傳。
2. 常見模式
- 即時串流(Streaming):邊錄邊傳,雲端回 partial / final 結果,
適合即時字幕、語音助理。
- 批次轉寫(Batch):錄完一段檔案(例如 30 分鐘、1 小時)再上傳,
幾分鐘內拿到完整逐字稿,適合會議、訪談、長檔分析。
3. 優點與缺點
優點 | 缺點/成本 |
---|---|
準確度高:多語系與口音覆蓋廣。 | 依賴網路:網路品質不佳時,可能無法使用或延遲增加。 |
裝置端負擔小:App 體積小、裝置運算/耗電較低。 | 成本:依音訊分鐘計費,長時間或大量用戶費用可觀。 |
生態成熟:維運工具完善。 | 隱私/合規:音訊上傳雲端處理與存儲,需事先告知/取得同意,並做好加密與存取控管。 |
擴充功能:關鍵詞加權、內容審查等。 | 供應商鎖定:API 與費率可能變動,跨雲遷移成本高。 |
1. 簡介
雲端服務供應商(Cloud Service Provider, CSP)
是提供運算、儲存、AI/ML 等雲端能力的廠商。
以語音轉文字(ASR)來說,雲端服務商讓我們的 App 不必在裝置上載入大模型及負擔維運,只需要將音訊串流或批次上傳到雲端,就能拿到逐字稿。
2.常見的雲端服務商- Cloud ASR
關鍵點 | Google Cloud Speech-to-Text | AWS Transcribe | Azure AI Speech | Deepgram | OpenAI Whisper API |
---|---|---|---|---|---|
Flutter 串接難易度 | 中: gRPC;有社群套件 google_speech | 中:WebSocket, SigV4驗證 | 中:原生 SDK(iOS/Android)→ 平台通道 | 易:WebSocket | 易:HTTP上傳檔案 |
即時串流協定 | gRPC | HTTP/2 或 WebSocket | SDK 內建串流 | WebSocket | 無(以批次為主) |
批次長檔支援 | 檔案最長8小時 | 最長4小時或上限 2 GB | 最長4小時或上限 1 GB | 檔案上限2GB | 檔案上限25MB |
關鍵詞辨識強化 | 有,Speech Adaptation | 有,Custom vocabularies | 有,Speech Studio Custom Keyword portal | 有,Keywords | 無內建,靠後處理比對 |
說話人分離 | 有 | 有 | 有 | 有 | 無(需外掛工具) |
價格計費 | 依音訊分鐘數(型號不同價) | 依音訊分鐘數 | 依音訊分鐘數 | 依音訊分鐘數 | 依音訊分鐘數 |
語言覆蓋 / 支援中文辨識 | 廣 / 有 | 廣 / 有 | 廣 / 有 | 廣 / 依模型 | 廣 / 有 |
1. 支援語系廣,且支援繁體中文
2. 計費價格
3. 音訊要求
4. 擴充功能
重點 | 內容 |
---|---|
雲端語音轉文字 | 常見模式與優缺點 |
雲端服務供應商 | 差異比較 |
Google Cloud Speech to Text | 音訊要求與擴充功能 |