iT邦幫忙

5

LINE 的"即時語音轉文字"原理是什麼?

  • 分享至 

  • xImage

近期接觸 python whisper 模型,在建立即時語音轉文字的過程,發現延遲性很高。使用兩種方法如下:

  1. 開源 Whisper: 下載 small model 至本地,並搭配 vram 6G 的 GPU 執行,延遲約 1-2 sec。
  2. 付費 Whisper api: 延遲約 1 sec。

(上述的延遲時間只是大概,因為每次都不一致,且指的時間為單次翻譯的過程,例如 call api 直到響應出結果)

但是使用 LINE 上的語音即時轉文字(並非傳送語音訊息後,再轉成文字),發現速度很快,而且還會自動校正錯字。

想詢問 LINE 是透過調用 API,還是在手機即時運算實現功能的,如果是後者,為何速度如此快、準確,原理大概是什麼?

又或者我在開發上,有哪些可參考的文章,能提升效率、準確度,也歡迎告知。

rain_yu iT邦研究生 5 級 ‧ 2024-06-20 09:06:41 檢舉
語音轉文字是手機內建的功能,Line只有語音本身而已;
你可以注意看一下
Pythonist iT邦新手 4 級 ‧ 2024-06-24 22:51:52 檢舉
確實如此,我搞錯這個了
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

2 個回答

2
Ray
iT邦大神 1 級 ‧ 2024-06-19 21:18:58

LINE 哪有內建的《語音即時轉文字》功能?
你用的是每隻手機中文鍵盤都內建的《語音聽寫》吧?

Android 鍵盤的語音聽寫, 是將語音傳回 Google 去做即時辨識之後再回傳.
不信你可以把網路通訊全部關掉, 再試試看語音能否幫你辨識出中文?

Pythonist iT邦新手 4 級 ‧ 2024-06-24 22:52:33 檢舉

感謝回覆!但我去測試開飛航模式後,語音還是有辦法辨識正確,效果也沒有變不好。

0
YC
iT邦好手 1 級 ‧ 2024-06-20 12:57:45

我不知道 Line 用了什麼技術,但我知道關鍵字是 speech to text (STT)

  1. android 教學
  2. iOS 教學

我要發表回答

立即登入回答