LINE 的"即時語音轉文字"原理是什麼?

whisper line python audio_transcribe asr

Pythonist 2024-06-19 14:46:38 ‧ 2049 瀏覽

近期接觸 python whisper 模型，在建立即時語音轉文字的過程，發現延遲性很高。使用兩種方法如下:

(上述的延遲時間只是大概，因為每次都不一致，且指的時間為單次翻譯的過程，例如 call api 直到響應出結果)

但是使用 LINE 上的語音即時轉文字(並非傳送語音訊息後，再轉成文字)，發現速度很快，而且還會自動校正錯字。

想詢問 LINE 是透過調用 API，還是在手機即時運算實現功能的，如果是後者，為何速度如此快、準確，原理大概是什麼?

又或者我在開發上，有哪些可參考的文章，能提升效率、準確度，也歡迎告知。

rain_yu iT邦研究生 5 級 ‧ 2024-06-20 09:06:41 檢舉

語音轉文字是手機內建的功能，Line只有語音本身而已；
你可以注意看一下

Pythonist iT邦新手 4 級 ‧ 2024-06-24 22:51:52 檢舉

確實如此，我搞錯這個了

直播研討會

{{ item.channelVendor }} {{ item.webinarstarted }} |

直播中

Ray

iT邦大神 1 級 ‧ 2024-06-19 21:18:58

LINE 哪有內建的《語音即時轉文字》功能?
你用的是每隻手機中文鍵盤都內建的《語音聽寫》吧?

Android 鍵盤的語音聽寫, 是將語音傳回 Google 去做即時辨識之後再回傳.
不信你可以把網路通訊全部關掉, 再試試看語音能否幫你辨識出中文?

Pythonist iT邦新手 4 級 ‧ 2024-06-24 22:52:33 檢舉

感謝回覆！但我去測試開飛航模式後，語音還是有辦法辨識正確，效果也沒有變不好。

iT邦好手 1 級 ‧ 2024-06-20 12:57:45

我不知道 Line 用了什麼技術，但我知道關鍵字是 speech to text (STT)

立即登入回答

參賽組數

1064 組

團體組數

40 組

累計文章數

22195 篇

完賽人數

600 人

IT邦幫忙