近期接觸 python
whisper
模型,在建立即時語音轉文字的過程,發現延遲性很高。使用兩種方法如下:
small
model 至本地,並搭配 vram 6G 的 GPU 執行,延遲約 1-2 sec。(上述的延遲時間只是大概,因為每次都不一致,且指的時間為單次翻譯的過程,例如 call api 直到響應出結果)
但是使用 LINE 上的語音即時轉文字(並非傳送語音訊息後,再轉成文字),發現速度很快,而且還會自動校正錯字。
想詢問 LINE 是透過調用 API,還是在手機即時運算實現功能的,如果是後者,為何速度如此快、準確,原理大概是什麼?
又或者我在開發上,有哪些可參考的文章,能提升效率、準確度,也歡迎告知。
LINE 哪有內建的《語音即時轉文字》功能?
你用的是每隻手機中文鍵盤都內建的《語音聽寫》吧?
Android 鍵盤的語音聽寫, 是將語音傳回 Google 去做即時辨識之後再回傳.
不信你可以把網路通訊全部關掉, 再試試看語音能否幫你辨識出中文?