iT邦幫忙

2023 iThome 鐵人賽

DAY 18
0
自我挑戰組

深度學習的學習 & ASR 中文語音辨識系列 第 18

【Day 18】Whisper 使用前的環境設置 - Package

  • 分享至 

  • xImage
  •  

Whisper

若在本地端(Windows)的話,繼續往下從頭看到尾
若你用 Colab 的話可以直接跳過下面這 part

Windows

先打開 Windows powershell
本來都是滑鼠左鍵按下去,這次點右鍵選擇以系統管理員身分執行這個選項
或是用搜尋去找他
https://ithelp.ithome.com.tw/upload/images/20231005/20163287OBVWo08XiS.jpg

我們首先需要下載一個 choco 的套件

Get-ExecutionPolicy

若跑出 Restricted 就在跑下面這行

Set-ExecutionPolicy AllSigned

記得按下 y
然後再來下載 choco

Set-ExecutionPolicy Bypass -Scope Process -Force; iex ((New-Object System.Net.WebClient).DownloadString('https://chocolatey.org/install.ps1'))

也記得按 y,沒意外的話會安裝成功
確認方式在一樣的地方打

choco

會出現

Chocolatey v2.2.2
Please run 'choco -?' or 'choco <command> -?' for help menu.

代表成功囉
接著才要下載 Whisper 套件,因為 Colab 是直接下載所以一起看
Windows 使用者請繼續看下去!!!

Whisper 套件下載

Colab 的同學請從這裡開始看

Colab 是個好東西可以看看

不得不說 Colab 是真的挺方便的,因為其實我後來在 Windows 上面遇到一堆雜七雜八的問題,但 Colab 就相對親切許多...

先來下載套件

!pip install whisper
!pip install git+https://github.com/openai/whisper.git

前面有驚嘆號代表接下來要打 terminal 上的指令
通常這樣 Colab 就可以跑了!

實際執行

下載完成後我們要先準備一個音檔,我通常都用 .wav, .mp3, .m4a 這幾種
時間不用太長,我都抓 90s 以內
我把音檔命名為 audio.mp3 放在 Colab 的資料夾底下

接著就可以照著他們 github 做

import whisper

model = whisper.load_model("base")
result = model.transcribe("audio.mp3")
print(result["text"])

這是我的測試結果
https://ithelp.ithome.com.tw/upload/images/20231003/20163287OsYr4YlrfQ.jpg
其實測出來的結果很差呢,字都不對也沒有標點符號,因此我們需要給他做一點調整設定

小心得

好欸補完 Windows 版本的了

Ref.


上一篇
【Day 17】Whisper 使用前的環境建置 - Anaconda
下一篇
【Day 19】簡單的提高 Whisper 的準確度
系列文
深度學習的學習 & ASR 中文語音辨識30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言