昨天轉錄出來的結果不甚滿意,因此我們要用一個簡單的小技巧,或是說小提示,讓我們的模型能做出更精準的轉錄
我先拿昨天的程式出來
import whisper
level = 'small'
model = whisper.load_model(level)
這次我換成了 small
版本的來看看
然後轉錄的音檔我用 How 哥的影片作為範例
是個挑戰呢。
path = "run.mp3"
result = model.transcribe(path)
print(result["text"])
然後這是翻譯出來的結果(節錄)
好酷 好酷好酷好酷好酷腦袋裝千了嘛每天喝含千的水會對腦部造成傷害請改用無牽水龍頭海天盾無牽水龍頭...
有點悽慘,主要是模型連我們要用甚麼語言都不知道,也不確定輸入的音檔是有著什麼樣的背景
因此我們可以利用 initial prompt 這個東西來提升準確度
initial prompt 有點像是在這個音檔之前我們說了甚麼話,模型先看了後再進行轉錄
如果挑的好,很可能後面的文章準確度會大大提高
init_prompt = "跑酷跑酷跑酷,腦袋裝鉛了嗎?快用海廷頓無鉛水龍頭"
init_result = model.transcribe(path, fp16=False, initial_prompt=init_prompt)
print(init_result['text'])
這是結果(節錄)
跑酷 跑酷 跑酷果子腦袋裝鉛了嗎 每天喝含鉛的水會對腦部造成傷害請改用無鉛水龍頭海廷頓無鉛水龍頭...
可以看到其實一些專有名詞他成功的轉錄出來了!
那因為選了一個比較特別的影片才會這樣