各位大大安安,小弟Python新手,最近在嘗試寫一個圖形驗證碼(純數字)的辨識功能
之前有使用tesseract OCR等套件進行測試
當遇到圖片夠乾淨的驗證碼基本上都沒問題
但現在在大量測試有背景顏色、雜訊等干擾圖層時
即使參考網路上的圖像加工都沒辦法準確辨識
所以目前改使用串接Gemini API,並直接將圖形驗證碼截圖傳入
現階段大多數的驗證碼都有辦法交給Gemini辨識
遇到最大的障礙是當圖片的目標與干擾項都是灰階,且干擾要素過多
即使進行圖片的基本調整(縮放、亮度、對比度),精準度仍沒有明確的提升
想請問各位大大可否提供方向
附上目前遇到最大的障礙類型圖片
我感覺 Gemini API應該沒有專門去訓練這種有大量干擾的驗證碼圖片吧,這個感覺不是她的主要目標。看是不是考慮自己 fintune 一個自己的模型。
另外也可以考慮降低干擾,例如參考:
https://github.com/ClownSketch/VerifyCode