iT邦幫忙

0

使用Gemini API串接圖形辨識

  • 分享至 

  • xImage

各位大大安安,小弟Python新手,最近在嘗試寫一個圖形驗證碼(純數字)的辨識功能

之前有使用tesseract OCR等套件進行測試
當遇到圖片夠乾淨的驗證碼基本上都沒問題
但現在在大量測試有背景顏色、雜訊等干擾圖層時
即使參考網路上的圖像加工都沒辦法準確辨識

所以目前改使用串接Gemini API,並直接將圖形驗證碼截圖傳入
現階段大多數的驗證碼都有辦法交給Gemini辨識
遇到最大的障礙是當圖片的目標與干擾項都是灰階,且干擾要素過多
即使進行圖片的基本調整(縮放、亮度、對比度),精準度仍沒有明確的提升

想請問各位大大可否提供方向

附上目前遇到最大的障礙類型圖片
https://ithelp.ithome.com.tw/upload/images/20250108/20167591azXkNUrhkf.jpg

jouabcd iT邦新手 1 級 ‧ 2025-01-09 13:57:58 檢舉
如要提升準確度,自己訓練model吧,樣本數5000起跳
我也是這麼想,但一來是我不熟所以對於自己訓練模型要花一點時間研究,二來是上級有給時間壓力,可能短期內還沒辦法這樣做QQ
(雖然目前是有在偷閒的時間嘗試做)

還是感謝大大提供樣本數當參考
win895564 iT邦研究生 5 級 ‧ 2025-01-09 18:00:16 檢舉
有個專門在做驗證碼辨識的2captcha
可以串API但似乎是要費用,但我自己沒使用過。但給你個方向
還有DdddOcr這個套件你也可以試試看
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

1 個回答

0
zivzhong
iT邦新手 1 級 ‧ 2025-01-08 17:38:10

我感覺 Gemini API應該沒有專門去訓練這種有大量干擾的驗證碼圖片吧,這個感覺不是她的主要目標。看是不是考慮自己 fintune 一個自己的模型。
另外也可以考慮降低干擾,例如參考:
https://github.com/ClownSketch/VerifyCode

zivzhong iT邦新手 1 級 ‧ 2025-01-08 17:39:24 檢舉

網上有很多資源可以看看

感謝大大回覆,降低干擾的部分我會參考使用!

確實Gemini本身並不是專門以這個方向進行,不過可能是因為他們資料庫夠龐大(畢竟是生成式AI),所以其實辨識普通的驗證碼好像都沒問題,有干擾的圖片偶爾也會有完全正確的辨識結果,或是差一兩位數(43837辨識成43887之類的),所以想說看能不能用他們的API串接傳遞圖片+降低干擾來提升精度

之前也有嘗試自己訓練模型,但目前因為技術太菜,可能有部分沒做好導致一直無法產出可用的結果,後續會再嘗試看看

再次感謝大大回覆!

我要發表回答

立即登入回答