使用Gemini API串接圖形辨識

python 圖形驗證碼

Steven Huang 2025-01-08 17:16:46 ‧ 3094 瀏覽

分享至

問題已解決，目前使用DDDDocr可以準確辨識此類圖片

各位大大安安，小弟Python新手，最近在嘗試寫一個圖形驗證碼(純數字)的辨識功能

之前有使用tesseract OCR等套件進行測試
當遇到圖片夠乾淨的驗證碼基本上都沒問題
但現在在大量測試有背景顏色、雜訊等干擾圖層時
即使參考網路上的圖像加工都沒辦法準確辨識

所以目前改使用串接Gemini API，並直接將圖形驗證碼截圖傳入
現階段大多數的驗證碼都有辦法交給Gemini辨識
遇到最大的障礙是當圖片的目標與干擾項都是灰階，且干擾要素過多
即使進行圖片的基本調整(縮放、亮度、對比度)，精準度仍沒有明確的提升

想請問各位大大可否提供方向

附上目前遇到最大的障礙類型圖片

看更多先前的討論...收起先前的討論...

jouabcd iT邦研究生 5 級 ‧ 2025-01-09 13:57:58 檢舉

如要提升準確度,自己訓練model吧,樣本數5000起跳

Steven Huang iT邦新手 4 級 ‧ 2025-01-09 17:19:04 檢舉

我也是這麼想，但一來是我不熟所以對於自己訓練模型要花一點時間研究，二來是上級有給時間壓力，可能短期內還沒辦法這樣做QQ
(雖然目前是有在偷閒的時間嘗試做)

還是感謝大大提供樣本數當參考

win895564 iT邦研究生 4 級 ‧ 2025-01-09 18:00:16 檢舉

有個專門在做驗證碼辨識的2captcha
可以串API但似乎是要費用，但我自己沒使用過。但給你個方向
還有DdddOcr這個套件你也可以試試看

Steven Huang iT邦新手 4 級 ‧ 2025-01-15 14:41:39 檢舉

回win895564大大

2captcha這個我知道，但我印象中他其實就是"人工"智能，他們可能也是透過簡單的系統辨識後，如果無法判讀就轉交給線上人員判斷，之後再將人員回傳結果傳給使用者，所以他們也有提供線上人員應徵的廣告，他們官方上面是說一小時大約可以賺取0.5美金
但這目前不是我需要的方向XD

DDDD我之前也有接觸過，但先前使用的驗證碼用起來不順就沒繼續使用了，但既然大大提到，我最近應該會再拿回來用用看，搞不好這次可以順利！

感謝回覆！

登入發表討論