iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 25
1
AI & Data

Scrapy爬蟲與資料處理30天筆記系列 第 25

[Day 25] OCR 圖片識別

嗨,基本上我們已經說明完Scrapy會用到的操做及流程了,今天要說明OCR圖片識別,很多網站為了防止爬蟲爬取登入時會要求使用者輸入驗證碼,所以今天我們要來說明Python的文字識別。
圖片翻譯成文字一般被稱為光學文字識別(Optical Character Recognition,OCR),用於影像中分析文字資訊,在Pythonpytesseract驗證識別碼。

pip install pillow
pip install pytesseract

安裝好環境後,我們找一張驗證碼來測試吧:
Imgur

from PIL import Image
import pytesseract
img = Image.open('./images-1.png')
img = img.convert('L')
ans = pytesseract.image_to_string(img)
print(ans)
  • 執行後可以看到圖片辨識出W68HP成功了!

Imgur

今天只有簡單說明了pytesseract如何使用,因為最近在忙其他事情,晚點之後會再補充範例吧!


上一篇
[Day 24] Scrapy 隨機代理實現
下一篇
[Day 26] 瀏覽器上的Cookie
系列文
Scrapy爬蟲與資料處理30天筆記30

尚未有邦友留言

立即登入留言