[Day 25] OCR 圖片識別

2019 iT 邦幫忙鐵人賽

DAY 25

AI & Data

Scrapy爬蟲與資料處理30天筆記系列第 25 篇

2019鐵人賽

plusone

團隊NUTC_imac

2018-11-09 17:02:40

12681 瀏覽

分享至

嗨，基本上我們已經說明完Scrapy會用到的操做及流程了，今天要說明OCR圖片識別，很多網站為了防止爬蟲爬取登入時會要求使用者輸入驗證碼，所以今天我們要來說明Python的文字識別。
圖片翻譯成文字一般被稱為光學文字識別（Optical Character Recognition，OCR），用於影像中分析文字資訊，在Python用pytesseract驗證識別碼。

到 Home · tesseract-ocr/tesseract Wiki · GitHub 依照自己電腦的作業系統安裝 tesseract 。
安裝pytesseract與pillow

pip install pillow
pip install pytesseract

安裝好環境後，我們找一張驗證碼來測試吧：
Imgur

from PIL import Image
import pytesseract
img = Image.open('./images-1.png')
img = img.convert('L')
ans = pytesseract.image_to_string(img)
print(ans)

執行後可以看到圖片辨識出W68HP成功了！

Imgur

今天只有簡單說明了pytesseract如何使用，因為最近在忙其他事情，晚點之後會再補充範例吧！

[Day 24] Scrapy 隨機代理實現

[Day 26] 瀏覽器上的Cookie

系列文

Scrapy爬蟲與資料處理30天筆記共 30 篇

RSS系列文訂閱系列文

154 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

Scrapy爬蟲與資料處理30天筆記系列 第 25 篇

[Day 25] OCR 圖片識別

尚未有邦友留言

標記使用者

Scrapy爬蟲與資料處理30天筆記系列第 25 篇