iT邦幫忙

2024 iThome 鐵人賽

DAY 22
0
AI/ ML & Data

我的深度學習-從0開始實作物件偵測系列 第 22

【Day 22】深入探索EasyOCR:探討運作方式

  • 分享至 

  • xImage
  •  

一、EasyOCR的運作方式

EasyOCR的運作方式可分為4個部分,圖片預處理、文字檢測、文字識別及後處理,以下總結各流程的綱要。

  1. 圖像預處理
    在這個步驟中,主要是為了提高圖片的清晰度,方便後續的文字檢測和識別
  • 灰階化:將輸入的彩色圖片轉換成灰階圖片,以減少計算量。
  • 去噪:去除圖片中的噪點和干擾,提高清晰度。
  • 二值化:將圖片轉為黑白影像,使文字區域更為清楚。
  1. 文字檢測
    EasyOCR使用的主要技術是CRAFT(Character Region Awareness for Text detection)。工作原理如下:
  • 特徵提取: 使用預訓練的卷積神經網路(例如VGG16)來提取圖片的特徵
  • 文字區域定位: 根據特徵圖,生成文字區域的置信度得分和連接得分,從而定位文字區域。
  • 後處理: 通過非極大值抑制(NMS)等技術,去除冗余的檢測框,生成最終的文字區域。
  1. 文字辨識
    在這個部分會使用CRNN(Convolutional Recurrent Neural Network)的模型來進行文字識別。原理如下:
  • 特徵提取: 使用卷積神經網絡(CNN)提取文字區域的特徵。
  • 序列建模: 使用雙向長短期記憶網絡(Bi-LSTM)對特徵進行序列建模,捕捉文字的上下文信息。
  • 字符解碼: 使用 CTC(Connectionist Temporal Classification)損失函數,將 LSTM 的輸出解碼為最終的文字序列。
  1. 後處理
    後處理主要是對OCR輸出的結果進行錯誤校正和格式化輸出。EasyOCR使用一些簡單的後處理技術,如詞典匹配、拼寫檢查和置信度過濾等,藉此提高輸出的準確率。

image

EasyOCR的運作流程。圖片來源:EasyOCR GitHub

image


上一篇
【Day 21】深入探索EasyOCR:高效的文字識別工具介紹
下一篇
【Day 23】深入探索EasyOCR:簡單的應用實例
系列文
我的深度學習-從0開始實作物件偵測30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言