iT邦幫忙

1

讓 Azure Form Recognizer 幫你數位化大量紙本表單

Ben 2023-01-15 22:18:421176 瀏覽
  • 分享至 

  • xImage
  •  

讓 Azure Form Recognizer 幫你數位化大量紙本表單

在數位轉型的過程,通常不會是一步到位,總是會有一些青黃不接的過渡時期,在這些過渡時期的各項產出可能都會有一點尷尬。最常遇到的情況之一是,明明已經將表單數位化了,但是由於種種因素,還是會需要用到大量紙本表單,這些表單的資料,又要想辦法輸入到資料庫裡,需要有耗時耗力 key in,而且也會有恍神輸入錯誤的風險。為了渡過這樣的尷尬時期,或許就可以利用光學字元辨識(Optical Character Recognition,OCR)的技術來解決問題。但自己訓練模型又太久,所以我們可以偷懶一下,利用 Azure Form Recognizer。

Azure Form Recognizer Studio

  • 登入 Form Recognizer Studio
  • 進入 Form Recognizer Studio 之後,會看到各種現成的範本可以使用,每種都有提供現成的範例,讓你可以嘗試操作,觀察效果。如果不知道自己的表格適合哪一種範本,建議一開始可以選擇 General documents。
  • 在 General documents,可以直接用他們的範例檔案作分析,也可以直接上傳自己的檔案辨識文件中的文字。

實測結果

以下兩個範例,是將紙本表單 掃瞄 後,上傳到 Form Recognizer Studio 進行測試:

表格偵測效果佳

以吞嚥問題評估表作為示範

  • 針對文字的部分,很明顯可以幾乎都有偵測到文字,且手寫文字也可被辨識。

  • 可偵測到何處為表格,表格內需要打勾的格子,也被轉換成 checkbox 的形式呈現,並且知道哪一格被打勾了。

  • 若點選 Selection marks,也明確呈現出,每個格子勾選的情況。

提升偵測效果的懶人破解法

以這份肌少症風險自我檢測(SARC-F)為例:

這邊有一個小問題,checkbox 離文字太近,可能會導致偵測效果變差,例如:方框可能無法有效被偵測到,偵測成『コ』,或者『□2 分』變成『11 分』。

在不自己訓練模型的情況下,最簡單的偷懶方法是,直接用修圖改掉原始表格。假設稍微把方框與文字分開一點,得到的結果就會改善許多。

偵測大量紙本表格

如果需要偵測的表格只有幾張,或許手動上傳偵測,可能還可以接受,但是量太大就有點痛苦了,這時候還是得稍微寫一點程式來處理。Azure Form Recognizer 也還算佛心,雖然現在還是預覽的版本,但也已經開出 API ,也把範例程式碼(Python, JavaScript, C#)直接放在網頁上,可以直接複製貼上,再自己依情況修改。

會需要用到自己的 key 和 endpoint,直接去自己的 resource 去取用即可,詳情點此

另外,以下三點可以注意一下:

  • API 可以讓使用者透過檔案的 URL 上傳檔案給 Form Recognizer 辨識,也可以將自己電腦中的檔案透過 binary 的方式上傳。
  • 分析 PDF 檔的效果似乎比較好。
  • 目前 Azure Form Recognizer 還不是正式版本,似乎只能讀取 PDF 檔的前兩頁。在掃描時,可以把每一份表單都獨立成一份 PDF 檔,然後再一一交由 Form Recognizer 辨識。期待之後,推出正式版本,功能可以更完整。

有需要大量偵測紙本表格的人可以參考此 Colab Notebook


圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言