Five mins RPA | 14.PDF Analyzer 範圍文件範圍處理 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2023 iThome 鐵人賽

DAY 14

IT管理

Five mins RPA | 機器人流程自動化系列第 14 篇

Five mins RPA | 14.PDF Analyzer 範圍文件範圍處理

15th鐵人賽 rpa ai automation

juck30808

2023-09-18 22:21:31

1053 瀏覽

分享至

PDF 文件處理

上一章的 PDF 說明介紹了 PDF Analyzer 如何從 PDF 資料中取得裡面的文字做處理，PDF Analyzer 分析模組，是一項能夠分析 PDF 文件上文字的工作，並且用直觀的方式取用 PDF 的資料，我們介紹了 Input.getKeyObj() 和 Input.resolve()。今天要介紹的是範圍選取。

回顧前一天文章：Five mins RPA | 13.PDF Analyzer 文件處理

PDF Analyzer 模組：切分出 PDF 文件的內容

PDF 模組的參數設定一共只有兩種，也就是選擇文件和是否有 PDF 密碼保護。此外昨天也有詳細介紹 PDF 的訓練模式 (Train) 與預覽模式 (View) 還有座標系統 (PNC)，如果有興趣可以先看看昨天的文章唷。

選擇文件 (PICK)

首先選擇要分析的PDF文件，可以單擊“PICK”按鈕來選擇文件，或者使用環境變數％FILENAME％來指定文件名稱。

設置PDF文件密碼（選填）

如果 PDF 文件有密碼保護，可以在這裡輸入密碼，一樣利用環境變數的方式指定文件。

座標系統與資料選擇

在 PDF Analyzer 使用的 Page Normalized Coordinate (PNC) 座標系統中，我們一共有 4 種不同的資料取得方式，分別是已經介紹過的 Input.getKeyObj(), Input.resolve()，這兩種方法屬於單一資料點擊，還有今天要介紹範圍資料選取 Input.resolveRange()。

今天訓練的內容為：PDF Analyzer 模組

從主畫面開啟 PDF Analyzer 模組

建立訓練命名技能群組，打開主畫面右邊的 PDF Analyzer 模組。

利用 CodeGen Shift 找到範圍資料：input.resolveRange()

假設這次要直接取得範圍內資料，我想要找到我這份 Amazon 訂單的寄送地址，可以先把滑鼠移至出貨地址文件上，並且按著 Shift 將滑鼠移至台灣，就能夠抓取範圍資料。

將滑鼠移至『出貨地址』文字物件上(不用點擊)
按住 Shift 同時將滑鼠移至『臺灣』並點擊它
點擊 TRAIN 切換至程式編輯區，並使用 Ctrl+V 貼上程式碼
修改變數名稱 obj => addressObjs，輸入以下程式碼 DEBUG console 然後 Test

addressObjs = input.resolveRange({"startKeyName":"出貨地址：","startKeyBounds":{"page":1}, "valPos":"DOWN", "endKeyName":"臺灣","endKeyBounds":{"page":1} })
console.log(addressObjs)

利用 CodeGen 找到範圍資料：input.resolveRange()

第二種方法是尋找到位置，並且按著 Shift 拉成一個框，尋找要抓取的資料範圍，最後放開後將複製下來的 Code 貼上。

將滑鼠移至『訂購商品』文字物件上，按住 Shift 同時拖拉範圍
點擊 TRAIN 切換至程式編輯區，並使用 Ctrl+V 貼上程式碼
修改變數名稱 obj => addressObjs，輸入以下程式碼 DEBUG console 然後 Test

buy = input.resolveRange( {"startKeyName":"訂購商品","startKeyBounds":{"page":1}, "relValBounds":{"top":0.006, "left":-0.057, "right":0.715, "bottom":0.084} })
console.log(buy)

結束訓練

今天簡單了解了基本的操作概念，PDF Analyzer 是一個強大的工具，可幫助我們深入了解PDF文件的內容。無論是需要自定義處理還是僅僅想快速預覽文件，它都能滿足需求。優化了對PDF文件的分析，使其更加容易，也使其應用更加廣泛。

這個世界瘋了，但我們也可以跟著瘋

黃仁勳的一句話讓這個世界都瘋了，身為與數據打交道多年的我們能做些什麼呢? 很簡單就是跟著一起瘋。「You Learn the more, you Get the more.」。沒想到鐵人賽又一年了呢，這篇是【Five mins RPA】系列文章除此之外也歡迎大家走走逛逛關於我過去的文章

Jerry Chien

一個正在為 300 多萬訂閱的 Youtuber 服務的資料科學家，擅長將商管行銷導入機器學習與人工智慧，並且從大量的數據中找出 Insight，待過 FMCG、Communication、Digital Marketing，最近一直在資訊圈打滾，趕著不被這波人工智慧浪潮給吞噬，寫文章寫了好一段時間了，期待著這個社會每個人能在各個角力間不斷沖突而漸能找到一個平衡點並回歸最初的初心。