上一章的 PDF 說明介紹了 PDF Analyzer 如何從 PDF 資料中取得裡面的文字做處理,PDF Analyzer 分析模組,是一項能夠分析 PDF 文件上文字的工作,並且用直觀的方式取用 PDF 的資料,我們介紹了 Input.getKeyObj() 和 Input.resolve()。今天要介紹的是範圍選取。
PDF 模組的參數設定一共只有兩種,也就是選擇文件和是否有 PDF 密碼保護。此外昨天也有詳細介紹 PDF 的訓練模式 (Train) 與預覽模式 (View) 還有座標系統 (PNC),如果有興趣可以先看看昨天的文章唷。
首先選擇要分析的PDF文件,可以單擊“PICK”按鈕來選擇文件,或者使用環境變數 %FILENAME% 來指定文件名稱。
如果 PDF 文件有密碼保護,可以在這裡輸入密碼,一樣利用環境變數的方式指定文件。
在 PDF Analyzer 使用的 Page Normalized Coordinate (PNC) 座標系統中,我們一共有 4 種不同的資料取得方式,分別是已經介紹過的 Input.getKeyObj(), Input.resolve(),這兩種方法屬於單一資料點擊,還有今天要介紹範圍資料選取 Input.resolveRange()。
建立訓練命名技能群組,打開主畫面右邊的 PDF Analyzer 模組。
假設這次要直接取得範圍內資料,我想要找到我這份 Amazon 訂單的寄送地址,可以先把滑鼠移至出貨地址文件上,並且按著 Shift 將滑鼠移至台灣,就能夠抓取範圍資料。
addressObjs = input.resolveRange({"startKeyName":"出貨地址:","startKeyBounds":{"page":1}, "valPos":"DOWN", "endKeyName":"臺灣","endKeyBounds":{"page":1} })
console.log(addressObjs)
第二種方法是尋找到位置,並且按著 Shift 拉成一個框,尋找要抓取的資料範圍,最後放開後將複製下來的 Code 貼上。
buy = input.resolveRange( {"startKeyName":"訂購商品","startKeyBounds":{"page":1}, "relValBounds":{"top":0.006, "left":-0.057, "right":0.715, "bottom":0.084} })
console.log(buy)
今天簡單了解了基本的操作概念,PDF Analyzer 是一個強大的工具,可幫助我們深入了解PDF文件的內容。無論是需要自定義處理還是僅僅想快速預覽文件,它都能滿足需求。優化了對PDF文件的分析,使其更加容易,也使其應用更加廣泛。
黃仁勳的一句話讓這個世界都瘋了,身為與數據打交道多年的我們能做些什麼呢? 很簡單就是跟著一起瘋。「You Learn the more, you Get the more.」。沒想到鐵人賽又一年了呢,這篇是 【Five mins RPA】 系列文章除此之外也歡迎大家走走逛逛關於我過去的文章
一個正在為 300 多萬訂閱的 Youtuber 服務的資料科學家,擅長將商管行銷導入機器學習與人工智慧,並且從大量的數據中找出 Insight,待過 FMCG、Communication、Digital Marketing,最近一直在資訊圈打滾,趕著不被這波人工智慧浪潮給吞噬,寫文章寫了好一段時間了,期待著這個社會每個人能在各個角力間不斷沖突而漸能找到一個平衡點並回歸最初的初心。