客戶都是PDF文件,請問如何自動整理成excel,用於導入ERP自動生成客戶訂單
請問有推薦的廠商或是軟件嗎,謝謝!
您可以使用光學字符識別(OCR)軟件來將PDF文件中的文本識別並提取出來,然後使用資料處理軟件將它們轉換成Excel格式。
以下是一些推薦的OCR軟件:
Adobe Acrobat Pro DC - 這是一個全面的PDF工具,其中包括OCR功能。您可以使用Adobe Acrobat Pro DC將PDF文件轉換為可編輯的文檔,例如Word文檔或Excel表格。
ABBYY FineReader - 這是一款專業的OCR軟件,可以識別多種語言,包括中文。ABBYY FineReader可以將PDF文件轉換為Excel、Word等格式。
Readiris - 這是一款OCR軟件,可以識別多種語言。Readiris可以將PDF文件轉換為Excel、Word等格式。
Textract - 這是一款AWS的OCR服務,支援多種文件格式識別,如PDF、JPG、PNG、GIF等等,轉換後可以儲存成JSON格式,方便後續程式處理。
Microsoft Office Lens - 它是微軟的掃描工具,支援多種語言識別,並且可以將識別後的文本自動轉換成Excel、Word等格式。Office Lens可以在iOS和Android設備上下載。
需要注意的是,使用OCR軟件進行識別時,請確保PDF文件中的文字清晰可讀,否則識別效果會受到影響。
希望這些信息對您有所幫助!
pdf的話,務必要請客戶提供完全統一格式的,其實也不論pdf,任何資料交換都是這樣。
使用pdf轉excel我猜無法符合你的需求,因為不一定能符合預期。
我曾經處理過是將pdf轉word,並透過word的xml來解析內容,後續就單純開個api把東西放到Excel或是直接入資料庫。可能看似有點笨,因為這種方法必須嚴格要求客戶每次送來的檔案規格一致,不然可能會造成今天基於A文件把解析程式寫好了,結果B長得又完全不一樣。但可以一定程度保證資料完整性與正確性。
另外個人覺得OCR的不可控性極高,儘管可能有很多library已經足夠成熟,但我仍不會把客戶資料的整理寄託在這類技術上,除非你有能力自己去調校。只要是經手客戶資料的需求,保留原始資料完整性都絕對是優先考量。
最近也是在搞這個!
有幾種方式:
1.如果PDF內容是可讀的,就依需要內容讀取資料(這部份要考慮資料定位問題,還有資料位置可能不固定的問題),然後可以透過RPA(簡單一點,就滑鼠、鍵盤控制),想辦法把資料自動填到ERP內,自動輸入。
2.如果PDF內容不可讀,就得要用OCR,然後再依要求,擷取資料內容,然後一樣寫進ERP內。
3.如果知道資料異動介面,可以直接寫入介面檔,就不用RPA這段了。
比較難的是要怎麼抓取不同版型的文件內容,而且資料位置不固定之類的問題,目前公司有用ABBYY的FlexCapture,只是要錢錢,不便宜,而且還要算張的,辨識一張收多少錢。
不算簡單的任務,而且通常老闆都會說,阿不就OCR就好了....
如果資料來源是Excel或Word轉為PDF的話 你可以參考這個套件Bytescout.PDFExtractor
可以參考我們公司的RPA喔:
https://docs.emily.tips/pdf2txt
這應該是你在找的應用:
https://ithelp.ithome.com.tw/articles/10311967
我們也有串OCR跟時下最流行的ChatGPT:
https://docs.emily.tips/google-ocr
https://docs.emily.tips/chatgpt