iT邦幫忙

0

PDF檔內的表格斷詞截字問題

  • 分享至 

  • twitterImage

各位先進好:
想請問有沒有人有做過針對PDF檔內的表格斷詞截字的功能呢?
1.如果用C#直接讀取PDF檔,與到表格或圖片就會變亂碼!
2.尋找PDF轉TXT公用程式,先將PDF轉存成TXT檔,再分析TXT的文章結構來斷詞截字,目前使用pdf2text來公用程式來轉存PDF檔,遇到表格時轉出表格的文件內容是雖有部份規則性,但我還是無法從此轉出的格式正確的判斷出那一個值是屬於那一個欄位的。<因為我解析的表格內容很多值都為0,故在一堆同樣都是0值的數,無法判斷每個0各屬於那一個欄位的>

想求解的是:
1.有人有寫過直接讀取PDF檔的相關程式,可以解決遇到表格或亂碼時截取的問題嗎?JAVA or C#
2.是否可提供多點pdf大量轉存txt檔的公用程式,讓我試看看那一個公用程式轉出的格式最漂亮,以嚐試的解決我截取PDF資訊的問題。

圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

1 個回答

2
ycl8000
iT邦高手 1 級 ‧ 2013-10-18 11:27:14

剛好最近也在做這一塊,業務部收到客人的pdf文件, 要將裡面的資料匯入到公司erp系統.
做法是在c#呼叫acrobat, 將pdf檔轉成文字檔, 然後抓取需要的data.
可參考:Acrobat JavaScript Scripting Reference

但這樣做也是遇到跟版大一樣的問題, 轉出來的txt,資料的格式不會剛好對應在固定的位置.

搞不懂為什麼不能請客人提供方便我們處理運用的檔案,非得要pdf檔讓我們來傷這個腦筋!!

我要發表回答

立即登入回答