請問 C#或是Java、Python等語言能解析PDF如下嗎?
我想要拿到Vendor跟Ship To跟Item No
目前遇到困難是不能像Excel一樣可以用A2,B3來抓取資料
PDF 內部並不存在表格這種東西
我們看到的表格他實際上是用線條畫出來的
所以真的去解析內容只有類似「從 (x1,y1) 畫線到 (x2,y2)」這種東西
文字的部分則類似「移動座標到(x,y)後,渲染 Font 中的第幾個字」
甚至有些文字完全被轉換為路徑,以向量圖的方式畫上去的
基於這些原因
是否有相關套件我不知道,但應該不會有 100% 能判斷的
除非你能確定產生 pdf 的軟體都會以相同的結構產生 pdf
這樣的話會比較容易分析得出來
另一個方式就是先把 pdf 轉成圖片
再透過 OCR 去取得文字了
這方法的正確性就只看 OCR 的準確度而已
我以前做過把pdf上傳GoogleDrive,然後下載成text,可以得到文字
上傳圖片其實也可以,Google會自己轉換,精度還不錯
可以在nuget找下面的套件來組合功能:(我試的時候只有v2,現在是v3)
Google.Apis.Auth.OAuth2;
Google.Apis.Download;
Google.Apis.Drive.v2;
Google.Apis.Drive.v2.Data;
Google.Apis.Services;
Google.Apis.Upload;
Google.Apis.Util.Store;
原理上大概是這個:參考