請教如何針對格式不同的政府公告文本，解析自己需要的數據

data science data mining crawler dataanalysis machinelearning

huahualiu 2021-11-24 14:35:53 ‧ 1451 瀏覽

問題是這樣的
最近需要採集中國政府的標案數據
主要需要爬取：

不過麻煩來了，由於招標訊息是來自各省份與各單位，因此公告格式都不同 (看起來是不同省份單位，都有自己的格式)，除格式以外，裡面的得標金額單位、分錄也不同，即有些會寫總額，有些會依細則項目分開寫。
大概如下圖：

想請問各位熟悉文本分析、資料探勘的大大們，這樣的情境下應該如何解會比較好？
謝謝各位

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

一級屠豬士

iT邦大師 1 級 ‧ 2021-11-25 08:14:09

一般來說,我會使用 PG 的 text datatype,存放 raw data.
因為 text 可以存放 1G,而且不用宣告size.
raw data 都抓好存好後,後面再逐次過濾擷取.

看更多先前的回應...收起先前的回應...

huahualiu iT邦新手 1 級 ‧ 2021-11-25 10:56:26 檢舉

感謝大大
爬原資料對我來說不是問題
比較大的問題是要怎麼去抓我要的特定字段 (可能有多種不同格式)

一級屠豬士 iT邦大師 1 級 ‧ 2021-11-25 12:45:46 檢舉

PG 可以使用Pl/Python , 把處理方式函數化.

huahualiu iT邦新手 1 級 ‧ 2021-11-25 13:16:51 檢舉

請問 PG 是指 PostgreSQL？
不過自己公司主要是使用 MS SQL
不知道這樣是否造成無差異？

一級屠豬士 iT邦大師 1 級 ‧ 2021-11-25 14:53:32 檢舉

因為像這類資料,往往會有很多情況,所以先存起來,再慢慢處理.
爬蟲部分就先爬,存起來.

立即登入回答

IT邦幫忙