iT邦幫忙

1

請教如何針對格式不同的政府公告文本,解析自己需要的數據

問題是這樣的
最近需要採集中國政府的標案數據
主要需要爬取:

  1. 標案名稱
  2. 得標(成交)金額

不過麻煩來了,由於招標訊息是來自各省份與各單位,因此公告格式都不同 (看起來是不同省份單位,都有自己的格式),除格式以外,裡面的得標金額單位、分錄也不同,即有些會寫總額,有些會依細則項目分開寫。
大概如下圖:
https://ithelp.ithome.com.tw/upload/images/20211124/20110872ls3T4UuAeN.png
https://ithelp.ithome.com.tw/upload/images/20211124/20110872OGSq7gBGiN.pnghttps://ithelp.ithome.com.tw/upload/images/20211124/20110872onznAXUqKt.pnghttps://ithelp.ithome.com.tw/upload/images/20211124/20110872g8flxYR83D.pnghttps://ithelp.ithome.com.tw/upload/images/20211124/20110872mTYoZ9SsIe.pnghttps://ithelp.ithome.com.tw/upload/images/20211124/20110872HHGQ7FdOcs.png

想請問各位熟悉文本分析、資料探勘的大大們,這樣的情境下應該如何解會比較好?
謝謝各位

圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

1 個回答

0
一級屠豬士
iT邦大師 1 級 ‧ 2021-11-25 08:14:09

一般來說,我會使用 PG 的 text datatype,存放 raw data.
因為 text 可以存放 1G,而且不用宣告size.
raw data 都抓好存好後,後面再逐次過濾擷取.

看更多先前的回應...收起先前的回應...
huahualiu iT邦新手 2 級 ‧ 2021-11-25 10:56:26 檢舉

感謝大大
爬原資料對我來說不是問題
比較大的問題是要怎麼去抓我要的特定字段 (可能有多種不同格式)

PG 可以使用Pl/Python , 把處理方式函數化.

huahualiu iT邦新手 2 級 ‧ 2021-11-25 13:16:51 檢舉

請問 PG 是指 PostgreSQL?
不過自己公司主要是使用 MS SQL
不知道這樣是否造成無差異?

SQL Server , 可以使用 nvarchar(max)
https://docs.microsoft.com/en-us/sql/t-sql/data-types/nchar-and-nvarchar-transact-sql?redirectedfrom=MSDN&view=sql-server-ver15

因為像這類資料,往往會有很多情況,所以先存起來,再慢慢處理.
爬蟲部分就先爬,存起來.

我要發表回答

立即登入回答