iT邦幫忙

0

爬取網站上的商品資料

  • 分享至 

  • xImage
  •  

最近接到的案件是一個廚具經銷商,要架設一個網站,產品資料要從原廠網站自動抓取,格式不需要完全一致,產品品名、型號、規格、介紹正確即可。

評估之後,選擇採用 WordPress + WooCommerce 來架設,所以初步列出來的工作項目包含 :

一、 架設一個 WordPress + WooCommerce 網站
二、 爬取原廠的產品資料
三、 匯入產品資料到 WooCommerce 中

由於 WooCommerce 本身就內建產品的匯出/匯入功能,只要符合它能接受的檔案格式,就能透過它的產品匯入功能,將抓來的產品一次匯入,在產品數量很多的情況下,與人工複製建檔的方式比較,不只節省時間,也能減少人工複製時的手誤,而且未來若還需要再批次更新產品資料,也可以相當快速。

因為爬取及匯入作業需要幾天的時間開發,所以一開始是先在本機端的開發環境,架設一個開發用的 WordPress + WooCommerce 網站,以方便進行開發及測試。

由於前一段時間都在寫 C++ 的程式,所以一開始就直接以 C++ 來開發這個爬蟲工具程式,不過大約寫了一天就放棄了,因為網路上查詢開發爬蟲的相關資料,大部份都是採用 Python,而且看起來很好用,所以就決定改用 Python 來開發。

採用 Python 果然方便許多,好快就可以擷取到商品頁中的幾個主要欄位,像品名、價格等等,但抓取後的資料,應該要儲存在正確格式的檔案,才能匯入到 WooCommerce 中,所以接下來,應該先取得正確的匯入檔案格式,而取得檔案的最佳方法,就是先到 WooCommerce 後台,以人工方式建立一筆產品資料,再將產品匯出,這樣就可以得到一個正確格式的匯入/匯出檔案了。

不過 WooCommerce 的產品匯出功能,是需要先認識一下 WooCommerce 產品資料結構,這等我下一篇文章再來介紹。


Free Styler 軟體工作室 : https://coding.freestyler.cc/


圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言