iT邦幫忙

0

從0開始的python之路-27

  • 分享至 

  • xImage
  •  

四、常見的套件及框架
Python網頁爬蟲常見的套件及框架包含:
BeautifulSoup
Selenium
Scrapy
BeautifulSoup對於HTML及XML的解析非常友善,並且容易入門使用,適用於靜態類型的網頁及小型的Python網頁爬蟲專案。

Selenium同時擁有網頁自動化測試及爬取功能,能夠搭配 JavaScript來進行爬取,所以非常適用於爬取需要滾動捲軸來動態載入資料的網站,像是電子商務或社群平台等。

Scrapy相較於BeautifulSoup及Selenium爬取速度較快且有效率,擁有非同步的功能,所以適用於爬取大量的資料及大型網頁爬蟲專案。

五、網頁爬蟲開發流程
開發Python網頁爬蟲的流程,首先,會需要知道想要蒐集什麼樣的資料來進行分析或應用,接著,就可以尋找相關的網站,來分析要爬取的網頁原始碼結構,並且觀察是否有規則或模式可循,然後,選擇程式語言及適當的套件,依照分析的網頁結構及規則開發網頁爬蟲,最後,將爬取的資料依需求寫入資料庫、CSV檔案或雲端等。


圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言