從0開始的python之路-30

python

asd5827311 2024-10-24 04:38:06 ‧ 694 瀏覽

分享至

網頁檔案
如果我們想要用 Beautiful Soup 解析已經下載的 HTML 檔案，可以直接將開啟的檔案交給 BeautifulSoup 處理

學習完了爬蟲的技巧，讓以後能夠快速的整合資料，也可以搭配MySql來建置一個資料庫。

範例:下載 Yahoo 頭條新聞
Beautiful Soup 本身只是一個 HTML 解析工具，它並不負責下載網頁，所以通常我們在開發爬蟲程式時，會搭配 requests 模組一同使用。

在這個範例中，我們打算開發一個爬蟲程式，可從 Yahoo 的首頁把頭條新聞的標題與網址抓下來，在開發程式之前，我們通常都會先用瀏覽器的開發人員工具，觀察一下目標網頁的 HTML 結構，找出我們有興趣的資料所在位置，並設計好萃取資料的規則
以 Yahoo 頭條新聞來說，我們可以發現網頁中的頭條新聞超連結都有 story-title 這個 CSS 的 class，所以我們只要找出網頁中所有符合此條件的標籤，就可以把頭條新聞的資訊抓出來了。