從0開始的python之路-30

python

asd5827311 2024-10-24 04:38:06 ‧ 755 瀏覽

分享至

網頁檔案
如果我們想要用 Beautiful Soup 解析已經下載的 HTML 檔案，可以直接將開啟的檔案交給 BeautifulSoup 處理

學習完了爬蟲的技巧，讓以後能夠快速的整合資料，也可以搭配MySql來建置一個資料庫。

範例:下載 Yahoo 頭條新聞
Beautiful Soup 本身只是一個 HTML 解析工具，它並不負責下載網頁，所以通常我們在開發爬蟲程式時，會搭配 requests 模組一同使用。

在這個範例中，我們打算開發一個爬蟲程式，可從 Yahoo 的首頁把頭條新聞的標題與網址抓下來，在開發程式之前，我們通常都會先用瀏覽器的開發人員工具，觀察一下目標網頁的 HTML 結構，找出我們有興趣的資料所在位置，並設計好萃取資料的規則
以 Yahoo 頭條新聞來說，我們可以發現網頁中的頭條新聞超連結都有 story-title 這個 CSS 的 class，所以我們只要找出網頁中所有符合此條件的標籤，就可以把頭條新聞的資訊抓出來了。

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

從0開始的python之路-30

尚未有邦友留言

標記使用者