爬蟲 crawler 基礎 - requests + BeautifulSoup (part2) - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

爬蟲 crawler 基礎 - requests + BeautifulSoup (part2)

python crawler 網頁爬蟲

wesley41616 2020-08-13 00:16:01 ‧ 2852 瀏覽

分享至

延續上一章節，當我們用 requests 取得網站內容後，
就可以使用 BeautifulSoup 來解析網頁資料！

select 的使用方式

功能

select()
- class 使用 " . "
- id 使用 " # "
  範例：我們要取得標題跟網址，從圖片中可以看到內容是包覆在 <div class="block_content">，
  接著下一層是 <div class="piece clearfix">、<h3>、最後出現在 <a> 中。

程式碼：

import requests
from bs4 import BeautifulSoup
     
url = 'https://www.ettoday.net/news/focus/政治/'
res = requests.get(url).text
content = BeautifulSoup(res, 'lxml')

for i in content.select('.block_content .piece h3 a'):
    print(i['title'])
    print('https://www.ettoday.net' + i['href'])
    print('----------------')

find()
- 較適合用在爬取單一內容

新聞中的內文均包在 <div class="story" itemprop="articleBody">

程式碼：

import requests
from bs4 import BeautifulSoup
     
url = 'https://www.ettoday.net/news/20200811/1781998.htm'
res = requests.get(url).text
content = BeautifulSoup(res, 'lxml')

article = content.find('div',{'itemprop':"articleBody"}).get_text(strip=True)
print(article)