[Day 09] 實戰：用Requests&bs4 爬PTT (1)

2019 iT 邦幫忙鐵人賽

DAY 9

AI & Data

Scrapy爬蟲與資料處理30天筆記系列第 9 篇

2019鐵人賽

plusone

團隊NUTC_imac

2018-10-24 13:46:08

21617 瀏覽

分享至

嗨大家，今天我們要來說明如何爬ptt的文章啦！只需要用requests&beautifulSoup就行啦！
（關於此內容會拆分成兩天說明哦！）

在開始爬取一個網站之前一定要觀察該網頁的變化：

這次我們以爬美食板為例（下圖）：

可以發現ptt的url都會有規律：
https://www.ptt.cc/bbs/<看板名稱>/index.html
（也就是說今天你可以爬自己有興趣的版）

Imgur

抓取該頁面所有文章連結：對一個文章右鍵>檢查，可以看到該文章標題與href，而href就是我們需要的內容。如下圖可以看出它在<a>標籤內且被<div class="title"></div>包覆。

Imgur

為什麼需要找href呢？點進去可以發現href就是文章的連結(如圖)：

Imgur

好了之後就開始寫程式碼吧！

建立一個list變數article_href。
發送請求
透過soup解析response回傳的文字（r.text）
因為<a>標籤在<div class="title"></div>，用select取得所有div且class="title"的物件

import requests
from bs4 import BeautifulSoup
article_href = []
r = requests.get("https://www.ptt.cc/bbs/Food/index.html")
soup = BeautifulSoup(r.text,"html.parser")
results = soup.select("div.title")
print(results)

應該會得到以下結果：是一個list，裡面把該頁的div class="title"元素都取出來且裡面包覆著<a>標籤。

[<div class="title">
<a href="/bbs/Food/M.1540099186.A.315.html">[食記] 高雄岡山羊肉 - 舊市羊肉</a>
</div>, <div class="title">
<a href="/bbs/Food/M.1540104279.A.FDB.html">[食記] 蘆洲 Tiffany綠  98 nine eight land</a>
</div>, <div class="title">
(略)
<div class="title">
<a href="/bbs/Food/M.1535474674.A.9D5.html">Fw: [公告] 報考小天使資格及注意事項</a>
</div>]

我們知道results為一個list

for item in results:
    item_href = item.select_one("a").get("href")
    article_href.append(item_href)
print(article_href)

# ['/bbs/Food/M.1540099186.A.315.html', 
# '/bbs/Food/M.1540104279.A.FDB.html', 
# '/bbs/Food/M.1540106895.A.744.html', 
# '/bbs/Food/M.1540107608.A.D43.html', 
# '/bbs/Food/M.1540109077.A.62C.html',  
# '/bbs/Food/M.1540110023.A.39A.html', 
# '/bbs/Food/M.1355673582.A.5F7.html', 
# '/bbs/Food/M.1190944426.A.E6C.html', 
# '/bbs/Food/M.1128132666.A.0FD.html', 
# '/bbs/Food/M.1496532469.A.C36.html', 
# '/bbs/Food/M.1535474674.A.9D5.html']

這樣就取到該頁的所有連結了，不過這樣的話只有取到第一頁的文章，所以現在我們來看看如何切頁吧！
右上角有一個<上頁的按鈕，對它點擊右鍵>檢查：

Imgur

一樣可以看到href，這個就是我們要切換頁面的連結，接下來要做的就是抓到它！

取得div內class為btn-group下的a標籤
回傳的結果可以看到要的「上」在第3個Index

btn = soup.select('div.btn-group > a')
up_page_href = btn[3]['href']
next_page_url = 'https://www.ptt.cc' + up_page_href
print(next_page_url)
# https://www.ptt.cc/bbs/Food/index6958.html

我們可以用for迴圈定義要抓幾頁：

url="https://www.ptt.cc/bbs/Food/index.html"
for page in range(1,4):
    r = requests.get(url)
    soup = BeautifulSoup(r.text,"html.parser")
    btn = soup.select('div.btn-group > a')
    up_page_href = btn[3]['href']
    next_page_url = 'https://www.ptt.cc' + up_page_href
    url = next_page_url
    print(url)

最後整理一下，寫成這樣（本篇的完整程式碼）：

import requests
from bs4 import BeautifulSoup
url="https://www.ptt.cc/bbs/Food/index.html"

def get_all_href(url):
    r = requests.get(url)
    soup = BeautifulSoup(r.text, "html.parser")
    results = soup.select("div.title")
    for item in results:
        a_item = item.select_one("a")
        title = item.text
        if a_item:
            print(title, 'https://www.ptt.cc'+ a_item.get('href'))
        
for page in range(1,4):
    r = requests.get(url)
    soup = BeautifulSoup(r.text,"html.parser")
    btn = soup.select('div.btn-group > a')
    up_page_href = btn[3]['href']
    next_page_url = 'https://www.ptt.cc' + up_page_href
    url = next_page_url
    get_all_href(url = url)

比較不同的是：