你好，如果我想要爬評論，那標題那邊要怎麼改寫法?

評論爬蟲

ttony2138tw 2019-04-22 13:03:01 ‧ 1313 瀏覽

分享至

你好，我看了Day-1 Python爬蟲小人生(1)
因為你是爬標題
所以寫法
sel = soup.select("div.title a") #取HTML標中的中的標籤存入sel
for s in sel:
print(s["href"], s.text)
那如果要爬標題的每一則評論要怎麼改呢?
謝謝!

小魚 iT邦大師 1 級 ‧ 2019-04-22 13:13:23 檢舉

你要先了解原理,
如果你了解原理,
就會知道怎麼做了.

小魚 iT邦大師 1 級 ‧ 2019-04-22 13:22:49 檢舉

不過你可能要學一下網頁的結構,
通常會爬蟲的人基本上也要會寫基本的網頁前端.

ccutmis iT邦高手 2 級 ‧ 2019-04-22 13:33:38 檢舉

幫小魚補充:
爬標題這樣寫 div.title a
表示說它是去抓<div class="title">的<a>標籤
這個有兩個要先懂
(1)html的階層式標籤語法 (2)css選擇器=> "div.title a"
上面的都了解了，你再去看標題的每一則評論它的html標籤結構長怎樣，再思考該用怎麼的css選擇器描述去抓到你要的評論項目。

以下是一個示例:
每則評論的html結構長這樣
<div class="push"><span...>評論內容</span></div>
所以你的爬虫可以這樣試試
r = requests.get("https://www.ptt.cc/bbs/MobileComm/M.1555894481.A.D85.html")
soup = BeautifulSoup(r.text,"html.parser")
sel = soup.findAll("div", {"class": "push"})
for s in sel:
四個空格print(s.text)

登入發表討論