iT邦幫忙

2018 iT 邦幫忙鐵人賽
DAY 26
0
自我挑戰組

30天Python學習分享路程系列 第 26

Python 做一個簡單的小爬蟲(一)

今天不抓蘿莉,抓金髮女大生

第一天,先嘗試將a標籤的href個別的找出來
然後我們要做的事把字串長度取出來,之後我要判斷出字串的尾巴是不是圖片檔

程式碼如下圖,

# coding=utf-8

from selenium import webdriver
import urllib2
from bs4 import BeautifulSoup

driver = webdriver.Firefox()
driver.get("https://www.ptt.cc/bbs/Beauty/M.1515902682.A.579.html")
#print(driver.page_source)
soup = BeautifulSoup(driver.page_source, 'html.parser')
print(soup)
image = soup.find_all("a")
for element in image:
    print(element.get('href'))
    print(len(element.get('href')))
#print(image)
driver.close()

https://ithelp.ithome.com.tw/upload/images/20180115/20107812sGG5IrEvV7.png


上一篇
Python 正則表達式篇
下一篇
Python 做一個簡單的小爬蟲(二)
系列文
30天Python學習分享路程30

1 則留言

0
pigs0231
iT邦新手 5 級 ‧ 2018-08-14 16:35:38

若使用這個範例時,webdriver.Firefox()有改成Chrome或是其他遊覽器時
找不到geckodriver,記得去
https://github.com/mozilla/geckodriver/releases
找取適合的版本,若沒辦法開成功,記得降低版本

我要留言

立即登入留言