Python 做一個簡單的小爬蟲(一)

2018 iT 邦幫忙鐵人賽

DAY 26

自我挑戰組

30天Python學習分享路程系列第 26 篇

2018鐵人賽

CHI-CHENG HSIAO

2018-01-14 16:27:59

13533 瀏覽

分享至

今天不抓蘿莉,抓金髮女大生

第一天,先嘗試將a標籤的href個別的找出來
然後我們要做的事把字串長度取出來,之後我要判斷出字串的尾巴是不是圖片檔

程式碼如下圖,

# coding=utf-8

from selenium import webdriver
import urllib2
from bs4 import BeautifulSoup

driver = webdriver.Firefox()
driver.get("https://www.ptt.cc/bbs/Beauty/M.1515902682.A.579.html")
#print(driver.page_source)
soup = BeautifulSoup(driver.page_source, 'html.parser')
print(soup)
image = soup.find_all("a")
for element in image:
    print(element.get('href'))
    print(len(element.get('href')))
#print(image)
driver.close()