Day-3 Python爬蟲小人生(3)

2019鐵人賽 meow_meow 黑客社

Jayhom

團隊Meow_Meow

2018-10-18 22:40:09

29709 瀏覽

分享至

前言

繼上次教了大家遇到想爬下一頁跟遇到前置按鈕(ex:是否已滿18)的情況處理後，今天會進階到教大家如果遇到圖片想要爬下來該如何處理，並且以目前大學生比較常使用的聊天論壇-Dcard來為實作案例。

爬圖片

本次以Dcard上一篇文章裡的圖片為例
- https://www.dcard.tw/f/pet/p/229834249-%E5%AF%B5%E7%89%A9%E6%BA%9D%E9%80%9A%E9%83%BD%E6%98%AF%E5%81%87%E7%9A%84%E5%8B%B8%E4%B8%96%E6%96%87
這張非常可愛的小貓咪

爬圖片也是利用Python套件requests實作，所以先import進來
```
import requests
```

其實爬圖片也是將圖片頁面GET下來做處理

pic = requests.get('https://imgur.dcard.tw/N2k5kV2m.jpg') #變數名稱為pic

將圖片頁面GET下來後，將其轉為二進制方式，因為接下來要將圖片的二進制存到本地端檔案中(此動作就是下載)
```
img2 = pic.content #變數名稱命名為img2
```

接下來，在本地端開啟一個檔案(權限為可寫，二進制)，將圖片二進位寫進去，並記得關閉檔案!!

pic_out = open('img1.png','wb') #img1.png為預存檔的圖片名稱
pic_out.write(img2) #將get圖片存入img1.png
pic_out.close() #關閉檔案(很重要)

即可完成圖片爬蟲(完整版程式碼)，打開本地資料夾就可以看到圖片(img1.png)

import requests
pic=requests.get('https://imgur.dcard.tw/N2k5kV2m.jpg') #圖片網址
img2 = pic.content #圖片裡的內容
pic_out = open('img1.png','wb') #img1.png為預存檔的圖片名稱
pic_out.write(img2) #將get圖片存入img1.png
pic_out.close() #關閉檔案(很重要)

開關檔

小編突然忘記，好像沒有教到開關檔，所以借用一下 Day-1 Python爬蟲小人生(1) 爬標題的程式碼

Day-1 Python爬蟲小人生(1)

import requests
from bs4 import BeautifulSoup

r = requests.get("https://www.ptt.cc/bbs/MobileComm/index.html") #將網頁資料GET下來
soup = BeautifulSoup(r.text,"html.parser") #將網頁資料以html.parser
sel = soup.select("div.title a") #取HTML標中的 <div class="title"></div> 中的<a>標籤存入sel
for s in sel:
    print(s["href"], s.text)

如果想把這些標題存在本地端的記事本，就需要用到開檔寫入再關檔
先學在本地端開檔
- FLAG有分成幾種(本處只介紹小編常用): r:讀取 w:寫入 b:二進制開檔 a:追加內容
```
變數名稱 = open("檔案名稱",FLAG) 
```

開檔之後通常會對其檔案作寫入/讀取

開檔變數名稱.read() #讀取
開檔變數名稱.write("寫入內容") #寫入

開完檔案最後一定要關閉檔案(非常重要!!!!)
```
開檔變數名稱.close()
```

整理上述的程式碼(開檔/寫檔/關檔)

f = open('file.txt', 'w')
f.write(str(s["href"]) + s.text+"\n")
f.close()

如果將一次的爬蟲加上開檔/寫檔/關檔

import requests
from bs4 import BeautifulSoup
f = open('file.txt', 'w')
r = requests.get("https://www.ptt.cc/bbs/MobileComm/index.html") #將網頁資料GET下來
soup = BeautifulSoup(r.text,"html.parser") #將網頁資料以html.parser
sel = soup.select("div.title a") #取HTML標中的 <div class="title"></div> 中的<a>標籤存入sel
for s in sel:
    print(s["href"], s.text)
    f.write(str(s["href"]) + s.text+"\n")
f.close()