iT邦幫忙

2022 iThome 鐵人賽

0

爬蟲

簡單來說,就是把網站上面的資料擷取下來,但通常需要用到電腦輔助之資料擷取不可能只有一筆,而是會有著大筆的資料,而這之間也有可能參雜了許多非文字資料,圖片、影片、影音等...。這時侯我們就需要 ** 網路爬蟲 ** 來幫我們完成,而每隻爬蟲的程式都做著不一樣的爬蟲機制。

而我們透過browser所看到的網頁呈現,跟爬蟲機制所看到的並不相同,他們看到的是 網頁原始碼。

而利用Python來撰寫爬蟲是因為它有幾個優點,具有可讀性與簡潔性,看一隻程式最好的莫過於直觀的理解程式語言想表達的。

今天先來簡介一個最簡單的例子,以 https://www.google.com.tw/ 網頁來做示範。

# import requests 套件包
import requests
# GET請求抓資料 
page = requests.get('https://www.google.com.tw/')
#印出網頁程式碼
print(page.text)

結果如下

https://ithelp.ithome.com.tw/upload/images/20221030/20151839LqTRTMizeb.jpg


上一篇
Day10-要養眼肯定不能只養一天
下一篇
Day12- 爬蟲爬到Dcard去
系列文
大四要畢業了但還不太會python合理嗎30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言