iT邦幫忙

2022 iThome 鐵人賽

DAY 1
0

本文有整理在部落格裡。
部落格裡面還有其他奇怪的文章,有空可以來看看喔。


爬蟲是什麼?

英文叫crawler,也有人叫他spider。是指可以自動抓下網站上所需數據的程式。
本文如果活的下去的話會教到兩種常見的爬蟲方法:靜態爬蟲的requests和動態爬蟲的selenium。

靜態爬蟲和動態爬蟲?

靜態爬蟲是指將網站直接抓下來並擷取裡面的內容,但要是網站有使用javascript等東西來生成網頁內容時可能會導致讀不到東西的狀況。這時候就必須要用到動態爬蟲來模擬平常使用遊覽器的狀況了。

那爬蟲能幹嘛?

能夠方便的爬下大量圖片和數據,也可以讓你定時關心有沒有新的資訊。
舉例而言,我們可以在各大房仲網站爬下個物件資料,
並且加以統整後結合google地圖的api,做出專屬於我們的房仲地圖。
亦或者是,在升學時,我們可以爬下各大學的國際排名、企業排名、網路討論度等資料,
以自己的權重作為計算,得出各大學的綜合排名表,最後發佈到地圖上,對升學也是一個不小的助力。

之後會學到什麼?

暫且打算之後會教這些

  • D1.爬蟲介紹
  • D2.爬蟲原理
  • D3.html
  • D4.robots.txt&header
  • D5.requests
  • D6.beautifulsoup(1)
  • D7.beautifulsoup(2)
  • D8~D11.專題一
  • D12.認識json
  • D13.python的json套件
  • D14.政府開放資料庫
  • D15.~d17.專題二
  • D18.selenium介紹
  • D19.安裝webdriver
  • D20.find_element
  • D21.xpath
  • D22.selenium keys
  • D23.~D25.專題三
  • D26.discord bot介紹
  • D27.discord bot攥寫
  • D28.應用爬蟲到discord bot(上)
  • D29.應用爬蟲到discord bot(下)
  • D30.完結

下一篇
DAY2 、爬蟲流程
系列文
爬蟲基礎入門與實際應用30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

1 則留言

1
dinlon5566
iT邦新手 3 級 ‧ 2022-09-17 00:48:22

最後一分鐘截稿,恭喜趕上

我要留言

立即登入留言