iT邦幫忙

2024 iThome 鐵人賽

DAY 2
0
自我挑戰組

30天認識爬蟲系列 第 2

[Day2] 原來爬蟲這麼方便

  • 分享至 

  • xImage
  •  

今天是第二天,昨天簡略查詢了一下爬蟲是甚麼,現在讓我們正式開始攻略它吧!
網路爬蟲具體來說就是向網站傳送GET請求或其他方式請求網址內容,伺服器就會將網頁的原始碼回傳,通常會是HTML文件,而網路爬蟲取得HTML文件後,服務器返回應網頁的HTML文件,獲取需要的資料,並將資料儲存在資料庫中。

其實爬蟲就是一種能夠自動抓取資料的工具,它能夠協助我們更有效率的完成工作,減少用人工大量又繁瑣的重複性動作,並且節省非常多時間。

來了解一下網路爬蟲究竟有甚麼優點與缺點吧:
優點:
1.自動化取代真人
2.節省不必要的時間
3.能夠處理大量資料
4.是搜尋引擎的要件

缺點:
1.有一些網站的作者禁止其他人爬取內容,未經過允許可能會觸犯到法律道德問題。
2.一次出現大量的爬蟲請求可能會帶給網站伺服器很大的負擔,恐怕會影響網站的正常運行。
3.爬蟲抓取到的資料不一定完全精準,還是要透過其他方式驗證。

明天第三天繼續加油!


上一篇
[Day1]前言
下一篇
[Day3]靜態網頁與動態網頁爬蟲
系列文
30天認識爬蟲30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言