本篇跟大家分享一個小專題概念就是 Linux 的 shell script 來做爬蟲,既然這一篇要分享爬蟲那我先説說爬蟲的概念,首先這是什麼是爬蟲?
爬蟲也可以說是網路爬蟲是一種自動化的腳本或程式,用於瀏覽和擷取網站上的資料。它會模擬使用者在網頁上進行操作,自動從網站獲取資料並將這些資料進行存儲或分析,網路爬蟲在搜索引擎(如 Google)的運作中扮演著重要角色,負責搜尋網際網路上的網站內容並將這些內容編入索引,讓使用者能夠透過關鍵字查找到相關的網頁。
網路爬蟲的流程大概如下:
主要是透過 Shell 提供的指令和工具來下載和解析網頁內容,然後提取所需的資料,這種方式相較於使用專業爬蟲框架(如 Python 的 Scrapy),會相對簡單,但對於基本的資料抓取任務還是能夠有效地運行。
本篇是我對於爬蟲的介紹以及shell script 要怎麼做爬蟲的概念,下一篇會跟大家介紹如何用 shell script 做爬蟲的實作~~~~
https://homuchen.com/posts/crawler-104-jobs-data-using-shell-scripts-curl-and-jq/
https://blog.tibame.com/?p=17890