今天我們直接爬蟲實作,今天我們會以 104人力銀行作為範例
jq
工具首先我們先進行工具的安裝,jq
小工具,那 jq
是一個常用的指令工具,用於處理 JSON 格式的資料,輕量但功能強大,可以做到從 JSON 資料中擷取、轉換、篩選等操作,也可以簡單用於排版讓 JSON 資料更可讀。
當你安裝好 jq 工具的時候,接下來下一步就可以來撰寫程式碼
sudo nano test.sh
#test.sh
if [ -z $1 ] || [ -z $2 ]; then
echo ""
echo " Usage:"
echo " sh ./`basename $0` \$keyword \$page"
echo ""
echo " Example:"
echo " sh ./`basename $0` 軟體工程師 1"
echo " sh ./`basename $0` 專案管理 2"
echo ""
exit
fi
keyword=$1
page=$2
curl \
-H 'Referer: https://www.104.com.tw/jobs/search' \
https://www.104.com.tw/jobs/search/list\?\&keyword\=$keyword\&page\=$page \
| jq
撰寫好程式碼後,記得儲存然後就可以來試試看了
sh ./test.sh 軟體工程師 1
就可以看到爬蟲結果,這樣就大功告成拉~~~
Shell script 是一種命令行語言,通常用來自動化系統操作和文件管理。它也可以用來執行爬蟲,特別是在需要使用基本的網絡工具時。
優點:
缺點:
Python 提供了強大且靈活的爬蟲工具庫,例如 requests、BeautifulSoup、Scrapy、Selenium 等,適合處理各種類型的網頁,包括動態和靜態網頁。
優點:
我只能說雖然兩者的要達成的功能都差不多,但是假如你今天只是突發奇想寫一個很簡易爬蟲的話,我很推薦用 shell script,但假如你想要爬蟲較為豐富的話,個人非常推薦用 python
https://homuchen.com/posts/crawler-104-jobs-data-using-shell-scripts-curl-and-jq/#1
https://jqlang.github.io/jq/
https://www.onejar99.com/jq_commands/