【Day 1】從0開始學習爬蟲!

2022 iThome 鐵人賽

DAY 1

自我挑戰組

養爬蟲的人學爬蟲系列第 1 篇

14th鐵人賽

teresawang

2022-09-14 17:46:23

3298 瀏覽

分享至

關於我
哈囉!我是一個就讀資訊相關科系的大三生。
會來參加這個鐵人賽主要是因為必修課需要參賽，也想藉著這個特別的機會，挑戰自己的學習能力(笑)。

為什麼選擇爬蟲
在還沒接觸過任何資訊專業課程的時候，就聽說過爬蟲了。
但一直沒有好好的認識，想透過鐵人賽，好好來念爬蟲的相關內容。
也因為在系上比較沒有相關課程，想學只能靠自己(笑)。

爬蟲是什麼?
網路爬蟲是一種使用程式「自動抓取」資料的過程。
爬蟲可以收集、擷取各網站的資料，並且整理出各種格式。

參考書籍
這次鐵人賽主要會用到「矽谷工程師爬蟲手冊，用python成為進階高手」及「Python網路爬蟲，大數據擷取、清洗、儲存與分析，王者歸來」作為主要參考。
(之後的參考資料會補充在當天內容中)

參考資料
認識網路爬蟲 https://www.webscrapingpro.tw/what-is-web-scraping/

目錄
【Day 2】爬蟲第一步 ! 環境設定(Python、Visual Studio Code)
【Day 3】Python基本語法(常見資料型態
 【Day 4】 Python 條件判斷、迴圈、其他
 【Day 5】Python 函數(Function)
【Day 6】使用Python處理CSV文件（1/2）
【Day 7】使用Python處理CSV文件（2/2）
【Day 8】一起打開瀏覽器檢查看看吧！
【Day 9】第一個爬蟲函式庫-Requests
【Day 10】第一次資料清洗-Requests-HTML
【Day 11】認識Pandas模組
 【Day 12】常出現的BeautifulSoup
【Day 13】不同的爬蟲種類
 【Day 14】爬進PTT的網頁吧！（實戰PTT 1/3）
【Day 15】爬完這邊繼續爬！（實戰PTT 2/3）
【Day 16】把爬完的資料用JSON儲存吧！（實作PTT 3/3）
【Day 17】半個月以來的總結
 【Day 18】動態網頁爬蟲-Selenium（1/2）
【Day 19】動態網頁爬蟲-Selenium（2/2）
【Day 20】帶上工具去Dcard去爬文（實戰Selenium 1/2）
【Day 21】在Dcard上自動向下捲動吧！（實戰Selenium 1/2）
【Day 22】認識並實作哈希值（hashlib模組）
【Day 23】不用帳號密碼也可以登錄Instagram嗎？（實戰Selenium 1/2）
【Day 24】將所有貼文都點讚吧！（實戰Selenium 1/2）
【Day 25】想在Discord自動留言嗎？
【Day 26】用Postman儲存或測試API
【Day 27】Google API與爬蟲
 【Day 28】什麼是反爬蟲？
【Day 29】反爬蟲技術初步認識
 【Day 30】終於完賽啦！這30天以來的感想

【Day 2】爬蟲第一步 ! 環境設定(Python、Visual Studio Code)

系列文

養爬蟲的人學爬蟲共 30 篇

RSS系列文訂閱系列文

14 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

3 則留言

zoeke9011

iT邦新手 5 級 ‧ 2022-09-23 17:25:17

跑來加油了！gogo!

回應
檢舉

登入發表回應

dylan332

iT邦新手 5 級 ‧ 2023-03-01 16:59:48

特別註冊帳號留言感覺這個是抄別人的作業
有些關鍵字打錯有些地方修改沒改對
甚至有些程式碼變數打錯根本不能跑
建議想學習的人看別人寫的學比較快

回應
檢舉

登入發表回應

dylan332

iT邦新手 5 級 ‧ 2023-03-01 16:59:51

回應
檢舉

登入發表回應

我要留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19752 篇

完賽人數

529 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

養爬蟲的人學爬蟲系列 第 1 篇