iT邦幫忙

鐵人檔案

2023 iThome 鐵人賽
回列表
AI & Data

30天網路爬蟲學習 系列

網路爬蟲是透過程式自動抓取網站資料的過程,能夠自動化協助蒐集網頁上的資訊。
希望透過這三十天的時間,對於網路爬蟲的知識以及運作原理有更深入的了解!

鐵人鍊成 | 共 30 篇文章 | 0 人訂閱 訂閱系列文 RSS系列文
DAY 21

DAY21-認識網站巡覽

網站巡覽Site Navigation 網站巡覽的目的是建立網站瀏覽介面,便於使用者能快速在網站中找到目標網頁,而常用的介面有超連結、階層選單、上/下頁或頁碼分...

2023-10-06 ‧ 由 yichenpan 分享
DAY 22

DAY22-爬取階層選單巡覽的網站

今天我們就來練習爬取階層選單巡覽的網站吧~ 本次練習網址為:https://www.webscraper.io/test-sites/e-commerce/a...

2023-10-07 ‧ 由 yichenpan 分享
DAY 23

DAY23-認識網頁設計技術與JavaScript(上)

網頁設計技術 網頁設計技術是一種程式設計,它建立的程式是為了產生HTML標籤,然後在瀏覽器顯示網頁內容。通常使用HTML標示語言建立的網頁內容只是一種靜態內容,...

2023-10-08 ‧ 由 yichenpan 分享
DAY 24

DAY24-認識網頁設計技術與JavaScript(下)

JavaScript JavaScript原名LiveScript,是一種腳本,也能稱它為程式語言,從歷史觀點來看,網頁是靜態的,類似於書中的頁面。靜態頁面主要...

2023-10-09 ‧ 由 yichenpan 分享
DAY 25

DAY25-認識Python網路爬蟲

Python網路爬蟲是使用Python語言建立的爬蟲程式,功能上與Web Scraper沒什麼不同,差別就在於Web Scraper會完整執行JavaScrip...

2023-10-10 ‧ 由 yichenpan 分享
DAY 26

DAY26-Python網路爬蟲的基本步驟

步驟一:找出目標URL網址和參數 找出目標資料是位在Web網站的單一頁面或多頁不同的頁面,我們使用瀏覽器來確認目標資料所在的URL網址和相關參數值。 步驟二:...

2023-10-11 ‧ 由 yichenpan 分享
DAY 27

DAY27-使用Python處理CSV資料(上)

前面我們使用過Web Scraper爬取的資料是儲存成CSV格式的文字檔案,現在我們就來使用Python程式處CSV檔案吧~ CSV是使用純文字方式來表示表格...

2023-10-12 ‧ 由 yichenpan 分享
DAY 28

DAY28-使用Python處理CSV資料(下)

Python程式可以將網路取得的清單資料建立成巢狀串列後,將串列資料寫入建立成CSV檔案。 下面是Python程式將巢狀串列寫入pl2.csv檔案,執行結果用...

2023-10-13 ‧ 由 yichenpan 分享
DAY 29

DAY29-Requests函式庫

如果經過測試JavaScript不會影響目標資料,Python程式可以使用requests模組送出HTTP請求來取得網路資料。requests可以使用下面六個H...

2023-10-14 ‧ 由 yichenpan 分享
DAY 30

DAY30-結語

這此難得有參加鐵人賽的機會,感覺一切都好不真實!好像才剛開賽沒多久,卻已經默默地過完三十天了,這些日子裡也確實學到了很多有關爬蟲的知識,雖然我的進度還是有點緩慢...

2023-10-15 ‧ 由 yichenpan 分享