DAY25-認識Python網路爬蟲 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2023 iThome 鐵人賽

DAY 25

0

AI & Data

30天網路爬蟲學習系列第 25 篇

DAY25-認識Python網路爬蟲

15th鐵人賽

2023-10-10 23:42:35

908 瀏覽

分享至

Python網路爬蟲是使用Python語言建立的爬蟲程式，功能上與Web Scraper沒什麼不同，差別就在於Web Scraper會完整執行JavaScript程式碼，而Python爬蟲程式並不會執行JavaScript程式碼。

Python網路爬蟲所需的工具與函式庫

網路爬蟲分析工具： 常使用的是瀏覽器內建的開發人員工具，能幫助我們在HTML網頁定位資料所在和找出取出此資料的特徵，像是標籤名稱和屬性值。
HTTP函式庫： 和Web伺服器進行HTTP通訊的函式庫，便於取得回應文件的HTTP網頁內容。
網路爬蟲函式庫： 取得回應的HTML網頁內容後，會需要使用函式庫來剖析HTML文件，便於將所需資料取出。

Python網路爬蟲的基本步驟

步驟一：找出目標URL網址和參數。
步驟二：判斷網頁內容是如何產生。
步驟三：擬定擷取資料的網路爬蟲策略。
步驟四：將取得資料儲存成檔案或存入資料庫。

Python爬蟲程式和Web Scraper工具的差異

Web Scraper工具：
使用瀏覽器送出HTTP請求，待伺服器回傳資料後會完整執行JavaScript程式，所以在瀏覽器看到的資料和Web Scraper看到的完全相同。

Python爬蟲程式：
使用函式庫送出HTTP請求，回傳資料只有HTML標籤，並不會包含外部CSS和JavaScript程式碼檔案，所以取回資料和瀏覽器看到的網頁內容可能不同。

今天的分享就先到這邊，我們明天見~

書籍參考資料：文科生也可以輕鬆學習網路爬蟲

DAY24-認識網頁設計技術與JavaScript(下)

DAY26-Python網路爬蟲的基本步驟

系列文

30天網路爬蟲學習共 30 篇

目錄

RSS系列文訂閱系列文

0 人訂閱

完整目錄

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

AI會議轉錄如何盡可能縮小明文攻擊面？

IT邦幫忙