iT邦幫忙

鐵人檔案

2022 iThome 鐵人賽
回列表
Modern Web

mitmproxy 在網路爬蟲上的各種應用 系列

我認為網路爬蟲的核心在於對封包的逆向能力

換句話說,如果你想要實現一個網頁的自動化,你就必須先分析網頁 API 才能寫程式

怎麼分析 API 即是核心,寫程式反而是相對不重要的,畢竟你要用什麼語言實現網頁自動化都無所謂


我的文章將以 HTTP 網路封包為切入點,搭配上 mitmproxy 這個強大的工具實現各種封包操作

我想以深入且詳細的內容完賽獲獎,然後獲得出版書籍的機會

參賽天數 18 天 | 共 18 篇文章 | 10 人訂閱 訂閱系列文 RSS系列文
DAY 1

Day 1 前言

作者簡介 Yotsuba 這個名字取自日本動畫《五等分の花嫁》裡面的角色中野四葉。 從那之後在網路上,任何需要暱稱的地方,我都以這個名字出現,包括來參加鐵人賽。...

2022-09-16 ‧ 由 Yotsuba 分享
DAY 2

Day 2 初探網路爬蟲

什麼是網路爬蟲 ? 網路爬蟲又稱網路蜘蛛,是一種自動瀏覽網頁的程式 我曾經把網路爬蟲和網路程式設計劃上等號 不過網路程式設計聽起來有點太廣泛 ? 好像在述說著整...

2022-09-17 ‧ 由 Yotsuba 分享
DAY 3

Day 3 速成爬蟲的第一課 : 請求

請求 請求 ( request ) 是爬蟲程式的起點,可以說是沒有請求,就沒有後面的程式碼 換句話說,一個有 input 和 output 的程式,你可能很習慣...

2022-09-18 ‧ 由 Yotsuba 分享
DAY 4

Day 4 速成爬蟲的第二課 : 資料解析

資料解析 現在假設你的請求沒有發生錯誤,那麼資料解析就是拿到回應後該做的事情。 資料解析對爬蟲來說是非常基本的需求,因為回應通常不太可能全部都是自己要的資料。...

2022-09-19 ‧ 由 Yotsuba 分享
DAY 5

Day 5 速成爬蟲的第三課 : 認證

認證在真實世界的情況 一個網頁頁面能不能讓你看到,取決於你有沒有被認證,或者這個頁面需不需要認證 ? 比方說你正在瀏覽一個公開的 GitHub 專案,你只需要一...

2022-09-20 ‧ 由 Yotsuba 分享
DAY 6

Day 6 速成爬蟲的第四課 : 送出表單

POST 請求 如果說 GET 請求是單純取得一個頁面,那麼 POST 請求就是送出一些資料,並且交給伺服器端處理。 最常見的情況大概就是登入了。試想一個 PO...

2022-09-21 ‧ 由 Yotsuba 分享
DAY 7

Day 7 速成爬蟲的第五課 : 資料儲存

資料儲存 會遇到資料儲存的狀況,通常是用爬蟲來做下載器,下載二進位檔案的內容。 或者爬取到的資料沒有馬上要用,所以先儲存起來。 很高興資料儲存並不是一個困難的議...

2022-09-22 ‧ 由 Yotsuba 分享
DAY 8

Day 8 初探 mitmproxy

mitmproxy mitmproxy 縮寫自 man-in-the-middle proxy。 顧名思義,它就是一個中間人攻擊用的 proxy。 為什麼需要...

2022-09-23 ‧ 由 Yotsuba 分享
DAY 9

Day 9 在 Linux、iOS 與 Android 處理 SSL 憑證問題,打造本地撈封包環境

插曲 我的作業系統是 Pop!_OS 20.04,在昨天重灌成 Pop!_OS 22.04 了。 由於 Steam 給 Linux 玩遊戲的執行環境 Proto...

2022-09-24 ‧ 由 Yotsuba 分享
DAY 10

Day 10 第一個中間人攻擊程式

第一個中間人攻擊程式,在安裝憑證的時候就已經發生 如果你平常連上 mitm.it,你會看到以下畫面。 If you can see this, traffic...

2022-09-25 ‧ 由 Yotsuba 分享