我認為網路爬蟲的核心在於對封包的逆向能力
換句話說,如果你想要實現一個網頁的自動化,你就必須先分析網頁 API 才能寫程式
怎麼分析 API 即是核心,寫程式反而是相對不重要的,畢竟你要用什麼語言實現網頁自動化都無所謂
我的文章將以 HTTP 網路封包為切入點,搭配上 mitmproxy 這個強大的工具實現各種封包操作
我想以深入且詳細的內容完賽獲獎,然後獲得出版書籍的機會
作者簡介 Yotsuba 這個名字取自日本動畫《五等分の花嫁》裡面的角色中野四葉。 從那之後在網路上,任何需要暱稱的地方,我都以這個名字出現,包括來參加鐵人賽。...
什麼是網路爬蟲 ? 網路爬蟲又稱網路蜘蛛,是一種自動瀏覽網頁的程式 我曾經把網路爬蟲和網路程式設計劃上等號 不過網路程式設計聽起來有點太廣泛 ? 好像在述說著整...
請求 請求 ( request ) 是爬蟲程式的起點,可以說是沒有請求,就沒有後面的程式碼 換句話說,一個有 input 和 output 的程式,你可能很習慣...
資料解析 現在假設你的請求沒有發生錯誤,那麼資料解析就是拿到回應後該做的事情。 資料解析對爬蟲來說是非常基本的需求,因為回應通常不太可能全部都是自己要的資料。...
認證在真實世界的情況 一個網頁頁面能不能讓你看到,取決於你有沒有被認證,或者這個頁面需不需要認證 ? 比方說你正在瀏覽一個公開的 GitHub 專案,你只需要一...
POST 請求 如果說 GET 請求是單純取得一個頁面,那麼 POST 請求就是送出一些資料,並且交給伺服器端處理。 最常見的情況大概就是登入了。試想一個 PO...
資料儲存 會遇到資料儲存的狀況,通常是用爬蟲來做下載器,下載二進位檔案的內容。 或者爬取到的資料沒有馬上要用,所以先儲存起來。 很高興資料儲存並不是一個困難的議...
mitmproxy mitmproxy 縮寫自 man-in-the-middle proxy。 顧名思義,它就是一個中間人攻擊用的 proxy。 為什麼需要...
插曲 我的作業系統是 Pop!_OS 20.04,在昨天重灌成 Pop!_OS 22.04 了。 由於 Steam 給 Linux 玩遊戲的執行環境 Proto...
第一個中間人攻擊程式,在安裝憑證的時候就已經發生 如果你平常連上 mitm.it,你會看到以下畫面。 If you can see this, traffic...