動機 從簡單的商品到價提醒,到複雜的輿情警示、圖形辨識,「資料來源」都是基礎中的基礎。但網路上的資料龐大而且更新很快,總不可能都靠人工來蒐集資料。這時候就是爬蟲...
開發環境 python3 下載並安裝 python 執行環境,這個系列文用的是 3.7.3 版本。安裝後在命令列執行 python --veresion 確認是...
在開始爬資料前,先來認識一下網路上常見的資料格式吧! CSV 的全名是 Comma Separated Values,顧名思義就是用**逗點(,)**分隔的資料...
另一個常見的格式是 JSON (JavaScript Object Notation),可以想成是 Python 的 dict 或 list。Python 也有...
我們在瀏覽器上實際看到的畫面,其實是瀏覽器在收到 HTML 後渲染出來的結果,之後寫爬蟲時也是幾乎都會根據 HTML 來找到我們要爬取的目標,所以必須對 HTM...
在昨天的內容中,我們已經了解了基本的 HTML 結構,今天我們來試著剖析網頁原始碼並找出我們需要的資料。 常見剖析 HTML 原始碼的方式有三種: 正則表示式...
昨天有提到,Beautiful Soup 也可以用 lxml 來作為剖析器,但在某些特殊情況還是得回頭以 lxml 來使用 XPath 定位資料。 安裝 lxm...
開始蒐集資料前,需要拿到可以用來「剖析」的原始資料。但平常我們都是打開瀏覽器,輸入網址(甚至常常跳過這步)、可能會輸入一些關鍵字來搜尋、再點選幾個有興趣的連結。...
終於進入最令人期待的環節了!(有人期待嗎QQ)接著四天會試著蒐集 iT 邦幫忙的技術文章,從列表頁開始,把每篇文章的標題、內文、回應和留言都蒐集起來。 接下來...
大家還記得昨天的落落長選擇器嗎? html > body > div > div.row > div.col-md-12.clearfi...