iT邦幫忙

鐵人檔案

2022 iThome 鐵人賽
回列表
AI & Data

Python網路爬蟲 系列

自學爬蟲相關技術

鐵人鍊成 | 共 30 篇文章 | 10 人訂閱 訂閱系列文 RSS系列文
DAY 11

Day11 – HTML基本介紹

Html元素 起始標籤:由< >兩個符號包起來,其中包含了元素的名字。 結束標籤:</ >和起始標籤很像,需在元素名字前加上/ 內容:...

2022-09-26 ‧ 由 sunwww 分享
DAY 12

Day12 – Requests函式庫

由於電腦中已經有python3了所以代表已經安裝好pip3了。接下來使用pip3來安裝我們之後會用到的Requests函式庫。Requests的HTTP方法:r...

2022-09-27 ‧ 由 sunwww 分享
DAY 13

Day13 – BeautifulSoup函式庫

昨天講到Requests函式庫沒有資料清洗的功能,今天要介紹的BeautifulSoup是一個Python的函式庫,通過分析文件為使用者抓取所需的資料。bs4的...

2022-09-28 ‧ 由 sunwww 分享
DAY 14

Day14 –JSON資料格式介紹

JSON的全名是JavaScript Object Notation。Python程式設計時需要使用import json導入json模組。 json資料格式分...

2022-09-29 ‧ 由 sunwww 分享
DAY 15

Day15 –Python應用在json檔案

今天要接著介紹的就是將字典資料儲存成json檔案。昨天簡略的介紹了json的資料格式。我們在程式設計時,若能夠將python資料轉換成json資料格式,日後也能...

2022-09-30 ‧ 由 sunwww 分享
DAY 16

Day16 –爬蟲的類型

爬蟲根據結構、技術和目的區分: 通用網路爬蟲: 主要是搜集每個網站的特色,爬取的範圍和數據量也比較龐大。也可以稱為搜尋引擎。例如google, yahoo, 百...

2022-10-01 ‧ 由 sunwww 分享
DAY 17

Day17 –網路爬蟲PTT - 1(跳過cookies)

前面講了那麼多,終於有開始要做點什麼了......因為我也是第一次接觸網路爬蟲,查了很多文章跟一些相關書籍,發現大家最初都是搞定PTT裡的有沒有滿18歲(coo...

2022-10-02 ‧ 由 sunwww 分享
DAY 18

Day18 –網路爬蟲PTT - 2(資料清洗)

昨天最後的結果看起來還是很亂對吧,我們可以用要BeautifulSoup,將我們想要的內容清理出來。可以用檢查功能選取文章,發現文章的元素都放在div.r-en...

2022-10-03 ‧ 由 sunwww 分享
DAY 19

Day19 –網路爬蟲PTT - 3(爬下一頁)

今天要做的是繼續往下爬一頁。先定義好昨天寫的程式碼,這樣之後只需要呼叫定義就可以執行。(記得要將url變數移到下面,定義內的程式碼也要記得縮排!)接著我們需要找...

2022-10-04 ‧ 由 sunwww 分享
DAY 20

Day20 –網路爬蟲PTT - 4(儲存成.json)

今天要做的是把目前的頁面的文章轉成字典,最後將其儲存至.json檔案。一開始最重要的: import json 接下就是將文章轉成字典: articles =...

2022-10-05 ‧ 由 sunwww 分享