Python網路爬蟲 :: 2022 iThome 鐵人賽

sunwww (sunwww)

iT邦見習生 ‧ 點數 206

7685

累計瀏覽數

1人

在追蹤

站內簡訊追蹤

鐵人檔案

2022 iThome 鐵人賽

回列表

AI & Data

Python網路爬蟲系列

自學爬蟲相關技術

鐵人鍊成｜共 30 篇文章｜ 10 人訂閱訂閱系列文 RSS系列文

1 Like 0 留言 704 瀏覽

DAY 11

Day11 – HTML基本介紹

Html元素起始標籤：由< >兩個符號包起來，其中包含了元素的名字。結束標籤：</ >和起始標籤很像，需在元素名字前加上/ 內容：...

2022-09-26 ‧ 由 sunwww 分享

1 Like 0 留言 664 瀏覽

DAY 12

Day12 – Requests函式庫

由於電腦中已經有python3了所以代表已經安裝好pip3了。接下來使用pip3來安裝我們之後會用到的Requests函式庫。Requests的HTTP方法：r...

2022-09-27 ‧ 由 sunwww 分享

1 Like 0 留言 912 瀏覽

DAY 13

Day13 – BeautifulSoup函式庫

昨天講到Requests函式庫沒有資料清洗的功能，今天要介紹的BeautifulSoup是一個Python的函式庫，通過分析文件為使用者抓取所需的資料。bs4的...

2022-09-28 ‧ 由 sunwww 分享

1 Like 0 留言 930 瀏覽

DAY 14

Day14 –JSON資料格式介紹

JSON的全名是JavaScript Object Notation。Python程式設計時需要使用import json導入json模組。 json資料格式分...

2022-09-29 ‧ 由 sunwww 分享

1 Like 0 留言 663 瀏覽

DAY 15

Day15 –Python應用在json檔案

今天要接著介紹的就是將字典資料儲存成json檔案。昨天簡略的介紹了json的資料格式。我們在程式設計時，若能夠將python資料轉換成json資料格式，日後也能...

2022-09-30 ‧ 由 sunwww 分享

1 Like 0 留言 830 瀏覽

DAY 16

Day16 –爬蟲的類型

爬蟲根據結構、技術和目的區分：通用網路爬蟲：主要是搜集每個網站的特色，爬取的範圍和數據量也比較龐大。也可以稱為搜尋引擎。例如google, yahoo, 百...

2022-10-01 ‧ 由 sunwww 分享

1 Like 0 留言 1647 瀏覽

DAY 17

Day17 –網路爬蟲PTT - 1（跳過cookies）

前面講了那麼多，終於有開始要做點什麼了......因為我也是第一次接觸網路爬蟲，查了很多文章跟一些相關書籍，發現大家最初都是搞定PTT裡的有沒有滿18歲(coo...

2022-10-02 ‧ 由 sunwww 分享

1 Like 0 留言 1497 瀏覽

DAY 18

Day18 –網路爬蟲PTT - 2（資料清洗）

昨天最後的結果看起來還是很亂對吧，我們可以用要BeautifulSoup，將我們想要的內容清理出來。可以用檢查功能選取文章，發現文章的元素都放在div.r-en...

2022-10-03 ‧ 由 sunwww 分享

1 Like 0 留言 1430 瀏覽

DAY 19

Day19 –網路爬蟲PTT - 3（爬下一頁）

今天要做的是繼續往下爬一頁。先定義好昨天寫的程式碼，這樣之後只需要呼叫定義就可以執行。（記得要將url變數移到下面，定義內的程式碼也要記得縮排！）接著我們需要找...

2022-10-04 ‧ 由 sunwww 分享

0 Like 0 留言 907 瀏覽

DAY 20

Day20 –網路爬蟲PTT - 4（儲存成.json）

今天要做的是把目前的頁面的文章轉成字典，最後將其儲存至.json檔案。一開始最重要的： import json 接下就是將文章轉成字典： articles =...

2022-10-05 ‧ 由 sunwww 分享

sunwww的鐵人檔案

sunwww的收藏

sunwww的追蹤

sunwww的Like

sunwww的紀錄

sunwww的訂閱列表

鐵人檔案

Python網路爬蟲 系列

標記使用者

Python網路爬蟲系列