iT邦幫忙

鐵人檔案

2022 iThome 鐵人賽
回列表
自我挑戰組

用Python學習網路爬蟲30天 系列

以讀書心得的方式記錄使用Python語言學習網路爬蟲領域

鐵人鍊成 | 共 30 篇文章 | 6 人訂閱 訂閱系列文 RSS系列文
DAY 1

[Day1] 參賽動機

大家好~我是大三的學生,就讀醫資學程。起初會參加鐵人賽是因為系上課程要求,也藉由這次機會參加自我挑戰,可以自我學習感興趣的領域,增強自己的資訊技能。 這次選擇學...

2022-09-15 ‧ 由 rouanchen 分享
DAY 2

[Day2] 軟體安裝

我這次學習所使用的開發環境是Anaconda整合套件和內建spyder整合開發環境。 Anaconda 的特點: 內建眾多流行的科學、數學、工程、數據分析的...

2022-09-16 ‧ 由 rouanchen 分享
DAY 3

[Day3] 什麼是網路爬蟲?

網路爬蟲,或稱網路資料擷取,是一個從Web資源擷取所需資料的過程。它可以讓我們從網站取出非表格或結構不佳的資料,轉換成可用且結構化的資料。 注意!!!若取得資料...

2022-09-17 ‧ 由 rouanchen 分享
DAY 4

[Day4] 從網路取得資料1_HTTP請求

HTTP通訊協定 HTTP通訊協定是一種伺服器和客戶端之間傳送資料的通訊協定,可以向Web伺服器請求所需的HTML網頁。詳細的請求過程如下: 客戶端要求連線伺...

2022-09-18 ‧ 由 rouanchen 分享
DAY 5

[Day5] 從網路取得資料2_進階的HTTP請求

送出進階的HTTP請求 有些特殊的HTTP請求,需要額外指定參數才能送出。 實作練習 Cookie: 在get()函數使用cookies參數來送出資料 im...

2022-09-19 ‧ 由 rouanchen 分享
DAY 6

[Day6] 擷取靜態HTML網頁資料1_Beautiful Soup

網路爬蟲資料擷取工作 使用Request 送出HTTP請求取得回應的HTML網頁內容後,需要定位出要找尋資料的位置,才能方便從網頁中擷取。其主要工作有三項:...

2022-09-20 ‧ 由 rouanchen 分享
DAY 7

[Day7] 擷取靜態HTML網頁資料2_HTML標籤定位

HTML標籤定位 在搜尋HTML網頁時,可以使用BeautifulSoup中的find()函數來找出指定的HTML 標籤。此函數傳回的值是”第一個”符合條件的H...

2022-09-21 ‧ 由 rouanchen 分享
DAY 8

[Day8] 擷取靜態HTML網頁資料3_正規表達式

正規表達式 正規表達式是一個範本字串,可以用來進行字串對比,為一種小型的字串比對語言。其範本字串是使用英文字母、數字和一些特殊字元所組成,裡面包含了以下字元,下...

2022-09-22 ‧ 由 rouanchen 分享
DAY 9

[Day9] 擷取靜態HTML網頁資料4_CSS選擇器

CSS選擇器 CSS選擇器可以定位哪些HTML標籤需要套用樣式。主要分成三種,如下: CSS Level 1:基本選擇器:使用標籤名稱、id和class屬性值...

2022-09-23 ‧ 由 rouanchen 分享
DAY 10

[Day10] 擷取靜態HTML網頁資料5_XPath表達式

XPath表達式 XPath是一種表達是語言,可以在XML文件中走訪和標示節點位置。它可以直接依據HYML標籤內容來搜尋網頁內容,也可以直接傳回符合HTML元素...

2022-09-24 ‧ 由 rouanchen 分享