iT邦幫忙

2023 iThome 鐵人賽

DAY 26
0
AI & Data

30天網路爬蟲學習系列 第 26

DAY26-Python網路爬蟲的基本步驟

  • 分享至 

  • xImage
  •  

步驟一:找出目標URL網址和參數

找出目標資料是位在Web網站的單一頁面或多頁不同的頁面,我們使用瀏覽器來確認目標資料所在的URL網址和相關參數值。


步驟二:判斷網頁內容是如何產生

成功找出目標URL網址和相關參數後,需要判斷網頁內容是如何產生的,在瀏覽器進入目標的URL網址後,使用Quick JavaScript Switcher擴充功能來切換執行JavaScript碼,判斷網頁內容是否有改變。

  • 網頁內容完全相同: 不管有沒有執行JavaScript程式碼,網頁內容都一樣,代表是靜態網頁,不包含JavaScript程式碼。
  • 網頁內容有差異,但目標資料沒有改變: JavaScript程式碼只影響非目標資料,因為目標資料仍然存在,操作和靜態網頁並沒有甚麼不同。
  • 目標資料消失: 執行JavaScript程式影響到目標資料,需要判斷是否是AJAX網頁(資料完全消失)還是部份透過JavaScript程式碼來產生目標資料(只有部分資料消失)。

步驟三:擬定擷取資料的網路爬蟲策略

  • 執行JavaScript程式碼不會影響目標資料: 表示Python程式送出的HTTP請求能成功取回目標資料的HTML標籤,Python程式是使用Request送出請求來取得回應的HTML網頁,在網頁定位目標資料所在的位置取出資料。
  • 執行JavaScript程式碼會影響目標資料: 表示Python程式送出的HTTP請求無法成功取回目標資料。

步驟四:將取得資料儲存成檔案或存入資料庫

當爬取及收集好網路資料後,我們需要整理成結構化資料並儲存起來,一般會儲存成CSV檔案、JSON檔案或存入資料庫。


今天的分享就先到這邊,我們明天見~/images/emoticon/emoticon41.gif

書籍參考資料:文科生也可以輕鬆學習網路爬蟲


上一篇
DAY25-認識Python網路爬蟲
下一篇
DAY27-使用Python處理CSV資料(上)
系列文
30天網路爬蟲學習30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言