iT邦幫忙

2023 iThome 鐵人賽

DAY 25
0
AI & Data

30天網路爬蟲學習系列 第 25

DAY25-認識Python網路爬蟲

  • 分享至 

  • xImage
  •  

Python網路爬蟲是使用Python語言建立的爬蟲程式,功能上與Web Scraper沒什麼不同,差別就在於Web Scraper會完整執行JavaScript程式碼,而Python爬蟲程式並不會執行JavaScript程式碼。


Python網路爬蟲所需的工具與函式庫

  • 網路爬蟲分析工具: 常使用的是瀏覽器內建的開發人員工具,能幫助我們在HTML網頁定位資料所在和找出取出此資料的特徵,像是標籤名稱和屬性值。
  • HTTP函式庫: 和Web伺服器進行HTTP通訊的函式庫,便於取得回應文件的HTTP網頁內容。
  • 網路爬蟲函式庫: 取得回應的HTML網頁內容後,會需要使用函式庫來剖析HTML文件,便於將所需資料取出。

Python網路爬蟲的基本步驟

  • 步驟一:找出目標URL網址和參數。
  • 步驟二:判斷網頁內容是如何產生。
  • 步驟三:擬定擷取資料的網路爬蟲策略。
  • 步驟四:將取得資料儲存成檔案或存入資料庫。

Python爬蟲程式和Web Scraper工具的差異

Web Scraper工具:
使用瀏覽器送出HTTP請求,待伺服器回傳資料後會完整執行JavaScript程式,所以在瀏覽器看到的資料和Web Scraper看到的完全相同。

Python爬蟲程式:
使用函式庫送出HTTP請求,回傳資料只有HTML標籤,並不會包含外部CSS和JavaScript程式碼檔案,所以取回資料和瀏覽器看到的網頁內容可能不同。


今天的分享就先到這邊,我們明天見~ /images/emoticon/emoticon41.gif

書籍參考資料:文科生也可以輕鬆學習網路爬蟲


上一篇
DAY24-認識網頁設計技術與JavaScript(下)
下一篇
DAY26-Python網路爬蟲的基本步驟
系列文
30天網路爬蟲學習30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言