iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 5
0
自我挑戰組

Python自主學習系列 第 23

Day23---Python網路爬蟲

  • 分享至 

  • xImage
  •  

基本流程
1.連線到特定網址,抓取資料
2.解析資料,取得實際想要的部分

JSON格式資料
使用內建json模組即可

HTML格式資料
使用第三方套件BeautifulSoup來做解析

安裝套件
PIP套件管理工具:安裝Python時,就一起裝在電腦裡了
安裝BeautifulSoup:pip install beautifulsoup4

程式範例:
(連線被程式拒絕,因而我們需要使自己像一位普通的使用者來操作它,不能直接附上網頁的網址來找尋資料)
https://ithelp.ithome.com.tw/upload/images/20191011/20120902BhQehFymWI.png

(為了解除這個問題,我們必須到原始網頁,點擊右上方的自訂及管理Chrone > 更多工具 > 開發人員資料 > network > 重新整理頁面 > 找到上方的index內的Headers > Request Headers的user agent > 複製下方網址)
https://ithelp.ithome.com.tw/upload/images/20191011/20120902YU90pV55oR.png

(安裝套件後,抓取網頁標題)
https://ithelp.ithome.com.tw/upload/images/20191011/20120902TGBFkIHxQM.png

(抓取單一文章標題)
https://ithelp.ithome.com.tw/upload/images/20191011/20120902nd2xBwvX4u.png

(抓取所有文章標題)
https://ithelp.ithome.com.tw/upload/images/20191011/20120902F55Eym1UO8.png


上一篇
Day22---Python實體物件的建立與使用(二)
下一篇
Day24---Python Flask 網路開發
系列文
Python自主學習30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言