iT邦幫忙

0

網路爬蟲 抓不到某些標籤內容

  • 分享至 

  • xImage

大家好~我目前還是個網路爬蟲新手
爬取的網站:[https://www.skh.org.tw/skh/advice.html]
問題:
有在原始碼中看到要爬取的內容和標籤,但當我使用print(soup)來確認時卻無此內容顯示https://ithelp.ithome.com.tw/upload/images/20220713/20148132YGjEf1CJj6.png
想詢問各位是哪邊出了問題
附上我的code:
https://ithelp.ithome.com.tw/upload/images/20220713/20148132WRuq3OoYVQ.png

自行嘗試過的解決辦法
1.轉換各種標籤爬取 如soup.select("p.editor_line_text span")、select("div.gas-editor span")、select("li")等,不知是否標籤找錯。
2.非動態網頁
3.用js render

先感謝大家願意幫我解答!!誠摯的感謝各位!!

看更多先前的討論...收起先前的討論...
obarisk iT邦研究生 1 級 ‧ 2022-07-13 16:51:32 檢舉
ajax

不熟的話,你用 selenium 再解網頁比較快
obarisk iT邦研究生 1 級 ‧ 2022-07-13 16:54:18 檢舉
認真要解也是可以。
看 xhr ,要去打 https://www.skh.org.tw/skh_api/mediaAPI
需要 cookie, API_ID, 跟 v 這個查詢參數(看起來 v 可是可略的)
froce iT邦大師 1 級 ‧ 2022-07-14 14:22:58 檢舉
v應該是當下的時間戳。
謝謝你們!!!
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

1 個回答

0
koro_michael
iT邦新手 2 級 ‧ 2022-07-14 13:00:13

如果你不想要利用像 puppeteer 之類的套件來操控瀏覽器

就得去打 AJAX 了,你標注的地方是動態載入的

我要發表回答

立即登入回答