DAY21、專題二 : Pixiv (2)

2022 iThome 鐵人賽

DAY 21

Software Development

爬蟲基礎入門與實際應用系列第 21 篇

14th鐵人賽

navoni1024

2022-10-06 23:58:18

554 瀏覽

分享至

今天來試著把一位作者所有作品的連結給抓出來

首先先挑一位作者的頁面打開，並打開網路頁籤看一下我們get到了什麼東西。
可以從json檔開始找找看，有時候會找到驚喜。

像這裡我們就找到了一個json檔有包含了作者所有的作品ID。
我們可以利用他生成所有作品的連結。

可以看到我們的請求長這樣，所以我們現在試著把Filenames接在Host後面組起來並打開來看看。

看起來沒問題，我們繼續。

這裡firefox有個小坑，因為用selenium是模擬實際使用的狀況所以打開json檔時firefox會自動幫你轉成上圖那樣易讀的模式。
但這反而會造成我們的麻煩，因為抓下來後會發現資料被分割並塞在一堆HTML裡面，所以要想辦法關掉。
解決方法是先設定並在開driver時把設定塞進去。

brower_options = webdriver.FirefoxOptions()
brower_profile = webdriver.FirefoxProfile()
brower_profile.set_preference('devtools.jsonview.enabled', False)
brower_options.profile = brower_profile

driver = webdriver.Firefox(options=brower_options)

這樣執行雖然會產生類似底下的錯誤
DeprecationWarning: firefox_profile has been deprecated, please use an Options object brower_profile = webdriver.FirefoxProfile()
但因為還是能動我就先忽視了。

寫完後再get一次該網址可以發現他正常了。

雖然還是會塞在html裡但只要用一行lxml+稍微修整就可以拿出json資料了。

tree = etree.HTML(driver.page_source)
illu_json = json.loads(str(tree.xpath('/html/body/pre/text()'))[2:-2])

執行並print出來後可以發現資料成功拿到了，如下圖。

明天繼續講爬下各作品。

DAY20、專題二 : Pixiv (1)

DAY22、專題二 : Pixiv (3)

系列文

爬蟲基礎入門與實際應用共 30 篇

RSS系列文訂閱系列文

9 人訂閱

完整目錄

直播研討會

{{ item.channelVendor }} {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

1064 組

團體組數

40 組

累計文章數

22209 篇

完賽人數

600 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# windows server linux css react vue.js

IT邦幫忙

爬蟲基礎入門與實際應用系列 第 21 篇