iT邦幫忙

1

要如何爬nhentai

  • 分享至 

  • xImage

我想做一個爬蟲可以爬nhentai的tag,但是發現這樣爬進去的頁面是Just a moment...的頁面,請問要怎麼真正爬到我要的頁面?
這是我的js

const puppeteer = require('puppeteer');
var url = 'https://nhentai.net/g/123456/';

(async ()=>{
    const browser = await puppeteer.launch();
    const page = await browser.newPage();

    await page.goto(url);
    await page.waitForNavigation();
    //await page.click('.mark')[0];
    //await page.waitForNavigation();

    const titles = await page.$$eval('.name',(el) => {
        return $(el).text;
    });
    console.log(titles);
    await browser.close;
})

這是debug用的js,用這個檢查才發現不是我要的頁面

const https = require('https');
const cheerio = require('cheerio');
const url = 'https://nhentai.net/g/123456/';

https.get(url, (res) => {
    let data = '';
    res.on('data', (chunk) => {
        data += chunk;
    });
    res.on('end', () => {
        const $ = cheerio.load(data);
        const titles = $('.name'); // 取得所有CSS class名稱為title的元素
        console.log(data); // 輸出元素的文字內容
    });
}).on('error', (err) => {
    console.log('Error: ' + err.message);
});
看更多先前的討論...收起先前的討論...
ccutmis iT邦高手 2 級 ‧ 2023-03-17 23:08:40 檢舉
不可以瑟瑟...
看了一下 ,status code 403,有辦法繞過去嗎?
我只是想在看本之前有一個獵奇守門員而已…
ccutmis iT邦高手 2 級 ‧ 2023-03-18 14:29:39 檢舉
為啥不用 python 去爬就好 網路教學一堆
望空 iT邦新手 2 級 ‧ 2023-03-18 17:21:29 檢舉
應該說 不可以瑟瑟 還是應該說 這是個很好的程式寫作動力...
froce iT邦大師 1 級 ‧ 2023-03-20 11:26:11 檢舉
這個前面我記得有用cloudflare做保護,所以得先繞過才行。
我也有試著用python爬過,也看了目前google的到的爬蟲,但是都被回傳403
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友回答

立即登入回答