第一次的爬蟲

2021 iThome 鐵人賽

DAY 3

自我挑戰組

初次接觸爬蟲的學習系列第 3 篇

13th鐵人賽

pinyi

2021-09-08 09:05:34

998 瀏覽

分享至

老實說我就是一菜鳥小白，學習程式設計也不過一年多吧，而且也不是特別拿手，就是希望能透由這次的自主學習多得到些樂趣，能夠繼續堅定我走程式設計這條路的心。這是我第一次做這種自我學習的文章，就是可能會有很多我理解錯的地方，還請希望不小心點進來並且觀看的大大們，如果不嫌棄的話可以幫助我糾正我的錯誤，感謝!
那拉回正題，前兩天關於node.js的初步練習就先告一段落了，接下來就是正式開始爬蟲學習。這篇呢，會先講講我第一次爬蟲的準備，下一篇才會有實作，所以這篇可能會比較短吧。
首先，關於node.js的部分，我所要使用的套件有express(就上篇提到過能夠簡單架設一http伺服器)、superagent(關於這套件我也不是很了解，不過這次是要來請求目標頁面)、cheerio(這個好像是常見的爬蟲套件，主要是獲取所需的資料資訊)，大概就這三個。下面是將三個套件裝在專案中

接下來是這次爬蟲的目標是新聞，百度新聞的熱點要聞。選新聞是因為感覺新聞標題一個個的，在頁面資訊中很容易分辨。那下面補充說如何快速找到所要資料的資訊結構。
當然可以使用F12來打開控制台，但在茫茫資訊中想要找到所要的可能會花一些時間，所以只要將游標移置所要的資料上，點擊右鍵，選擇”檢查”，控制台出現的同時也會把資訊反白出來。