在幾分鐘內寫好一個URL爬蟲

數據分析數據采集圖片采集

erika 2020-07-27 14:11:07 ‧ 7058 瀏覽

分享至

從任何網站獲取URL都很容易。Control + C和Control + V，完成！但是，如果您需要為網站收集成千上萬個URL，該怎麼辦？我認為我們不願意一遍又一遍地進行複制粘貼。在這種情況下，必須使用URL抓取工具。

您可能想知道為什麼還要收集URL。在大多數情況下，人們將收集例如圖像，視頻或廣告系列鏈接以建立內容匯總站點以供參考。當然，這可能會帶來許多潛在的商業公司機會。

在本文中，我想向您展示如何在幾分鐘內無需編碼即可構建URL爬蟲。閱讀全文後，每個人都可以將其確定下來。

步驟1：在計算機上安裝Octoparse。

在這種情況下，我將使用Octoparse演示如何構建URL爬蟲。如果您想繼續學習本課程，只需下載Octoparse即可。

步驟2：準備Octopparse Scraping 101。

在使用新工具之前，最好先熟悉其工作邏輯。因此，如果您不熟悉Octoparse，請檢查一下Octoparse的總體工作方式。

步驟3：選擇以下方法之一來構建URL Scraper。

方法1：單擊圖像以直接提取URL

方法2：清除源代碼並重新格式化

讓我們開始吧！！

##方法1：單擊圖像以直接提取URL
在這種情況下，我將向您展示如何在BestBuy上抓取筆記本電腦的圖像URL。只需在BestBuy上搜索“筆記本電腦”，您就可以獲取URL（https://www.bestbuy.com/site/searchpage.jsp?st=laptop&_dyncharset=UTF-8&_dynSessConf=&id=pcat17071&type=page&sc=Global&cp=1&nrp=&sp= ＆qp =＆list = n＆af = true＆iht = y＆usc = All + Categories＆ks = 960＆keys = keys）。

1）在計算機上打開Octoparse。然後點擊進入“高級模式”

高級模式

2）您只需複制並複制Bestbuy URL，即可進入網站框。然後，單擊底部的“保存URL”。

通過上述步驟，您可以在Octoparse內置瀏覽器中打開網站。

3）一般來說，我們需要所有頁面或盡可能多的圖像URL。那難嗎？當然，當您使用Octoparse時不會。

在Octoparse網站上單擊“>”後，您可以在“操作提示”欄上看到一些選項。這些選項由Octoparse算法自動生成。

然後，只需單擊“循環單擊下一頁”即可創建循環項

循環點擊下一頁

現在，在工作流中創建了循環。

工作流程

4）現在，我們可以單擊圖像直接提取URL。

單擊網頁上的兩個圖像，以幫助Octoparse識別IMG字段。一旦成功完成Octoparse識別圖像，我們就可以在“操作提示”欄的底部看到“ IMG”元素顯示。

然後，只需按照提示單擊“循環提取圖像URL”即可。

循環提取IMG

5）通過以上4個步驟，我們在Octoparse中創建了URL抓取工具。最後一步是提取圖像URL。

提取IMG URL

單擊“開始提取”-“本地提取”，然後Octoparse開始收集圖像URL。

最後結果

##方法2：清除源代碼並重新格式化
為了演示這種方法，我想向您展示如何在bing.com上收集圖像URL。目標網址為：

https://images.search.yahoo.com/search/images;_ylt=AwrTLYhyuXpecKgAKT5XNyoA;_ylu=X3oDMTB0NjZjZzZhBGNvbG8DZ3ExBHBvcwMxBHZ0aWQDBHNlYwNwaXZz?p=data&fr2=piv-web&fr=yfp-t&guce_referrer=aHR0cHM6Ly9zZWFyY2gueWFob28uY29tL3NlYXJjaD9wPWRhdGEmZnI9eWZwLXQmZnA9MSZ0b2dnbGU9MSZjb3A9bXNzJmVpPVVURi04&guce_referrer_sig=AQAAAH_Lvoa2_TPXpQeDHOLM9JD-gnVES1ReYo-iBs1Fzqcv9IDU0a69HjMyzLIcQ43LIZyX8UdtboXMWeUOI2Yr3ljRnQnFO4xWWruAdh87SDTjBngp_XsPH7fKd4E6qWEugxDfILKdR9h4zIWqqkHoG689rKTcb43tjtNXhcw8im67&_guc_consent_skip=1585101208

1）在Octoparse中打開目標網站，這與我們之前的操作類似。

2）在Octoparse的內置瀏覽器中打開目標URL後，我們只需要隨機單擊頁面即可。然後，我們單擊“ <<”並在“操作提示”欄底部選擇“ HTML”。

然後，我們只需選擇“提取所選元素的外部HTML”即可獲取整個網站的源代碼。

工作流程

整個HTML顯示在“數據定制區域”中。

回到網站，（https://images.search.yahoo.com/search/images;_ylt=AwrTLYhyuXpecKgAKT5XNyoA;_ylu=X3oDMTB0NjZjZzZhBGNvbG8DZ3ExBHBvcwMxBHZ0aWQDBHNlYwNwaXZz?p=data&fr2=piv-web&fr=yfp-t&guce_referrer=aHR0cHM6Ly9zZWFyY2gueWFob28uY29tL3NlYXJjaD9wPWRhdGEmZnI9eWZwLXQmZnA9MSZ0b2dnbGU9MSZjb3A9bXNzJmVpPVVURi04&guce_referrer_sig=AQAAAH_Lvoa2_TPXpQeDHOLM9JD-gnVES1ReYo-iBs1Fzqcv9IDU0a69HjMyzLIcQ43LIZyX8UdtboXMWeUOI2Yr3ljRnQnFO4xWWruAdh87SDTjBngp_XsPH7fKd4E6qWEugxDfILKdR9h4zIWqqkHoG689rKTcb43tjtNXhcw8im67&_guc_consent_skip = 1585101208），然後按Ctrl + Shift + I，您可以查看網站的HTML。

檢查網站