iT邦幫忙

1

在幾分鐘內寫好一個URL爬蟲

  • 分享至 

  • xImage
  •  

從任何網站獲取URL都很容易。Control + C和Control + V,完成!但是,如果您需要為網站收集成千上萬個URL,該怎麼辦?我認為我們不願意一遍又一遍地進行複制粘貼。在這種情況下,必須使用URL抓取工具。

您可能想知道為什麼還要收集URL。在大多數情況下,人們將收集例如圖像,視頻或廣告系列鏈接以建立內容匯總站點以供參考。當然,這可能會帶來許多潛在的商業公司機會。

在本文中,我想向您展示如何在幾分鐘內無需編碼即可構建URL爬蟲。閱讀全文後,每個人都可以將其確定下來。

步驟1:在計算機上安裝Octoparse。

在這種情況下,我將使用Octoparse演示如何構建URL爬蟲。如果您想繼續學習本課程,只需下載Octoparse即可。

步驟2:準備Octopparse Scraping 101。

在使用新工具之前,最好先熟悉其工作邏輯。因此,如果您不熟悉Octoparse,請檢查一下Octoparse的總體工作方式

步驟3:選擇以下方法之一來構建URL Scraper。

方法1:單擊圖像以直接提取URL

方法2:清除源代碼並重新格式化

讓我們開始吧!!

##方法1:單擊圖像以直接提取URL
在這種情況下,我將向您展示如何在BestBuy上抓取筆記本電腦的圖像URL。只需在BestBuy上搜索“筆記本電腦”,您就可以獲取URL(https://www.bestbuy.com/site/searchpage.jsp?st=laptop&_dyncharset=UTF-8&_dynSessConf=&id=pcat17071&type=page&sc=Global&cp=1&nrp=&sp= &qp =&list = n&af = true&iht = y&usc = All + Categories&ks = 960&keys = keys)。

1)在計算機上打開Octoparse。然後點擊進入“高級模式”

高級模式

2)您只需複制並複制Bestbuy URL,即可進入網站框。然後,單擊底部的“保存URL”。

通過上述步驟,您可以在Octoparse內置瀏覽器中打開網站。

 瀏覽

3)一般來說,我們需要所有頁面或盡可能多的圖像URL。那難嗎?當然,當您使用Octoparse時不會。

在Octoparse網站上單擊“>”後,您可以在“操作提示”欄上看到一些選項。這些選項由Octoparse算法自動生成。

然後,只需單擊“循環單擊下一頁”即可創建循環項

 循環點擊下一頁

現在,在工作流中創建了循環。

 工作流程

4)現在,我們可以單擊圖像直接提取URL。

單擊網頁上的兩個圖像,以幫助Octoparse識別IMG字段。一旦成功完成Octoparse識別圖像,我們就可以在“操作提示”欄的底部看到“ IMG”元素顯示。

然後,只需按照提示單擊“循環提取圖像URL”即可。

循環提取IMG

5)通過以上4個步驟,我們在Octoparse中創建了URL抓取工具。最後一步是提取圖像URL。

 提取IMG URL

單擊“開始提取”-“本地提取”,然後Octoparse開始收集圖像URL。

最後結果

##方法2:清除源代碼並重新格式化
為了演示這種方法,我想向您展示如何在bing.com上收集圖像URL。目標網址為:

https://images.search.yahoo.com/search/images;_ylt=AwrTLYhyuXpecKgAKT5XNyoA;_ylu=X3oDMTB0NjZjZzZhBGNvbG8DZ3ExBHBvcwMxBHZ0aWQDBHNlYwNwaXZz?p=data&fr2=piv-web&fr=yfp-t&guce_referrer=aHR0cHM6Ly9zZWFyY2gueWFob28uY29tL3NlYXJjaD9wPWRhdGEmZnI9eWZwLXQmZnA9MSZ0b2dnbGU9MSZjb3A9bXNzJmVpPVVURi04&guce_referrer_sig=AQAAAH_Lvoa2_TPXpQeDHOLM9JD-gnVES1ReYo-iBs1Fzqcv9IDU0a69HjMyzLIcQ43LIZyX8UdtboXMWeUOI2Yr3ljRnQnFO4xWWruAdh87SDTjBngp_XsPH7fKd4E6qWEugxDfILKdR9h4zIWqqkHoG689rKTcb43tjtNXhcw8im67&_guc_consent_skip=1585101208

1)在Octoparse中打開目標網站,這與我們之前的操作類似。

2)在Octoparse的內置瀏覽器中打開目標URL後,我們只需要隨機單擊頁面即可。然後,我們單擊“ <<”並在“操作提示”欄底部選擇“ HTML”。

IMG

然後,我們只需選擇“提取所選元素的外部HTML”即可獲取整個網站的源代碼。

工作流程

整個HTML顯示在“數據定制區域”中。
數據定制區

回到網站,(https://images.search.yahoo.com/search/images;_ylt=AwrTLYhyuXpecKgAKT5XNyoA;_ylu=X3oDMTB0NjZjZzZhBGNvbG8DZ3ExBHBvcwMxBHZ0aWQDBHNlYwNwaXZz?p=data&fr2=piv-web&fr=yfp-t&guce_referrer=aHR0cHM6Ly9zZWFyY2gueWFob28uY29tL3NlYXJjaD9wPWRhdGEmZnI9eWZwLXQmZnA9MSZ0b2dnbGU9MSZjb3A9bXNzJmVpPVVURi04&guce_referrer_sig=AQAAAH_Lvoa2_TPXpQeDHOLM9JD-gnVES1ReYo-iBs1Fzqcv9IDU0a69HjMyzLIcQ43LIZyX8UdtboXMWeUOI2Yr3ljRnQnFO4xWWruAdh87SDTjBngp_XsPH7fKd4E6qWEugxDfILKdR9h4zIWqqkHoG689rKTcb43tjtNXhcw8im67&_guc_consent_skip = 1585101208),然後按Ctrl + Shift + I,您可以查看網站的HTML。

 檢查網站

如果足夠小心,您可以輕鬆找出圖像URL的共享功能。

它們以“ https://”開頭,以“” id =”結尾。一旦獲得此信息,我們就可以使用稱為“重新格式化”的Octoparse工具輕鬆地從源代碼中選擇圖像URL。

HTML模式

3)讓我們回到Octoparse!單擊數據自定義區域上突出顯示的圖標。
自定義數據字段

然後,我們有4個選項供我們進一步自定義所選數據。在這種情況下,我們需要做的是“精煉提取的數據”。

優化提取的數據

點擊“添加步驟”,我們可以看到重新格式化選項。選擇“匹配正則表達式”

與正則表達式匹配

點擊“試用RegEx工具”

Octoparse Regex工具

然後,只需填寫空白,告訴Octoparse您想要哪種數據格式。Octoparse將自動生成RexEx並幫助您選擇所需的信息。

單擊幾下後,我們可以看到頁面上的所有URL都出現在左下方的框中。

嘗試Regex工具

4)現在,我們可以使用我們剛剛構建的URL抓取工具提取數據!


這兩種構建URL搜尋器的方法對您來說容易嗎?無論如何,只要做到這一點,您就會知道!如果在創建網址抓取工具時遇到任何問題,歡迎您通過support@octoparse.com與支持人員聯繫。

此外,儘管這些方法是關於構建圖像URL抓取器的,但是您可以根據需要將其擴展為創建視頻URL抓取器或電子郵件抓取器。創建網址抓取工具的邏輯是相同的!

作者:埃里卡


圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言