iT邦幫忙

0

如何從Craigslist刮取數據

本文介紹:

1.為什麼人們會刮擦Craigslist
2.刮Craigslist是否違法
3.如何從Craigslist抓取數據
4.使用Octoparse抓取Craigslist數據
5.結束語

##人們為什麼會采集Craigslist?
Craigslist收集廣泛的信息。有些瀏覽器可能不滿意, 出於各種原因,他們從Craigslist 抓取數據。以下是其中的典型4個。

1>個人可以提取有關房屋,汽車,計算機等的第一手信息。當導出到excel工作表時,它們更容易瀏覽和比較數據。

2> 與Yellowpages和Yelp相似,Craigslist充滿了潛在的潛在業務來產生收入。毫無疑問,線索很重要,特別是合格的線索。這可能是Craigslist吸引如此眾多人的原因。

3> 通過轉售商品獲得利潤。利用結構良好的抓取數據,人們可以更好地分析價格並設置新的轉售價格。但是,轉售實際上是在灰色區域,因此這可能不是一個很好的嘗試。有時它是有利可圖的,但後果可能並不令人愉快。

4> 監控競爭對手。Craigslist充滿了寶貴的信息,涵蓋了許多行業,人們可以在其中跟踪競爭對手。實時了解其策略將幫助企業在競爭中獲得優勢。

##采集Craigslist是否非法?
作為目前最受歡迎的網站之一,Craigslist被證明是最困難的網站之一。原因很簡單:與向用戶提供API來獲取數據的網站不同,Craigslist API並非旨在提取數據。相反,它用於在Craigslist上發布數據。

就像Facebook和LinkedIn一樣,Craigslist的用語清楚地表明,禁止使用任何類型的機器人,蜘蛛,腳本,刮板,爬蟲。而且他們不允許人們在網站上竊取用戶的個人信息。

Craigslist已使用各種技術和法律方法來防止因商業目的而報廢。實際上,在2017年4月,Craigslist對3 Taps Inc提起了6050萬美元的判決,該公司被指控抄襲房地產清單。幾個月後,Craigslist再次與Instamotor達成3,100萬美元的判決,聲稱Instamotor的汽車上市服務是從Craigslist中刪除的,他們向craigslist用戶發送了未經請求的電子郵件以進行促銷。

然而,在一篇題為作為上述關於網頁抓取的10個冷門知識,這是非法的,如果你采集利潤機密信息,但如果你刮公共數據謹慎自用,那就無所謂了。

##如何從Craigslist抓取數據?
如果您是編碼人員,則可以按照此Python教程中有關刮除East Bay Area Craigslist的內容進行操作。可以修改本教程中的代碼以從任何區域,類別,屬性類型等中提取。或者您可以查看本Scrapy教程, 以學習在紐約抓取Craigslist的“建築與工程”工作並將數據存儲到CSV中文件。

但是以上教程的問題是顯而易見的:對於非編碼人員來說,它們過於復雜。如果您的編碼經驗為零,並且想要一種簡單,快速的方法,那麼這裡有個使用的自動數據抓取工具,例如Octoparse

借助數據抓取的功能,我們可以在單擊內從Craigslist列表中提取所需的所有信息,並將其輕鬆導出到Excel,CSV,HTML和/或數據庫中。我將在3個步驟中引導您完成如何提取Craigslist房地產清單。

從Craigslist提取的房地產清單

##使用Octoparse進行Craigslist數據抓取
在這種情況下,讓我們刮擦在芝加哥出售的房屋/房地產。首先,請安裝Octoparse 並在計算機上啟動它。

步驟1:輸入目標Craigslist URL來構建搜尋器

在框中輸入列表URL,Octoparse將開始自動檢測頁面數據。如您所見,要提取的數據以紅色突出顯示,並且下面的預覽部分使您可以預編輯數據字段。

用octoparse

步驟2:保存提取設置

確保數據字段是我們想要的之後,單擊“保存設置”,Octoparse將在左側自動生成抓取工作流程。

用octoparse

步驟3:運行提取以獲取數據

最後,您只需要保存搜尋器並單擊“運行”即可開始提取。刮塗過程可以在5分鐘內完成。

用Octoparse

##結束語:
請注意,即使本文指導您提取Craigslist數據,您也應始終遵守其服務條款並以適當的頻率進行抓取。

數據抓取工具不僅可以抓取所有Craigslist列表,還可以在許多情況下使用,包括市場營銷,電子商務和零售,數據科學,股票和金融研究,數據新聞,學術,風險管理,保險等等。您可以在本文中閱讀有關Web抓取在商業中的用途的信息:25種通過Web數據提取促進業務發展的技巧


圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言