iT邦幫忙

0

自動從網站提取數據到Excel

要從網站提取數據,您可以利用Octoparse之類的數據提取工具。這些工具可以自動從網站提取數據,並將其保存為Excel,JSON,CSV,HTML等多種格式,或者通過API保存到您自己的數據庫中。只需幾分鐘即可提取數千行數據,並且最好的部分是,此過程不需要編碼。

文章內容:
方法1:使用任務模板模式一鍵式提取
方法2:使用高級模式自定義提取

以Google搜索為例。假設我們對與“ smoothie”相關的信息感興趣,並且希望從搜索結果中提取所有標題,描述和網頁URL。要從Google搜索中提取數據,您可以使用網絡抓取模板。模板是一種預格式化的搜尋器,無需任何配置即可使用。有超過50種模板供您選擇。您將看到所有模板,從電子商務網站(如Amazon和eBay)到社交媒體渠道(如Facebook,Twitter和Instagram)。Octoparse還提供自定義模板。

方法1:使用任務模板模式一鍵式提取
第1步:選擇網絡抓取模板
要使用模板,您需要在計算機上安裝Octoparse。選擇“任務模板”模式。轉到“搜索引擎”類別下的Google搜索網絡抓取模板。

步驟2:閱讀範本指示
打開模板。檢查說明和示例輸出,以確保此模板將為您提供所需的數據。您可以將光標懸停在數據字段上,以查看將提取網站上的哪些元素。

檢查參數以更好地了解您需要輸入的內容。參數在不同的模板中會有所不同,因為它們可能需要不同的搜索詞才能繼續進行。它可能是URL,關鍵字,URL /關鍵字列表,您要抓取的頁面數等等。在這種情況下,我們需要輸入搜索詞“ smoothie”。

步驟3:使用模板並開始提取
單擊“使用模板”,然後輸入“ smoothie”,然後單擊“保存並運行”。如果這是一個一次性項目,則只需在本地計算機上運行搜尋器。而如果您正在處理一個正在進行的項目,則可以在Octoparse雲平台上計劃提取。提取完成後,您可以將其導出為多種格式,例如Excel,CSV和txt。

我們剛剛介紹瞭如何使用網絡抓取模板從Google搜索中提取網絡數據。您也可以使用“高級模式”在點擊內構建自己的搜尋器。它可能需要一些配置,但是在數據提取方面非常靈活。

方法2:使用高級模式自定義提取
步驟1:輸入目標網址以構建搜尋器
如果您嘗試大規模提取數據,則可以在框中輸入多達10,000個URL的列表。在這種情況下,由於我們只抓取一個網站,所以我們只需將目標URL粘貼到框中,然後單擊“保存URL”繼續。

步驟2:建立分頁循環
將瀏覽器切換到Firefox45。現在,Octoparse已成功將網頁加載到內置瀏覽器中。然後,我們需要通過單擊“下一步”頁面按鈕並在“操作提示”面板上選擇“循環單擊下一頁”來建立分頁。您將在工作流程區域中看到我們剛剛構建的分頁循環。

步驟3:提取數據並開始提取
現在我們可以提取數據。單擊搜索結果的標題,然後單擊“全選”。選擇所有標題後,它們將以綠色突出顯示。單擊“提取所選元素的文本”以提取所有標題。讓我們暫停一下,以了解工作流程。我們只是在分頁循環內部構建了一個提取循環。整個提取過程將按以下方式進行:機器人將首先打開網頁,一步一步提取第一頁上的標題,然後繼續進行下一頁重複提取,直到提取停止或完成為止。

您可以按照相同的方法提取描述。最後,要提取URL,請單擊“ A”標籤,然後選擇“提取所選鏈接的URL”。在右上角顯示說明和URL後,這意味著我們已成功提取它們。現在,我們可以編輯字段名稱,保存抓取任務,然後開始提取。

除了Google之外,數據提取工具還可以從許多其他網站提取數據,並且它們在各個行業中得到廣泛使用。例如,公司可以提取Yellowpages,Yelp和Google地圖來生成銷售線索。您可以 查看其他數據提取用途和應用程序


1 則留言

我要留言

立即登入留言