電影抓取工具：抓取100,000多個電影信息

數據分析大數據分析電影數據采集

erika 2020-07-20 14:58:32 ‧ 2425 瀏覽

分享至

電影的數據記錄了觀眾的喜好及其對某些事物的態度。從相關網站（例如IMDb和Rotten Tomatoes）收集電影信息，將有助於電影行業中的數據分析和數據挖掘。一般而言，在某些情況下可以使用抓取的數據：

分析目標受眾的特徵
獲取公眾意見以預測未來趨勢
幫助廣告推銷

根據需要，我們還可以對電影數據做更多的事情。為了幫助您完成數據收集，本文將介紹如何從IMDb恐怖電影列表中抓取信息，包括導演信息，演員陣容以及其他一些重要信息。

在這種情況下，我將通過以下鏈接向您展示如何從IMDb中抓取134,555部恐怖電影信息：

https://www.imdb.com/search/title/?genres=horror&start=51&explore=title_type,genres&ref_=adv_nxt

該網絡抓取工具的目標是找到在恐怖電影列表中列出的電影，獲取導演信息，演員陣容以及其他一些重要信息。

在開始之前，請先在計算機上下載Octoparse V7以進行後續操作。此外，強烈建議學習使用Octoparse的基本邏輯。

讓我們開始吧！

步驟1：在Octoparse內置瀏覽器中打開目標網站。

只需在高級模式下單擊“ +任務”。

高級模式

然後，將URL粘貼到框中，然後單擊“ 保存URL ” 按鈕。

保存網址

步驟2：單擊以構建一個任務來抓取電影信息。

在Octoparse內置瀏覽器中打開RUL之後，我們可以繼續建立分頁和循環項以獲取數據。
只需在內置瀏覽器中單擊“ next >> ” 元素，然後在“操作提示” 上單擊“ 循環單擊所選元素” 。

動作提示

我們可以看到分頁已在工作流程中建立。

如果您想讓Octoparse更精確地識別您選擇的元素，則只需修改XPath即可。如下圖所示，Octoparse生成的XPath是 //DIV[@class='nav']/DIV[2]/A[2]. We’d better change it to //a[contains(text(), "Next »")].

XPath

在這種情況下，我們需要從影片列表中抓取數據，也就是說，我們可以直接創建一個循環項來提取數據。

選擇瀏覽器上的“版塊” 之一，Octoparse可以檢測到所選博客中的所有數據字段。

單擊選擇

然後，選擇“ 選擇所有子元素” 。

Octoparse正在選擇所有需要的數據，並以紅色突出顯示。選擇“ 全選” 繼續。

單擊以選中“信息”部分

最後，我們選擇“ 在循環中提取數據” 。

選擇匹配的動作

現在，我們已經在Octoparse中完成了分頁和循環項。我們可以在左側看到任務的工作流程，並在右側看到數據。

資料預覽

步驟3：在Octoparse中清除數據。

提取數據之前，我們' d更好的清除數據，以做出最後的結果更好。只需單擊即可刪除不需要的字段，然後重命名所需的描述。

步驟4：提取資料

只需單擊“提取數據”即可在本地獲取數據。

提取數據

由於本地提取利用您自己的計算機資源，例如CPU，互聯網速度，因此其工作速度比使用Octoparse雲提取要慢。

無論如何，在創建抓取工具後，您需要做的就是等待並在大約2小時內獲取數據，超過100,000行電影數據。

最後結果

我想通過以上步驟，每個人，包括沒有編程背景的人，都可以使用Octoparse V7輕鬆構建影片搜尋器，並獲得超過100,000行的影片信息。但是，這不是最簡單的方法。使用Octoparse V8可能會容易得多：

八度分析8：自動檢測

總而言之，通過數據抓取，我們可以在線獲取電影數據，且不會涉及法律問題。

除數據外，更重要的是關於您所學的技能，這對於進行市場研究，保持自我更新以及許多其他事情非常有用。

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19831 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

電影抓取工具：抓取100,000多個電影信息

尚未有邦友留言

標記使用者