數據收集和數據挖掘：有什麼區別

webscraping big data data science

erika 2019-08-23 10:37:22 ‧ 3773 瀏覽

分享至

由於“大數據”這個短語风靡，所以與數據相關的一切都出現了。 Web抓取，Web抓取，Web挖掘，數據分析，數據挖掘等。這些詞語可以互換使用，這使得數據領域對許多人來說更加混亂。全面了解這些術語對於各個企業在殘酷的營銷行業中提供信息是必要的。

什麼是數據收集？

數據收集意味著從在線資源獲取數據和信息。它通常可與網絡抓取和數據提取。收集是一個農業術語，意味著從田地收集成熟的作物，涉及收集和搬遷的行為。數據收集是從目標網站中提取有價值數據並以結構化格式將其放入數據庫的過程。

要進行數據收集，您需要使用自動爬蟲來解析目標網站，捕獲有價值的信息，提取數據並最終導出為結構化格式以供進一步分析。因此，數據收集不涉及算法，機器學習和統計。相反，它依賴於像Python，R，Java這樣的計算機編程來運行。此外，數據收集更多的是準確性。

有許多數據提取工具和服務提供商可以為您進行網絡收穫。 Octoparse是最好的網絡抓取工具。無論您是第一次自我啟動還是經驗豐富的程序員，它都是從互聯網上獲取數據的最佳選擇。

什麼是數據挖掘？

數據挖掘經常被誤解為獲取數據的過程。收集數據和挖掘數據之間存在很大差異，即使它們都涉及提取和獲取的行為。數據挖掘是發現您從大量數據生成的基於事實的模式的過程。數據挖掘不僅僅是獲取數據並理解數據，而是跨學科的，它集成了統計學，計算機科學和機器學習。

著名的劍橋Analytica醜聞，他們收集了超過6000萬Facebook用戶的信息，並根據他們在Facebook上的身份和活動孤立出那些不確定他們的選票的人。然後，劍橋分析公司採用“心理學微目標”策略用煽動性的信息轟炸他們以改變他們的選票。它是數據挖掘的典型但有害的應用。數據挖掘發現他們是誰，他們做了什麼，並作為回報，幫助實現目標。這聽起來像魔術，但很複雜。

數據挖掘有四個關鍵應用。第一個是分類。就像單詞暗示的那樣，數據挖掘用於將事物或人員分成不同的類別以供進一步分析。例如，銀行通過應用程序建立分類模型。他們收集了數以百萬計的申請以及每個人的銀行對賬單，職稱，婚姻狀況，學校文憑等，然後使用算法來計算和決定哪個應用程序比其他應用程序更具風險。也就是說，在您填寫申請表時，他們已經知道您所屬的類別，以及適用於您的貸款。

回歸：

回歸用於根據數據集中的數值預測趨勢。它是變量之間關係的統計分析。例如，您可以根據歷史記錄預測特定區域內犯罪發生的可能性。

聚類：

群集是基於相似的特徵或值對數據點進行分組。例如，亞馬遜將類似產品組合在一起，根據每個項目的描述，標籤，功能為客戶識別更容易。

異常檢測：

它是檢測異常行為的過程，也稱為異常值。銀行使用此方法來檢測不適合您的正常交易活動的異常交易。

協會學習：

關聯學習回答了“一個特徵的價值與另一個特徵的價值如何相關？”的問題。例如，在雜貨店，購買汽水的人更有可能一起購買Pringles。市場購物籃分析是關聯規則的流行應用。它可以幫助零售商識別消費產品的關係。

這四個應用程序構建了數據挖掘的支柱。可以說，數據挖掘是大數據的核心。數據挖掘過程也被認為是來自數據的知識發現（KDD）。它闡明了數據科學的概念，有助於研究和研究知識。數據可以是結構化的或非結構化的，並且分散在因特網上。真正的力量是每個部分被分組，在不同類別之間分開，因此我們可以繪製模式，預測趨勢並檢測異常。

資源：Data Harvesting & Data Mining: What's the Difference