數據挖掘是從巨大的數據集中提取有效信息,並將信息轉換為潛在有用且最終可理解的模式以供進一步使用。它不僅包括數據處理和管理,還涉及機器學習,統計和數據庫系統的智能方法,正如維基百科所定義的那樣。
數據挖掘也是數據科學領域最重要的技術,從2016年到2018年,數據科學在美國50家最佳職位中排名第二。此外,與2016年1700個職位空缺相比,上市職位空缺數量在兩年內顯著增加了160%。可以預見,對數據科學家或具有技能或數據分析的人的需求將在未來幾年內持續增長。
為了幫助我們的觀眾掌握數據科學技術,我們之前發布了《80本值得閱讀的最佳數據科學書籍》和《88份成為數據科學家的資源和工具》。因此,在本文中,我將重點介紹數據挖掘領域,並總結您需要的10項基本技能。
計算機科學技能
**1.編程/統計語言:**R,Python,C ++,Java,Matlab,SQL,SAS,shell / awk / sed ......
數據挖掘在很大程度上依賴於編程,但對於哪種是數據挖掘的最佳語言這一問題尚無定論。這一切都取決於您處理的數據集。 Peter Gleeson提出了四種光譜供您參考,以選擇哪種編程語言:特異性,通用性,生產率和性能,可以視為一對軸(特異性 - 通用性,性能 - 生產率)。大多數語言可以在地圖上的某個地方。根據KD Nuggets的研究,R和Python是最流行的數據科學編程語言。
更多資源:
您應該從哪些語言學習數據科學[Freecode Camp]
R中的數據挖掘算法[Wikibooks]
用於數據挖掘的最佳Python模塊[KD Nuggets]
**2.大數據處理框架:**Hadoop,Storm,Samza,Spark,Flink
處理框架計算系統中的數據,例如從非易失性存儲讀取數據並將數據提取到數據系統中,這是從大量單個數據點提取信息和洞察的過程。它可以分為3個分類:僅批量,僅流和混合。
到目前為止,Hadoop和Spark是實現最多的框架,因為Hadoop對於時間敏感的批處理工作負載來說是一個很好的選擇,實現起來比其他工作成本低;而Spark是混合工作負載的理想選擇,可為流提供更高速的批處理和微批處理。
更多資源:
Hadoop,Storm,Samza,Spark和Flink:大數據框架比較[數字海洋]
數據挖掘數據處理框架[Google學術搜索]
**3.操作系統:**Linux
Linux是一種流行的數據挖掘科學家操作系統,它可以更加穩定和高效地運行大型數據集。如果你了解Linux的常用命令,並且能夠在Linux上部署Spark分佈式機器學習系統,這是一個加分。
**4.數據庫知識:**關係數據庫和非關係數據庫
要管理和處理大型數據集,您必須了解關係數據庫,如SQL或Oracle,或非關係數據庫,其主要類型為:Column:Cassandra,HBase;文檔:MongoDB,CouchDB;關鍵價值:Redis,Dynamo。
統計與算法技巧
**5.基本統計知識:**概率,概率分佈,相關,回歸,線性代數,隨機過程......
相關,回歸,線性代數,隨機過程......
回顧一下數據挖掘的定義,我們知道數據挖掘不僅僅是編碼或計算機科學,而是位於多個領域之間的接口,其中統計是不可或缺的部分。統計學的基本知識對數據挖掘者至關重要,它可以幫助您識別問題,獲得更準確的結論,區分因果關係和相關性,並量化您的發現的確定性。
更多資源:
我應該知道做什麼統計數據科學[Quora]
6.數據結構和算法
數據結構包括數組,鍊錶,堆棧,隊列,樹,哈希表,集合等等,常見算法包括排序,搜索,動態編程,遞歸......等
精通數據結構和算法對數據挖掘非常有用,它可以幫助您在處理大量數據時提出更具創造性和效率的算法解決方案。
更多資源:
數據,結構和數據科學管道[IBM Developer]
Cousera:數據結構和算法[加利福尼亞大學聖地亞哥]
7.機器學習/深度學習算法
這是數據挖掘中最重要的部分之一。機器學習算法構建樣本數據的數學模型以進行預測或決策,而無需明確編程以執行任務。深度學習是更廣泛的機器學習方法系列的一部分。機器學習和數據挖掘通常採用相同的方法並且顯著重疊。
更多資源:
Python和R代碼的機器學習算法要點[Analytics Vidhya]
精彩機器學習框架,庫和軟件的精選列表(按語言)[Github josephmisiti]
8.自然語言處理
自然語言處理(NLP)作為計算機科學和人工智能的子領域,幫助計算機理解,解釋和操縱人類語言。 NLP廣泛用於分詞,語法和語義分析,自動摘要和文本蘊涵。對於需要處理大量文本的數據挖掘者來說,了解NLP算法是必不可少的技能。
更多資源:
數據科學家的10個NLP任務[Analytics Vidhya]
精彩機器學習框架,庫和軟件的精選列表(按語言)[Github josephmisiti]
開源NLP庫:Standford NLP; Apache OpenNLP; Naturel語言工具包
其他
9.項目經驗
您的項目經驗是您數據挖掘技能的最省級證明。當被問及如何獲得數據科學的第一份工作時,DataCamp的首席數據科學家David Robinson說:“對我來說最有效的策略是做公共工作。我在博客上做了很多開源開發並在我的後期開展了很多工作。博士,這些有助於公開證明我的數據科學技能。“如果您希望獲得更多數據挖掘經驗,請嘗試在12個最受歡迎的數據科學計劃平台中找到最佳項目。
10.溝通和演講技巧
數據挖掘者不僅處理數據,還負責向其他人解釋從數據中獲得的結果和見解,甚至是非技術受眾,例如營銷團隊。您應該能夠很好地解釋數據結果,講述故事,口頭,書面和演示方式。
資源來源:https://www.octoparse.com/blog/10-must-have-skills-for-data-mining