作者Toby Segaran也是《BeautifulData : The Stories Behind Elegant Data Solutions》(《資料之美:解密優雅資料解決方案背後的故事》)的作者。這本書最大的優勢就是裡面沒有理論推導和複雜的數學公式,是很不錯的入門書。
作者吳軍大家都很熟悉。以極為通俗的語言講述了數學在機器學習和自然語言處理等領域的應用。
作者李航,是國內機器學習領域的幾個大家之一,曾在MSRA任高階研究員,現在華為諾亞方舟實驗室。書中寫了十個演算法,每個演算法的介紹都很乾脆,直接上公式,是徹頭徹尾的“乾貨書”。
周志華老師的這本書非常適合作為機器學習入門的書籍,書中的例子十分形象且簡單易懂。
這是一本斯坦福統計學著名教授Trevor Hastie和Robert Tibshirani的新書,並且在2014年一月已經開課:Statistical Learning
也是一本斯坦福統計學著名教授Trevor Hastie和Robert Tibshirani的書,但是從比較高深的視角講解機器學習。
本書從貝葉斯學派的角度,講解機器學習。相信可以從這本書中得到很多很好的見解。
一本比較精簡的機器學習資料,介紹了很多全面並且基礎的機器學習理論。
SVM等統計學的諸多工具裡都用到了核方法,可以將將低維非線性空間對映到高維的線性空間中,但同時會引入高維資料的難題。
本書就是一本大雜燴。 這本書涉及的內容很廣,概率圖模型、GLM、Nonparametric Method,甚至最近比較火的Deep Learning也包括了。
作者Tom Mitchell是CMU的大師,有機器學習和半監督學習的網路課程視訊。這本書是領域內翻譯的較好的書籍,講述的演算法也比《統計學習方法》的範圍要大很多。據評論這本書主要在於啟發,講述公式為什麼成立而不是推導;不足的地方在於出版年限較早,時效性不如PRML
作者Ian H. Witten 、Eibe Frank是weka的作者、紐西蘭懷卡託大學教授。這本書最大的特點是對weka的使用進行了介紹,作為入門書籍還可,但是,經典的入門書籍如《集體智慧程式設計》、《智慧web演算法》已經很經典,學習的話不宜讀太多的入門書籍,建議只看一些上述兩本書沒講到的演算法。
這是一篇介紹機器學習歷史的文章,介紹很全面,從感知機、神經網路、決策樹、SVM、Adaboost到隨機森林、Deep Learning.
這是瑞士人工智慧實驗室Jurgen Schmidhuber寫的最新版本《神經網路與深度學習綜述》本綜述的特點是以時間排序,從1940年開始講起,到60-80年代,80-90年代,一直講到2000年後及最近幾年的進展。涵蓋了deep learning裡各種tricks,引用非常全面.
這是一份python機器學習庫,如果您是一位python工程師而且想深入的學習機器學習.那麼這篇文章或許能夠幫助到你.
如果你還不知道什麼是機器學習,或則是剛剛學習感覺到很枯燥乏味。那麼推薦一讀。這篇文章已經被翻譯成中文,如果有興趣可以移步 有趣的機器學習:最簡明入門指南 - 文章 - 伯樂線上
我該如何選擇機器學習演算法,這篇文章比較直觀的比較了Naive Bayes,Logistic Regression,SVM,決策樹等方法的優劣,另外討論了樣本大小、Feature與Model權衡等問題。此外還有已經翻譯了的版本:如何選擇機器學習演算法 - 我愛機器學習
深度學習概述:從感知機到深度網路,作者對於例子的選擇、理論的介紹都很到位,由淺入深。翻譯版本:深度學習概述:從感知機到深度網路 - xiaowanyer - 部落格園
這本書是由谷歌公司和MIT共同出品的電腦科學中的數學:Mathematics for Computer Science,Eric Lehman et al 2013 。分為5大部分:1)證明,歸納。2)結構,數論,圖。3)計數,求和,生成函式。4)概率,隨機行走。5)遞迴
Deniz Yuret用10張漂亮的圖來解釋機器學習重要概念:1. Bias/Variance Tradeoff 2. Overfitting 3. Bayesian / Occam’s razor 4. Feature combination 5. Irrelevant feature 6. Basis function 7. Discriminative / Generative 8. Loss function 9. Least squares 10. Sparsity.
機器學習最佳入門學習資料彙總是專為機器學習初學者推薦的優質學習資源,幫助初學者快速入門。而且這篇文章的介紹已經被翻譯成中文版。如果你不怎麼熟悉,那麼我建議你先看一看中文的介紹
神經網路的免費線上書, 還有對應的開原始碼:mnielsen/neural-networks-and-deep-learning
機器學習最基本的入門文章,適合零基礎者
作者Richard O. Duda[5]、Peter E. Hart、David。模式識別的奠基之作。
作者Christopher M. Bishop[6];簡稱PRML,側重於概率模型,是貝葉斯方法的扛鼎之作,據評“具有強烈的工程氣息,可以配合stanford 大學 Andrew Ng 教授的 Machine Learning 視訊教程一起來學,效果翻倍。”
作者RobertTibshirani、Trevor Hastie、Jerome Friedman。“這本書的作者是Boosting方法最活躍的幾個研究人員,發明的Gradient Boosting提出了理解Boosting方法的新角度,極大擴充套件了Boosting方法的應用範圍。
Peter Norvig,無爭議的領域經典。
自然語言處理領域公認經典。
7800次引用,在學術界具有極高價值,稍微有點難,書中某些細節介紹地很簡單。
語言概率規劃的電子書。
介紹無監督功能學習和深度學習的主要思想。本課程理論與實踐相結合,著重介紹實踐中遇到的問題以及如何解決。
由加州理工學院(Caltech)出品。需要英語底子。
很全的機器學習課程,老師邏輯很清晰。
哥倫比亞大學的機器學習課程,理論與實際結合相信可以得到很多的體會。
Andrew Ng的機器學習課程,應該是很多人入門機器學習時候看的。
coursera上機器學習的精品課程,課程講了迴歸問題,分類問題,以及聚類相關問題。只要順利完成課程相信可以得到進步。
牛津大學機器學習講義,並且將知識拓展到深度學習,講義上都有老師的標註等,讓讀者更好的理解。但是上面程式碼示例都是用的torch,所以要有Lua基礎才行。
加州理工學院Yaser S. Abu-Mostafa教授的機器學習課程, 課程有視訊,對應的講義,課後習題以及課後習題對應的答案。
網站中的機器學習目錄:這是個很容易令人眼花繚亂的資源庫。你可以找出比較感興趣的資源,並且深入學習。不要糾結於不適合你的視訊,或者對於感興趣的內容你可以做筆記。我自己會一直重複深入學習一些問題,同時發現新的話題進行學習。此外,在這個網站上你可以發現是這個領域的大師是什麼樣的。 上面都是機器學習方面造詣很高的大師級人物的課程,相信在課程中邊學邊做,一定可以提高我們對於機器學習的認識。
臺灣大學林軒田老師講解的機器學習,比較好的一點用的是中文。但講的比較難。
臺灣大學林軒田老師講解的機器學習進階視屏,也是中文課程。
python + 機器學習 + 量化投資 一站式學習實踐交易平臺,開啟瀏覽器就可以使用投資資料和機器學習演算法。
Spark下的分散式機器學習庫。
包含多種機器學習模組的庫(迴歸、聚類、推薦系統、圖分析等),基於可以磁碟儲存的DataFrame。官網
連線外部伺服器的庫。
Python的web挖掘模組。
Numenta公司的智慧計算平臺。
基於Theano的機器學習庫。
Python編寫的使用GPU加速的深度學習庫。
主題建模工具。
另一個機器學習庫。
可擴充套件的、快速推薦引擎。
Python實現的推薦系統。
關於貝葉斯分析的書籍。
Python實現的受限波爾茲曼機。
線上學習工具箱。
cover tree的Python實現,scipy.spatial.kdtree便捷的替代。
Python實現的神經影像學機器學習庫。
機器學習工具箱。
遺傳演算法框架。
考慮了程式碼清潔、可讀性及速度的深度學習框架。
深度及遞迴神經網路的程式庫,基於Theano。
該系統旨在促進對機器學習的研究,同時也讓機器學習研究原型過渡到生產系統更加高效容易。
一個基於 Python 並且獨立的深度學習模型開源框架。
使用機器學習直接開發量化策略的雲端平臺。
基於Python的數學、科學、工程開源軟體生態系統。
Python科學計算基礎包。
Python的低階虛擬機器JIT編譯器,Cython and NumPy的開發者編寫,供科學計算使用。
為複雜網路使用的高效軟體。
這個庫提供了高效能、易用的資料結構及資料分析工具。
Python中的商業智慧工具(Pandas web介面)。
MCMC取樣工具包。
Python的演算法交易庫。
全名Python Dynamics,協助基於NumPy、SciPy、IPython以及 matplotlib的動態建模工作流。
符號數學Python庫。
Python的統計建模及計量經濟學庫。
Python天文學程式庫,社群協作編寫。
Python的2D繪相簿。
Python的互動式Web繪相簿。
Python and matplotlib的協作web繪相簿。
將Python資料結構轉換為Vega視覺化語法。
Python的繪相簿,基於D3.js。
和R語言裡的ggplot2提供同樣的API。
Python中渲染SVG圖的庫,效果漂亮。
Python下的SVG圖表生成器。
介紹了機器學習中12個重要問題和研究人員在機器學習中可能遇到的一些陷進。
本文介紹了IEEE識別的十大資料探勘演算法。2006年12月國際資料探勘會議(ICDM):C4.5,k-Means,SVM,Apriori,EM,PageRank,AdaBoost,kNN,樸素貝葉斯和CART。 這十大演算法是研究界最有影響力的資料探勘演算法之一。
這篇文獻主要介紹了半監督學習的相關理論和運用。
這篇文獻主要介紹在資料探勘過程中的一些常用的有趣的資料處理方法,非常實用。
這篇文獻主要介紹了AdaBoost演算法理論知識和運用。
這篇文章介紹了主動學習,有一定的難度。
這篇文章詳細介紹了監督式機器學習在分類技術中的運用。
這篇文章簡要概述了聚類,總結了眾所周知的聚類方法,並聚類演算法和關鍵問題、面臨挑戰、聚類研究方向進行了詳細地討論,可以看做是聚類演算法的文獻綜述。
Bengio, 2012 是介紹表徵學習的一篇好文。
這篇文章介紹了關於變數選擇和特徵選擇的相關研究,已經涉及到特徵工程的內容。
這篇文章寫道數十年來資料收集和儲存能力的進步導致大多數科學領域的資訊超載。 研究人員在域名工作如工程,天文學,生物學,遙感,經濟學等 消費者交易,能夠收集到越來越多的觀測,傳統的資料分析方法面臨不少挑戰,因此引出了資料降維技術的討論。
本文討論了不同研究領域的綜合迴歸方法。
增強學習的一篇經典論文。
本文從電腦科學角度對增強學習進行了研究,是一篇有一定歷史的文章。它是為熟悉機器學習的研究人員提供的,有一定難度,但是確實經典。
這篇文章深入介紹了針對時間序列資料 進行資料探勘的相關技術。
許多機器學習和資料探勘演算法的一個主要假設是訓練集和測試集資料必須在相同的特徵空間並具有相同的分佈。然而,在許多現實世界的應用中,這種假設可能不成立。因此這正是遷移學習適用的情形,本文詳細介紹了遷移學習的理論和具體運用。
介紹了個人推薦系統的最新研究成果。
本文迴歸了強化學習並重點回顧了在自動規劃具體問題中使用到的機器學習方法。
本章特別討論了進化演算法在資料探勘和知識發現中(重點是分類任務)的使用,尤其是介紹了遺傳演算法和遺傳規劃。
這是一本介紹關聯規則、分類演算法的資料探勘書籍,適合資料探勘的人員閱讀,這個書尤其介紹了以亞馬遜”啤酒與尿布”的例子,並指出資料探勘在商品銷售、產品推薦中的重大價值。
Boyd的經典書籍,被引用次數超過14000次,面向實際應用,並且有配套程式碼,是一本不可多得的好書。
Roger Horn。矩陣分析領域無爭議的經典
機器學習這個方向,統計學也一樣非常重要。推薦All of statistics,這是CMU的一本很簡潔的教科書,注重概念,簡化計算,簡化與Machine Learning無關的概念和統計內容,可以說是很好的快速入門材料。
最優化方法,非線性規劃的參考書,這裡的連結給出的是一本中文翻譯版本,學習起來不是那麼吃力。
第二版,Nocedal著,非常適合非數值專業的學生和工程師參考,演算法流程清晰詳細,原理清楚。
第六版,Hogg著本書介紹了概率統計的基本概念以及各種分佈,以及ML,Bayesian方法等內容。
作者Gilbert Strang. 這本書是MIT的線性代數課使用的教材,也是被很多其它大學選用的經典教材。它的難度適中,講解清晰,重要的是對許多核心的概念討論得比較透徹。