iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 30
2
Google Developers Machine Learning

30天鍊成機器學習系列 第 30

機器學習資源

書籍

《Programming Collective Intelligence》(《集體智慧程式設計》)

作者Toby Segaran也是《BeautifulData : The Stories Behind Elegant Data Solutions》(《資料之美:解密優雅資料解決方案背後的故事》)的作者。這本書最大的優勢就是裡面沒有理論推導和複雜的數學公式,是很不錯的入門書。

《數學之美》

作者吳軍大家都很熟悉。以極為通俗的語言講述了數學在機器學習和自然語言處理等領域的應用。

《統計學習方法》

作者李航,是國內機器學習領域的幾個大家之一,曾在MSRA任高階研究員,現在華為諾亞方舟實驗室。書中寫了十個演算法,每個演算法的介紹都很乾脆,直接上公式,是徹頭徹尾的“乾貨書”。

《機器學習》介紹

周志華老師的這本書非常適合作為機器學習入門的書籍,書中的例子十分形象且簡單易懂。

《An Introduction to Statistical Learning with Applications in R》

這是一本斯坦福統計學著名教授Trevor Hastie和Robert Tibshirani的新書,並且在2014年一月已經開課:Statistical Learning

《The Elements of Statistical Learning: Data Mining, Inference, and Prediction》

也是一本斯坦福統計學著名教授Trevor Hastie和Robert Tibshirani的書,但是從比較高深的視角講解機器學習。

《Pattern Recognition and Machine Learning》

本書從貝葉斯學派的角度,講解機器學習。相信可以從這本書中得到很多很好的見解。

《Introduction to Machine Learning》

一本比較精簡的機器學習資料,介紹了很多全面並且基礎的機器學習理論。

《Kernel Methods for Pattern Analysis》

SVM等統計學的諸多工具裡都用到了核方法,可以將將低維非線性空間對映到高維的線性空間中,但同時會引入高維資料的難題。

《Machine Learning A Probabilistic Perspective》

本書就是一本大雜燴。 這本書涉及的內容很廣,概率圖模型、GLM、Nonparametric Method,甚至最近比較火的Deep Learning也包括了。

《Machine Learning》

作者Tom Mitchell是CMU的大師,有機器學習和半監督學習的網路課程視訊。這本書是領域內翻譯的較好的書籍,講述的演算法也比《統計學習方法》的範圍要大很多。據評論這本書主要在於啟發,講述公式為什麼成立而不是推導;不足的地方在於出版年限較早,時效性不如PRML

《Data Mining: Practical Machine Learning Tools and Techniques》(《資料探勘:實用機器學習技術》)

作者Ian H. Witten 、Eibe Frank是weka的作者、紐西蘭懷卡託大學教授。這本書最大的特點是對weka的使用進行了介紹,作為入門書籍還可,但是,經典的入門書籍如《集體智慧程式設計》、《智慧web演算法》已經很經典,學習的話不宜讀太多的入門書籍,建議只看一些上述兩本書沒講到的演算法。

《Brief History of Machine Learning》

這是一篇介紹機器學習歷史的文章,介紹很全面,從感知機、神經網路、決策樹、SVM、Adaboost到隨機森林、Deep Learning.

《Deep Learning in Neural Networks: An Overview》

這是瑞士人工智慧實驗室Jurgen Schmidhuber寫的最新版本《神經網路與深度學習綜述》本綜述的特點是以時間排序,從1940年開始講起,到60-80年代,80-90年代,一直講到2000年後及最近幾年的進展。涵蓋了deep learning裡各種tricks,引用非常全面.

《A Gentle Introduction to Scikit-Learn》

這是一份python機器學習庫,如果您是一位python工程師而且想深入的學習機器學習.那麼這篇文章或許能夠幫助到你.

《Machine Learning is Fun!》

如果你還不知道什麼是機器學習,或則是剛剛學習感覺到很枯燥乏味。那麼推薦一讀。這篇文章已經被翻譯成中文,如果有興趣可以移步 有趣的機器學習:最簡明入門指南 - 文章 - 伯樂線上

Choosing a Machine Learning Classifier

我該如何選擇機器學習演算法,這篇文章比較直觀的比較了Naive Bayes,Logistic Regression,SVM,決策樹等方法的優劣,另外討論了樣本大小、Feature與Model權衡等問題。此外還有已經翻譯了的版本:如何選擇機器學習演算法 - 我愛機器學習

《A Deep Learning Tutorial: From Perceptrons to Deep Networks》

深度學習概述:從感知機到深度網路,作者對於例子的選擇、理論的介紹都很到位,由淺入深。翻譯版本:深度學習概述:從感知機到深度網路 - xiaowanyer - 部落格園

《電腦科學中的數學》

這本書是由谷歌公司和MIT共同出品的電腦科學中的數學:Mathematics for Computer Science,Eric Lehman et al 2013 。分為5大部分:1)證明,歸納。2)結構,數論,圖。3)計數,求和,生成函式。4)概率,隨機行走。5)遞迴

《Machine learning in 10 pictures》

Deniz Yuret用10張漂亮的圖來解釋機器學習重要概念:1. Bias/Variance Tradeoff 2. Overfitting 3. Bayesian / Occam’s razor 4. Feature combination 5. Irrelevant feature 6. Basis function 7. Discriminative / Generative 8. Loss function 9. Least squares 10. Sparsity.

Best Machine Learning Resources for Getting Started

機器學習最佳入門學習資料彙總是專為機器學習初學者推薦的優質學習資源,幫助初學者快速入門。而且這篇文章的介紹已經被翻譯成中文版。如果你不怎麼熟悉,那麼我建議你先看一看中文的介紹

《Neural networks and deep learning》

神經網路的免費線上書, 還有對應的開原始碼:mnielsen/neural-networks-and-deep-learning

《Machine Learning Theory: An Introductory Primer》

機器學習最基本的入門文章,適合零基礎者

《Pattern Classification》(《模式分類》第二版)

作者Richard O. Duda[5]、Peter E. Hart、David。模式識別的奠基之作。

《Pattern Recognition And Machine Learning》

作者Christopher M. Bishop[6];簡稱PRML,側重於概率模型,是貝葉斯方法的扛鼎之作,據評“具有強烈的工程氣息,可以配合stanford 大學 Andrew Ng 教授的 Machine Learning 視訊教程一起來學,效果翻倍。”

《The Elements of Statistical Learning : Data Mining, Inference, and Prediction》

作者RobertTibshirani、Trevor Hastie、Jerome Friedman。“這本書的作者是Boosting方法最活躍的幾個研究人員,發明的Gradient Boosting提出了理解Boosting方法的新角度,極大擴充套件了Boosting方法的應用範圍。

《AI, Modern Approach 2nd》

Peter Norvig,無爭議的領域經典。

《Foundations of Statistical Natural Language Processing》

自然語言處理領域公認經典。

《Information Theory:Inference and Learning Algorithms》

7800次引用,在學術界具有極高價值,稍微有點難,書中某些細節介紹地很簡單。

《Bayesian Methods for Hackers:Python》

語言概率規劃的電子書。

course

斯坦福深度學習課程

介紹無監督功能學習和深度學習的主要思想。本課程理論與實踐相結合,著重介紹實踐中遇到的問題以及如何解決。

機器學習視訊庫

由加州理工學院(Caltech)出品。需要英語底子。

Artificial Intelligence (Columbia University))

很全的機器學習課程,老師邏輯很清晰。

Machine Learning (Columbia University)

哥倫比亞大學的機器學習課程,理論與實際結合相信可以得到很多的體會。

Machine Learning (Stanford University)

Andrew Ng的機器學習課程,應該是很多人入門機器學習時候看的。

Machine Learning Specialization (University of Washington)

coursera上機器學習的精品課程,課程講了迴歸問題,分類問題,以及聚類相關問題。只要順利完成課程相信可以得到進步。

Machine Learning Course (2014-15 session) (by Nando de Freitas, University of Oxford)

牛津大學機器學習講義,並且將知識拓展到深度學習,講義上都有老師的標註等,讓讀者更好的理解。但是上面程式碼示例都是用的torch,所以要有Lua基礎才行。

Learning from Data (by Yaser S. Abu-Mostafa, Caltech))

加州理工學院Yaser S. Abu-Mostafa教授的機器學習課程, 課程有視訊,對應的講義,課後習題以及課後習題對應的答案。

Machine Learning Category on VideoLectures.Net

網站中的機器學習目錄:這是個很容易令人眼花繚亂的資源庫。你可以找出比較感興趣的資源,並且深入學習。不要糾結於不適合你的視訊,或者對於感興趣的內容你可以做筆記。我自己會一直重複深入學習一些問題,同時發現新的話題進行學習。此外,在這個網站上你可以發現是這個領域的大師是什麼樣的。 上面都是機器學習方面造詣很高的大師級人物的課程,相信在課程中邊學邊做,一定可以提高我們對於機器學習的認識。

機器學習基石

臺灣大學林軒田老師講解的機器學習,比較好的一點用的是中文。但講的比較難。

機器學習技巧

臺灣大學林軒田老師講解的機器學習進階視屏,也是中文課程。

python庫

BigQuant -人工智慧量化投資平臺

python + 機器學習 + 量化投資 一站式學習實踐交易平臺,開啟瀏覽器就可以使用投資資料和機器學習演算法。

MLlib in Apache Spark

Spark下的分散式機器學習庫。

scikit-learn:基於SciPy的機器學習模組。

graphlab-create

包含多種機器學習模組的庫(迴歸、聚類、推薦系統、圖分析等),基於可以磁碟儲存的DataFrame。官網

BigML

連線外部伺服器的庫。

pattern

Python的web挖掘模組。

NuPIC

Numenta公司的智慧計算平臺。

Pylearn2

基於Theano的機器學習庫。

hebel

Python編寫的使用GPU加速的深度學習庫。

gensim

主題建模工具。

PyBrain

另一個機器學習庫。

Crab

可擴充套件的、快速推薦引擎。

python-recsys

Python實現的推薦系統。

thinking bayes

關於貝葉斯分析的書籍。

Restricted Boltzmann Machines

Python實現的受限波爾茲曼機。

Bolt

線上學習工具箱。

CoverTree

cover tree的Python實現,scipy.spatial.kdtree便捷的替代。

nilearn

Python實現的神經影像學機器學習庫。

Shogun

機器學習工具箱。

Pyevolve

遺傳演算法框架。

Caffe

考慮了程式碼清潔、可讀性及速度的深度學習框架。

breze

深度及遞迴神經網路的程式庫,基於Theano。

TensorFlow

該系統旨在促進對機器學習的研究,同時也讓機器學習研究原型過渡到生產系統更加高效容易。

Chainer

一個基於 Python 並且獨立的深度學習模型開源框架。

資料分析

BigQuant

使用機器學習直接開發量化策略的雲端平臺。

SciPy

基於Python的數學、科學、工程開源軟體生態系統。

NumPy

Python科學計算基礎包。

Numba

Python的低階虛擬機器JIT編譯器,Cython and NumPy的開發者編寫,供科學計算使用。

NetworkX

為複雜網路使用的高效軟體。

Pandas

這個庫提供了高效能、易用的資料結構及資料分析工具。

Open Mining

Python中的商業智慧工具(Pandas web介面)。

PyMC

MCMC取樣工具包。

zipline

Python的演算法交易庫。

PyDy

全名Python Dynamics,協助基於NumPy、SciPy、IPython以及 matplotlib的動態建模工作流。

SymPy

符號數學Python庫。

statsmodels

Python的統計建模及計量經濟學庫。

astropy

Python天文學程式庫,社群協作編寫。

matplotlib

Python的2D繪相簿。

bokeh

Python的互動式Web繪相簿。

plotly

Python and matplotlib的協作web繪相簿。

vincent

將Python資料結構轉換為Vega視覺化語法。

d3py

Python的繪相簿,基於D3.js。

ggplot

和R語言裡的ggplot2提供同樣的API。

Kartograph.py

Python中渲染SVG圖的庫,效果漂亮。

pygal

Python下的SVG圖表生成器。

pycascading

paper & survey

A Few Useful Things to Know about Machine Learning Domingos, 2012

介紹了機器學習中12個重要問題和研究人員在機器學習中可能遇到的一些陷進。

Top 10 Algorithms in Data Mining Wu, 2008

本文介紹了IEEE識別的十大資料探勘演算法。2006年12月國際資料探勘會議(ICDM):C4.5,k-Means,SVM,Apriori,EM,PageRank,AdaBoost,kNN,樸素貝葉斯和CART。 這十大演算法是研究界最有影響力的資料探勘演算法之一。

Semi-Supervised Learning Literature Survey Zhu, 2007

這篇文獻主要介紹了半監督學習的相關理論和運用。

Interestingness Measures for Data Mining: A Survey Geng, 2006

這篇文獻主要介紹在資料探勘過程中的一些常用的有趣的資料處理方法,非常實用。

The Boosting Approach to Machine Learning: An Overview Schapire, 2003

這篇文獻主要介紹了AdaBoost演算法理論知識和運用。

Two Faces of Active Learning Dasgupta, 2011

這篇文章介紹了主動學習,有一定的難度。

Supervised Machine Learning: A Review of Classification Techniques Kotsiantis, 2007

這篇文章詳細介紹了監督式機器學習在分類技術中的運用。

Data Clustering: 50 Years Beyond K-Means Jain, 2010

這篇文章簡要概述了聚類,總結了眾所周知的聚類方法,並聚類演算法和關鍵問題、面臨挑戰、聚類研究方向進行了詳細地討論,可以看做是聚類演算法的文獻綜述。

Representation Learning: A Review and New Perspectives

Bengio, 2012 是介紹表徵學習的一篇好文。

An Introduction to Variable and Feature Selection Guyon, 2003

這篇文章介紹了關於變數選擇和特徵選擇的相關研究,已經涉及到特徵工程的內容。

A Survey of Dimension Reduction Techniques Fodor, 2002

這篇文章寫道數十年來資料收集和儲存能力的進步導致大多數科學領域的資訊超載。 研究人員在域名工作如工程,天文學,生物學,遙感,經濟學等 消費者交易,能夠收集到越來越多的觀測,傳統的資料分析方法面臨不少挑戰,因此引出了資料降維技術的討論。

Ensemble Approaches for Regression: a Survey Moreira, 2012

本文討論了不同研究領域的綜合迴歸方法。

Survey of Reinforcement Learning in Relational Domains Otterlo, 2005

增強學習的一篇經典論文。

Reinforcement Learning: A Survey Kaelbling, 1996

本文從電腦科學角度對增強學習進行了研究,是一篇有一定歷史的文章。它是為熟悉機器學習的研究人員提供的,有一定難度,但是確實經典。

Time-Series Data Mining Esling, 2012

這篇文章深入介紹了針對時間序列資料 進行資料探勘的相關技術。

A Survey on Transfer Learning Pan, 2010

許多機器學習和資料探勘演算法的一個主要假設是訓練集和測試集資料必須在相同的特徵空間並具有相同的分佈。然而,在許多現實世界的應用中,這種假設可能不成立。因此這正是遷移學習適用的情形,本文詳細介紹了遷移學習的理論和具體運用。

Recent advances in Personalized Recommender Systems Liu, 2009

介紹了個人推薦系統的最新研究成果。

A Review of Machine Learning for Automated Planning Jimenez, 2009

本文迴歸了強化學習並重點回顧了在自動規劃具體問題中使用到的機器學習方法。

A Survey of Evolutionary Algorithms for Data Mining and Knowledge Discovery Freitas, 2003

本章特別討論了進化演算法在資料探勘和知識發現中(重點是分類任務)的使用,尤其是介紹了遺傳演算法和遺傳規劃。

Survey on Frequent Pattern Mining Goethals, 2003

這是一本介紹關聯規則、分類演算法的資料探勘書籍,適合資料探勘的人員閱讀,這個書尤其介紹了以亞馬遜”啤酒與尿布”的例子,並指出資料探勘在商品銷售、產品推薦中的重大價值。

數學知識

《Convex Optimization》

Boyd的經典書籍,被引用次數超過14000次,面向實際應用,並且有配套程式碼,是一本不可多得的好書。

《矩陣分析》

Roger Horn。矩陣分析領域無爭議的經典

《All Of Statistics》

機器學習這個方向,統計學也一樣非常重要。推薦All of statistics,這是CMU的一本很簡潔的教科書,注重概念,簡化計算,簡化與Machine Learning無關的概念和統計內容,可以說是很好的快速入門材料。

《Nonlinear Programming, 2nd》

最優化方法,非線性規劃的參考書,這裡的連結給出的是一本中文翻譯版本,學習起來不是那麼吃力。

《Numerical Optimization》

第二版,Nocedal著,非常適合非數值專業的學生和工程師參考,演算法流程清晰詳細,原理清楚。

《Introduction to Mathematical Statistics》

第六版,Hogg著本書介紹了概率統計的基本概念以及各種分佈,以及ML,Bayesian方法等內容。

《Introduction to Linear Algebra》 (3rd Ed.)

作者Gilbert Strang. 這本書是MIT的線性代數課使用的教材,也是被很多其它大學選用的經典教材。它的難度適中,講解清晰,重要的是對許多核心的概念討論得比較透徹。


上一篇
轉換腳本到Tensorflow2.0
系列文
30天鍊成機器學習30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

1 則留言

我要留言

立即登入留言