0
雷鋒網(wǎng)按:Matthew Mayo 是知名數(shù)據(jù)科學(xué)網(wǎng)站 KDnuggets 的副主編,同時也是一位資深的數(shù)據(jù)科學(xué)家、深度學(xué)習(xí)技術(shù)愛好者,在機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)領(lǐng)域具有豐富的科研和從業(yè)經(jīng)驗(yàn)。近日,他在 KDnuggets 上推薦了一份機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)相關(guān)的免費(fèi)必讀書單,雷鋒網(wǎng)特來與大家分享。
需要提前說明的是,這份書單大致以由淺入深的順序排列:首先是關(guān)于數(shù)據(jù)統(tǒng)計,接著是機(jī)器學(xué)習(xí),最后是一些綜合性的更宏觀的書籍。所有書籍均為英文原著,有中文譯本的我們也都給出了相關(guān)鏈接。
以下是書籍清單和簡單介紹:
Think Stats: Probability and Statistics for Programmers
作者:Allen B. Downey
本書中文名為:《統(tǒng)計思維:程序員數(shù)學(xué)之概率統(tǒng)計》。從書名就能看出來,這本書是為程序員群體量身定制的統(tǒng)計學(xué)內(nèi)容介紹,具體內(nèi)容基于 Python 語言。
本書著重介紹了許多可以用來探索真實(shí)數(shù)據(jù)集的簡單技術(shù),同時還能利用這些技術(shù)回答許多非常有趣的統(tǒng)計問題。該書的樣例基于美國國家衛(wèi)生研究院的真實(shí)數(shù)據(jù)庫,并鼓勵讀者基于真實(shí)的數(shù)據(jù)進(jìn)行相關(guān)研究。
本書有中文譯本,目前英文原版也已經(jīng)上線了第二版,鏈接如下:
英文地址:http://greenteapress.com/wp/think-stats-2e/
中文地址:https://www.gitbook.com/book/jobrest/statistical-thinking/details
Probabilistic Programming & Bayesian Methods for Hackers
作者:Cam Davidson-Pilon
本書中文名為《貝葉斯方法:概率編程與貝葉斯推斷》,以計算/理解為主,數(shù)學(xué)內(nèi)容為輔,重點(diǎn)介紹了貝葉斯方法理論和概率編程。
作為推斷中最自然和常見的方法,貝葉斯推斷一般以晦澀難懂的數(shù)學(xué)分析理論為大家所熟知。按照一般的模式,在介紹貝葉斯之前,通常都要先介紹兩到三章的概率論的相關(guān)內(nèi)容。等到概率論介紹完,又常常由于貝葉斯模型的數(shù)學(xué)復(fù)雜度太高,因此只能向讀者展示一些最簡單和粗糙的貝葉斯樣例,于是給讀者造成了一種“貝葉斯似乎也沒什么用”的錯覺。本書則另辟蹊徑,以簡單通俗的講述開始,由淺入深地介紹了貝葉斯理論在黑客和概率編程中的應(yīng)用。
中文購買地址:http://dwz.cn/5Kedr9
英文地址:http://t.cn/zQZ1p2m
Understanding Machine Learning: From Theory to Algorithms
作者:Shai Shalev-Shwartz 和 Shai Ben-David
本書中文名為:《深入理解機(jī)器學(xué)習(xí):從原理到算法》,書中從原理性的內(nèi)容出發(fā),介紹了機(jī)器學(xué)習(xí)的基本理論和算法范例,同時給出了將這些基礎(chǔ)理論轉(zhuǎn)化為實(shí)際算法的數(shù)學(xué)推導(dǎo)過程。介紹完這些基礎(chǔ)理論之后,本書又介紹了許多其他相關(guān)書籍很少涉及的核心內(nèi)容,包括:模型訓(xùn)練的計算復(fù)雜度,穩(wěn)定性和凸性(convexity)的概念,隨機(jī)梯度下降、神經(jīng)網(wǎng)絡(luò)等算法范例,以及 PAC-Bayes 和 compression-based bounds 等新概念。
英文地址:http://www.cs.huji.ac.il/~shais/UnderstandingMachineLearning/
中文購買地址:http://dwz.cn/5Ke6ne
The Elements of Statistical Learning
作者:Trevor Hastie, Robert Tibshirani 和 Jerome Friedman
本書在一些通用概念框架的基礎(chǔ)上介紹了統(tǒng)計學(xué)的一些重要思想。雖然書中的許多方法都是基于統(tǒng)計學(xué)的,并提供了樣例說明和彩色配圖,但核心思想是在向讀者闡述概念和思想,而并非數(shù)學(xué)知識。除了統(tǒng)計學(xué)概念之外,書中還涉及了神經(jīng)網(wǎng)絡(luò)、監(jiān)督學(xué)習(xí)、支持向量機(jī)、分類、預(yù)測和非監(jiān)督學(xué)習(xí)等非常豐富的內(nèi)容。適合于對行業(yè)數(shù)據(jù)挖掘感興趣的統(tǒng)計人員和所有對新興科技感興趣的朋友。
中文地址:http://www.loyhome.com/elements_of_statistical_learining_lecture_notes/
英文地址:http://statweb.stanford.edu/~tibs/ElemStatLearn/
An Introduction to Statistical Learning with Applications in R
作者:Gareth James, Daniela Witten, Trevor Hastie 和 Robert Tibshirani
本書中文名為《統(tǒng)計學(xué)習(xí)導(dǎo)論:基于R應(yīng)用》,書中以 R 語言為基礎(chǔ),詳細(xì)介紹了統(tǒng)計學(xué)習(xí)的核心方法和應(yīng)用,內(nèi)容涉及線性回歸、分類、再抽樣方法、壓縮方法、樹方法、聚類、支持向量機(jī)等。同時,書中提供了大量基于現(xiàn)實(shí)數(shù)據(jù)的樣例,這些數(shù)據(jù)來自近 20 年來生物學(xué)、金融學(xué)、市場營銷學(xué)和天體物理學(xué)等諸多領(lǐng)域。本書主要面向非數(shù)學(xué)專業(yè)的高年級本科生、碩士研究生和博士生。
中文購買地址:http://dwz.cn/5Ke5dE
英文地址:http://www-bcf.usc.edu/~gareth/ISL/
Foundations of Data Science
作者:Avrim Blum, John Hopcroft 和 Ravindran Kannan
雖然計算機(jī)科學(xué)的傳統(tǒng)領(lǐng)域仍然非常重要,但是現(xiàn)在已經(jīng)有越來越多的研究員開始著眼于如何使用計算機(jī)來理解和挖掘潛藏在大量數(shù)據(jù)中的有用信息,而不僅僅是用計算機(jī)來解決實(shí)際的應(yīng)用問題。本書詳細(xì)介紹了數(shù)據(jù)科學(xué)的基礎(chǔ)理論和應(yīng)用,作者在前言中指出:“我們希望讀者可以從本書中學(xué)到在未來 40 年仍然有用的數(shù)據(jù)科學(xué)基礎(chǔ)知識,正如自動化相關(guān)的理論和算法在 40 年前做的一樣?!?/p>
英文地址:https://www.cs.cornell.edu/jeh/book.pdf
A Programmer's Guide to Data Mining: The Ancient Art of the Numerati
作者:Ron Zacharski
本書是一個以實(shí)踐操作為主的循序漸進(jìn)式的編程參考,主要以 Python 代碼為基礎(chǔ),面向數(shù)據(jù)挖掘的相關(guān)使用場景。作者在介紹中表示:“我希望你能參考書中給出的代碼,積極參與數(shù)據(jù)挖據(jù)技術(shù)的實(shí)踐編程,當(dāng)你完成全書的所有內(nèi)容時,實(shí)際上已經(jīng)為數(shù)據(jù)挖掘技術(shù)奠定了堅實(shí)的基礎(chǔ)?!?/p>
英文地址:http://guidetodatamining.com/
Mining of Massive Datasets
作者:Jure Leskovec, Anand Rajaraman 和 Jeff Ullman
本書中文名為《大數(shù)據(jù):互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理》,由斯坦福大學(xué) CS246: Mining Massive Datasets 和 CS345A: Data Mining 課程的內(nèi)容總結(jié)而成,主要關(guān)注極大規(guī)模數(shù)據(jù)的挖掘。主要內(nèi)容包括分布式文件系統(tǒng)、相似性搜索、搜索引擎技術(shù)、頻繁項(xiàng)集挖掘、聚類算法、廣告管理及推薦系統(tǒng)。大部分章節(jié)后都配有對應(yīng)的習(xí)題,以及豐富的擴(kuò)展閱讀推薦,用以鞏固所講解的內(nèi)容。據(jù)官網(wǎng)介紹,本書的內(nèi)容不涉及任何預(yù)備知識,任何人都可以直接學(xué)習(xí)。
中文地址:http://bestcbooks.com/B009HEK8SO/
英文地址:http://mmds.org/
Deep Learning
作者:Ian Goodfellow, Yoshua Bengio 和 Aaron Courville
本書為 Yoshua Bengio 和 Ian Goodfellow 等大神合著的深度學(xué)習(xí)教科書,該書主要分為三個部分:機(jī)器學(xué)習(xí)和數(shù)學(xué)基礎(chǔ),深度學(xué)習(xí)的基礎(chǔ)實(shí)踐,深度學(xué)習(xí)的進(jìn)一步研究。全書內(nèi)容扎實(shí)、講解細(xì)致、深入淺出,特別適合深度學(xué)習(xí)的初學(xué)者通過這本書正式入門機(jī)器學(xué)習(xí)領(lǐng)域的研究。
中文地址:https://github.com/exacity/deeplearningbook-chinese
英文地址:http://www.deeplearningbook.org/
Machine Learning Yearning
作者:吳恩達(dá)(Andrew Ng)
這是大神 Andrew Ng 的一本書,官網(wǎng)描述稱:
AI,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)正在改變眾多的行業(yè)。但如何搭建一個真正的機(jī)器學(xué)習(xí)系統(tǒng),首先需要解決如下幾個問題:
應(yīng)該收集更多的訓(xùn)練數(shù)據(jù)嗎?
應(yīng)該使用端到端的深度學(xué)習(xí)嗎?
如何處理與測試集不匹配的訓(xùn)練集?
等等。
此前,關(guān)于如何解決這些問題的唯一途徑是研究生課程或咨詢公司?,F(xiàn)在我正在寫一本相關(guān)的書籍,希望能幫助各位朋友解決類似的問題,幫助大家更好地搭建 AI 系統(tǒng)。
英文地址:http://www.mlyearning.org/
來源:kdnuggets,雷鋒網(wǎng)編譯
雷鋒網(wǎng)相關(guān)閱讀:
機(jī)器學(xué)習(xí)漫游指南 最完整的入門書單(外文版)
原版教材太貴?這幾本機(jī)器學(xué)習(xí)好書其實(shí)不需要花錢
免費(fèi)教材資源第二彈!這回側(cè)重數(shù)據(jù)科學(xué)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。