0
本文作者: 恒亮 | 2017-03-07 18:49 |
雷鋒網(wǎng)按:本文盤點(diǎn)了 24 個(gè)高品質(zhì)的在線數(shù)據(jù)科學(xué)入門教程,原作者 David Venturi,他獲有化學(xué)工程和經(jīng)濟(jì)學(xué)的雙學(xué)位,熱衷于數(shù)學(xué)、數(shù)據(jù)科學(xué)和統(tǒng)計(jì)學(xué),同時(shí)也是一位編程愛好者。更具傳奇色彩的是,他本來就讀于一所名校的計(jì)算機(jī)科學(xué)專業(yè),但覺得對(duì)數(shù)據(jù)科學(xué)更感興趣——于是果斷退學(xué),從 Coursera、edx、Udemy 等慕課平臺(tái)開始自學(xué),終邁入專家行列。
他的經(jīng)歷說來也并不特別,世界上又多了一個(gè)慕課代言人而已。但雷鋒網(wǎng)認(rèn)為,他的經(jīng)歷具有兩點(diǎn)價(jià)值:首先,最好的教學(xué)資源已經(jīng)在那兒了——很多還是免費(fèi)的,取不取,只是我們自己的選擇。第二點(diǎn),David Venturi 或許不是權(quán)威的數(shù)據(jù)科學(xué)專家,但他是慕課老司機(jī)——最好的公開課有哪些?當(dāng)然還是慕課老司機(jī)的推薦最靠譜。
因此,這篇源于 David Venturi 長(zhǎng)期的學(xué)習(xí)經(jīng)驗(yàn)總結(jié),同時(shí)結(jié)合了在線慕課社區(qū) Class Central 成千上萬的課程評(píng)分和評(píng)論數(shù)據(jù)的盤點(diǎn)文章,自然對(duì)數(shù)據(jù)科學(xué)的入門學(xué)習(xí)具有非常重要的參考價(jià)值。
下面,我們一起來看看這位老司機(jī)的課程推薦。(入選課程的截止日期為 2017 年 1 月,按照優(yōu)先級(jí)降序排列)
David Venturi
首先,所有的入選課程都必須滿足三個(gè)必要條件:
1. 必須主要教授數(shù)據(jù)科學(xué),并且越相關(guān)越好。
2. 必須有人維護(hù),例如根據(jù)用戶需求或者按照計(jì)劃每月更新。
3. 必須是一個(gè)互動(dòng)性的在線教程,因此以下列出的不包括書籍或是其他只讀教程。
此后,我們收集了來自 Class Central 和其他評(píng)論網(wǎng)站的關(guān)于這些課程的評(píng)分?jǐn)?shù)據(jù),計(jì)算了每個(gè)課程的加權(quán)平均得分,然后人工閱讀了課程的用戶評(píng)論信息,綜合兩者,得到了以下列表。這里,我們主要考慮了以下兩個(gè)關(guān)鍵因素。
1. 教程的覆蓋是否合理。例如,教程不能跳過一些科目,也不能在某些科目上糾纏過多的細(xì)節(jié)。
2. 教程是否采用了通用工具。例如,我們優(yōu)先選擇了那些通過流行的編程語言( Python 或 R 預(yù)言)實(shí)現(xiàn)的教程。
最后需要說明的是,這里我們只考慮了評(píng)分最高和評(píng)論最多的課程,而且由于資源和時(shí)間有限,難免會(huì)有遺漏,歡迎各位讀者在留言區(qū)補(bǔ)充。
為了更好地選擇和梳理課程,首先要簡(jiǎn)單了解數(shù)據(jù)科學(xué)是什么,以及數(shù)據(jù)科學(xué)家平常都在做哪些研究。這里,我們給出一張數(shù)據(jù)科學(xué)的處理過程概覽,原作者是哈佛大學(xué)的 Joe Blitzstein 和 Hanspeter Pfister 教授。
我們認(rèn)為,一個(gè)優(yōu)秀的數(shù)據(jù)科學(xué)入門教程,應(yīng)該覆蓋上圖的每個(gè)方面,解釋其中的關(guān)鍵概念,介紹研究中常用的工具,而且最好能提供一些簡(jiǎn)單示例(動(dòng)手實(shí)操的示例)。
另外,由于本文的主題是“入門”教程盤點(diǎn),因此這里不包括約翰·霍普金斯大學(xué)放在 Coursera 上的數(shù)據(jù)科學(xué)專業(yè)課程,也不包括 Udacity(優(yōu)達(dá)學(xué)城) 提供的數(shù)據(jù)分析師納米學(xué)位課程,這里我們只為數(shù)據(jù)科學(xué)的每個(gè)科目提供最好的個(gè)人入門教程盤點(diǎn)。
最后需要指出的是,以下列出的某些課程可能需要統(tǒng)計(jì)學(xué)和編程基礎(chǔ),讀者可以自行學(xué)習(xí)這些基礎(chǔ)科目,也可以參考這兩個(gè)推薦課程列表。
統(tǒng)計(jì)學(xué):https://www.class-central.com/report/best-statistics-probability-courses-data-science/
編程:https://www.class-central.com/report/best-programming-courses-data-science/
下面是課程推薦部分。
1. Data Science A-Z:Real-Life Data Science Exercises Included
講師:Kirill Eremenko
平臺(tái):Udemy
花費(fèi):15美元
時(shí)長(zhǎng):21小時(shí)
在我們所有入選的二十多個(gè)課程中,Data Science A-Z 在知識(shí)點(diǎn)覆蓋寬度和廣度方面是當(dāng)之無愧的王者。在高達(dá) 3071 份課程評(píng)論之中,它的加權(quán)平均星級(jí)達(dá)到了4.5星(滿分5星),是評(píng)價(jià)最高和評(píng)論數(shù)量最多的課程之一。
該課程完整覆蓋了數(shù)據(jù)科學(xué)的各項(xiàng)子科目,并貼心地提供了現(xiàn)實(shí)生活中的例子作為示例。另外,21小時(shí)也是一個(gè)非常好的時(shí)長(zhǎng),從評(píng)價(jià)來看,大部分訂閱者都認(rèn)為講師的課程安排非常合理。價(jià)格方面,由于 Udemy 平臺(tái)經(jīng)常推出打折促銷活動(dòng),因此變動(dòng)比較頻繁,目前的售價(jià)是15美元。
需要指出的是,該課程并不滿足我們上文提及的“采用通用工具”的評(píng)選要求(課程中沒有采用 Python 或 R 語言的相關(guān)工具,而是采用了 gretl,Tableau,Excel 等工具)。關(guān)于這一點(diǎn),講師 Kirill Eremenko 做了如下說明。
在 gretl 中,用戶將可以像在 R 或者 Python 環(huán)境中那樣進(jìn)行類似的建模操作,而且不用編寫代碼。這一點(diǎn)對(duì)于 Data Science A-Z 教程至關(guān)重要。因?yàn)橛嗛喺叩木幊趟娇赡軈⒉畈积R,而我希望通過這個(gè)課程傳達(dá)一個(gè)框架性的東西,一個(gè)健壯的模型,用戶可以自由選擇他們喜歡的工具。gretl 可以幫助我們避免陷入編程相關(guān)的難題。
2. Intro to Data Analysis
講師:Caroline Buckey
平臺(tái):Udacity
花費(fèi):免費(fèi)
時(shí)長(zhǎng):每周6小時(shí),持續(xù)6周,共36小時(shí)
詳情:https://cn.udacity.com/course/intro-to-data-analysis--ud170/
Intro to Data Analysis 是一個(gè)相對(duì)較新的產(chǎn)品,是 Udacity 旗下數(shù)據(jù)分析師納米學(xué)位的一個(gè)細(xì)分課程。該課程的特點(diǎn)是完整并且清晰地覆蓋了數(shù)據(jù)科學(xué)的整個(gè)處理過程,盡管它在建模方面略有欠缺,但仍不失為一個(gè)優(yōu)秀的數(shù)據(jù)科學(xué)課程,甚至有訂閱者對(duì)它評(píng)價(jià)為 5 星級(jí)別。
該課程的視頻制作精良,講解清晰明了,并且許多知識(shí)點(diǎn)都搭配了實(shí)操測(cè)驗(yàn)題。另外,由于這些配套測(cè)驗(yàn)題都是基于 NumPy 和 Pandas 等框架的,因此訂閱者通過該課程的學(xué)習(xí),除了能學(xué)到完整的大數(shù)據(jù)知識(shí)之外,還能順便提升自己對(duì)各種 Python 庫(kù)的應(yīng)用能力。課程的最后一章涉及 Udacity 旗下的納米學(xué)位授予,雖然并不是免費(fèi)的,但考慮到各大企業(yè)對(duì)納米學(xué)位的認(rèn)可度,因此仍不失為一個(gè)很好的投資。
3. Data Science Fundamentals
講師:多人授課
平臺(tái):Big Data University
花費(fèi):免費(fèi)
時(shí)長(zhǎng):13小時(shí),如果包括課程最后介紹R語言的“R 101”章節(jié),則需要18小時(shí)
Data Science Fundamentals 由 IBM 旗下 Big Data University 提供的四個(gè)子章節(jié)組成,這四個(gè)子章節(jié)分別是:3小時(shí)的“Data Science 101”,5個(gè)小時(shí)的“Data Science Methodology”,5個(gè)小時(shí)的數(shù)據(jù)科學(xué)開源工具實(shí)操,以及最后5個(gè)小時(shí)的R語言入門“R 101”。
該課程完整覆蓋了數(shù)據(jù)科學(xué)的整個(gè)處理過程,并介紹了 Python、R 語言和其他幾個(gè)開源工具。總體上說,課程更貼近實(shí)際應(yīng)用,具有巨大的生產(chǎn)參考價(jià)值。但由于它在 Class Central 等評(píng)分網(wǎng)站中沒有太多數(shù)據(jù),因此目前還不清楚訂閱者對(duì)它的評(píng)價(jià)如何。
介紹完以上三個(gè)重點(diǎn)推薦的高品質(zhì)課程之外,下面按照加權(quán)平均的評(píng)分結(jié)果降序排列,推薦一些其他的大數(shù)據(jù)科學(xué)入門參考課程。
4. Python for Data Science and Machine Learning Bootcamp
講師:Jose Portilla
平臺(tái):Udemy
詳情:https://www.udemy.com/python-for-data-science-and-machine-learning-bootcamp/
該課程基于 Python 語言,完整覆蓋了數(shù)據(jù)科學(xué)的整個(gè)處理過程。其主要特點(diǎn)是更偏重基于大數(shù)據(jù)處理的 Python 語言實(shí)現(xiàn),與下面將會(huì)提到的 Jose 的 R 語言課程一樣,本課程同時(shí)可以作為 Python 語言以及數(shù)據(jù)科學(xué)的入門教程。課程總時(shí)長(zhǎng) 21.5 小時(shí),通過計(jì)算 1644 名訂閱者的加權(quán)評(píng)分結(jié)果,該課程的得分高達(dá) 4.7 星級(jí)。同樣,與 Udemy 旗下其他的課程一樣,該課程的售價(jià)也變動(dòng)頻繁,目前的售價(jià)是 15 美元。
5. Data Science and Machine Learning Bootcamp with R
講師:Jose Portilla
平臺(tái):Udemy
詳情:https://www.udemy.com/data-science-and-machine-learning-bootcamp-with-r/
該課程基于 R 語言,同樣完整覆蓋了數(shù)據(jù)科學(xué)的整個(gè)處理過程。與上一個(gè)課程不同的是,本課程是基于 R 語言的,可同時(shí)作為 R 語言以及數(shù)據(jù)科學(xué)的入門教程。課程總時(shí)長(zhǎng) 18 小時(shí),通過計(jì)算 847 名訂閱者的加權(quán)評(píng)分結(jié)果,該課程的得分為 4.6 星級(jí)。目前該課程在 Udemy 的售價(jià)同樣是 15 美元。
6. Data Science and Machine Learning with Python — Hands On!
講師:Frank Kane
平臺(tái):Udemy
詳情:https://www.udemy.com/data-science-and-machine-learning-with-python-hands-on/
該課程基于 Python 語言,并未全部覆蓋數(shù)據(jù)科學(xué)的完整處理過程,而是更專注于統(tǒng)計(jì)和機(jī)器學(xué)習(xí)領(lǐng)域。課程總時(shí)長(zhǎng) 9 小時(shí),通過計(jì)算 3104 名訂閱者的加權(quán)評(píng)分結(jié)果,該課程的得分為 4.5 星級(jí)。目前的售價(jià)是 15 美元。
7. Introduction to Data Science
講師:Data Hawk Tech 數(shù)據(jù)科學(xué)咨詢公司
平臺(tái):Udemy
該課程的時(shí)長(zhǎng)很短,只有 3 個(gè)小時(shí),因此雖然其覆蓋的范圍很全,但深度卻不足,同時(shí)也簡(jiǎn)單覆蓋了 R 和 Python 語言。通過計(jì)算 62 名訂閱者的加權(quán)評(píng)分結(jié)果,該課程的得分為 4.4 星級(jí)。目前的售價(jià)是 10 美元。
8. Applied Data Science: An Introduction
講師:Syracuse University
平臺(tái):CourseSites by Blackboard
該課程雖然完整覆蓋了數(shù)據(jù)科學(xué)的整個(gè)處理過程,但其覆蓋深度并不平均。它的講述重點(diǎn)放在基本的統(tǒng)計(jì)學(xué)原理和 R 語言的應(yīng)用。整個(gè)課程的組織并不系統(tǒng),通過計(jì)算 6 名訂閱者的加權(quán)評(píng)分結(jié)果,該課程的得分為 4.33 星級(jí)。免費(fèi)。
9. Introduction To Data Science
講師:Nina Zumel 和 John Mount
平臺(tái):Udemy
該課程基于 R 語言,僅覆蓋了部分?jǐn)?shù)據(jù)科學(xué)的處理過程,在數(shù)據(jù)準(zhǔn)備和建模方面有很好的講述深度。課程總時(shí)長(zhǎng) 6 小時(shí),通過計(jì)算 101 名訂閱者的加權(quán)評(píng)分結(jié)果,該課程的得分為 4.3 星級(jí)。目前的售價(jià)是 50 美元。
10. Applied Data Science with Python
講師:V2 Maestros 大數(shù)據(jù)公司
平臺(tái):Udemy
該課程基于 Python 語言,完整覆蓋了數(shù)據(jù)科學(xué)的整個(gè)處理過程,并且對(duì)每個(gè)細(xì)分科目都有很好的覆蓋深度。課程總時(shí)長(zhǎng)為 8.5 小時(shí),通過計(jì)算 92 名訂閱者的加權(quán)評(píng)分結(jié)果,該課程的得分為 4.3 星級(jí)。目前的售價(jià)是 15 美元。
11. Want to be a Data Scientist?
講師:V2 Maestros 大數(shù)據(jù)公司
平臺(tái):Udemy
該課程的時(shí)長(zhǎng)很短,只有 3 個(gè)小時(shí),因此雖然其覆蓋的范圍很全,但深度卻不足,簡(jiǎn)單提到了幾個(gè)開源工具。通過計(jì)算 790 名訂閱者的加權(quán)評(píng)分結(jié)果,該課程的得分為 4.3 星級(jí)。免費(fèi)。
12. Data to Insight: an Introduction to Data Analysis
講師:University of Auckland
平臺(tái):FutureLearn
該課程的覆蓋范圍目前并不清楚,根據(jù)官方介紹,課程更專注于數(shù)據(jù)挖掘、發(fā)現(xiàn)和可視化。課程時(shí)長(zhǎng) 24 小時(shí)(每周 3 小時(shí),共 8 周),不提供點(diǎn)播。通過計(jì)算 2 名訂閱者的加權(quán)評(píng)分結(jié)果,該課程的得分為 4 星級(jí)。目前該課程可免費(fèi)試聽,進(jìn)階內(nèi)容需要付費(fèi) 59 英鎊,可提供證書。
13. Data Science Orientation
講師:Microsoft
平臺(tái):edX
詳情:https://www.edx.org/course/data-science-orientation-microsoft-dat101x-1
該課程只部分覆蓋了數(shù)據(jù)科學(xué)的處理過程,并且缺少建模方面的內(nèi)容。由于是微軟提供的課程,因此大部分的數(shù)據(jù)處理工具都使用了 Excel。課程的時(shí)長(zhǎng)為 12-24小時(shí)不等(每周 2-4 小時(shí),共 6 周)。通過計(jì)算 40 名訂閱者的加權(quán)評(píng)分結(jié)果,該課程的得分為 3.95 星級(jí)。課程本身免費(fèi),但訂閱者可以選擇支付 25 美元獲取一個(gè)完課證書。
14. Data Science Essentials
講師:Microsoft
平臺(tái):edX
詳情:https://www.edx.org/course/data-science-essentials-microsoft-dat203-1x-2
該課程基于 R 、Python 和 Azure ML 等工具,完整覆蓋了數(shù)據(jù)科學(xué)的整個(gè)處理過程,并且對(duì)每個(gè)細(xì)分科目都有很好的覆蓋深度。時(shí)長(zhǎng)為 18-24 小時(shí)不等(每周 3-4 小時(shí),共 6 周)。通過計(jì)算 67 名訂閱者的加權(quán)評(píng)分結(jié)果,該課程的得分為 3.81 星級(jí)。課程本身免費(fèi),但訂閱者可以選擇支付 49 美元獲取一個(gè)完課證書。
15. Applied Data Science with R
講師:V2 Maestros 大數(shù)據(jù)公司
平臺(tái):Udemy
該課程是第 10 條推薦的 R 語言版,完整覆蓋了數(shù)據(jù)科學(xué)的整個(gè)處理過程,并且對(duì)每個(gè)細(xì)分科目都有很好的覆蓋深度。課程時(shí)長(zhǎng) 11小時(shí)。通過計(jì)算 212 名訂閱者的加權(quán)評(píng)分結(jié)果,該課程的得分為 3.8 星級(jí)。目前的售價(jià)是 15 美元。
16. Intro to Data Science
講師:Dave Holtz 和 Cheng-Han Lee
平臺(tái):Udacity
詳情:https://cn.udacity.com/course/intro-to-data-science--ud359/
該課程基于 Python,雖然只覆蓋了部分?jǐn)?shù)據(jù)科學(xué)的處理過程,但對(duì)于每個(gè)課程范圍內(nèi)的知識(shí)點(diǎn)都做了詳細(xì)介紹。雖然 Udacity 具有業(yè)內(nèi)公認(rèn)的一個(gè)非常棒的探索性數(shù)據(jù)分析(Exploratory Data Analysis,EDA)課程,但總體上本課程缺乏數(shù)據(jù)探索性方面的介紹。課程時(shí)長(zhǎng)共 48 小時(shí)(每周 6 小時(shí),8 周)。一些評(píng)論認(rèn)為該課程缺乏高階內(nèi)容,并且組織混亂。通過計(jì)算 18 名訂閱者的加權(quán)評(píng)分結(jié)果,該課程的得分為 3.61 星級(jí)。免費(fèi)。
17. Introduction to Data Science in Python
講師:University of Michigan
平臺(tái):Coursera
該課程基于 Python,只覆蓋了部分?jǐn)?shù)據(jù)科學(xué)的處理過程,而且沒有數(shù)據(jù)建模和可視化的相關(guān)內(nèi)容(更深入的內(nèi)容在密歇根大學(xué)開設(shè)的另一個(gè)名為“Applied Data Science with Python Specialization”的系列課程中,感興趣的同學(xué)可以在詳情頁(yè)面中詳細(xì)了解)。本課程時(shí)長(zhǎng)為 4 周。通過計(jì)算 15 名訂閱者的加權(quán)評(píng)分結(jié)果,該課程的得分為 3.6 星級(jí)??擅赓M(fèi)試聽,高階內(nèi)容需要付費(fèi)。
18. Data-driven Decision Making
講師:PwC
平臺(tái):Coursera
該課程基于 R、Python、Excel、SAS 和 Tableau 等工具,只覆蓋了部分?jǐn)?shù)據(jù)科學(xué)的處理過程,缺乏建模的相關(guān)內(nèi)容,更注重業(yè)務(wù)實(shí)現(xiàn)。課程時(shí)長(zhǎng)為 4 周。通過計(jì)算 2 名訂閱者的加權(quán)評(píng)分結(jié)果,該課程的得分為 3.5 星級(jí)??擅赓M(fèi)試聽,高階內(nèi)容需要付費(fèi)。
19. A Crash Course in Data Science
講師:Johns Hopkins University
平臺(tái):Coursera
該課程是關(guān)于數(shù)據(jù)科學(xué)整個(gè)處理過程的完整概述,覆蓋了幾乎所有細(xì)分科目,但教授深度都不足。時(shí)長(zhǎng)為 4-6 小時(shí),大約需要 1 周完成。通過計(jì)算 19 名訂閱者的加權(quán)評(píng)分結(jié)果,該課程的得分為 3.4 星級(jí)??擅赓M(fèi)試聽,高階內(nèi)容需要付費(fèi)。
20. The Data Scientist’s Toolbox
講師:Johns Hopkins University
平臺(tái):Coursera
該課程同樣覆蓋了數(shù)據(jù)科學(xué)的完整過程,但教授深度不足。更多的是作為霍普金斯大學(xué)“Data Science Specialization”課程的一個(gè)預(yù)熱班。官方介紹稱課程的時(shí)長(zhǎng)為每周 1-4 小時(shí),共需要 4 周,但有網(wǎng)友指出只需要兩個(gè)小時(shí)就能全部完成。通過計(jì)算 182 名訂閱者的加權(quán)評(píng)分結(jié)果,該課程的得分為 3.22 星級(jí)。可免費(fèi)試聽,高階內(nèi)容需要付費(fèi)。
21. Data Management and Visualization
講師:Wesleyan University
平臺(tái):Coursera
該課程基于 Python 和 SAS 工具,只覆蓋了部分?jǐn)?shù)據(jù)科學(xué)的處理過程,缺少建模方面的內(nèi)容,更注重實(shí)際應(yīng)用。課程時(shí)長(zhǎng)為 4 周,每周需要 4-5 小時(shí)。通過計(jì)算 6 名訂閱者的加權(quán)評(píng)分結(jié)果,該課程的得分為 2.67 星級(jí)??擅赓M(fèi)試聽,高階內(nèi)容需要付費(fèi)。
以下課程沒有評(píng)論數(shù)據(jù)可供參考,但也值得關(guān)注。
22. CS109 Data Science
平臺(tái):Harvard University
該課程基于 Python,完整覆蓋了數(shù)據(jù)科學(xué)的整個(gè)處理過程,并且對(duì)每個(gè)細(xì)分科目都有很好的覆蓋深度(而且有些內(nèi)容對(duì)于“入門”這一主題可能會(huì)顯得太過深入)。該課程是哈佛大學(xué)的大數(shù)據(jù)公開課,完全免費(fèi),只是由于并非針對(duì)在線消費(fèi)設(shè)計(jì),因此課程導(dǎo)航設(shè)計(jì)可能不會(huì)太友好。整個(gè)課程的學(xué)習(xí)大約需要 12 周,所有視頻都是在哈佛大學(xué)的課堂上實(shí)錄的。值得一提的是,上文關(guān)于數(shù)據(jù)科學(xué)的概述圖表就是來自本課程。
23. Introduction to Data Analytics for Business
講師:University of Colorado Boulder
平臺(tái):Coursera
該課程只覆蓋了部分?jǐn)?shù)據(jù)科學(xué)的處理過程,缺少數(shù)據(jù)建模和可視化的相關(guān)內(nèi)容,更注重業(yè)務(wù)實(shí)現(xiàn)。數(shù)據(jù)科學(xué)過程在該課程中被稱為“信息-行為的價(jià)值鏈”(Information-Action Value chain)。課程時(shí)長(zhǎng)為 4 周,較深入的內(nèi)容都基于 SQL 實(shí)現(xiàn)??擅赓M(fèi)試聽,高階內(nèi)容需要付費(fèi)。
24. Introduction to Data Science
講師:Barton Poulson
平臺(tái):lynda
詳情:https://www.lynda.com/Big-Data-tutorials/Introduction-Data-Science/420305-2.html
該課程基于 R 語言和 Python,時(shí)長(zhǎng)很短,只有 3 個(gè)小時(shí),因此雖然其覆蓋的范圍很全,但深度卻不足??擅赓M(fèi)試聽,高階內(nèi)容需要付費(fèi)。
來源:class-central,雷鋒網(wǎng)編譯
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。