0
本文作者: skura | 2020-02-03 10:46 |
我是一名受過(guò)教育的機(jī)械工程師,我的第一份工作是在鋼鐵行業(yè)。
我穿著那些沉重的膠靴和塑料頭盔,在大型高爐和軋鋼廠里做著危險(xiǎn)的工作。至少這么說(shuō),雖然做了很多安全措施,但我知道如果發(fā)生了什么不好的事情,什么也救不了我。也許跑鞋能幫上忙,至于頭盔?我只想說(shuō)鋼水的溫度是 1370 攝氏度。
我意識(shí)到基于我的恐懼,這份工作不適合我,所以我找到了新的目標(biāo),在 2011 年左右進(jìn)入分析和數(shù)據(jù)科學(xué)領(lǐng)域。從那時(shí)起,mooc 就成了我學(xué)習(xí)新事物的首選,我在那里學(xué)到了很多新東西。有好有壞。
現(xiàn)在到了 2020 年,隨著數(shù)據(jù)科學(xué)領(lǐng)域的日新月異,學(xué)習(xí)數(shù)據(jù)科學(xué)的資源并不缺乏。但這也常常給初學(xué)者帶來(lái)一個(gè)困擾:從哪里開(kāi)始學(xué)習(xí),學(xué)習(xí)什么?互聯(lián)網(wǎng)上有很多優(yōu)質(zhì)的資源,但這意味著也有很多不好的資源。
當(dāng)談到學(xué)習(xí)時(shí),過(guò)多的選擇往往會(huì)導(dǎo)致停滯,因?yàn)檫x擇會(huì)讓人陷入焦慮。
在 The Paradox of Choice — Why More Is Less 這本書(shū)中,Schwartz 認(rèn)為消除消費(fèi)者的選擇可以大大減少購(gòu)物的焦慮。對(duì)數(shù)據(jù)科學(xué)課程來(lái)說(shuō)也是如此。
這篇文章旨在為迷茫的初學(xué)者提供建議,從哪里開(kāi)始他們的數(shù)據(jù)科學(xué)之旅有很多選擇。
1)Python 3 編程專(zhuān)業(yè)化
和 Python 2.7 說(shuō)再見(jiàn)!
首先,你需要一種編程語(yǔ)言。這個(gè)來(lái)自密歇根大學(xué)的課程(https://click.linksynergy.com/link?id=lVarvwc5BD0&offerid=467035.13674876714&type=2&murl=https%3A%2F%2Fwww.coursera.org%2Fspecializations%2Fpython-3-programming)教你學(xué)習(xí)使用 Python 并自己創(chuàng)建東西。
你將學(xué)習(xí)變量、條件和循環(huán)等編程基礎(chǔ)知識(shí),并獲得一些學(xué)習(xí)材料,如關(guān)鍵字參數(shù)、列表理解、lambda 表達(dá)式和類(lèi)繼承。
你可能還想通過(guò)我的 Python Shorts 獲得更好的理解。
頁(yè)面網(wǎng)址:https://towardsdatascience.com/tagged/python-shorts
2)Python 應(yīng)用數(shù)據(jù)科學(xué)
先做,后理解
在充分理解機(jī)器學(xué)習(xí)之前,我們需要先體驗(yàn)一下它。
應(yīng)用數(shù)據(jù)科學(xué)為你介紹了許多應(yīng)該了解的現(xiàn)代機(jī)器學(xué)習(xí)方法。雖然它們并不是完全一樣的,但你會(huì)得到建立你的模型的工具。
這種基于技能的專(zhuān)業(yè)課程向具有基本 python 或其他語(yǔ)言編程背景,并希望通過(guò)流行的 python 工具包(如 pandas、matplotlib、scikit learn、nltk)應(yīng)用統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、數(shù)據(jù)可視化、文本分析和社交網(wǎng)絡(luò)分析以及 networkx,以深入了解他們的數(shù)據(jù)的學(xué)習(xí)者。
你可能還想瀏覽一下我的一些文章,同時(shí)了解一下這個(gè)專(zhuān)業(yè)領(lǐng)域:
網(wǎng)址:https://towardsdatascience.com/minimal-pandas-subset-for-data-scientists-6355059629ae
3)機(jī)器學(xué)習(xí)理論與基礎(chǔ)
完成以上課程后,你將變成「初學(xué)者」,恭喜!
你知道你學(xué)的東西是什么,你知道如何實(shí)現(xiàn)某些事情。
然而,你并沒(méi)有完全理解所有這些模型背后的所有數(shù)學(xué)原理。
你需要了解 clf.fit 背后的原理,是時(shí)候面對(duì)現(xiàn)實(shí)了。除非你了解模型背后的數(shù)學(xué)原理,否則沒(méi)人會(huì)認(rèn)真對(duì)待你。
如果你不明白,你就無(wú)法改進(jìn)它。
Game Changer 機(jī)器學(xué)習(xí)課程來(lái)了!它包含了許多機(jī)器學(xué)習(xí)算法背后的數(shù)學(xué)原理。
我將把這門(mén)課當(dāng)作一門(mén)必修課,因?yàn)檫@門(mén)課程激勵(lì)了我進(jìn)入這個(gè)領(lǐng)域,而且 Andrew Ng 是一位偉大的導(dǎo)師。這是我開(kāi)始學(xué)習(xí)的第一門(mén)課程。
這門(mén)課程包含了回歸,分類(lèi),異常檢測(cè),推薦系統(tǒng),神經(jīng)網(wǎng)絡(luò)等知識(shí),還有很多很棒的建議。在學(xué)習(xí)本課程的同時(shí),你可能還需要瀏覽我的一些文章:
網(wǎng)址:https://towardsdatascience.com/the-hitchhikers-guide-to-feature-extraction-b4c157e96631
網(wǎng)址:https://towardsdatascience.com/the-5-classification-evaluation-metrics-you-must-know-aa97784ff226
4)學(xué)習(xí)統(tǒng)計(jì)推斷
「事實(shí)是不變的,但統(tǒng)計(jì)數(shù)字是靈活的?!?/p>
——Mark Twain
我的老師 ?etinkaya-Rundel 教授這門(mén)推論統(tǒng)計(jì)學(xué)的課程(https://www.coursera.org/learn/inferential-statistics-intro?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-ydEVG6k5kidzLtNqbbVQvQ&siteID=lVarvwc5BD0-ydEVG6k5kidzLtNqbbVQvQ&utm_content=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0 ),沒(méi)有比這更簡(jiǎn)單的課程了。
她是一位優(yōu)秀的講師,很好地解釋了統(tǒng)計(jì)推斷的基本原理——這是一門(mén)必修課。
你將學(xué)習(xí)假設(shè)檢驗(yàn)、置信區(qū)間以及數(shù)值和分類(lèi)數(shù)據(jù)的統(tǒng)計(jì)推斷方法。
你可能還想通過(guò)我的一些文章,加深理解:
網(wǎng)址:https://towardsdatascience.com/p-value-explained-simply-for-data-scientists-4c0cd7044f14
5)學(xué)習(xí)數(shù)據(jù)科學(xué)相關(guān)的 SQL 基礎(chǔ)知識(shí)
SQL 是所有數(shù)據(jù) ETL 的核心
雖然我們覺(jué)得通過(guò)創(chuàng)建模型和提出不同的假設(shè),可以完成更多的工作,但數(shù)據(jù)處理的作用是不可低估的。
而且,隨著 SQL 在 ETL 和數(shù)據(jù)處理任務(wù)中的廣泛應(yīng)用,每個(gè)人都應(yīng)該知道一點(diǎn) SQL,這一定會(huì)有用。
SQL 也已經(jīng)成為使用 Apache Spark 等大數(shù)據(jù)工具的事實(shí)標(biāo)準(zhǔn)。這個(gè)來(lái)自 UC Davis 的 SQL 教程(https://click.linksynergy.com/link?id=lVarvwc5BD0&offerid=467035.15198708466&type=2&murl=https%3A%2F%2Fwww.coursera.org%2Fspecializations%2Flearn-sql-basics-data-science )將教你 SQL 基礎(chǔ)知識(shí)以及如何使用 SQL 進(jìn)行分布式計(jì)算。
來(lái)自課程網(wǎng)站:
通過(guò)完成四個(gè)逐步增加難度的 SQL 項(xiàng)目,你將涵蓋諸如 SQL 基礎(chǔ)知識(shí)、SQL 分析、AB 測(cè)試、使用 Apache Spark 的分布式計(jì)算等主題。
你可能還想通過(guò)我的一些文章加深理解:
網(wǎng)址:https://towardsdatascience.com/learning-sql-the-hard-way-4173f11b26f1
網(wǎng)址:https://towardsdatascience.com/the-hitchhikers-guide-to-handle-big-data-using-spark-90b9be0fe89a
網(wǎng)址:https://towardsdatascience.com/5-ways-to-add-a-new-column-in-a-pyspark-dataframe-4e75c2fd8c08
6)高級(jí)機(jī)器學(xué)習(xí)
你可能不同意,但到目前為止,我們所做的一切都是沒(méi)有多大用處的。學(xué)習(xí)材料是結(jié)構(gòu)化的,數(shù)學(xué)知識(shí)是最少的。但你已經(jīng)為下一步做好了準(zhǔn)備。這種高級(jí)機(jī)器學(xué)習(xí)課程(https://click.linksynergy.com/link?id=lVarvwc5BD0&offerid=467035.11973317656&type=2&murl=https%3A%2F%2Fwww.coursera.org%2Fspecializations%2Faml)由頂級(jí) Kaggle 機(jī)器學(xué)習(xí)實(shí)踐者和歐洲核子研究中心的科學(xué)家采用了另一種學(xué)習(xí)方法,他們會(huì)講解許多晦澀難懂的概念,并指導(dǎo)你了解過(guò)去的事情是如何工作的,以及機(jī)器學(xué)習(xí)世界中最新的進(jìn)步。網(wǎng)站上是這樣說(shuō)的:
該專(zhuān)業(yè)介紹了深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、自然語(yǔ)言理解、計(jì)算機(jī)視覺(jué)和貝葉斯方法。頂級(jí) Kaggle 機(jī)器學(xué)習(xí)實(shí)踐者和 CERN 科學(xué)家將分享他們解決現(xiàn)實(shí)世界問(wèn)題的經(jīng)驗(yàn),并幫助你填補(bǔ)理論和實(shí)踐之間的空白。
你可能想看看我的一些文章,同時(shí)了解本課程的一些材料:
網(wǎng)址:https://towardsdatascience.com/mcmc-intuition-for-everyone-5ae79fff22b1
網(wǎng)址:https://towardsdatascience.com/tagged/nlp-learning-series
7) 深度學(xué)習(xí)
深度學(xué)習(xí)就是未來(lái)
Andrew NG 又回到了他的深度學(xué)習(xí)專(zhuān)業(yè)。
Andrew Ng 以一種通俗易懂的方式完成了對(duì)困難概念的講解。他所遵循的術(shù)語(yǔ)與網(wǎng)絡(luò)上所有其他教程和課程都不一樣,我希望它能流行起來(lái),因?yàn)樗鼘?duì)理解所有基本概念非常有幫助。
摘自專(zhuān)業(yè)網(wǎng)站:
了解深度學(xué)習(xí)的基礎(chǔ),了解如何構(gòu)建神經(jīng)網(wǎng)絡(luò),并學(xué)習(xí)如何領(lǐng)導(dǎo)成功的機(jī)器學(xué)習(xí)項(xiàng)目。你將了解卷積網(wǎng)絡(luò)、RNNs、LSTM、Adam、Dropout、BatchNorm、Xavier/He 初始化等。你將從事醫(yī)療保健、自動(dòng)駕駛、手語(yǔ)閱讀、音樂(lè)生成和自然語(yǔ)言處理等方面的案例研究。
你可能想看看我的一些文章,同時(shí)試圖了解本課程的一些材料:
網(wǎng)址:https://towardsdatascience.com/an-end-to-end-introduction-to-gans-bf253f1fa52f
8) Pytorch
我通常從不提倡學(xué)習(xí)工具,但在這里我提倡。原因是,Pytorch 令人難以置信,使用它你將能夠閱讀代碼,研究許多最新的論文。Pythorch 已經(jīng)成為從事深度學(xué)習(xí)的研究人員默認(rèn)的編程語(yǔ)言,它只會(huì)對(duì)我們的學(xué)習(xí)產(chǎn)生推動(dòng)作用。
學(xué)習(xí) Pythorch 的一種結(jié)構(gòu)化方法學(xué)習(xí) Pythorch 相關(guān)的深神經(jīng)網(wǎng)絡(luò)課程(https://click.linksynergy.com/link?id=lVarvwc5BD0&offerid=467035.14805039480&type=2&murl=https%3A%2F%2Fwww.coursera.org%2Flearn%2Fdeep-neural-networks-with-pytorch)。以下來(lái)自課程網(wǎng)站:
課程將從 Pytorch 的張量和自動(dòng)微分包開(kāi)始。然后每個(gè)部分將涵蓋不同的模型,從基本原理開(kāi)始,如線性回歸和 logistic/softmax 回歸。其次是前饋型深層神經(jīng)網(wǎng)絡(luò)、作用不同的激活函數(shù),歸一化層和脫落層。然后介紹卷積神經(jīng)網(wǎng)絡(luò)和遷移學(xué)習(xí)。最后,還將介紹其他一些深度學(xué)習(xí)方法。
你也可以看看我的這篇文章,我試著解釋如何使用PyTorch:
網(wǎng)址:https://towardsdatascience.com/moving-from-keras-to-pytorch-f0d4fff4ce79
9)AWS 機(jī)器學(xué)習(xí)入門(mén)
秘訣:你知道什么不重要,你展示什么才重要。
在構(gòu)建一個(gè)偉大的機(jī)器學(xué)習(xí)系統(tǒng)時(shí),有很多事情需要考慮。但作為數(shù)據(jù)科學(xué)家,我們常常只擔(dān)心項(xiàng)目的某些部分。
但我們有沒(méi)有想過(guò),一旦我們擁有了模型,我們將如何部署它們呢?
我見(jiàn)過(guò)很多ML項(xiàng)目,其中很多項(xiàng)目注定要失敗,因?yàn)樗鼈儚囊婚_(kāi)始就沒(méi)有生產(chǎn)計(jì)劃。
擁有一個(gè)好的平臺(tái),并了解該平臺(tái)如何部署機(jī)器學(xué)習(xí)應(yīng)用程序,將在現(xiàn)實(shí)世界中發(fā)揮重大作用。這門(mén)關(guān)于實(shí)現(xiàn)機(jī)器學(xué)習(xí)應(yīng)用程序的 AWS 課程(https://click.linksynergy.com/link?id=lVarvwc5BD0&offerid=467035.14884356434&type=2&murl=https%3A%2F%2Fwww.coursera.org%2Flearn%2Faws-machine-learning)就承諾了這一點(diǎn)。
本課程將教你:
如何使用帶有內(nèi)置算法和 Jupyter notebook 實(shí)例的 Amazon SageMaker 構(gòu)建、訓(xùn)練和部署模型。
如何使用 Amazon-AI 服務(wù)構(gòu)建智能應(yīng)用程序,如 Amazon-Comprehend、Amazon-Rekognition、Amazon-Translate 等。
你也可以看看我的這篇文章,文章討論了應(yīng)用程序,并解釋了如何做生產(chǎn)計(jì)劃。
10)數(shù)據(jù)結(jié)構(gòu)和算法
算法。是的,你需要它們。
算法和數(shù)據(jù)結(jié)構(gòu)是數(shù)據(jù)科學(xué)的組成部分。雖然我們大多數(shù)的數(shù)據(jù)科學(xué)家在學(xué)習(xí)的時(shí)候并沒(méi)有學(xué)習(xí)一門(mén)專(zhuān)門(mén)的算法課程,但它們都是必不可少的。
許多公司將數(shù)據(jù)結(jié)構(gòu)和算法作為招聘數(shù)據(jù)科學(xué)家面試過(guò)程的一部分。它們需要和對(duì)數(shù)據(jù)科學(xué)算法充滿熱情,因此,你可能需要一些時(shí)間來(lái)研究算法、數(shù)據(jù)結(jié)構(gòu)的問(wèn)題。
我發(fā)現(xiàn)學(xué)習(xí)算法的最佳資源之一是 UCSanDiego 在 Coursera 上的算法課程(https://click.linksynergy.com/deeplink?id=lVarvwc5BD0&mid=40328&murl=https%3A%2F%2Fwww.coursera.org%2Fspecializations%2Fdata-structures-algorithms )。摘自網(wǎng)站:
你將學(xué)習(xí)解決各種計(jì)算問(wèn)題的算法技術(shù),并將使用你選擇的編程語(yǔ)言實(shí)現(xiàn)大約 100 個(gè)算法編碼問(wèn)題。沒(méi)有任何一門(mén)在線算法課程能讓你在下一次面試中解決各種編程挑戰(zhàn)。
你可能還想看看我的一些文章,同時(shí)了解一些在這個(gè)專(zhuān)業(yè)領(lǐng)域的資料。
網(wǎng)址:https://towardsdatascience.com/three-programming-concepts-for-data-scientists-c264fc3b1de8
網(wǎng)址:https://towardsdatascience.com/dynamic-programming-for-data-scientists-bb7154b4298b
網(wǎng)址:https://towardsdatascience.com/handling-trees-in-data-science-algorithmic-interview-ea14dd1b6236
via:https://towardsdatascience.com/top-10-resources-to-become-a-data-scientist-in-2020-99a315194701
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。