0
本文作者: skura | 2020-02-03 10:46 |
我是一名受過教育的機械工程師,我的第一份工作是在鋼鐵行業(yè)。
我穿著那些沉重的膠靴和塑料頭盔,在大型高爐和軋鋼廠里做著危險的工作。至少這么說,雖然做了很多安全措施,但我知道如果發(fā)生了什么不好的事情,什么也救不了我。也許跑鞋能幫上忙,至于頭盔?我只想說鋼水的溫度是 1370 攝氏度。
我意識到基于我的恐懼,這份工作不適合我,所以我找到了新的目標(biāo),在 2011 年左右進入分析和數(shù)據(jù)科學(xué)領(lǐng)域。從那時起,mooc 就成了我學(xué)習(xí)新事物的首選,我在那里學(xué)到了很多新東西。有好有壞。
現(xiàn)在到了 2020 年,隨著數(shù)據(jù)科學(xué)領(lǐng)域的日新月異,學(xué)習(xí)數(shù)據(jù)科學(xué)的資源并不缺乏。但這也常常給初學(xué)者帶來一個困擾:從哪里開始學(xué)習(xí),學(xué)習(xí)什么?互聯(lián)網(wǎng)上有很多優(yōu)質(zhì)的資源,但這意味著也有很多不好的資源。
當(dāng)談到學(xué)習(xí)時,過多的選擇往往會導(dǎo)致停滯,因為選擇會讓人陷入焦慮。
在 The Paradox of Choice — Why More Is Less 這本書中,Schwartz 認為消除消費者的選擇可以大大減少購物的焦慮。對數(shù)據(jù)科學(xué)課程來說也是如此。
這篇文章旨在為迷茫的初學(xué)者提供建議,從哪里開始他們的數(shù)據(jù)科學(xué)之旅有很多選擇。
1)Python 3 編程專業(yè)化
和 Python 2.7 說再見!
首先,你需要一種編程語言。這個來自密歇根大學(xué)的課程(https://click.linksynergy.com/link?id=lVarvwc5BD0&offerid=467035.13674876714&type=2&murl=https%3A%2F%2Fwww.coursera.org%2Fspecializations%2Fpython-3-programming)教你學(xué)習(xí)使用 Python 并自己創(chuàng)建東西。
你將學(xué)習(xí)變量、條件和循環(huán)等編程基礎(chǔ)知識,并獲得一些學(xué)習(xí)材料,如關(guān)鍵字參數(shù)、列表理解、lambda 表達式和類繼承。
你可能還想通過我的 Python Shorts 獲得更好的理解。
頁面網(wǎng)址:https://towardsdatascience.com/tagged/python-shorts
2)Python 應(yīng)用數(shù)據(jù)科學(xué)
先做,后理解
在充分理解機器學(xué)習(xí)之前,我們需要先體驗一下它。
應(yīng)用數(shù)據(jù)科學(xué)為你介紹了許多應(yīng)該了解的現(xiàn)代機器學(xué)習(xí)方法。雖然它們并不是完全一樣的,但你會得到建立你的模型的工具。
這種基于技能的專業(yè)課程向具有基本 python 或其他語言編程背景,并希望通過流行的 python 工具包(如 pandas、matplotlib、scikit learn、nltk)應(yīng)用統(tǒng)計、機器學(xué)習(xí)、數(shù)據(jù)可視化、文本分析和社交網(wǎng)絡(luò)分析以及 networkx,以深入了解他們的數(shù)據(jù)的學(xué)習(xí)者。
你可能還想瀏覽一下我的一些文章,同時了解一下這個專業(yè)領(lǐng)域:
網(wǎng)址:https://towardsdatascience.com/minimal-pandas-subset-for-data-scientists-6355059629ae
3)機器學(xué)習(xí)理論與基礎(chǔ)
完成以上課程后,你將變成「初學(xué)者」,恭喜!
你知道你學(xué)的東西是什么,你知道如何實現(xiàn)某些事情。
然而,你并沒有完全理解所有這些模型背后的所有數(shù)學(xué)原理。
你需要了解 clf.fit 背后的原理,是時候面對現(xiàn)實了。除非你了解模型背后的數(shù)學(xué)原理,否則沒人會認真對待你。
如果你不明白,你就無法改進它。
Game Changer 機器學(xué)習(xí)課程來了!它包含了許多機器學(xué)習(xí)算法背后的數(shù)學(xué)原理。
我將把這門課當(dāng)作一門必修課,因為這門課程激勵了我進入這個領(lǐng)域,而且 Andrew Ng 是一位偉大的導(dǎo)師。這是我開始學(xué)習(xí)的第一門課程。
這門課程包含了回歸,分類,異常檢測,推薦系統(tǒng),神經(jīng)網(wǎng)絡(luò)等知識,還有很多很棒的建議。在學(xué)習(xí)本課程的同時,你可能還需要瀏覽我的一些文章:
網(wǎng)址:https://towardsdatascience.com/the-hitchhikers-guide-to-feature-extraction-b4c157e96631
網(wǎng)址:https://towardsdatascience.com/the-5-classification-evaluation-metrics-you-must-know-aa97784ff226
4)學(xué)習(xí)統(tǒng)計推斷
「事實是不變的,但統(tǒng)計數(shù)字是靈活的?!?/p>
——Mark Twain
我的老師 ?etinkaya-Rundel 教授這門推論統(tǒng)計學(xué)的課程(https://www.coursera.org/learn/inferential-statistics-intro?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-ydEVG6k5kidzLtNqbbVQvQ&siteID=lVarvwc5BD0-ydEVG6k5kidzLtNqbbVQvQ&utm_content=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0 ),沒有比這更簡單的課程了。
她是一位優(yōu)秀的講師,很好地解釋了統(tǒng)計推斷的基本原理——這是一門必修課。
你將學(xué)習(xí)假設(shè)檢驗、置信區(qū)間以及數(shù)值和分類數(shù)據(jù)的統(tǒng)計推斷方法。
你可能還想通過我的一些文章,加深理解:
網(wǎng)址:https://towardsdatascience.com/p-value-explained-simply-for-data-scientists-4c0cd7044f14
5)學(xué)習(xí)數(shù)據(jù)科學(xué)相關(guān)的 SQL 基礎(chǔ)知識
SQL 是所有數(shù)據(jù) ETL 的核心
雖然我們覺得通過創(chuàng)建模型和提出不同的假設(shè),可以完成更多的工作,但數(shù)據(jù)處理的作用是不可低估的。
而且,隨著 SQL 在 ETL 和數(shù)據(jù)處理任務(wù)中的廣泛應(yīng)用,每個人都應(yīng)該知道一點 SQL,這一定會有用。
SQL 也已經(jīng)成為使用 Apache Spark 等大數(shù)據(jù)工具的事實標(biāo)準(zhǔn)。這個來自 UC Davis 的 SQL 教程(https://click.linksynergy.com/link?id=lVarvwc5BD0&offerid=467035.15198708466&type=2&murl=https%3A%2F%2Fwww.coursera.org%2Fspecializations%2Flearn-sql-basics-data-science )將教你 SQL 基礎(chǔ)知識以及如何使用 SQL 進行分布式計算。
來自課程網(wǎng)站:
通過完成四個逐步增加難度的 SQL 項目,你將涵蓋諸如 SQL 基礎(chǔ)知識、SQL 分析、AB 測試、使用 Apache Spark 的分布式計算等主題。
你可能還想通過我的一些文章加深理解:
網(wǎng)址:https://towardsdatascience.com/learning-sql-the-hard-way-4173f11b26f1
網(wǎng)址:https://towardsdatascience.com/the-hitchhikers-guide-to-handle-big-data-using-spark-90b9be0fe89a
網(wǎng)址:https://towardsdatascience.com/5-ways-to-add-a-new-column-in-a-pyspark-dataframe-4e75c2fd8c08
6)高級機器學(xué)習(xí)
你可能不同意,但到目前為止,我們所做的一切都是沒有多大用處的。學(xué)習(xí)材料是結(jié)構(gòu)化的,數(shù)學(xué)知識是最少的。但你已經(jīng)為下一步做好了準(zhǔn)備。這種高級機器學(xué)習(xí)課程(https://click.linksynergy.com/link?id=lVarvwc5BD0&offerid=467035.11973317656&type=2&murl=https%3A%2F%2Fwww.coursera.org%2Fspecializations%2Faml)由頂級 Kaggle 機器學(xué)習(xí)實踐者和歐洲核子研究中心的科學(xué)家采用了另一種學(xué)習(xí)方法,他們會講解許多晦澀難懂的概念,并指導(dǎo)你了解過去的事情是如何工作的,以及機器學(xué)習(xí)世界中最新的進步。網(wǎng)站上是這樣說的:
該專業(yè)介紹了深度學(xué)習(xí)、強化學(xué)習(xí)、自然語言理解、計算機視覺和貝葉斯方法。頂級 Kaggle 機器學(xué)習(xí)實踐者和 CERN 科學(xué)家將分享他們解決現(xiàn)實世界問題的經(jīng)驗,并幫助你填補理論和實踐之間的空白。
你可能想看看我的一些文章,同時了解本課程的一些材料:
網(wǎng)址:https://towardsdatascience.com/mcmc-intuition-for-everyone-5ae79fff22b1
網(wǎng)址:https://towardsdatascience.com/tagged/nlp-learning-series
7) 深度學(xué)習(xí)
深度學(xué)習(xí)就是未來
Andrew NG 又回到了他的深度學(xué)習(xí)專業(yè)。
Andrew Ng 以一種通俗易懂的方式完成了對困難概念的講解。他所遵循的術(shù)語與網(wǎng)絡(luò)上所有其他教程和課程都不一樣,我希望它能流行起來,因為它對理解所有基本概念非常有幫助。
摘自專業(yè)網(wǎng)站:
了解深度學(xué)習(xí)的基礎(chǔ),了解如何構(gòu)建神經(jīng)網(wǎng)絡(luò),并學(xué)習(xí)如何領(lǐng)導(dǎo)成功的機器學(xué)習(xí)項目。你將了解卷積網(wǎng)絡(luò)、RNNs、LSTM、Adam、Dropout、BatchNorm、Xavier/He 初始化等。你將從事醫(yī)療保健、自動駕駛、手語閱讀、音樂生成和自然語言處理等方面的案例研究。
你可能想看看我的一些文章,同時試圖了解本課程的一些材料:
網(wǎng)址:https://towardsdatascience.com/an-end-to-end-introduction-to-gans-bf253f1fa52f
8) Pytorch
我通常從不提倡學(xué)習(xí)工具,但在這里我提倡。原因是,Pytorch 令人難以置信,使用它你將能夠閱讀代碼,研究許多最新的論文。Pythorch 已經(jīng)成為從事深度學(xué)習(xí)的研究人員默認的編程語言,它只會對我們的學(xué)習(xí)產(chǎn)生推動作用。
學(xué)習(xí) Pythorch 的一種結(jié)構(gòu)化方法學(xué)習(xí) Pythorch 相關(guān)的深神經(jīng)網(wǎng)絡(luò)課程(https://click.linksynergy.com/link?id=lVarvwc5BD0&offerid=467035.14805039480&type=2&murl=https%3A%2F%2Fwww.coursera.org%2Flearn%2Fdeep-neural-networks-with-pytorch)。以下來自課程網(wǎng)站:
課程將從 Pytorch 的張量和自動微分包開始。然后每個部分將涵蓋不同的模型,從基本原理開始,如線性回歸和 logistic/softmax 回歸。其次是前饋型深層神經(jīng)網(wǎng)絡(luò)、作用不同的激活函數(shù),歸一化層和脫落層。然后介紹卷積神經(jīng)網(wǎng)絡(luò)和遷移學(xué)習(xí)。最后,還將介紹其他一些深度學(xué)習(xí)方法。
你也可以看看我的這篇文章,我試著解釋如何使用PyTorch:
網(wǎng)址:https://towardsdatascience.com/moving-from-keras-to-pytorch-f0d4fff4ce79
9)AWS 機器學(xué)習(xí)入門
秘訣:你知道什么不重要,你展示什么才重要。
在構(gòu)建一個偉大的機器學(xué)習(xí)系統(tǒng)時,有很多事情需要考慮。但作為數(shù)據(jù)科學(xué)家,我們常常只擔(dān)心項目的某些部分。
但我們有沒有想過,一旦我們擁有了模型,我們將如何部署它們呢?
我見過很多ML項目,其中很多項目注定要失敗,因為它們從一開始就沒有生產(chǎn)計劃。
擁有一個好的平臺,并了解該平臺如何部署機器學(xué)習(xí)應(yīng)用程序,將在現(xiàn)實世界中發(fā)揮重大作用。這門關(guān)于實現(xiàn)機器學(xué)習(xí)應(yīng)用程序的 AWS 課程(https://click.linksynergy.com/link?id=lVarvwc5BD0&offerid=467035.14884356434&type=2&murl=https%3A%2F%2Fwww.coursera.org%2Flearn%2Faws-machine-learning)就承諾了這一點。
本課程將教你:
如何使用帶有內(nèi)置算法和 Jupyter notebook 實例的 Amazon SageMaker 構(gòu)建、訓(xùn)練和部署模型。
如何使用 Amazon-AI 服務(wù)構(gòu)建智能應(yīng)用程序,如 Amazon-Comprehend、Amazon-Rekognition、Amazon-Translate 等。
你也可以看看我的這篇文章,文章討論了應(yīng)用程序,并解釋了如何做生產(chǎn)計劃。
10)數(shù)據(jù)結(jié)構(gòu)和算法
算法。是的,你需要它們。
算法和數(shù)據(jù)結(jié)構(gòu)是數(shù)據(jù)科學(xué)的組成部分。雖然我們大多數(shù)的數(shù)據(jù)科學(xué)家在學(xué)習(xí)的時候并沒有學(xué)習(xí)一門專門的算法課程,但它們都是必不可少的。
許多公司將數(shù)據(jù)結(jié)構(gòu)和算法作為招聘數(shù)據(jù)科學(xué)家面試過程的一部分。它們需要和對數(shù)據(jù)科學(xué)算法充滿熱情,因此,你可能需要一些時間來研究算法、數(shù)據(jù)結(jié)構(gòu)的問題。
我發(fā)現(xiàn)學(xué)習(xí)算法的最佳資源之一是 UCSanDiego 在 Coursera 上的算法課程(https://click.linksynergy.com/deeplink?id=lVarvwc5BD0&mid=40328&murl=https%3A%2F%2Fwww.coursera.org%2Fspecializations%2Fdata-structures-algorithms )。摘自網(wǎng)站:
你將學(xué)習(xí)解決各種計算問題的算法技術(shù),并將使用你選擇的編程語言實現(xiàn)大約 100 個算法編碼問題。沒有任何一門在線算法課程能讓你在下一次面試中解決各種編程挑戰(zhàn)。
你可能還想看看我的一些文章,同時了解一些在這個專業(yè)領(lǐng)域的資料。
網(wǎng)址:https://towardsdatascience.com/three-programming-concepts-for-data-scientists-c264fc3b1de8
網(wǎng)址:https://towardsdatascience.com/dynamic-programming-for-data-scientists-bb7154b4298b
網(wǎng)址:https://towardsdatascience.com/handling-trees-in-data-science-algorithmic-interview-ea14dd1b6236
via:https://towardsdatascience.com/top-10-resources-to-become-a-data-scientist-in-2020-99a315194701
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。