0
本文作者: AI研習(xí)社-譯站 | 2018-03-09 16:53 |
本文為雷鋒字幕組編譯的技術(shù)博客,原標(biāo)題16 Useful Advice for Aspiring Data Scientists,作者為James Le。
翻譯 | 楊麗 noodleslee Ray Eldath 整理 | 凡江
最近,我在讀Sebastian Gutierrez’s “Data Scientists at Work”這本書(shū),他采訪16個(gè)不同行業(yè)的16位數(shù)據(jù)科學(xué)家了解他們?nèi)绾螐睦碚撍伎紗?wèn)題和如何解決實(shí)際問(wèn)題,數(shù)據(jù)是怎樣發(fā)揮作用,并且是如此成功。
16位受訪者在如何理解和從大量公共和私人企業(yè)類(lèi)型的公司提取數(shù)據(jù)價(jià)值都處在前列位置,公司類(lèi)型橫跨剛剛起步的初創(chuàng)公司,到主要的研究機(jī)構(gòu)和人道主義非盈利組織,包含大量行業(yè):廣告,電子商務(wù),電子郵件營(yíng)銷(xiāo),企業(yè)云計(jì)算,時(shí)尚業(yè),工業(yè)互聯(lián)網(wǎng),互聯(lián)網(wǎng)電視和娛樂(lè),音樂(lè),非營(yíng)利組織,神經(jīng)生物學(xué),報(bào)紙和媒體,專(zhuān)業(yè)的社交網(wǎng)絡(luò),零售業(yè),智能銷(xiāo)售和風(fēng)險(xiǎn)投資。
尤其是,Sebastia提出了開(kāi)放式的問(wèn)題,以便每位受訪者的個(gè)性和自發(fā)的思考過(guò)程能夠清楚和準(zhǔn)確的分享。書(shū)中涉及的從業(yè)者分享數(shù)據(jù)科學(xué)對(duì)他們的意義,及他們?cè)趺蠢斫馑?,他們的建議關(guān)于怎樣加入這個(gè)領(lǐng)域,和他們?cè)陬I(lǐng)域內(nèi)獲得數(shù)據(jù)科學(xué)家必須深刻理解才能成功的經(jīng)驗(yàn)的智慧。
在這一篇文章,我想去分享這些數(shù)據(jù)科學(xué)家如下問(wèn)題的最佳答案:
你對(duì)開(kāi)始學(xué)習(xí)數(shù)據(jù)科學(xué)的人有什么建議?
1?—Chirs Wiggins,紐約時(shí)報(bào)首席數(shù)據(jù)科學(xué)家,哥倫比亞應(yīng)用數(shù)學(xué)專(zhuān)業(yè)副教授
“創(chuàng)造力和有心。你必須真正喜歡一些事你才原意長(zhǎng)時(shí)間的思考它。當(dāng)然,某種程度地質(zhì)疑。因此這就是我喜歡博士生的一個(gè)原因-五年時(shí)間足夠培養(yǎng)探索能力,然后你能意識(shí)到你用某些方法做某件事情的是有問(wèn)題的。反復(fù)經(jīng)歷’冰火兩重天‘的感覺(jué),犯一系列的錯(cuò)誤并且修復(fù)它們是很棒的事情。我想博士生經(jīng)歷的這個(gè)過(guò)程對(duì)于培養(yǎng)對(duì)看似正確的事情仍然抱有懷疑是非常有幫助的,特別是研究領(lǐng)域。我認(rèn)為這是有幫助的,你可能快速地且輕易地走上錯(cuò)誤的路徑,僅僅是因?yàn)榈谝粋€(gè)這條路上的相遇者看起來(lái)是言之鑿鑿的。
盡管這是一個(gè)令人生厭的答案,事實(shí)是你必須具備技術(shù)深度。數(shù)據(jù)科學(xué)不僅僅包括一個(gè)領(lǐng)域,因此目前還沒(méi)有認(rèn)證。機(jī)器學(xué)習(xí)方面,獲得維基百科水平理解很容易。為了真正做到這一點(diǎn),你需要了解針對(duì)現(xiàn)在的工作,什么才是合適的工具,而且你需要深刻理解每種工具的局限性。獲得上述的經(jīng)驗(yàn)是沒(méi)用捷徑的。你肯定會(huì)犯很多錯(cuò)誤。你可能會(huì)強(qiáng)行把分類(lèi)問(wèn)題塞進(jìn)聚類(lèi)問(wèn)題,或者是把聚類(lèi)問(wèn)題轉(zhuǎn)換假設(shè)檢驗(yàn)問(wèn)題。
一旦自己嘗試一些方法,對(duì)自己的方法無(wú)比自信,但最后你意識(shí)到自己完全不對(duì),經(jīng)歷過(guò)很多次上述的過(guò)程-你發(fā)現(xiàn)這需要經(jīng)驗(yàn)的積累,但不幸的是并沒(méi)有捷徑。你僅需要不斷地實(shí)踐,不斷犯錯(cuò),這是我喜歡在這個(gè)領(lǐng)域有若干年工作經(jīng)驗(yàn)人的另一個(gè)原因。某些領(lǐng)域里要成為一名專(zhuān)家需要很長(zhǎng)時(shí)間。犯錯(cuò)誤會(huì)持續(xù)很多年的時(shí)間。幾個(gè)世紀(jì)以來(lái)都是這樣。著名物理學(xué)家Niels Bohr(尼爾斯.玻爾)有句名言是這樣說(shuō)的,他斷定成為領(lǐng)域內(nèi)專(zhuān)家的方式就是犯過(guò)這個(gè)領(lǐng)域的每一個(gè)可能的錯(cuò)誤。”
2?—Caitlin Smallwood,Netfilx的科學(xué)和算法部門(mén)的副總裁
“我想說(shuō)做任何事情之前,硬著頭皮了解數(shù)據(jù)的基礎(chǔ)素質(zhì),盡管這不迷人也不有趣。換句話說(shuō),要努力理解是怎樣捕捉數(shù)據(jù),準(zhǔn)確搞懂?dāng)?shù)據(jù)是怎樣定義,并且搞懂什么時(shí)候會(huì)造成數(shù)據(jù)缺失。如果數(shù)據(jù)缺失,這是不是意謂有些東西發(fā)生變化?數(shù)據(jù)僅僅是在這種特定情況下缺失嗎?這些細(xì)小的,微妙數(shù)據(jù)陷阱真的會(huì)影響你。他們真的會(huì)。
你可以用現(xiàn)存的最復(fù)雜算法,但它是古老的,垃圾的東西。你不能對(duì)原始數(shù)據(jù)視而不見(jiàn),不管你進(jìn)入到建模的步驟有多興奮。你需要對(duì)細(xì)節(jié)一絲不茍,在模型研發(fā)之前,你要檢查基礎(chǔ)數(shù)據(jù)的每一個(gè)細(xì)節(jié)。
隨著時(shí)間的推移,我所學(xué)到的另一件事情在一個(gè)系統(tǒng)環(huán)境中,混合算法總是比單一算法的表現(xiàn)要好,因?yàn)椴煌夹g(shù)探索科研數(shù)據(jù)模式不同方面,尤其針對(duì)是復(fù)雜的大數(shù)據(jù)集。因盡管你可以單一的特殊的算法,通過(guò)迭代達(dá)到更好的效果,我?guī)缀蹩偸亲⒁獾剑夯旌纤惴ńM合往往比單一算法的表現(xiàn)更好?!?/p>
3?—Yann LeCun,F(xiàn)acebook人工智能研究總監(jiān),紐約大學(xué)數(shù)據(jù)科學(xué)/計(jì)算機(jī)科學(xué)/神經(jīng)科學(xué)教授
“我經(jīng)常被問(wèn)到這個(gè)問(wèn)題,往往我給相同的建議。我的建議是:如果你是本科生,學(xué)習(xí)一門(mén)盡可能多修數(shù)學(xué)和物理課程的專(zhuān)業(yè)。不幸的是,并且必須是有用的課程。我接下來(lái)要說(shuō)的聽(tīng)起來(lái)是自相矛盾的,但是攻讀工程學(xué)或物理學(xué)專(zhuān)業(yè)可能比數(shù)學(xué)、計(jì)算機(jī)科學(xué)或者是經(jīng)濟(jì)學(xué)專(zhuān)業(yè)更合適。當(dāng)然,你需要學(xué)習(xí)編程,因此你需要學(xué)習(xí)大量的計(jì)算機(jī)科學(xué)課程去學(xué)習(xí)編程機(jī)制。隨后,完成數(shù)據(jù)科學(xué)的畢業(yè)項(xiàng)目。學(xué)習(xí)本科階段的機(jī)器學(xué)習(xí),人工智能或者是計(jì)算機(jī)視覺(jué)課相關(guān)技術(shù),因?yàn)槟阈枰醪教剿鬟@些技術(shù)。接下來(lái),盡可能學(xué)習(xí)接觸到的數(shù)學(xué)和物理課程。尤其是會(huì)持續(xù)應(yīng)用的數(shù)學(xué)課程:優(yōu)化,因?yàn)槟闶菫閷?lái)遇到的挑戰(zhàn)做著準(zhǔn)備。
數(shù)據(jù)科學(xué)或AI領(lǐng)域有大量不同類(lèi)型的工作,做什么樣的準(zhǔn)備取決于你想到達(dá)什么樣的高度。人們應(yīng)該思考什么是他們真正想做的,然后再學(xué)習(xí)相關(guān)課程。目前熱門(mén)話題是深度學(xué)習(xí),意謂著要用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)和了解的經(jīng)典問(wèn)題,學(xué)習(xí)優(yōu)化,線性代數(shù)和相似的課程。這會(huì)幫你學(xué)習(xí)每天都會(huì)遇到的基礎(chǔ)的數(shù)據(jù)知識(shí)和基礎(chǔ)概念?!?/p>
4?—Erin,Shellman,Zymergen的數(shù)據(jù)科學(xué)主管,Nordstrom數(shù)據(jù)實(shí)驗(yàn)室和 AWS S3的前數(shù)據(jù)科學(xué)家
“對(duì)于一直堅(jiān)持要去學(xué)習(xí)的人,我必須說(shuō)科學(xué)(Science)、技術(shù)(Technology)、工程(Engineering)及數(shù)學(xué)(Mathematics)領(lǐng)域是不假思索就能想到的主意,特別是技術(shù)(Technology)、工程(Engineering)及數(shù)學(xué)(Mathematics)學(xué)科。學(xué)習(xí)上述課程將會(huì)給你提供檢驗(yàn)和了解世界的工具。那就是我怎樣看待數(shù)學(xué),統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)。對(duì)于數(shù)學(xué)本身,我不是特別感興趣,我感興趣的是如何應(yīng)用數(shù)學(xué)來(lái)描繪事物。畢竟有現(xiàn)成的工具包,如果你對(duì)數(shù)學(xué)和統(tǒng)計(jì)不是很熱衷,學(xué)習(xí)這兩個(gè)學(xué)科并且思考如何在你熱衷的事情應(yīng)用它們也是非常值得的。
對(duì)于像我一樣立志轉(zhuǎn)型的人,我會(huì)說(shuō)它會(huì)很難。意識(shí)到改變行業(yè)是很困難的和你需要非常努力。改變是很難的并不僅限于數(shù)據(jù)科學(xué)領(lǐng)域---這就是生活。和數(shù)據(jù)科學(xué)領(lǐng)域沒(méi)有任何聯(lián)系是更加艱難的,但是你可以通過(guò)與樂(lè)于助人的人士見(jiàn)面或喝咖啡建立連接。我生活中首要準(zhǔn)則就是‘跟隨’。如果你和具備你關(guān)注的素質(zhì)的人談話,那就是在不斷進(jìn)步。
數(shù)據(jù)科學(xué)家的帖子是很?chē)樔说模蠖鄶?shù)的帖子讀起來(lái)像是數(shù)據(jù)科學(xué)的詞匯表。事實(shí)是技術(shù)改變非常快,以至于沒(méi)有人具備一切并且把他們寫(xiě)到帖子中的經(jīng)驗(yàn)。當(dāng)你閱讀的時(shí)候,它讓人喘不過(guò)氣來(lái),并且你也許能感覺(jué)到:這不是我要找的。我沒(méi)有任何技能并且我沒(méi)有什么可貢獻(xiàn)的。我將鼓勵(lì)你們反對(duì)這種思維方式,只要你一直改變并且學(xué)習(xí)新的東西,你就是很不錯(cuò)的。
最重要的是,公司需要的是可以嚴(yán)格定義問(wèn)題和設(shè)計(jì)解決方案的人。他們也需要善于學(xué)習(xí)的人。我認(rèn)為這是核心技能?!?/p>
5?—?Daniel Tunkelang,Twiggle首席搜索傳播者,領(lǐng)英的前搜索質(zhì)量負(fù)責(zé)人
“針對(duì)來(lái)自數(shù)學(xué)和物理背景的同學(xué),我則建議他們?cè)趯W(xué)習(xí)軟件技能方面投入-特別是Hadoop 和R,它們是目前最廣泛使用的工具。軟件工程背景的同學(xué)應(yīng)該參與機(jī)器學(xué)習(xí)的相關(guān)課程,參與真實(shí)數(shù)據(jù)的工程項(xiàng)目,這些都有大量的免費(fèi)資源。正如很多前人所說(shuō),成為數(shù)據(jù)科學(xué)家的最好方式就是從事數(shù)據(jù)科學(xué)的相關(guān)工作。數(shù)據(jù)就在那里,且科學(xué)是不難以學(xué)習(xí)的,特別是數(shù)學(xué),科學(xué)或工程背景的同學(xué)。
閱讀“The Unreasonable Effectiveness of Data”,一篇來(lái)自來(lái)自谷歌研究人員 : Alon Halevy, Peter Norvig和 Fernando Pereir 的經(jīng)典論文。論文總結(jié)到:大數(shù)據(jù)比算法更有效。全文是值得閱讀的,文章提供最近使用網(wǎng)絡(luò)整合規(guī)模的數(shù)據(jù)從而提高語(yǔ)音識(shí)別和機(jī)器翻譯的成功的調(diào)查。然后是優(yōu)秀的測(cè)度方法,聽(tīng)聽(tīng)Monica Rogati 提到較高質(zhì)量的數(shù)據(jù)大數(shù)據(jù)有效。理解和內(nèi)在化這兩個(gè)觀點(diǎn),你就會(huì)在成為數(shù)據(jù)科學(xué)家的路上更加順暢。”
6?—?John Foreman,產(chǎn)品管理副總裁,MailChimp前首席數(shù)據(jù)科學(xué)家
“我發(fā)現(xiàn)找到和雇傭到合適的伙伴是困難的。這是一件特別難做的事情,因?yàn)楫?dāng)我們談?wù)摯髮W(xué)系統(tǒng)時(shí),不論是在校大學(xué)生還是畢業(yè)的大學(xué)生,你僅專(zhuān)注在一件事情-你的專(zhuān)業(yè)。但是數(shù)據(jù)科學(xué)家有點(diǎn)像文藝復(fù)興從事人員,因?yàn)閿?shù)據(jù)科學(xué)是內(nèi)在的,多學(xué)科交叉的。
這就導(dǎo)致:數(shù)據(jù)科學(xué)家比計(jì)算機(jī)編程人員懂得更多的統(tǒng)計(jì),且比統(tǒng)計(jì)學(xué)家善于編程的角色這樣的大笑話。這個(gè)笑話說(shuō)明什么?它說(shuō)明數(shù)據(jù)科學(xué)家是兩種知識(shí)都知道一點(diǎn)的人。但我要強(qiáng)調(diào)的是,他要比這兩個(gè)事情知道的更多。他們同樣知道怎樣進(jìn)行溝通。他們同樣需要知道不僅僅是基礎(chǔ)統(tǒng)計(jì)知識(shí),他們需要了解概率論,離散數(shù)學(xué),微積分等??梢暬侄我膊粫?huì)起反作用。他們同樣需要了解怎樣擺弄數(shù)據(jù),使用數(shù)據(jù)庫(kù),甚至是一點(diǎn)OR。他們需要很多方面的知識(shí)。所以找到這樣的人變得很難,因?yàn)樗麄冃枰佑|過(guò)很多學(xué)科,且他們能夠機(jī)智地表達(dá)他們的經(jīng)驗(yàn)。這對(duì)任何申請(qǐng)人都是很高的要求。
雇人需要花費(fèi)很長(zhǎng)時(shí)間,這也是為什么我認(rèn)為人們?yōu)槭裁磿?huì)一直說(shuō)現(xiàn)在聰明絕頂?shù)奶觳艛?shù)據(jù)科學(xué)家還未出世。我認(rèn)為某種程度上來(lái)說(shuō)這是真的。我認(rèn)為一些現(xiàn)存的程序會(huì)開(kāi)始發(fā)揮作用。但是盡管如此,這些程序的出現(xiàn),但對(duì)Wimbledon來(lái)說(shuō):在數(shù)據(jù)科學(xué)領(lǐng)域如何應(yīng)用多學(xué)科的經(jīng)驗(yàn)表達(dá)和溝通是特別的一棵。我希望立志成為一位數(shù)據(jù)科學(xué)家的路上,程序員更注意工作中溝通和合作的能力?!?/p>
7?—?Roger Ehrenberg, IA風(fēng)投合伙人
“我認(rèn)為充斥最多機(jī)會(huì)的領(lǐng)域同樣伴隨最多的挑戰(zhàn)。在PII 和隱私方面,健康醫(yī)療數(shù)據(jù)顯而易見(jiàn)存在最大的問(wèn)題。不僅如此,還有僵硬的官僚體制,固化的基礎(chǔ)設(shè)施和數(shù)據(jù)倉(cāng)庫(kù),讓需要很多數(shù)據(jù)集來(lái)解決苦難多問(wèn)題變得困難。它將會(huì)發(fā)生的,我認(rèn)為大量的,我們?cè)谶@里談到的科學(xué)技術(shù)將會(huì)直接作用于提高我們的健康管理,價(jià)格更加親民,分配更加合理。我將之視為一代人的機(jī)會(huì)。
早些時(shí)候另一個(gè)巨大的領(lǐng)域是風(fēng)險(xiǎn)管理-不論是金融,交易或保險(xiǎn)。當(dāng)你談到把這些新數(shù)據(jù)納入到風(fēng)險(xiǎn)評(píng)估的時(shí)候,如果把新數(shù)據(jù)集納入到風(fēng)險(xiǎn)評(píng)估時(shí),這是一個(gè)很大的問(wèn)題-特別是當(dāng)把新技術(shù)應(yīng)用于像保險(xiǎn),健康管理等存在隱私問(wèn)題和官僚體制的數(shù)據(jù)受限的領(lǐng)域。同時(shí),這些古老的僵化的公司剛剛開(kāi)始開(kāi)放,和剛剛開(kāi)辦如何在社區(qū)進(jìn)行交互,來(lái)應(yīng)用新技術(shù)。這是另一個(gè)讓我難以置信的興奮領(lǐng)域。
第三個(gè)讓我熱衷的領(lǐng)域是重塑手工業(yè)使之變得更加高效。一直存才讓手工制造業(yè)回返回陸的趨勢(shì)。一個(gè)強(qiáng)大的手工業(yè)部門(mén)是通向重新創(chuàng)造美國(guó)活躍的中產(chǎn)階級(jí)的一道橋。我認(rèn)為科技可以幫助加速這個(gè)惠益的趨勢(shì)。”
8?—?Claudia Perlach,Dstillery首席科學(xué)家
“我認(rèn)為本質(zhì)上,學(xué)習(xí)數(shù)據(jù)科學(xué)好比學(xué)習(xí)滑雪。你必須實(shí)踐。你可以僅僅聽(tīng)很多視頻,觀察其發(fā)生。在白天結(jié)束時(shí),你必須拿上你糟糕的滑板沖下山頭。你會(huì)在路上橫沖直撞很多次,這沒(méi)關(guān)系。這是學(xué)習(xí)的必經(jīng)之路。實(shí)際上,我更偏好詢問(wèn)面試者他們不順利的經(jīng)歷,而不是他們成功的工作經(jīng)驗(yàn),因?yàn)檫@告訴我他們?cè)谶^(guò)程中學(xué)習(xí)到什么。
不論什么時(shí)候人們過(guò)來(lái)問(wèn)我:“我應(yīng)該做些什么?” 我回答,“嗯,當(dāng)然,可以參加機(jī)器學(xué)習(xí)技術(shù)的線上課程?!?毫無(wú)疑問(wèn)那是有幫助的。顯而易見(jiàn)你需要會(huì)編程,至少是一點(diǎn)點(diǎn)。你不必成為一位Java編程人員,但不論怎樣需要學(xué)些編程,我不在意以什么方式學(xué)習(xí)。
本質(zhì)上,無(wú)論是在 DataKind 的NGOS項(xiàng)目貢獻(xiàn)你的時(shí)間來(lái)幫助他們,或者是去Kaggle 網(wǎng)站,參加他們的數(shù)據(jù)挖掘比賽-在實(shí)際中獲得經(jīng)驗(yàn)。特別是Kaggle,閱讀討論區(qū)來(lái)看看其他參賽者關(guān)于問(wèn)題的討論,因?yàn)槟憧梢詫W(xué)習(xí)到其他人的方法,什么方法對(duì)他們是有效的,什么是無(wú)效的。所以任何你在數(shù)據(jù)相關(guān)工作獲得的經(jīng)驗(yàn),即使你沒(méi)有從中獲得報(bào)酬,都是超棒的事情。
記住,你必須從山上滑下來(lái)。沒(méi)有其他辦法。你不能學(xué)習(xí)除此之外的其它方法。所以貢獻(xiàn)你的時(shí)間,在你思考的路上摸爬滾打,如果你能得到實(shí)習(xí)的機(jī)會(huì)就更完美啦。除此之外,有很多你可以開(kāi)始的機(jī)會(huì)。所以開(kāi)始吧!”
9?—?Jonathan Lenaghan, PlaceIQ首席科學(xué)家和產(chǎn)品研發(fā)部門(mén)高級(jí)副總裁
”首先且最重要的是:自我批評(píng)是非常重要。質(zhì)疑你的假設(shè),偏執(zhí)地對(duì)待你的輸出。這是容易的部分。談到在數(shù)據(jù)科學(xué)領(lǐng)域成功的必備技能,優(yōu)秀的的軟件工程能力是必備的。所以盡管我們會(huì)雇傭幾乎沒(méi)有編程背景的人,我們做很多工作讓他們迅速掌握工程中重要的實(shí)際能力,工程實(shí)踐和很多靈活的編程訓(xùn)練。這對(duì)他們和我們都是有幫助的,現(xiàn)在這也在大多數(shù)一對(duì)一的數(shù)據(jù)科學(xué)場(chǎng)景中應(yīng)用。
若你看看現(xiàn)今的開(kāi)發(fā)運(yùn)維,它們已有了像持續(xù)集成、持續(xù)構(gòu)建、自動(dòng)化測(cè)試和測(cè)試框架的玩意——所有的這些都能很好、很輕易地將開(kāi)發(fā)運(yùn)維映射到數(shù)據(jù)運(yùn)維(一個(gè)我從RedMonk那偷來(lái)的詞)。我認(rèn)為這是一個(gè)非常強(qiáng)大的概念:持有測(cè)試所有數(shù)據(jù)的框架相當(dāng)重要,這樣如果你改動(dòng)了代碼,你可以返回并測(cè)試所有數(shù)據(jù)。擁有工程思維對(duì)在數(shù)據(jù)科學(xué)世界里高速進(jìn)展至關(guān)重要。閱讀Code Complete和The Pragmatic Programmer會(huì)讓你比閱讀機(jī)器學(xué)習(xí)書(shū)籍走得更遠(yuǎn)——盡管你也必須,當(dāng)然,閱讀機(jī)器學(xué)習(xí)書(shū)籍?!?/p>
10?—?Anna Smith,Spotify高級(jí)數(shù)據(jù)工程師,Rent the Runway前分析工程師
“如果某人在數(shù)據(jù)科學(xué)領(lǐng)域只是剛剛起步,最重要的事情莫過(guò)于理解向人們提問(wèn)是無(wú)傷大雅的,我同時(shí)認(rèn)為謙遜也相當(dāng)重要。你還要確保你沒(méi)有被你正在做的事情束縛。你要總能做出改變并從頭再來(lái)。我認(rèn)為在剛開(kāi)始時(shí),報(bào)廢代碼會(huì)相當(dāng)困難,但最重要的事就是去做些什么。
即使你在數(shù)據(jù)科學(xué)領(lǐng)域并無(wú)工作,你依然可以用電腦停機(jī)時(shí)間探索數(shù)據(jù)集并提出一些關(guān)于這些數(shù)據(jù)的問(wèn)題。在我的私人時(shí)間里,我會(huì)玩玩Reddit的數(shù)據(jù)。我會(huì)問(wèn)我自己:“我可以用我有或沒(méi)有的工具探索Reddit的什么出什么結(jié)論呢?”這很棒,因?yàn)槟阋坏╅_(kāi)始,你就能看到其他人如何處理相同的問(wèn)題。只需用你的直覺(jué)開(kāi)始閱讀別人的文章,就像“我可以在我的方法里用到這種技術(shù)?!本従徠鸩?,緩緩進(jìn)步。我曾嘗試在起步時(shí)閱讀很多文章,但我認(rèn)為直到你已對(duì)代碼和數(shù)據(jù)確實(shí)了解它如何工作、如何運(yùn)轉(zhuǎn),閱讀文章才是有幫助的。當(dāng)人們把它擱在書(shū)里的時(shí)候,一切都很美好漂亮。但在現(xiàn)實(shí)生活中卻并非如此。
另外,我認(rèn)為嘗試多種不同的事物也很重要。我以前也沒(méi)有想過(guò)我會(huì)在這個(gè)位置。我也沒(méi)法知道我五年后會(huì)在哪兒。但這或許正是我學(xué)習(xí)的方式:跨越不同的領(lǐng)域,嘗試一切來(lái)理解什么最適合我。”
11?—?Andre Karpistsenko,Taxify數(shù)據(jù)科學(xué)主管, PlanetOS聯(lián)合創(chuàng)始人兼研究主管
“雖然這聽(tīng)起來(lái)有些泛泛,但我相信你應(yīng)該相信自己并遵循你的熱誠(chéng)。我認(rèn)為因媒體新聞和其中表露的期望而分心,選擇了一個(gè)你并不想去的方向確實(shí)很容易。所以說(shuō)到數(shù)據(jù)科學(xué),你應(yīng)該將它看作你事業(yè)的起點(diǎn)。擁有這個(gè)背景將對(duì)任何事情有益。擁有編寫(xiě)軟件和與統(tǒng)計(jì)知識(shí)能力將會(huì)讓你在你選擇的任何領(lǐng)域中做出更明智的決定。例如,我們可以得知一位運(yùn)動(dòng)員的表現(xiàn)是如何通過(guò)數(shù)據(jù)提高的,比如有人因?yàn)閮?yōu)化和練習(xí)他們應(yīng)該跳躍的角度成為跳遠(yuǎn)的金牌得主。這都應(yīng)歸功于體育中的數(shù)據(jù)驅(qū)動(dòng)方法。
如果要我提出更具體的技術(shù)建議,那么這取決于接受建議的人的抱負(fù)。如果他想要?jiǎng)?chuàng)造新方法和工具,那么建議會(huì)非常不同。你需要堅(jiān)持并在你的方向上繼續(xù)進(jìn)步,你終會(huì)成功。但若你的興趣在很多情形下是多樣且靈活的,那么你會(huì)需要一個(gè)含有不同方法的大工具箱。
我認(rèn)為我得到的最好的建議是由一位斯坦福教授給出的,我不久前參加了他的課程。他建議我要有T形的競(jìng)爭(zhēng)力但在核心競(jìng)爭(zhēng)力旁要有個(gè)少許的第二競(jìng)爭(zhēng)力,這樣當(dāng)你需要或想要時(shí),你就有了生活的一條替代路線。另外,除了要有某一領(lǐng)域的垂直脈絡(luò)之外,他建議我要有足夠?qū)拸V的背景知識(shí),這樣你就能和很多不同的背景人在很多不同的情形下一起工作。因此,當(dāng)你還在上大學(xué)時(shí),建構(gòu)T形競(jìng)爭(zhēng)力附帶有另一個(gè)背景的小競(jìng)爭(zhēng)力可能是你最該做的事。
或許最重要的事是圍在比你出色的人身邊并向他們學(xué)習(xí)。這是最好的建議。如果你在上大學(xué),那正是看看人的能力是如此多樣的最好環(huán)境。如果你設(shè)法與最棒的人一起工作,那么你在任何事情上都會(huì)成功。”
12?—?Amy Heineike,PrimerAI技術(shù)副總裁,Quid數(shù)學(xué)系前主任
“我認(rèn)為也許他們需要從觀察自己,搞清楚他們真正關(guān)心什么開(kāi)始。他們想要做什么?如今,數(shù)據(jù)科學(xué)是一個(gè)有點(diǎn)熱門(mén)的話題,因而我認(rèn)為有很多人想著只要他們擁有“數(shù)據(jù)科學(xué)”的頭銜,那么魔力、幸福和金錢(qián)就會(huì)流向他們。所以我真的建議搞清楚你真正關(guān)心的是數(shù)據(jù)科學(xué)的那塊。這是你該問(wèn)你自己的第一個(gè)問(wèn)題。隨后你應(yīng)該搞明白如何精通這塊。你還要開(kāi)始考慮那些能夠發(fā)揮你這方面興趣的工作。
一個(gè)策略是深入到你需要知道的部分。我們的團(tuán)隊(duì)中有一些人是自然語(yǔ)言博士,還有一些人是物理學(xué)博士,他們會(huì)使用很多不同的分析方法。所以你可以深入一個(gè)領(lǐng)域然后找到那些你能使用相同思路解決的重要或相似的問(wèn)題。這是一個(gè)方法。另一種方法是隨便試些什么?,F(xiàn)在有很多數(shù)據(jù)集。如若你現(xiàn)在工作并且嘗試換工作,試著想一下在你當(dāng)前的任務(wù)下這兒是否有些能用的數(shù)據(jù),從而能巧妙的解決問(wèn)題?;蛘咴诩依锬阋材塬@得開(kāi)放的數(shù)據(jù)集。隨便逛逛看看能發(fā)現(xiàn)些什么然后開(kāi)始嘗試玩玩。我認(rèn)為這是個(gè)不錯(cuò)的開(kāi)始?,F(xiàn)在“數(shù)據(jù)科學(xué)”的旗號(hào)下有很多不同的角色,還有不少任務(wù)或許會(huì)讓你想到數(shù)據(jù)科學(xué)但它們還沒(méi)有頭銜,因?yàn)槿藗儾⒉槐匾褂盟鼈儭:煤每紤]你到底想要什么?!?/p>
13?—?Victor Hu,QBE Insurance數(shù)據(jù)科學(xué)主管,Next Big Sound前首席數(shù)據(jù)科學(xué)家
“首要的肯定是要能講好故事。在一天結(jié)束的時(shí)候,你要做的肯定是深入到一個(gè)系統(tǒng)、一個(gè)組織或一個(gè)產(chǎn)業(yè)如何工作的底層。但為了使它有用且能被人們所理解,你必須要講個(gè)故事。
能夠把你正在做的寫(xiě)下來(lái),能夠開(kāi)口談?wù)撃愕墓ぷ魇窍喈?dāng)關(guān)鍵的。另外值得一提的是,少點(diǎn)擔(dān)心你正在使用的算法。更多或更好的數(shù)據(jù)總能抵過(guò)一個(gè)更好的算法,所以若你能建立一種可得且可分析的大量?jī)?yōu)質(zhì),干凈,有意義的數(shù)據(jù)的方法—那可真是再好不過(guò)了。”
14?—?Kira Radinsky,eBay首席科學(xué)家兼數(shù)據(jù)科學(xué)主管,SalesPredict前技術(shù)總監(jiān)兼聯(lián)合創(chuàng)始人
“找到一個(gè)能對(duì)你感到興奮的問(wèn)題。對(duì)我來(lái)說(shuō),每次我要開(kāi)始嘗試些新東西,沒(méi)有帶著要解決的問(wèn)題地學(xué)習(xí)真的很無(wú)聊。開(kāi)始閱讀材料,并盡快著手用它來(lái)解決你的問(wèn)題。你會(huì)開(kāi)始看清問(wèn)題,這會(huì)將你引向其它學(xué)習(xí)材料,不論它們是書(shū)、論文,還是人。所以花點(diǎn)時(shí)間與問(wèn)題和人呆在一塊兒,你會(huì)感覺(jué)不錯(cuò)的。
要深入理解基礎(chǔ)知識(shí);要了解一些基本的數(shù)據(jù)結(jié)構(gòu)和計(jì)算機(jī)科學(xué);要了解你使用的工具的原理和它背后的數(shù)學(xué)知識(shí),而不是僅僅會(huì)使用它們;要了解輸入和輸出在其中的實(shí)際情況,因?yàn)椴贿@么干,你就不會(huì)知道什么時(shí)候去應(yīng)用它。另外,這取決于你正在處理的問(wèn)題。不同問(wèn)題的要使用不同工具。你應(yīng)要很好地知道每種工具適合做什么,從而知道(面對(duì)這個(gè)問(wèn)題)你應(yīng)使用怎樣的工具和技術(shù)。”
15?—?Eric Jonas,UC Berkeley電氣工程和計(jì)算機(jī)科學(xué)博士后,Salesforce前首席預(yù)測(cè)科學(xué)家
“他們應(yīng)該對(duì)概率論倒背如流。我現(xiàn)在正處于需要學(xué)習(xí)其它一切的階段,隨后我回頭再看概率論,這很好,因?yàn)樗峁┑倪@種精妙、深刻、豐富的基礎(chǔ),可以投射出其它的一切。這兒有一本由E.T. Jaynes所著的書(shū),叫Probability Theory: The Logic of Science,是我們的圣經(jīng)。我們確實(shí)在某種意義上獲得了它。我喜歡概率生成方法的原因是你能有兩個(gè)正交軸——建模軸和推理軸,這基本上轉(zhuǎn)化為如何表述我的問(wèn)題以及如何計(jì)算由根據(jù)已知數(shù)據(jù)假設(shè)的概率?從貝葉斯的角度看的好處是,你可以獨(dú)立地沿著這些軸進(jìn)行工程設(shè)計(jì)。當(dāng)然,它們不是完全獨(dú)立的,但它們近似獨(dú)立足以保證你這么處理沒(méi)有問(wèn)題。
當(dāng)我觀察如今被視為機(jī)器學(xué)習(xí)的重要組成:深度學(xué)習(xí)或者基于LASSO算法的線性回歸系統(tǒng)時(shí),它們都沿著或這條或那條軸進(jìn)行工程設(shè)計(jì)。它們都有點(diǎn)搖搖欲墜。作為一個(gè)工程師,使用這些基于LASSO算法的技術(shù)時(shí),思考像“我稍稍改變這個(gè)參數(shù),到底意味著什么?”的問(wèn)題會(huì)很困難。作為一個(gè)模型,線性回歸有著相當(dāng)清晰的線性加權(quán)高斯模型架構(gòu)。好吧,若我想讓事情變得有些不同呢?瞬間正則化最小二乘之類(lèi)的方法就全然崩潰。推理技術(shù)甚至不接受你想要做的事情?!?/p>
16?—?Jake Porwar,DataKind創(chuàng)始人兼執(zhí)行董事
“我認(rèn)為一個(gè)強(qiáng)健的統(tǒng)計(jì)學(xué)背景是個(gè)先決條件,因?yàn)槟阈枰滥阏诟尚┦裁矗⒗斫饽銟?gòu)建的模型的能力。另外,我的統(tǒng)計(jì)項(xiàng)目還教會(huì)了不少倫理道德,即我們?cè)贒ataKind考慮頗多的東西。你要經(jīng)常思索你的工作將會(huì)如何被應(yīng)用。你可以把算法應(yīng)用于任何人,你可以使用會(huì)被警察攔截盤(pán)查的數(shù)據(jù)訓(xùn)練出的模型應(yīng)用于某人,但為何如此?這挺像構(gòu)建任何新技術(shù),你需要考慮風(fēng)險(xiǎn)和收益并仔細(xì)權(quán)衡,因?yàn)槟阋獮槟愕膭?chuàng)造負(fù)責(zé)。
不論你來(lái)自哪里,只要你理解用來(lái)下結(jié)論的工具,這是你能做的最棒的事。我們現(xiàn)在都是科學(xué)家,我不僅僅談?wù)摦a(chǎn)品設(shè)計(jì)。我們都在對(duì)我們生活的這個(gè)世界下結(jié)論。這就是統(tǒng)計(jì)學(xué)—收集數(shù)據(jù)來(lái)證明一個(gè)假設(shè)或?qū)κ澜邕\(yùn)行的方式建模。如果你只是盲目地相信模型輸出的結(jié)果,那會(huì)是危險(xiǎn)的,因?yàn)檫@是你對(duì)世界的解釋?zhuān)蚨鴷?huì)像它一樣,你的認(rèn)識(shí)會(huì)是結(jié)果有缺陷的。
簡(jiǎn)而言之,學(xué)統(tǒng)計(jì)學(xué),謹(jǐn)慎行事。”
工作中的數(shù)據(jù)科學(xué)家展示了世界頂尖的數(shù)據(jù)科學(xué)家如何在紛繁繚亂的行業(yè)和應(yīng)用中游刃有余地工作—每個(gè)人都應(yīng)用自己的領(lǐng)域?qū)I(yè)知識(shí)、統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)創(chuàng)造巨大的價(jià)值和影響力。
數(shù)據(jù)正以指數(shù)級(jí)暴增,那些能夠理解數(shù)據(jù)并從中抽取價(jià)值的人會(huì)比此前任何時(shí)候都更需要。若您渴望成為下一代數(shù)據(jù)科學(xué)家,那么這些來(lái)自深思熟慮的從業(yè)者們的關(guān)于數(shù)據(jù)和模型的真知灼見(jiàn)和樂(lè)趣所在將會(huì)相當(dāng)有用。
博客原址
https://medium.com/@james_aka_yale/16-useful-advices-for-aspiring-data-scientists-804ce5611939
更多文章,關(guān)注雷鋒網(wǎng)
添加雷鋒字幕組微信號(hào)(leiphonefansub)為好友
備注「我要加入」,To be a AI Volunteer !
雷鋒網(wǎng)雷鋒網(wǎng)
相關(guān)文章:
高級(jí)數(shù)據(jù)科學(xué)家阿薩姆:如何應(yīng)對(duì)機(jī)器學(xué)習(xí)過(guò)程中的多項(xiàng)選擇問(wèn)題?| 分享總結(jié)
不會(huì)做特征工程的 AI 研究員不是好數(shù)據(jù)科學(xué)家!下篇 - 離散數(shù)據(jù)的處理方法
不會(huì)做特征工程的 AI 研究員不是好數(shù)據(jù)科學(xué)家!上篇 - 連續(xù)數(shù)據(jù)的處理方法
想成為真正的數(shù)據(jù)科學(xué)家,除了資歷你還需要這4個(gè)技能
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。