0
本文作者: AI研習(xí)社-譯站 | 2018-08-09 10:00 |
雷鋒網(wǎng)按:本文為AI研習(xí)社編譯的技術(shù)博客,原標(biāo)題 13 Common Mistakes Amateur Data Scientists Make and How to Avoid Them,作者為 PRANAV DAR 。
翻譯 | 姚秀清 李照寒 郭蘊(yùn)哲 校對(duì) | 石金紅 整理 | MY
前言
當(dāng)你看這篇文章的時(shí)候,我們知道你已經(jīng)決定把數(shù)據(jù)科學(xué)當(dāng)作你的工作。當(dāng)下越來(lái)越多的企業(yè)需要數(shù)據(jù)支持其決策,世界也變得越來(lái)越緊密,幾乎每個(gè)企業(yè)都需要大量的數(shù)據(jù)科學(xué)實(shí)踐。因此,對(duì)數(shù)據(jù)科學(xué)家的需求是巨大的。當(dāng)然,人才短缺也是業(yè)內(nèi)所公認(rèn)的。
然而,成為一名數(shù)據(jù)科學(xué)家并不容易。它需要解決問題的能力、結(jié)構(gòu)化思維、編碼以及各種技術(shù)技能,才能真正成功。如果你只有非技術(shù)和非數(shù)學(xué)的背景,那么你很有可能通過(guò)書籍和視頻來(lái)學(xué)習(xí)。然而這類資源大多并沒有教你工業(yè)界對(duì)數(shù)據(jù)科學(xué)家要求的能力。
這也是渴望成功的數(shù)據(jù)科學(xué)家需要努力彌補(bǔ)自我學(xué)習(xí)與實(shí)際工作之間差距的主要原因之一。
在本文中,我將討論業(yè)余數(shù)據(jù)科學(xué)家所犯的常見錯(cuò)誤(我自己也犯了其中某些錯(cuò)誤),并提供了一些比較實(shí)用的資源,旨在幫助您避免數(shù)據(jù)科學(xué)中的這些陷阱。
目錄
學(xué)習(xí)理論概念而不應(yīng)用它們
不學(xué)習(xí)先決知識(shí)而直接學(xué)習(xí)機(jī)器學(xué)習(xí)技術(shù)
完全依靠認(rèn)證和學(xué)位
誤以為你在機(jī)器學(xué)習(xí)競(jìng)賽中看到的是真實(shí)的工作現(xiàn)狀
注重模型的精度勝過(guò)其適用性和可解釋性
在簡(jiǎn)歷中使用過(guò)多的數(shù)據(jù)科學(xué)術(shù)語(yǔ)
優(yōu)先考慮該使用的工具和各種庫(kù)而不是業(yè)務(wù)本身要解決的問題
沒有花費(fèi)足夠的時(shí)間去探索和可視化數(shù)據(jù)
缺乏結(jié)構(gòu)化的方法來(lái)解決問題
試圖一次學(xué)習(xí)多個(gè)工具
不能堅(jiān)持學(xué)習(xí)
遠(yuǎn)離討論和競(jìng)賽
不去提升溝通技巧
1. 學(xué)習(xí)理論概念而不應(yīng)用它們
資料來(lái)源:認(rèn)知課 - YouTube
正如我在 AV 實(shí)踐問題那篇文章中提到的那樣:掌握機(jī)器學(xué)習(xí)技術(shù)背后的理論是很好的,但如果你不應(yīng)用它們,它們只是理論。當(dāng)我開始學(xué)習(xí)數(shù)據(jù)科學(xué)時(shí),我也犯了同樣的錯(cuò)誤:我學(xué)習(xí)了書籍和在線課程,但并不總是用它們來(lái)解決問題。
因此當(dāng)我有機(jī)會(huì)應(yīng)用我所學(xué)的知識(shí)去解決面臨的挑戰(zhàn)或問題時(shí),我卻忘了一大半!我們需要學(xué)習(xí)的東西有很多,比如算法、推導(dǎo)、研究論文等。你很有可能在中途失去學(xué)習(xí)動(dòng)力并放棄。我已經(jīng)看到這種情況發(fā)生在很多試圖進(jìn)入這個(gè)領(lǐng)域的人身上。
如何避免這個(gè)問題?
你必須在理論和實(shí)踐之間保持一個(gè)平衡。一旦你學(xué)習(xí)了一個(gè)概念,請(qǐng)立即訪問 Google,找到可以使用它的數(shù)據(jù)集或問題。你會(huì)發(fā)現(xiàn)這樣做之后可以更好地理解理論知識(shí)。您還可以使用 AV 的 DataHack 平臺(tái),完成上面的練習(xí)題和參與比賽。
必須承認(rèn)的是你無(wú)法通過(guò)一次學(xué)習(xí)掌握所有的東西,在練習(xí)時(shí)查漏補(bǔ)缺,這樣會(huì)使你學(xué)到更多東西!
2. 不學(xué)習(xí)先決知識(shí)而直接學(xué)習(xí)機(jī)器學(xué)習(xí)技術(shù)
資料來(lái)源:倫敦帝國(guó)理工學(xué)院 - YouTube
大多數(shù)立志要成為數(shù)據(jù)科學(xué)家的人都受到機(jī)器人視頻或有趣的預(yù)測(cè)模型的鼓舞,當(dāng)然也有些人是在高薪誘惑下入行的。遺憾的是(不好意思讓你們失望了?。?,在你到達(dá)那里之前,你還有一條漫長(zhǎng)的路要走。
在應(yīng)用一項(xiàng)技術(shù)解決問題之前你應(yīng)該了解其背后的工作原理,這樣做將有助于你了解算法如何工作,知道如何去微調(diào)它,并且還將幫助你在現(xiàn)有技術(shù)的基礎(chǔ)上搭建新的技術(shù)。數(shù)學(xué)在里面發(fā)揮著重要作用,因此了解某些概念總是有幫助的。在日常的企業(yè)數(shù)據(jù)科學(xué)家角色中,您可能不需要了解高級(jí)微積分,但有一個(gè)總體的了解肯定是有幫助的。
如果您有好奇心或想要進(jìn)入研究領(lǐng)域,那么在深入了解機(jī)器學(xué)習(xí)的核心技術(shù)之前,您需要了解的四個(gè)關(guān)鍵組件是:
線性代數(shù)
微積分
統(tǒng)計(jì)學(xué)
概率論
如何避免這個(gè)問題?
正如房子是一磚一瓦建造的,數(shù)據(jù)科學(xué)家的看家本領(lǐng)也是由掌握一個(gè)一個(gè)知識(shí)點(diǎn)開始的。有大量的資源可以幫助您學(xué)習(xí)這些知識(shí)點(diǎn)。為了幫助您入門,下面我為每個(gè)知識(shí)點(diǎn)主題列出了一個(gè)資源:
您還可以查看 Analytics Vidhya 的「數(shù)據(jù)科學(xué)入門」課程,其中包括了有關(guān)統(tǒng)計(jì)和概率的綜合模塊。
3. 完全依靠認(rèn)證和學(xué)位
資料來(lái)源:CIO.com
自從數(shù)據(jù)科學(xué)變得非常受歡迎以來(lái),各地的認(rèn)證和學(xué)位幾乎都出現(xiàn)了,給招聘經(jīng)理和招聘人員增加了不少煩惱。瀏覽我的 LinkedIn 資料,至少 5 張認(rèn)證圖片被我自豪地展示在那里。雖然得到這些認(rèn)證并非易事,但完全依賴它們也是非常危險(xiǎn)的。
數(shù)以萬(wàn)計(jì)渴望成功的數(shù)據(jù)科學(xué)家報(bào)名并完成了種類繁多的在線課程。如果說(shuō)完成這些課程曾經(jīng)能為你的數(shù)據(jù)科學(xué)簡(jiǎn)歷添加一些獨(dú)特的價(jià)值,那么現(xiàn)在已經(jīng)不是這種情況 了。招聘經(jīng)理對(duì)這些證書并不那么看重了, 他們更加重視你的知識(shí)結(jié)構(gòu),以及你如何在現(xiàn)實(shí)生活中應(yīng)用它們。
與客戶打交道、處理項(xiàng)目截止日期、了解數(shù)據(jù)科學(xué)項(xiàng)目的生命周期如何工作、如何設(shè)計(jì)模型以適應(yīng)現(xiàn)有業(yè)務(wù)框架,這些只是你作為一個(gè)成功的數(shù)據(jù)科學(xué)家所要做好的工作的一部分,而這些僅僅只有課程認(rèn)證或?qū)W位是不夠的。
如何避免這個(gè)問題?
不要誤解我的意思:認(rèn)證是很有價(jià)值的,但只有當(dāng)你將這些知識(shí)應(yīng)用到課堂之外并將其展示出來(lái)時(shí)才有價(jià)值。不管你對(duì)真實(shí)數(shù)據(jù)做何種分析,確保你寫下它。創(chuàng)建自己的博客、在 LinkedIn 上發(fā)布,并征求社區(qū)的反饋意見。這表明你愿意學(xué)習(xí)并且有很多想法,愿意接受別人提出的建議并將其用于你的項(xiàng)目中。
你應(yīng)該對(duì)實(shí)習(xí)持開放態(tài)度(無(wú)論你的經(jīng)驗(yàn)水平如何)。你將學(xué)習(xí)到很多關(guān)于數(shù)據(jù)科學(xué)團(tuán)隊(duì)如何工作的經(jīng)驗(yàn),這會(huì)使你在參加下一次面試時(shí)受益。
如果你正在尋找下一個(gè)項(xiàng)目,那么你來(lái)對(duì)地方了。我們有一個(gè)很棒的按難度分級(jí)的項(xiàng)目清單。現(xiàn)在就開始吧。
4. 誤以為你在機(jī)器學(xué)習(xí)競(jìng)賽中看到的是真實(shí)的工作現(xiàn)狀
這是近來(lái)數(shù)據(jù)科學(xué)家們最大誤解之一。競(jìng)賽和黑客馬拉松提供了相當(dāng)干凈、一塵不染的數(shù)據(jù)集(好吧,說(shuō)得是有點(diǎn)過(guò)了,懂我的意思就好)。你下載它們?nèi)缓笾纸鉀Q問題。即使這些數(shù)據(jù)集有一些缺失數(shù)值的數(shù)據(jù)列也不會(huì)多么麻煩,找到一種插補(bǔ)技術(shù)然后填空就好。
不幸的是真實(shí)世界里的項(xiàng)目并不這樣。真實(shí)世界中有一條涉及與一群人一起工作的端到端的流程。你幾乎總得和混亂、未清洗的數(shù)據(jù)打交道。俗話說(shuō)得好,“花費(fèi)你 70-80% 的時(shí)間,收集、清洗數(shù)據(jù)”是一點(diǎn)也不為過(guò)的。你會(huì)(很可能)不喜歡這個(gè)令人筋疲力盡的過(guò)程,但它最終會(huì)變成你日常工作的一部分。
此外還有一點(diǎn)我們將在下文中詳談,那就是簡(jiǎn)單的模型要優(yōu)先于任何復(fù)雜的、堆砌的集成模型。準(zhǔn)確性不總是最終目標(biāo),這是你會(huì)在工作中學(xué)到的最矛盾的事。
如何避免這個(gè)問題?
令人尷尬的是避開這個(gè)誤區(qū)的重要因素是經(jīng)驗(yàn),你獲得越多經(jīng)驗(yàn)(這種情況下實(shí)習(xí)會(huì)大有助益),你越能區(qū)分這兩者。這就是社交媒體的方便之處:多跟數(shù)據(jù)科學(xué)家們聊聊,問問他們的經(jīng)驗(yàn)。
另外,我建議看看這個(gè) Quora 問題,來(lái)自世界各地的科學(xué)家就這個(gè)問題在上邊表達(dá)了他們的看法。競(jìng)賽排行榜確實(shí)適合衡量你的學(xué)習(xí)進(jìn)度,但面試官想知道的是你怎樣去優(yōu)化一個(gè)算法來(lái)產(chǎn)生影響,而不是為優(yōu)化而優(yōu)化。學(xué)習(xí)一個(gè)數(shù)據(jù)科學(xué)項(xiàng)目如何運(yùn)轉(zhuǎn),一個(gè)團(tuán)隊(duì)里有哪些不同的角色(從數(shù)據(jù)工程師到數(shù)據(jù)架構(gòu)師),基于你的理解構(gòu)建你的回答。
閱讀這篇領(lǐng)英帖子,其中解釋了分析模型的標(biāo)準(zhǔn)方法。
5. 注重模型的精度勝過(guò)其適用性和可解釋性
來(lái)源:Design Shack
正如以上所述,精確度并不總是業(yè)務(wù)所追求的。固然一個(gè)能以 95% 的精確度預(yù)測(cè)貸款違約的模型相當(dāng)不錯(cuò),但若你無(wú)法解釋這個(gè)模型如何做到這一點(diǎn),什么特性使其如此,以及你在建構(gòu)模型時(shí)的思路是什么,你的客戶就會(huì)拒絕這個(gè)模型。
......
想要繼續(xù)閱讀,請(qǐng)移步至我們的AI研習(xí)社社區(qū):https://club.leiphone.com/page/TextTranslation/718
更多精彩內(nèi)容盡在 AI 研習(xí)社。
不同領(lǐng)域包括計(jì)算機(jī)視覺,語(yǔ)音語(yǔ)義,區(qū)塊鏈,自動(dòng)駕駛,數(shù)據(jù)挖掘,智能控制,編程語(yǔ)言等每日更新。
手機(jī)端可以掃描二維碼訪問
雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。