丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給AI研習(xí)社-譯站
發(fā)送

0

從1數(shù)到13 ,想當(dāng)數(shù)據(jù)科學(xué)家的你這些錯(cuò)誤可別犯

本文作者: AI研習(xí)社-譯站 2018-08-09 10:00
導(dǎo)語(yǔ):數(shù)據(jù)科學(xué)家是什么?好吃嗎

雷鋒網(wǎng)按:本文為AI研習(xí)社編譯的技術(shù)博客,原標(biāo)題 13 Common Mistakes Amateur Data Scientists Make and How to Avoid Them,作者為 PRANAV DAR 。

翻譯 | 姚秀清  李照寒  郭蘊(yùn)哲      校對(duì) | 石金紅      整理 | MY


前言

當(dāng)你看這篇文章的時(shí)候,我們知道你已經(jīng)決定把數(shù)據(jù)科學(xué)當(dāng)作你的工作。當(dāng)下越來(lái)越多的企業(yè)需要數(shù)據(jù)支持其決策,世界也變得越來(lái)越緊密,幾乎每個(gè)企業(yè)都需要大量的數(shù)據(jù)科學(xué)實(shí)踐。因此,對(duì)數(shù)據(jù)科學(xué)家的需求是巨大的。當(dāng)然,人才短缺也是業(yè)內(nèi)所公認(rèn)的。

然而,成為一名數(shù)據(jù)科學(xué)家并不容易。它需要解決問題的能力、結(jié)構(gòu)化思維、編碼以及各種技術(shù)技能,才能真正成功。如果你只有非技術(shù)和非數(shù)學(xué)的背景,那么你很有可能通過(guò)書籍和視頻來(lái)學(xué)習(xí)。然而這類資源大多并沒有教你工業(yè)界對(duì)數(shù)據(jù)科學(xué)家要求的能力。

這也是渴望成功的數(shù)據(jù)科學(xué)家需要努力彌補(bǔ)自我學(xué)習(xí)與實(shí)際工作之間差距的主要原因之一。

從1數(shù)到13 ,想當(dāng)數(shù)據(jù)科學(xué)家的你這些錯(cuò)誤可別犯

在本文中,我將討論業(yè)余數(shù)據(jù)科學(xué)家所犯的常見錯(cuò)誤(我自己也犯了其中某些錯(cuò)誤),并提供了一些比較實(shí)用的資源,旨在幫助您避免數(shù)據(jù)科學(xué)中的這些陷阱。


目錄

  1. 學(xué)習(xí)理論概念而不應(yīng)用它們

  2. 不學(xué)習(xí)先決知識(shí)而直接學(xué)習(xí)機(jī)器學(xué)習(xí)技術(shù)

  3. 完全依靠認(rèn)證和學(xué)位

  4. 誤以為你在機(jī)器學(xué)習(xí)競(jìng)賽中看到的是真實(shí)的工作現(xiàn)狀

  5. 注重模型的精度勝過(guò)其適用性和可解釋性

  6. 在簡(jiǎn)歷中使用過(guò)多的數(shù)據(jù)科學(xué)術(shù)語(yǔ)

  7. 優(yōu)先考慮該使用的工具和各種庫(kù)而不是業(yè)務(wù)本身要解決的問題

  8. 沒有花費(fèi)足夠的時(shí)間去探索和可視化數(shù)據(jù)

  9. 缺乏結(jié)構(gòu)化的方法來(lái)解決問題

  10. 試圖一次學(xué)習(xí)多個(gè)工具

  11. 不能堅(jiān)持學(xué)習(xí)

  12. 遠(yuǎn)離討論和競(jìng)賽

  13. 不去提升溝通技巧


1. 學(xué)習(xí)理論概念而不應(yīng)用它們

 從1數(shù)到13 ,想當(dāng)數(shù)據(jù)科學(xué)家的你這些錯(cuò)誤可別犯

資料來(lái)源:認(rèn)知課 - YouTube

正如我在 AV 實(shí)踐問題那篇文章中提到的那樣:掌握機(jī)器學(xué)習(xí)技術(shù)背后的理論是很好的,但如果你不應(yīng)用它們,它們只是理論。當(dāng)我開始學(xué)習(xí)數(shù)據(jù)科學(xué)時(shí),我也犯了同樣的錯(cuò)誤:我學(xué)習(xí)了書籍和在線課程,但并不總是用它們來(lái)解決問題。

因此當(dāng)我有機(jī)會(huì)應(yīng)用我所學(xué)的知識(shí)去解決面臨的挑戰(zhàn)或問題時(shí),我卻忘了一大半!我們需要學(xué)習(xí)的東西有很多,比如算法、推導(dǎo)、研究論文等。你很有可能在中途失去學(xué)習(xí)動(dòng)力并放棄。我已經(jīng)看到這種情況發(fā)生在很多試圖進(jìn)入這個(gè)領(lǐng)域的人身上。


如何避免這個(gè)問題?

你必須在理論和實(shí)踐之間保持一個(gè)平衡。一旦你學(xué)習(xí)了一個(gè)概念,請(qǐng)立即訪問 Google,找到可以使用它的數(shù)據(jù)集或問題。你會(huì)發(fā)現(xiàn)這樣做之后可以更好地理解理論知識(shí)。您還可以使用 AV 的 DataHack 平臺(tái),完成上面的練習(xí)題和參與比賽。

必須承認(rèn)的是你無(wú)法通過(guò)一次學(xué)習(xí)掌握所有的東西,在練習(xí)時(shí)查漏補(bǔ)缺,這樣會(huì)使你學(xué)到更多東西!


2. 不學(xué)習(xí)先決知識(shí)而直接學(xué)習(xí)機(jī)器學(xué)習(xí)技術(shù)

從1數(shù)到13 ,想當(dāng)數(shù)據(jù)科學(xué)家的你這些錯(cuò)誤可別犯

資料來(lái)源:倫敦帝國(guó)理工學(xué)院 - YouTube

大多數(shù)立志要成為數(shù)據(jù)科學(xué)家的人都受到機(jī)器人視頻或有趣的預(yù)測(cè)模型的鼓舞,當(dāng)然也有些人是在高薪誘惑下入行的。遺憾的是(不好意思讓你們失望了?。?,在你到達(dá)那里之前,你還有一條漫長(zhǎng)的路要走。

在應(yīng)用一項(xiàng)技術(shù)解決問題之前你應(yīng)該了解其背后的工作原理,這樣做將有助于你了解算法如何工作,知道如何去微調(diào)它,并且還將幫助你在現(xiàn)有技術(shù)的基礎(chǔ)上搭建新的技術(shù)。數(shù)學(xué)在里面發(fā)揮著重要作用,因此了解某些概念總是有幫助的。在日常的企業(yè)數(shù)據(jù)科學(xué)家角色中,您可能不需要了解高級(jí)微積分,但有一個(gè)總體的了解肯定是有幫助的。

如果您有好奇心或想要進(jìn)入研究領(lǐng)域,那么在深入了解機(jī)器學(xué)習(xí)的核心技術(shù)之前,您需要了解的四個(gè)關(guān)鍵組件是:

  • 線性代數(shù)

  • 微積分

  • 統(tǒng)計(jì)學(xué)

  • 概率論

 

如何避免這個(gè)問題?

正如房子是一磚一瓦建造的,數(shù)據(jù)科學(xué)家的看家本領(lǐng)也是由掌握一個(gè)一個(gè)知識(shí)點(diǎn)開始的。有大量的資源可以幫助您學(xué)習(xí)這些知識(shí)點(diǎn)。為了幫助您入門,下面我為每個(gè)知識(shí)點(diǎn)主題列出了一個(gè)資源:

您還可以查看 Analytics Vidhya 的「數(shù)據(jù)科學(xué)入門」課程,其中包括了有關(guān)統(tǒng)計(jì)和概率的綜合模塊。


3. 完全依靠認(rèn)證和學(xué)位

從1數(shù)到13 ,想當(dāng)數(shù)據(jù)科學(xué)家的你這些錯(cuò)誤可別犯

資料來(lái)源:CIO.com

自從數(shù)據(jù)科學(xué)變得非常受歡迎以來(lái),各地的認(rèn)證和學(xué)位幾乎都出現(xiàn)了,給招聘經(jīng)理和招聘人員增加了不少煩惱。瀏覽我的 LinkedIn 資料,至少 5 張認(rèn)證圖片被我自豪地展示在那里。雖然得到這些認(rèn)證并非易事,但完全依賴它們也是非常危險(xiǎn)的。

數(shù)以萬(wàn)計(jì)渴望成功的數(shù)據(jù)科學(xué)家報(bào)名并完成了種類繁多的在線課程。如果說(shuō)完成這些課程曾經(jīng)能為你的數(shù)據(jù)科學(xué)簡(jiǎn)歷添加一些獨(dú)特的價(jià)值,那么現(xiàn)在已經(jīng)不是這種情況 了。招聘經(jīng)理對(duì)這些證書并不那么看重了, 他們更加重視你的知識(shí)結(jié)構(gòu),以及你如何在現(xiàn)實(shí)生活中應(yīng)用它們。

與客戶打交道、處理項(xiàng)目截止日期、了解數(shù)據(jù)科學(xué)項(xiàng)目的生命周期如何工作、如何設(shè)計(jì)模型以適應(yīng)現(xiàn)有業(yè)務(wù)框架,這些只是你作為一個(gè)成功的數(shù)據(jù)科學(xué)家所要做好的工作的一部分,而這些僅僅只有課程認(rèn)證或?qū)W位是不夠的。


如何避免這個(gè)問題?

不要誤解我的意思:認(rèn)證是很有價(jià)值的,但只有當(dāng)你將這些知識(shí)應(yīng)用到課堂之外并將其展示出來(lái)時(shí)才有價(jià)值。不管你對(duì)真實(shí)數(shù)據(jù)做何種分析,確保你寫下它。創(chuàng)建自己的博客、在 LinkedIn 上發(fā)布,并征求社區(qū)的反饋意見。這表明你愿意學(xué)習(xí)并且有很多想法,愿意接受別人提出的建議并將其用于你的項(xiàng)目中。

你應(yīng)該對(duì)實(shí)習(xí)持開放態(tài)度(無(wú)論你的經(jīng)驗(yàn)水平如何)。你將學(xué)習(xí)到很多關(guān)于數(shù)據(jù)科學(xué)團(tuán)隊(duì)如何工作的經(jīng)驗(yàn),這會(huì)使你在參加下一次面試時(shí)受益。

如果你正在尋找下一個(gè)項(xiàng)目,那么你來(lái)對(duì)地方了。我們有一個(gè)很棒的按難度分級(jí)的項(xiàng)目清單。現(xiàn)在就開始吧。


4. 誤以為你在機(jī)器學(xué)習(xí)競(jìng)賽中看到的是真實(shí)的工作現(xiàn)狀

從1數(shù)到13 ,想當(dāng)數(shù)據(jù)科學(xué)家的你這些錯(cuò)誤可別犯

這是近來(lái)數(shù)據(jù)科學(xué)家們最大誤解之一。競(jìng)賽和黑客馬拉松提供了相當(dāng)干凈、一塵不染的數(shù)據(jù)集(好吧,說(shuō)得是有點(diǎn)過(guò)了,懂我的意思就好)。你下載它們?nèi)缓笾纸鉀Q問題。即使這些數(shù)據(jù)集有一些缺失數(shù)值的數(shù)據(jù)列也不會(huì)多么麻煩,找到一種插補(bǔ)技術(shù)然后填空就好。

不幸的是真實(shí)世界里的項(xiàng)目并不這樣。真實(shí)世界中有一條涉及與一群人一起工作的端到端的流程。你幾乎總得和混亂、未清洗的數(shù)據(jù)打交道。俗話說(shuō)得好,“花費(fèi)你 70-80% 的時(shí)間,收集、清洗數(shù)據(jù)”是一點(diǎn)也不為過(guò)的。你會(huì)(很可能)不喜歡這個(gè)令人筋疲力盡的過(guò)程,但它最終會(huì)變成你日常工作的一部分。

此外還有一點(diǎn)我們將在下文中詳談,那就是簡(jiǎn)單的模型要優(yōu)先于任何復(fù)雜的、堆砌的集成模型。準(zhǔn)確性不總是最終目標(biāo),這是你會(huì)在工作中學(xué)到的最矛盾的事。


如何避免這個(gè)問題?

令人尷尬的是避開這個(gè)誤區(qū)的重要因素是經(jīng)驗(yàn),你獲得越多經(jīng)驗(yàn)(這種情況下實(shí)習(xí)會(huì)大有助益),你越能區(qū)分這兩者。這就是社交媒體的方便之處:多跟數(shù)據(jù)科學(xué)家們聊聊,問問他們的經(jīng)驗(yàn)。

另外,我建議看看這個(gè) Quora 問題,來(lái)自世界各地的科學(xué)家就這個(gè)問題在上邊表達(dá)了他們的看法。競(jìng)賽排行榜確實(shí)適合衡量你的學(xué)習(xí)進(jìn)度,但面試官想知道的是你怎樣去優(yōu)化一個(gè)算法來(lái)產(chǎn)生影響,而不是為優(yōu)化而優(yōu)化。學(xué)習(xí)一個(gè)數(shù)據(jù)科學(xué)項(xiàng)目如何運(yùn)轉(zhuǎn),一個(gè)團(tuán)隊(duì)里有哪些不同的角色(從數(shù)據(jù)工程師到數(shù)據(jù)架構(gòu)師),基于你的理解構(gòu)建你的回答。

閱讀這篇領(lǐng)英帖子,其中解釋了分析模型的標(biāo)準(zhǔn)方法。


5. 注重模型的精度勝過(guò)其適用性和可解釋性

從1數(shù)到13 ,想當(dāng)數(shù)據(jù)科學(xué)家的你這些錯(cuò)誤可別犯

來(lái)源:Design Shack

正如以上所述,精確度并不總是業(yè)務(wù)所追求的。固然一個(gè)能以 95% 的精確度預(yù)測(cè)貸款違約的模型相當(dāng)不錯(cuò),但若你無(wú)法解釋這個(gè)模型如何做到這一點(diǎn),什么特性使其如此,以及你在建構(gòu)模型時(shí)的思路是什么,你的客戶就會(huì)拒絕這個(gè)模型。


......

想要繼續(xù)閱讀,請(qǐng)移步至我們的AI研習(xí)社社區(qū):https://club.leiphone.com/page/TextTranslation/718

更多精彩內(nèi)容盡在 AI 研習(xí)社。

不同領(lǐng)域包括計(jì)算機(jī)視覺,語(yǔ)音語(yǔ)義,區(qū)塊鏈,自動(dòng)駕駛,數(shù)據(jù)挖掘,智能控制,編程語(yǔ)言等每日更新。

手機(jī)端可以掃描二維碼訪問

雷鋒網(wǎng)雷鋒網(wǎng)

從1數(shù)到13 ,想當(dāng)數(shù)據(jù)科學(xué)家的你這些錯(cuò)誤可別犯

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

從1數(shù)到13 ,想當(dāng)數(shù)據(jù)科學(xué)家的你這些錯(cuò)誤可別犯

分享:
相關(guān)文章

知情人士

AI研習(xí)社(yanxishe.com)譯站頻道,傳播前沿人工智能知識(shí),讓語(yǔ)言不再成為學(xué)習(xí)知識(shí)的門檻。(原雷鋒字幕組)
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)