丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給s5248
發(fā)送

2

「我的第一次數(shù)據(jù)科學(xué)家實習(xí)經(jīng)歷」

本文作者: s5248 編輯:楊曉凡 2018-05-16 16:03
導(dǎo)語:又一位吳恩達(dá)老師的弟子

雷鋒網(wǎng) AI 科技評論按:「數(shù)據(jù)科學(xué)家」可謂是近幾年的一大熱門職位,很多學(xué)習(xí)了數(shù)學(xué)、信息、計算機相關(guān)專業(yè)的同學(xué)都對它表示躍躍欲試。Admond Lee 學(xué)習(xí)了物理專業(yè),曾參加瑞典歐洲核子研究中心(CERN)的物理夏令營,而今他也走上了數(shù)據(jù)科學(xué)家的道路。近期他撰文回憶了自己的數(shù)據(jù)科學(xué)家實習(xí)經(jīng)歷,雷鋒網(wǎng) AI 科技評論編譯如下。

「我的第一次數(shù)據(jù)科學(xué)家實習(xí)經(jīng)歷」

Admond Lee:

在寫本文時,正是我在 Quantum Invention 做數(shù)據(jù)科學(xué)家實習(xí)生的倒數(shù)第二天。此刻,我坐在筆記本電腦屏幕前,再回想起過去幾個月的學(xué)習(xí)歷程,非常艱辛但充滿成就感。

旅程總有終點,但問題長存

––––你學(xué)到了什么?這就是你想要的嗎?

作為一個搞物理的人,請原諒我總是問正確的問題,以適當(dāng)?shù)幕卮饋韺で笳胬怼?/p>

事實上,作為一個數(shù)據(jù)科學(xué)家,提出正確的問題毫無疑問是重要的(后面將會解釋…)

給你們大致介紹下,這篇文章主要分為三個部分(實習(xí)前、實習(xí)期間和實習(xí)后)來講述我的實習(xí)旅程的經(jīng)歷。根據(jù)你的目前的學(xué)習(xí)階段可跳轉(zhuǎn)到任意部分。讓旅程開始吧!

謝謝您!當(dāng)我在 Medium 上發(fā)表的第一篇文章時,我情緒高漲。因為其受到了非常多人的大力支持,甚至因其特色而發(fā)表在了 towardsdatascience.com 。這真的成為我繼續(xù)與更多的人分享我的學(xué)習(xí)經(jīng)驗的動力,僅僅是因為學(xué)習(xí)樂趣,幫助他人變得更好!

實習(xí)之前

「我的第一次數(shù)據(jù)科學(xué)家實習(xí)經(jīng)歷」

我仍然清楚地記得,在 2017 年 11 月我的期末考試結(jié)束后,我開始閱讀課本,《統(tǒng)計機器學(xué)習(xí)入門—R語言的應(yīng)用》。這是我在基本和統(tǒng)計層面上第一次接觸到機器學(xué)習(xí)。

一旦我掌握了這些概念,我就開始學(xué)習(xí)一門流行的課程,那就是吳恩達(dá)在慕課上教的《機器學(xué)習(xí)》課程。一開始課程內(nèi)容并沒有大家預(yù)想的那么容易,但是吳恩達(dá)卻一直能抓住大家的注意力,盡管許多概念都很復(fù)雜,但都能被他簡化以便于理解消化,似乎沒有其他人能做到。我想這就是我真正學(xué)會機器學(xué)習(xí)的原因。我敢打賭,試一試你就會知道機器學(xué)習(xí)這個熱門詞匯并不像聽起來那么復(fù)雜。

同時,我還學(xué)習(xí)了人工智能的另一個重點領(lǐng)域––––深度學(xué)習(xí)?;仡櫼幌?,這個看似外來用語其究竟是什么含義,請看神經(jīng)網(wǎng)絡(luò)的解釋以及神經(jīng)網(wǎng)絡(luò)可用來計算任何函數(shù)。好了,如果讀完了推薦的文章之后,還像我一樣,總是需要某種可視化以了解事物是如何工作的,那就請點擊這里,按「播放」按鈕,坐下來,放松,觀察神經(jīng)網(wǎng)絡(luò)是如何用來做分類和回歸的。很酷,不是嗎?

所有的閱讀、學(xué)習(xí)和作業(yè)都為我 2017 年 12 月的實習(xí)做好了準(zhǔn)備。

實習(xí)期間

「我的第一次數(shù)據(jù)科學(xué)家實習(xí)經(jīng)歷」

我申請的 Quantum Invention 公司致力于利用其集成的移動性應(yīng)用套件、企業(yè)物流與分析平臺向消費者、企業(yè)和政府提供移動性情報。而我是第一個加入 R&D 和分析團隊的數(shù)據(jù)科學(xué)家實習(xí)生。

在接下來的幾天里,我認(rèn)識了許多同事,了解到各種行業(yè)術(shù)語,以及正在進行的令人興奮的項目。實習(xí)過程中我最喜歡的一點是信任和自由,作為實習(xí)生我可以自由選擇我感興趣的項目并全力以赴!

令我驚訝的是,我意識到我是第一個開始這個項目的人,因為以前沒有人這么做過。當(dāng)沒有人做過某事時,就需要研究,這是我感激的地方,盡管帶有不確定性和困難。為什么?僅僅因為我有機會體驗從零開始進行數(shù)據(jù)科學(xué)工作的整個流程(如果不是全部)。

請允許我列出我所經(jīng)歷過的這些工作流程,因為這些建立了我的數(shù)據(jù)科學(xué)基礎(chǔ)。我希望你在某一天發(fā)現(xiàn)它有用。

1. 了解商業(yè)問題

所選擇的項目是短期高速公路行駛時間預(yù)測??雌饋硭坪醴浅:唵?,然而就像我說的,問正確的問題對于數(shù)據(jù)科學(xué)家來說是非常重要的。在項目最終確定之前,提出了很多問題來真正理解真實的商業(yè)問題,包括數(shù)據(jù)來源、項目的最終目標(biāo)(甚至在我離開之后)等。從本質(zhì)上講,我們的目標(biāo)是預(yù)測未來幾分鐘在新加坡高速公路的行駛時間且要比當(dāng)前的基線估計更準(zhǔn)確。

2. 采集數(shù)據(jù)

在新項目的激勵下,我開始從數(shù)據(jù)庫和同事那里收集數(shù)據(jù)(基本上是在辦公室四處走動,詢問數(shù)據(jù)源的問題)。收集正確的數(shù)據(jù)類似于從各種不同的數(shù)據(jù)網(wǎng)站中提取數(shù)據(jù)然后進行數(shù)據(jù)預(yù)處理的情況。這是非常重要的,它能影響你在后期構(gòu)建的模型的準(zhǔn)確性。

3. 數(shù)據(jù)預(yù)處理

真實世界的數(shù)據(jù)是臟的。我們不能指望數(shù)據(jù)像 Kaggle 提供的那樣格式整潔且沒有噪聲。因此,數(shù)據(jù)預(yù)處理(其他人可能稱之為數(shù)據(jù)整理或數(shù)據(jù)清理)是非常重要的,以至于我不得不多次強調(diào)它有的重要性。它是最重要的一個階段,因為它可以占據(jù)整個工作流的 40% 到 70% 的時間,只是為了清理數(shù)據(jù)以供你的模型使用。

我喜歡數(shù)據(jù)科學(xué)的一件事是你必須對你自己誠實。當(dāng)你不知道你還不知道什么的時候,你就會開始覺得數(shù)據(jù)預(yù)處理已經(jīng)足夠干凈,并準(zhǔn)備把它用在你的模型上,此時就存在著用錯誤數(shù)據(jù)試圖建立正確模型的風(fēng)險。

換句話說,總是不斷質(zhì)疑自己,用你擁有的領(lǐng)域知識判斷數(shù)據(jù)在技術(shù)上是否是正確的,請嚴(yán)格而仔細(xì)地檢驗數(shù)據(jù),以檢查在整個數(shù)據(jù)集中任何其他的離群值,缺失或不一致的數(shù)據(jù)。

有一次,我喂給模型的數(shù)據(jù)是錯誤的,只是因為在預(yù)處理步驟中的一個簡單錯誤,在犯了這個錯誤后我特別小心。

4. 建立模型

「我的第一次數(shù)據(jù)科學(xué)家實習(xí)經(jīng)歷」

經(jīng)過研究,我提出了支持向量回歸(SVR)、多層感知器(MLP)長短期記憶網(wǎng)絡(luò)(LSTM)狀態(tài)空間神經(jīng)網(wǎng)絡(luò)(SSNN)四種模型并用在我的項目中。此處不詳細(xì)展開,你可以在許多網(wǎng)站上找到每個模型的詳細(xì)解釋的資料。

對于一個像我這種仍在學(xué)習(xí)慕客課程以及教科書的人看來,從頭開始構(gòu)建各種不同的模型是一個陡峭的學(xué)習(xí)路線。幸運的是,Scikit-learn 和 Keras(采用 Tensorflow 作為后端)算是我的一個救星,因為它們很容易讓你快速學(xué)習(xí)模型原型且是采用 Python 實現(xiàn)的。此外,我還學(xué)會了如何優(yōu)化模型及使用各種各樣的技術(shù)微調(diào)每個模型的超參數(shù)。

5. 模型的評價

為了評估每個模型的性能,我主要使用以下的一些度量:

1. 平均絕對誤差(MAE)

2. 均方誤差(MSE)

3. 決定系數(shù)(R2)

在這個階段,上述步驟 3 - 5 被重復(fù)(互換)直到確定最佳模型能夠超過基線模型的估計精度。

實習(xí)之后

「我的第一次數(shù)據(jù)科學(xué)家實習(xí)經(jīng)歷」

嗯,實習(xí)已經(jīng)印證加強了我對數(shù)據(jù)科學(xué)的熱情,我很感激我的實習(xí)工作,其確實為我將來工作帶來了一些動力。在研究和開發(fā)階段,與不同的利益相關(guān)者交談所需的溝通技巧、用數(shù)據(jù)來解決商業(yè)問題的好奇心和熱情等等方面都提高了我對此領(lǐng)域的興趣。

數(shù)據(jù)科學(xué)行業(yè)仍然很年輕,它的工作描述對我們這樣的求職者來說可能顯得模糊不清。不具備所有需要的技能是非常正常的,因為大多數(shù)工作描述是理想化的,以符合他們的最佳期望。

當(dāng)有疑問時,只要從慕課、書籍和文章(我現(xiàn)在還在做的)中學(xué)習(xí)基本原理,然后通過你自己的個人項目或?qū)嵙?xí)來運用你所學(xué)到的東西。要有耐心。學(xué)習(xí)之旅需要時間。津津有味地去開始你的學(xué)習(xí)旅程吧。因為…

 旅程總有終點,但問題長存

–––– 你學(xué)到了什么?這就是你想要的嗎?

謝謝大家的閱讀。這篇文章簡短地介紹了一些關(guān)于數(shù)據(jù)科學(xué)的流程以及我的學(xué)習(xí)之旅。如果你覺得這個有用,可以自由分享給別人,或者推薦這篇文章!=)如果你有任何問題,只需添加我,讓我們在 LinkedIn 上聊天或訪問我的個人網(wǎng)站(http://admond1994.strikingly.com/  )了解更多信息。

 「我的第一次數(shù)據(jù)科學(xué)家實習(xí)經(jīng)歷」

via  towardsdatascience.com,雷鋒網(wǎng) AI 科技評論編譯整理。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

「我的第一次數(shù)據(jù)科學(xué)家實習(xí)經(jīng)歷」

分享:
相關(guān)文章

知情人士

當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說