丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給AI研習(xí)社-譯站
發(fā)送

0

數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)面試問題集錦

本文作者: AI研習(xí)社-譯站 2018-12-24 10:37
導(dǎo)語:可怕的機(jī)器學(xué)習(xí)面試。你覺得自己什么都懂,直到你進(jìn)行了測試!但一切可以得到改變。

數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)面試問題集錦

本文為 AI 研習(xí)社編譯的技術(shù)博客,原標(biāo)題 :

Data Science and Machine Learning Interview Questions

作者 | George Seif

翻譯 | Disillusion

校對 | 醬番梨       整理 | 菠蘿妹

原文鏈接:

https://towardsdatascience.com/data-science-and-machine-learning-interview-questions-3f6207cf040b


可怕的機(jī)器學(xué)習(xí)面試。你覺得自己什么都懂,直到你進(jìn)行了測試!但一切可以得到改變。

在過去的幾個月里,我面試了許多公司涉及數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的初級職位。介紹一下我自己,以讓你對我有一定了解。我還有最后幾個月就研究生畢業(yè),我的碩士是機(jī)器學(xué)習(xí)和計算機(jī)視覺,我之前的大部分經(jīng)驗是研究/學(xué)術(shù),但在一個早期創(chuàng)業(yè)公司待過8個月(與機(jī)器學(xué)習(xí)無關(guān))。這些角色包括數(shù)據(jù)科學(xué)、通用機(jī)器學(xué)習(xí)和專精自然語言處理及計算機(jī)視覺。我面試過亞馬遜、特斯拉、三星、優(yōu)步、華為等大公司,也面試過很多從初創(chuàng)階段到資金雄厚的初創(chuàng)公司。

今天我將和大家分享我被問到過的所有面試問題以及如何應(yīng)答這些問題。許多問題都是很常見的理論,但許多其他問題相當(dāng)有創(chuàng)意。我將簡單地列出最常見的一些問題,因為網(wǎng)上有很多關(guān)于它們的資源,并將更深入地介紹一些不太常見和更刁鉆的問題。我希望通過閱讀這篇文章,你可以在機(jī)器學(xué)習(xí)面試中取得好成績,找到你夢想的工作!


  讓我們開始吧:

  • 偏差和方差之間的協(xié)調(diào)是什么?

  • 什么是梯度下降?

  • 解釋過擬合和欠擬合以及如何與之對抗?

  • 你如何對抗維度的詛咒?

  • 什么是正則化,我們?yōu)槭裁匆褂盟?,并給出一些常見方法的例子?

  • 解釋主成分分析法 (PCA)?

  • 為什么在神經(jīng)網(wǎng)絡(luò)中ReLU比Sigmoid更好更常用 ? 

  • 什么是數(shù)據(jù)標(biāo)準(zhǔn)化,我們?yōu)槭裁葱枰?nbsp; 我覺得很有必要強(qiáng)調(diào)這一題。數(shù)據(jù)標(biāo)準(zhǔn)化是非常重要的預(yù)處理步驟,用于對數(shù)值進(jìn)行調(diào)節(jié),使其擬合特定的范圍,以確保在反向傳播過程中更好地收斂。一般來說,這可以歸結(jié)為減去每個數(shù)據(jù)點的均值,再除以其標(biāo)準(zhǔn)差。如果我們不這樣做,那么一些特征(那些高量級的)將在成本函數(shù)中得到更多的權(quán)重(如果一個高量級的特征變化了1%,那么這個變化是相當(dāng)大的,但是對于較小量級的特征來說,它是相當(dāng)小的)。數(shù)據(jù)標(biāo)準(zhǔn)化使得所有特征的權(quán)重相等。  

  • 解釋降維,在哪里會用到以及它的好處?  降維是通過減少所考慮的特征變量數(shù)量來得到一組主變量(也就是重要特征)的過程。特性的重要性取決于特征變量對數(shù)據(jù)信息表示的貢獻(xiàn),并取決于你使用哪種技術(shù)。決定使用哪種技術(shù)取決于反復(fù)試驗和偏好。通常從線性技術(shù)開始,當(dāng)結(jié)果不擬合時,就轉(zhuǎn)向非線性技術(shù)。數(shù)據(jù)集降維的潛在好處有:(1)減少所需存儲空間 (2)加速計算(例如在機(jī)器學(xué)習(xí)算法),維度低意味著更少的計算,維度低也意味著可以使用不適合高維度的算法 (3)刪除冗余特征,例如沒有意義同時用平方米和平方英里來存儲地形的大小(可能是數(shù)據(jù)采集存在缺陷) (4)降低數(shù)據(jù)維度到2D或3D可能允許我們繪圖和可視化它們,如觀察模式,給我們深刻見解 (5)太多的特征或太復(fù)雜的模型可能導(dǎo)致過度擬合。  

  • 如何處理數(shù)據(jù)集中丟失或損壞的數(shù)據(jù)? 你可以在數(shù)據(jù)集中找到丟失/損壞的數(shù)據(jù),你可以刪除這些行或列,或者用另一個值替換它們。在Pandas中,有兩個非常有用的方法:isnull()和dropna(),它們將幫助您找到丟失或損壞數(shù)據(jù)的數(shù)據(jù)列,并刪除這些值。如果希望用占位符值(例如0)填充無效值,可以使用fillna()方法。  

  • 解釋這種聚類算法? 我寫了一篇很受歡迎的文章,是關(guān)于數(shù)據(jù)科學(xué)家需要知道的5種聚類算法,用各種可視化圖形詳細(xì)解釋了每種算法。  

  • 你將如何進(jìn)行探索性數(shù)據(jù)分析(EDA)? EDA的目標(biāo)是在應(yīng)用預(yù)測模型之前從數(shù)據(jù)中收集一些見解,也就是獲得一些信息?;旧希阆M砸环N從粗到細(xì)的方式進(jìn)行EDA。我們從獲得一些高層次的全局見解開始。看看一些不平衡的類??纯疵總€類的均值和方差。查看前幾行,看看它是關(guān)于什么的。運行Pandas df.info()來查看哪些特性是連續(xù)的、分類的、它們的類型(int、float、string)。接下來,刪除在分析和預(yù)測中不無用的列。這些可能是看起來無用的列,其中一個是許多行具有相同的值(即該列沒有給我們很多信息),或者它丟失了很多值。我們還可以用該列中最常見的值或中值填充缺失的值?,F(xiàn)在我們可以開始做一些基本的可視化。從高層次的東西開始。為特征是分類和有少數(shù)組的做一些條形圖。最后類的條形圖??纯醋睢皩挿旱奶卣鳌?。對這些單獨的特征創(chuàng)建一些可視化,以嘗試獲得一些基本見解?,F(xiàn)在我們可以開始更具體的。在兩個或三個特性之間創(chuàng)建可視化。特性是如何相互關(guān)聯(lián)的?你還可以用PCA查看哪些特征包含最多的信息。將一些特性組合在一起,看看它們之間的關(guān)系。例如,當(dāng)A = 0和B = 0時,類會發(fā)生什么?當(dāng)A = 1,B = 0時呢?比較不同的特征。例如,如果特征A可以是“女性”或“男性”,那么我們可以將特征A與他們呆在哪個小屋相對照,看看男性和女性是否住在不同的小屋。除了條形圖、散點圖和其他基本圖外,我們還可以繪制PDF/CDF、重疊圖等。查看一些統(tǒng)計數(shù)據(jù),如分布、p值等。最后,是時候創(chuàng)建ML模型了。從簡單的貝葉斯和線性回歸開始。如果你發(fā)現(xiàn)很糟糕或者數(shù)據(jù)是高度非線性的,那就使用多項式回歸、決策樹或者SVMs??梢愿鶕?jù)EDA中特征的重要性選擇它們。如果你有很多數(shù)據(jù),你可以使用神經(jīng)網(wǎng)絡(luò)。檢查ROC曲線。精度、回憶  。

  • 你如何知道應(yīng)該使用哪種機(jī)器學(xué)習(xí)模型?雖然人們應(yīng)該時刻牢記“天下沒有免費的午餐”,但還是有一些基本原則的。我在這里寫了一篇關(guān)于如何選擇合適的回歸模型的文章。這個備忘單也很棒!  

  • 為什么我們對圖像使用卷積而不僅僅是FC層?這個問題很有趣,因為公司通常不會問這個問題。正如你所料,我從一家專注于計算機(jī)視覺的公司得到了這個問題。這個答案有兩部分。首先,卷積保存、編碼并實際使用了圖像中的空間信息。如果我們只使用FC層,就不會有相關(guān)的空間信息。其次,卷積神經(jīng)網(wǎng)絡(luò)(CNNs)具有部分內(nèi)建的平移方差,因為每個卷積核都充當(dāng)自己的濾波器/特征檢測器。  

  • 什么使CNNs不受平移影響?如上所述,每個卷積核都充當(dāng)自己的濾波器/特征檢測器。假設(shè)你在做物體檢測,物體在圖像中的什么位置并不重要因為我們要以滑動窗口的方式對整個圖像進(jìn)行卷積。  

  • 為什么分類CNNs 有最大池化?正如你所預(yù)料的,這是為了計算機(jī)視覺中的一個角色。CNN中的最大池化允許你減少計算,因為你的特征圖在池化之后更小。你不會丟失太多的語義信息,因為你正在進(jìn)行最大限度的激活。也有一種理論認(rèn)為,最大池效應(yīng)在一定程度上增加了CNNs的不受平移影響性??纯磪嵌鬟_(dá)關(guān)于最大池化的好處視頻。  

  • 為什么分段CNNs通常具有編碼器-解碼器風(fēng)格/結(jié)構(gòu)?編碼器CNN基本上可以被認(rèn)為是一個特征提取網(wǎng)絡(luò),而解碼器利用這些信息通過“解碼”特征并向上放大到原始圖像大小來預(yù)測圖像的片段。  

  • 什么是批量標(biāo)準(zhǔn)化,它為什么有效? 深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練是復(fù)雜的,因為每一層的輸入分布在訓(xùn)練過程中會隨著前一層參數(shù)的變化而變化。批量標(biāo)準(zhǔn)化的目的是使每一層的輸入標(biāo)準(zhǔn)化,使它們的平均輸出激活為0,標(biāo)準(zhǔn)偏差為1。每一層中的每一個小批都會進(jìn)行處理,即單獨計算小批的均值和方差,然后標(biāo)準(zhǔn)化。這類似于網(wǎng)絡(luò)輸入的標(biāo)準(zhǔn)化。這有什么幫助呢?我們知道對網(wǎng)絡(luò)輸入進(jìn)行標(biāo)準(zhǔn)化有助于其學(xué)習(xí)。但是網(wǎng)絡(luò)只是一系列層,其中一層的輸出成為下一層的輸入。這意味著我們可以把神經(jīng)網(wǎng)絡(luò)中的任何一層看作是更小的后續(xù)網(wǎng)絡(luò)的第一層。我們將神經(jīng)網(wǎng)絡(luò)看作是一系列相互饋入的神經(jīng)網(wǎng)絡(luò),在應(yīng)用激活函數(shù)之前對一層的輸出進(jìn)行標(biāo)準(zhǔn)化,然后將其饋入下一層(子網(wǎng)絡(luò))。  

  • 如何處理不平衡的數(shù)據(jù)集?我有一篇關(guān)于這個的文章!

  • 為什么要使用很多小的卷積核,比如3x3,而不是幾個大的?這在VGGNet的論文中得到了很好的解釋。有兩個原因:首先,你可以使用幾個較小的內(nèi)核而不是幾個較大的內(nèi)核來獲得相同的接收域并捕獲更多的空間信息,但是使用較小的內(nèi)核可以使用較少的參數(shù)和計算。其次,因為使用更小的內(nèi)核,你將使用更多的過濾器,使用更多的激活函數(shù),因此CNN將學(xué)習(xí)到更有鑒別性的映射函數(shù)。  

  • 你還有其他相關(guān)的項目嗎?在這里,你將真正在你的研究和他們的業(yè)務(wù)之間建立聯(lián)系。你有沒有做過什么事或?qū)W過什么技能,可能與他們的業(yè)務(wù)或你申請的職位有關(guān)? 不必是100%相關(guān),只是某種程度上相關(guān),這樣你就可以證明你能夠直接為公司增加很多價值。  

  • 解釋一下你目前的碩士研究?什么成功了?沒有失敗了?未來的發(fā)展方向?和上一個問題一樣!  

數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)面試問題集錦


  結(jié)論

這就是所有我在申請數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)職位時得到的面試問題。我希望你喜歡這篇文章,并學(xué)到一些新的、有用的東西!如果你覺得學(xué)到點什么,請點贊!  


AI研習(xí)社每日更新精彩內(nèi)容,觀看更多精彩內(nèi)容:雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

五個很厲害的 CNN 架構(gòu)

一文帶你讀懂計算機(jī)視覺

用Pytorch做深度學(xué)習(xí)(第一部分)

讓神經(jīng)網(wǎng)絡(luò)說“我不知道”——用Pyro/PyTorch實現(xiàn)貝葉斯神經(jīng)網(wǎng)絡(luò)


等你來譯:

對混亂的數(shù)據(jù)進(jìn)行聚類 

初學(xué)者怎樣使用Keras進(jìn)行遷移學(xué)習(xí) 

強(qiáng)化學(xué)習(xí):通往基于情感的行為系統(tǒng) 

如果你想學(xué)數(shù)據(jù)科學(xué),這 7 類資源千萬不能錯過



雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)面試問題集錦

分享:
相關(guān)文章

知情人士

AI研習(xí)社(yanxishe.com)譯站頻道,傳播前沿人工智能知識,讓語言不再成為學(xué)習(xí)知識的門檻。(原雷鋒字幕組)
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說

<abbr id="a000x"><listing id="a000x"></listing></abbr>