丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開(kāi)發(fā)者 正文
發(fā)私信給AI研習(xí)社-譯站
發(fā)送

0

機(jī)器學(xué)習(xí)中的數(shù)學(xué)意義

本文作者: AI研習(xí)社-譯站 2020-10-13 10:59
導(dǎo)語(yǔ):避免報(bào)告超出統(tǒng)計(jì)學(xué)意義的數(shù)字結(jié)果。

機(jī)器學(xué)習(xí)中的數(shù)學(xué)意義

字幕組雙語(yǔ)原文:機(jī)器學(xué)習(xí)中的數(shù)學(xué)意義

英語(yǔ)原文:Digit Significance in Machine Learning

翻譯:雷鋒字幕組聽(tīng)風(fēng)1996


機(jī)器學(xué)習(xí)中的用于聲稱(chēng)性能的指標(biāo)標(biāo)準(zhǔn)很少被討論。由于在這個(gè)問(wèn)題上似乎沒(méi)有一個(gè)明確的、廣泛的共識(shí),因此我認(rèn)為提供我一直在倡導(dǎo)并盡可能遵循的標(biāo)準(zhǔn)可能會(huì)很有趣。它源于這個(gè)簡(jiǎn)單的前提,這是我的科學(xué)老師從中學(xué)開(kāi)始就灌輸給我的:

科學(xué)報(bào)告的一般規(guī)則是,您寫(xiě)下的每個(gè)數(shù)字都應(yīng)為“ 真”的,因?yàn)椤?真”的定義是什么。    

讓我們來(lái)研究一下這對(duì)測(cè)試性能等統(tǒng)計(jì)量意味著什么。當(dāng)你在科學(xué)出版物中寫(xiě)下以下陳述時(shí):

測(cè)試準(zhǔn)確率為52.34%。你所表達(dá)的是,據(jù)你所知,你的模型在從測(cè)試分布中提取的未見(jiàn)數(shù)據(jù)上成功的概率在0.52335和0.52345之間。

這是一個(gè)非常強(qiáng)有力的聲明。  

考慮你的測(cè)試集是從正確的測(cè)試分布中抽取的N個(gè)樣本IID組成的。成功率可以表示為一個(gè)二項(xiàng)式變量,其平均概率p由樣本平均值估計(jì):p ? s / N

其標(biāo)準(zhǔn)差為:σ=√p(1-p)。

其中當(dāng)p=0.5時(shí),其上限為0.5。

在正態(tài)近似下,估計(jì)量的標(biāo)準(zhǔn)差為:δ=σ/√N(yùn)。

這個(gè)精度估計(jì)上的誤差δ 是這樣的,在最壞的情況下,有約50%的精度

機(jī)器學(xué)習(xí)中的數(shù)學(xué)意義

換句話說(shuō),為了保證上述報(bào)告中例子52.34%的準(zhǔn)確率,你的測(cè)試集的大小至少應(yīng)該在30M樣本的數(shù)量級(jí)上!這種粗略的分析很容易轉(zhuǎn)化為除了準(zhǔn)確率以外的任何可計(jì)算的數(shù)量,盡管不能轉(zhuǎn)化為像似然率或困惑度這樣的連續(xù)數(shù)字。

下面是一些常見(jiàn)的機(jī)器學(xué)習(xí)數(shù)據(jù)集的說(shuō)明。

在ImageNet上可以合理地報(bào)告多少位數(shù)的精度?準(zhǔn)確率在80%左右,測(cè)試集是15萬(wàn)張圖片:

√(0.8*0.2/150000) = 0.103%

這意味著你幾乎可以報(bào)告XX.X%的數(shù)字,而實(shí)際上每個(gè)人都是這樣做的。

MNIST呢,準(zhǔn)確率在99%:

√(0.99*0.01/10000) = 0.099%

噗,也報(bào)個(gè)XX.X%就OK了!

然而,最值得注意的是,在大多數(shù)情況下,性能數(shù)據(jù)并不是單獨(dú)呈現(xiàn)的,而是用來(lái)比較同一測(cè)試集上的多種方法。在這種情況下,實(shí)驗(yàn)之間的抽樣方差會(huì)被抵消,即使在樣本量較小的情況下,它們之間的準(zhǔn)確度差異也可能在統(tǒng)計(jì)學(xué)上很顯著。估計(jì)圖方差的一個(gè)簡(jiǎn)單方法是執(zhí)行bootstrap重采樣。更嚴(yán)格、通常更嚴(yán)格的檢驗(yàn)包括進(jìn)行配對(duì)差異檢驗(yàn)或更普遍的方差分析。 

報(bào)告超出其內(nèi)在精度的數(shù)字可能很具有極大的吸引力,因?yàn)樵谂c基線進(jìn)行比較的情況下,或者當(dāng)人們認(rèn)為測(cè)試集是一成不變的情況下,同時(shí)也不是從測(cè)試分布中抽取的樣本時(shí),性能數(shù)字往往更加重要。當(dāng)在生產(chǎn)中部署模型時(shí),這種做法會(huì)讓人感到驚訝,并且固定的測(cè)試集假設(shè)突然消失了,還有一些無(wú)關(guān)緊要的改進(jìn)。更普遍的是,這種做法會(huì)直接導(dǎo)致對(duì)測(cè)試集進(jìn)行過(guò)擬合。

那么,在我們的領(lǐng)域中數(shù)字為“真”意味著什么?好吧,這確實(shí)很復(fù)雜。對(duì)于工程師而言,很容易辯稱(chēng)不應(yīng)該報(bào)告的尺寸超出公差?;蛘邔?duì)于物理學(xué)家來(lái)說(shuō),物理量不應(yīng)超過(guò)測(cè)量誤差。對(duì)于機(jī)器學(xué)習(xí)從業(yè)者,我們不僅要應(yīng)對(duì)測(cè)試集的采樣不確定性,而且還要應(yīng)對(duì)獨(dú)立訓(xùn)練運(yùn)行,訓(xùn)練數(shù)據(jù)的不同初始化和改組下的模型不確定性。  

按照這個(gè)標(biāo)準(zhǔn),在機(jī)器學(xué)習(xí)中很難確定哪些數(shù)字是 "真 "的。解決辦法當(dāng)然是盡可能地報(bào)告其置信區(qū)間。置信區(qū)間是一種更精細(xì)的報(bào)告不確定性的方式,可以考慮到所有隨機(jī)性的來(lái)源,以及除簡(jiǎn)單方差之外的顯著性檢驗(yàn)。它們的存在也向你的讀者發(fā)出信號(hào),表明你已經(jīng)考慮過(guò)你所報(bào)告的內(nèi)容的意義,而不僅僅是你的代碼所得到的數(shù)字。用置信區(qū)間表示的數(shù)字可能會(huì)被報(bào)告得超出其名義上的精度,不過(guò)要注意的是,你現(xiàn)在必須考慮用多少位數(shù)來(lái)報(bào)告不確定性,正如這篇博文所解釋的那樣。一路走來(lái)都是烏龜。

數(shù)字少了,雜亂無(wú)章的東西就少了,科學(xué)性就強(qiáng)了。

避免報(bào)告超出統(tǒng)計(jì)學(xué)意義的數(shù)字結(jié)果,除非你為它們提供一個(gè)明確的置信區(qū)間。這理所當(dāng)然地被認(rèn)為是科學(xué)上的不良行為,尤其是在沒(méi)有進(jìn)行配對(duì)顯著性測(cè)試的情況下,用來(lái)論證一個(gè)數(shù)字比另一個(gè)數(shù)字好的時(shí)候。僅憑這一點(diǎn)就經(jīng)常有論文被拒絕。一個(gè)良好的習(xí)慣是對(duì)報(bào)告中帶有大量數(shù)字的準(zhǔn)確率數(shù)字始終持懷疑態(tài)度。還記得3000萬(wàn)、30萬(wàn)和30萬(wàn)的經(jīng)驗(yàn)法則對(duì)最壞情況下作為“嗅覺(jué)測(cè)試”的統(tǒng)計(jì)顯著性所需樣本數(shù)量的限制嗎?它會(huì)讓你避免追逐統(tǒng)計(jì)上的“幽靈”。 

(感謝為本文早期版本提供寶貴意見(jiàn)的一些同事)


雷鋒字幕組是一個(gè)由AI愛(ài)好者組成的翻譯團(tuán)隊(duì),匯聚五五多位志愿者的力量,分享最新的海外AI資訊,交流關(guān)于人工智能技術(shù)領(lǐng)域的行業(yè)轉(zhuǎn)變與技術(shù)創(chuàng)新的見(jiàn)解。

團(tuán)隊(duì)成員有大數(shù)據(jù)專(zhuān)家,算法工程師,圖像處理工程師,產(chǎn)品經(jīng)理,產(chǎn)品運(yùn)營(yíng),IT咨詢(xún)?nèi)耍谛熒?;志愿者們?lái)自IBM,AVL,Adobe,阿里,百度等知名企業(yè),北大,清華,港大,中科院,南卡羅萊納大學(xué),早稻田大學(xué)等海內(nèi)外高校研究所。

如果,你也是位熱愛(ài)分享的AI愛(ài)好者。歡迎與雷鋒字幕組一起,學(xué)習(xí)新知,分享成長(zhǎng)。

機(jī)器學(xué)習(xí)中的數(shù)學(xué)意義

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

機(jī)器學(xué)習(xí)中的數(shù)學(xué)意義

分享:
相關(guān)文章

知情人士

AI研習(xí)社(yanxishe.com)譯站頻道,傳播前沿人工智能知識(shí),讓語(yǔ)言不再成為學(xué)習(xí)知識(shí)的門(mén)檻。(原雷鋒字幕組)
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)