丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給MrBear
發(fā)送

0

能夠復(fù)現(xiàn)的好論文,需要具備哪些特質(zhì)?

本文作者: MrBear 編輯:幸麗娟 2020-05-13 10:50
導(dǎo)語(yǔ):論文是否能夠被復(fù)現(xiàn),是可以量化分析的。

對(duì)于每一名研究者來(lái)說(shuō),復(fù)現(xiàn)論文是理解一篇論文的必經(jīng)之路,然而也是最令人頭疼的環(huán)節(jié)。什么樣的論文可以被復(fù)現(xiàn)?什么樣的論文無(wú)法被復(fù)現(xiàn)?這實(shí)際上也是一個(gè)科學(xué)問(wèn)題。在 NeurIPS 2019 上,元科學(xué)研究者 Edward Raff 對(duì)此進(jìn)行了深入分析,揭開(kāi)了論文可復(fù)現(xiàn)性的神秘面紗。我們下面來(lái)一探究竟:

300 多年以來(lái),同行評(píng)審一直是科學(xué)研究的必要環(huán)節(jié)。但是,即使在引入同行評(píng)審機(jī)制之前,復(fù)現(xiàn)性也是科學(xué)方法的重要組成部分。

公元 800 年,Jabir Ibn 展示了第一批可復(fù)現(xiàn)實(shí)驗(yàn)。在過(guò)去的幾十年中,許多領(lǐng)域都出現(xiàn)了引起大家關(guān)注的不可復(fù)現(xiàn)實(shí)驗(yàn)結(jié)果。美國(guó)心理學(xué)會(huì)一直在努力解決作者無(wú)法提供實(shí)驗(yàn)數(shù)據(jù)的問(wèn)題(https://psycnet.apa.org/doi/10.1037/0003-066X.61.7.726)。2011 年的一項(xiàng)研究發(fā)現(xiàn),僅有 6% 的醫(yī)學(xué)研究可以被完全復(fù)現(xiàn)。2016 年,一項(xiàng)針對(duì)來(lái)自多個(gè)學(xué)科的研究人員的調(diào)查發(fā)現(xiàn),大多數(shù)研究人員未能復(fù)現(xiàn)他們之前的論文。

現(xiàn)在,在人工智能和機(jī)器學(xué)習(xí)領(lǐng)域,我們也聽(tīng)到了一些關(guān)于“可復(fù)現(xiàn)性危機(jī)”的警告。

我們不禁要問(wèn):這是真的嗎?這似乎很難以置信,因?yàn)闄C(jī)器學(xué)習(xí)技術(shù)已經(jīng)滲透到了所有智能設(shè)備中,并對(duì)影響著我們的日常生活。從告訴我們?nèi)绾瓮ㄟ^(guò)電子郵件表現(xiàn)得禮貌的實(shí)用小提示,到 Elon Musk 承諾明年面世的自動(dòng)駕駛汽車(chē),這一切都似乎在向我們證明:機(jī)器學(xué)習(xí)確實(shí)是可復(fù)現(xiàn)的。

最新的機(jī)器學(xué)習(xí)研究的可復(fù)現(xiàn)性如何?我們是否可以開(kāi)始量化分析影響其可復(fù)現(xiàn)性的因素?這個(gè)問(wèn)題促使我撰寫(xiě)了論文《A Step Toward Quantifying Independently Reproducible Machine Learning Research》(https://arxiv.org/abs/1909.06674),論文現(xiàn)已在 NeurIPS 2019 上發(fā)表。

本著「刨根問(wèn)底」的原則,在過(guò)去的八年中,我嘗試從頭開(kāi)始實(shí)現(xiàn)各種機(jī)器學(xué)習(xí)算法。最終,w完成了機(jī)器學(xué)習(xí)程序庫(kù)「JSAT」(https://github.com/EdwardRaff/JSAT)。我對(duì)于可復(fù)現(xiàn)機(jī)器學(xué)習(xí)的研究也托管在了 Mendeley(https://www.mendeley.com/)和 Github 上的個(gè)人筆記和記錄中。

有了這些數(shù)據(jù),我情不自禁地開(kāi)始量化分析并驗(yàn)證可復(fù)現(xiàn)性!不久之后,我認(rèn)識(shí)到自己未來(lái)將從事「元科學(xué)」研究,旨在研究科學(xué)本身。

一、什么是可復(fù)現(xiàn)機(jī)器學(xué)習(xí)?       能夠復(fù)現(xiàn)的好論文,需要具備哪些特質(zhì)?

圖中戴眼鏡的人并沒(méi)有直接遵循論文中的描述:https://abstrusegoose.com/588

在我們深入討論之前,很有必要先定義什么是所謂的「可復(fù)現(xiàn)性」。

理想情況下,完全的可復(fù)現(xiàn)性意味著閱讀一篇科學(xué)論文就應(yīng)該能直接讓你掌握完成以下 3 個(gè)步驟所需的所有信息:(1)設(shè)置相同的實(shí)驗(yàn);(2)遵循相同的方法;(3)獲得類(lèi)似的實(shí)驗(yàn)結(jié)果。

 如果我們可以完全基于論文中提供的信息從上面的步驟 (1)一直完成到步驟(3),我們就將這種性質(zhì)成為「獨(dú)立可復(fù)現(xiàn)性」。在本例中,因?yàn)槲覀兛梢元?dú)立得出相同的實(shí)驗(yàn)結(jié)果(完全獨(dú)立于原始論文的工作),所以我們的實(shí)驗(yàn)結(jié)果是可復(fù)現(xiàn)的。

但是,正如上面漫畫(huà)中的人物告訴我們的那樣,直接遵循論文中的內(nèi)容并不總是足以復(fù)現(xiàn)實(shí)驗(yàn)結(jié)果。如果我們不能僅僅利用論文中的信息(或者根據(jù)論文引用的之前的工作)從步驟(1)一直完成到步驟(3),我們將認(rèn)為論文不是「獨(dú)立可復(fù)現(xiàn)的」。

有些人可能會(huì)感到疑惑:為什么要將「可復(fù)現(xiàn)性」和「獨(dú)立可復(fù)現(xiàn)性」區(qū)分開(kāi)來(lái)?

幾乎所有人工智能和機(jī)器學(xué)習(xí)領(lǐng)域的研究都是以計(jì)算機(jī)代碼為基礎(chǔ)的。我們并不需要昂貴的勞動(dòng)密集型的化學(xué)合成,不需要等待細(xì)菌在培養(yǎng)皿中長(zhǎng)成,也不需要麻煩的人體實(shí)驗(yàn)。我們僅僅只需要從作者那里獲取代碼,在相同的數(shù)據(jù)上運(yùn)行這些代碼, 并得到相同的實(shí)驗(yàn)結(jié)果!

       能夠復(fù)現(xiàn)的好論文,需要具備哪些特質(zhì)?       

如果你以前從沒(méi)有閱讀過(guò)研究人員的代碼,那你會(huì)少死很多腦細(xì)胞。

我們并不喜歡找論文作者要代碼并使用它們,這不僅僅是因?yàn)楹ε率褂脹](méi)有描述文檔的研究級(jí)代碼。

Chris Drummond 將使用作者的代碼的方法描述為「可復(fù)用性」,并提出了一個(gè)非常鮮明的論點(diǎn):即我們非常需要論文能夠被復(fù)現(xiàn),但這對(duì)于好的科學(xué)工作來(lái)說(shuō),這仍然是不夠的。一篇論文應(yīng)該是具體工作的科學(xué)升華,它代表了我們所學(xué)到的和現(xiàn)在所理解的東西,從而使新的實(shí)驗(yàn)結(jié)果得以出現(xiàn)。如果我們不能在沒(méi)有作者代碼的情況下復(fù)現(xiàn)論文的結(jié)果,這可能表明論文本身并沒(méi)有成功地囊括重要的科學(xué)貢獻(xiàn)。在這之后,我們才會(huì)考慮代碼中可能存在的錯(cuò)誤,或者代碼和論文之間可能存在的不一致的地方。

去年 ICML 上發(fā)表的論文《Unreproducible Research is Reproducible》(http://proceedings.mlr.press/v97/bouthillier19a/bouthillier19a.pdf)指出,即使我們可以復(fù)現(xiàn)論文的實(shí)驗(yàn)結(jié)果,但如果我們稍微改變一下實(shí)驗(yàn)設(shè)置也可能會(huì)得到非常不同結(jié)果。

出于這些原因,我們不想考慮作者的代碼,因?yàn)檫@可能帶來(lái)偏見(jiàn)。我們希望專(zhuān)注于可復(fù)現(xiàn)性的問(wèn)題,而不是陷入復(fù)現(xiàn)論文的泥潭。

二、影響機(jī)器學(xué)習(xí)論文可復(fù)現(xiàn)性的重要因素

能夠復(fù)現(xiàn)的好論文,需要具備哪些特質(zhì)?

有些特性與可復(fù)現(xiàn)性無(wú)關(guān),但我發(fā)現(xiàn)這些特性卻最有趣。

我回顧了到 2017 年為止,我試圖實(shí)現(xiàn)的每一篇論文,并且基于兩個(gè)準(zhǔn)則對(duì)這些論文進(jìn)行了篩選:(1)這種嘗試實(shí)現(xiàn)論文的工作是否會(huì)因?yàn)榭催^(guò)發(fā)布的源代碼而帶有偏見(jiàn);(2)與作者是否有私人關(guān)系。

對(duì)于每篇論文,我盡可能多地記錄信息,以創(chuàng)建一套可以量化的特征。有一些特征是完全客觀的(論文中有多少個(gè)作者),而另一些特征則非常主觀(論文看起來(lái)是否令人驚訝?)這項(xiàng)分析的目的是獲得盡可能多的信息,這些信息可能會(huì)影響論文的可復(fù)現(xiàn)性。

為了做到這一點(diǎn),我需要嘗試復(fù)現(xiàn) 255 篇論文,最終我成功復(fù)現(xiàn)了其中的 162 篇。每篇論文都被提煉成了一個(gè)由 26 個(gè)特征組成的集合,然后我對(duì)其進(jìn)行統(tǒng)計(jì)檢驗(yàn)從而確定哪些特征是重要的。在上面的表格中,我列出了我認(rèn)為最有趣的、最重要的實(shí)驗(yàn)結(jié)果,以及我最初的反應(yīng)。

有些結(jié)果不足為奇。例如,作者的數(shù)量對(duì)于論文的可復(fù)現(xiàn)性不應(yīng)該特別重要,它們之間沒(méi)有顯著的關(guān)系。

我們可以通過(guò)調(diào)整超參數(shù)來(lái)改變算法的表現(xiàn),但是算法本身并不會(huì)學(xué)習(xí)超參數(shù)。必須由人類(lèi)設(shè)置超參數(shù)的值(或者想出一個(gè)明智的辦法來(lái)選擇該值)。

我們發(fā)現(xiàn),一篇論文是否詳細(xì)描述了用到的超參數(shù)是非常重要的(我們更可以憑直覺(jué)想到原因)。如果你不向讀者說(shuō)明超參數(shù)的設(shè)置,讀者必須自己猜測(cè)。這需要付出大量的工作、時(shí)間,并且很容易出錯(cuò)!因此,我們的一些研究成果已經(jīng)證實(shí)了研究社區(qū)為了使論文更具有可復(fù)現(xiàn)性而在追求的理念。

而更重要的是,我們現(xiàn)在可以量化說(shuō)明為什么這些是值得我們追求的。其它的發(fā)現(xiàn)也遵循基本的邏輯,比如可讀性強(qiáng)的論文更容易被復(fù)現(xiàn),這可能是由于它們更易于理解。

想更深入的探討這一問(wèn)題的讀者可以閱讀論文原文,并且論文中還有一些我認(rèn)為非常有趣的附帶的實(shí)驗(yàn)結(jié)果:要么是因?yàn)樗鼈兲魬?zhàn)了我們所「了解」的關(guān)于一篇好論文的設(shè)想,要么是它們產(chǎn)生了一些驚人的結(jié)論。所有這些結(jié)果都非常微妙,在本文中無(wú)法對(duì)它們進(jìn)行詳細(xì)解釋。

而本文提出以下這些發(fā)現(xiàn)是為了激發(fā)大家對(duì)此進(jìn)行更加深入的研究,并且回答存在的問(wèn)題。

發(fā)現(xiàn) 1:論文每一頁(yè)中的公式越少,論文的可復(fù)現(xiàn)性就越高。

       能夠復(fù)現(xiàn)的好論文,需要具備哪些特質(zhì)?       

數(shù)學(xué)對(duì)于審稿人來(lái)說(shuō)就是「貓薄荷」!讓他們不能自已! https://xkcd.com/982/

這似乎是因?yàn)樽罹呖勺x性的論文使用的公式往往最少。我們經(jīng)常看到論文出于各種各樣的原因,列舉出了許多的公式和導(dǎo)數(shù)。然而謹(jǐn)慎而合理地使用公式,似乎會(huì)讓觀點(diǎn)更易讀。這主要是因?yàn)樽髡呖梢杂羞x擇性地使用數(shù)學(xué)進(jìn)行更有效的交流。

這一結(jié)論與論文發(fā)表的激勵(lì)機(jī)制有所沖突。我曾經(jīng)不止一次地遇到審稿人要求我在論文中加入更多的數(shù)學(xué)論證,這也許是數(shù)學(xué)本身就能讓論文更具有科學(xué)性或更客觀。盡管令論文更規(guī)范似乎更好,但是它并不等同于可復(fù)現(xiàn)性。這是研究社區(qū)需要解決的文化問(wèn)題。

發(fā)現(xiàn) 2:實(shí)證論文可能比面向理論的論文更容易復(fù)現(xiàn)

關(guān)于社區(qū)中哪些地方以及需要在多大程度上實(shí)現(xiàn)規(guī)范化,機(jī)器學(xué)習(xí)社區(qū)內(nèi)存在大量的爭(zhēng)論?,F(xiàn)在遵循的指導(dǎo)思想是:作為一個(gè)社區(qū),我們關(guān)注的重點(diǎn)應(yīng)該是針對(duì)給定的對(duì)比基準(zhǔn),獲得最好的實(shí)驗(yàn)結(jié)果。

然而,在對(duì)對(duì)比基準(zhǔn)進(jìn)行優(yōu)化的過(guò)程中,我們會(huì)有失去對(duì)實(shí)際發(fā)生的事情以及這些方法為什么有效的理解的風(fēng)險(xiǎn)。通過(guò)理論分析和形式證明并不能?chē)?yán)格解釋術(shù)語(yǔ)所表達(dá)的所有內(nèi)涵。

人們普遍認(rèn)為詳細(xì)的數(shù)學(xué)證明可以確保對(duì)給定的方法有更好的理解,但有趣的是,實(shí)際上更好的數(shù)學(xué)描述并不一定能讓研究工作更容易被復(fù)現(xiàn)。需要指出的是,將理論和實(shí)證研究相結(jié)合的論文與僅僅包含實(shí)證研究的論文總體上的可復(fù)現(xiàn)率是相近的。從可復(fù)現(xiàn)性的角度來(lái)看,傾向于做實(shí)證研究是有益的,但也有可能由于產(chǎn)生了不正當(dāng)?shù)募?lì)效果或意想不到的副作用,而阻礙研究的進(jìn)展(https://openreview.net/pdf?id=rJWF0Fywf)。

發(fā)現(xiàn) 3:共享代碼并不是靈丹妙藥

我們的討論已經(jīng)涉及到了這樣一個(gè)觀點(diǎn):通過(guò)作者發(fā)布的代碼進(jìn)行復(fù)現(xiàn)與獨(dú)立復(fù)現(xiàn)并不是一回事。

我們能夠區(qū)分出這種差別嗎?我的研究表明,將代碼開(kāi)源充其量只是可復(fù)現(xiàn)性的一個(gè)較弱的指標(biāo)。隨著學(xué)術(shù)會(huì)議開(kāi)始越來(lái)越鼓勵(lì)將代碼提交和代碼檢查作為評(píng)審過(guò)程的一部分,我相信弄清楚這一點(diǎn)是很關(guān)鍵的。

作為一個(gè)研究社區(qū),我們需要了解我們這樣做的目的是什么,我們實(shí)際上在完成什么工作。如果我們被強(qiáng)制要求提交代碼以及向?qū)徃迦颂峁┰u(píng)價(jià)這些代碼的指南,我們應(yīng)該仔細(xì)思考和考慮上述二者的區(qū)別。

從其他人的反應(yīng)來(lái)看,我發(fā)現(xiàn)上述研究結(jié)果尤為值得注意。當(dāng)我在 NeurIPS 上展示論文時(shí),現(xiàn)場(chǎng)許多人對(duì)此進(jìn)行了評(píng)論。

其中一半的人認(rèn)為發(fā)布代碼與可復(fù)現(xiàn)性是相關(guān)的,另一半人則認(rèn)為二者之間顯然無(wú)關(guān)。這些旗幟鮮明的觀點(diǎn)形成了強(qiáng)烈的對(duì)比,這也正是我之所以進(jìn)行這項(xiàng)研究的最佳示例。在我們真正坐下來(lái)對(duì)這些觀點(diǎn)進(jìn)行評(píng)估時(shí),我們其實(shí)并不知道誰(shuí)對(duì)誰(shuí)錯(cuò)。

發(fā)現(xiàn) 4:論文中有沒(méi)有詳細(xì)的偽代碼對(duì)可復(fù)現(xiàn)性沒(méi)有影響

       能夠復(fù)現(xiàn)的好論文,需要具備哪些特質(zhì)?

步驟式偽代碼,它非常簡(jiǎn)潔,但需要論文中其它部分的上下文對(duì)其進(jìn)行解釋。

能夠復(fù)現(xiàn)的好論文,需要具備哪些特質(zhì)?

標(biāo)準(zhǔn)偽代碼:相對(duì)詳細(xì),基本上是自包含的,通常是數(shù)學(xué)符號(hào)

能夠復(fù)現(xiàn)的好論文,需要具備哪些特質(zhì)?

類(lèi)似實(shí)際代碼的偽代碼:幾乎都是自包含的,很容易轉(zhuǎn)換為真實(shí)代碼。

這項(xiàng)發(fā)現(xiàn)挑戰(zhàn)了我之前對(duì)于構(gòu)成一篇好論文的組成部分的設(shè)想,但當(dāng)我對(duì)這個(gè)結(jié)論進(jìn)行思考時(shí),我發(fā)現(xiàn)這越來(lái)越有意義。

在論文中的某個(gè)地方,我們必須描述工作的過(guò)程。作為一名受過(guò)訓(xùn)練的計(jì)算機(jī)科學(xué)家,我總是偏愛(ài)所謂「?jìng)未a」的描述方式。但是偽代碼可以采用許多不同的形式。

我把論文分為四類(lèi):沒(méi)有偽代碼、有步驟式偽代碼、有標(biāo)準(zhǔn)偽代碼、有類(lèi)似實(shí)際代碼的偽代碼。我匯總這四類(lèi)中被廣泛復(fù)現(xiàn)的具有代表性的論文,我這項(xiàng)研究中也使用了其中一部分論文。

當(dāng)我看到「標(biāo)準(zhǔn)偽代碼」和「類(lèi)似實(shí)際代碼的偽代碼」具有大致相同的可復(fù)現(xiàn)率時(shí),我震驚了。我驚訝地發(fā)現(xiàn),沒(méi)有一種偽代碼有很好的效果。

然而,邏輯清晰、有說(shuō)服力的寫(xiě)作對(duì)于交流工作流程還是很有效的。不那么有效的是所謂的「步驟式偽代碼」,這種偽代碼列舉出了一些步驟的條目,每一個(gè)步驟都與論文中的另一節(jié)有關(guān),然而這種步驟式偽代碼實(shí)際上會(huì)讓讀者對(duì)論文的閱讀理解更加困難,因?yàn)樽x者必須在不同的章節(jié)之間來(lái)來(lái)回回地切換,而不是沿著統(tǒng)一的順序流閱讀。

發(fā)現(xiàn) 5:給出簡(jiǎn)化的示例問(wèn)題似乎對(duì)可復(fù)現(xiàn)性沒(méi)有幫助

這是另一個(gè)令人驚訝的發(fā)現(xiàn),我仍然在研究它。

我一直很欣賞那些能夠?qū)?fù)雜的思想深入淺出地濃縮成更簡(jiǎn)單易懂的形式的作者。我也很欣賞那些給出了“游戲問(wèn)題”(toy problem)的論文?!坝螒騿?wèn)題”通過(guò)一種很容易可視化并進(jìn)行實(shí)驗(yàn)的方式舉例說(shuō)明了某些性質(zhì)。

從主觀上說(shuō),我總是發(fā)現(xiàn)簡(jiǎn)化的示例對(duì)于理解論文想要實(shí)現(xiàn)的是什么,是很有幫助的。在創(chuàng)建一個(gè)可以用于調(diào)試的的較小測(cè)試用例時(shí),復(fù)現(xiàn)這種“游戲問(wèn)題”是一種非常有用的手段。

但是從客觀的角度來(lái)看,簡(jiǎn)化示例似乎并不能使論文更具有可復(fù)現(xiàn)性。事實(shí)上,它們甚至不能使論文更具可讀性!我仍然很難理解并解釋這個(gè)結(jié)果。

這就是為什么對(duì)于研究社區(qū)來(lái)說(shuō),量化這些問(wèn)題是很重要的。如果我們不做這些量化的工作,我們就永遠(yuǎn)不會(huì)知道我們所需要做的,就是處理與手頭的研究問(wèn)題最相關(guān)的問(wèn)題。

發(fā)現(xiàn) 6:請(qǐng)查收你的電子郵件

最后,我想討論的發(fā)現(xiàn)是:回答問(wèn)題對(duì)于論文的可復(fù)現(xiàn)性有巨大的影響。這個(gè)結(jié)果是意料之中的,因?yàn)椴⒉皇撬姓撐亩紝?duì)他們的方法進(jìn)行了完美的描述。

我們給 50 個(gè)不同的作者發(fā)了電子郵件,詢(xún)問(wèn)如何復(fù)現(xiàn)它們的實(shí)驗(yàn)結(jié)果。在我沒(méi)有收到回復(fù)的 24 個(gè)案例中,我僅僅復(fù)現(xiàn)了其中一篇論文的實(shí)驗(yàn)結(jié)果(成功率約為 4%)。

對(duì)于剩下的 26 篇論文,作者給予了回復(fù),我得以成功復(fù)現(xiàn)了其中的 22 篇論文(成功率約為 85%)。我認(rèn)為這樣的實(shí)驗(yàn)結(jié)果是很有趣的,因?yàn)樗鼘?duì)論文發(fā)表的過(guò)程提出了挑戰(zhàn)。

如果我們?cè)试S已發(fā)表的論文隨著時(shí)間的推移被不斷更新,而不是成為某種「新」的論文,將會(huì)怎樣?

通過(guò)這種方式,作者可以在原始論文中將各種普遍存在的反饋和問(wèn)題考慮進(jìn)去。將論文刊登在 arXiv 上的機(jī)制已經(jīng)讓這種做法成為了可能,而在會(huì)議上發(fā)表的論文也應(yīng)該如此。這些做法可以通過(guò)提升可復(fù)現(xiàn)性潛在地推動(dòng)科學(xué)的發(fā)展,但前提是我們要落實(shí)它們。

三、我們獲得了哪些啟示?

       能夠復(fù)現(xiàn)的好論文,需要具備哪些特質(zhì)?      專(zhuān)家將其稱(chēng)之為「超參數(shù)調(diào)優(yōu)」。 https://xkcd.com/1838/

這項(xiàng)工作受到了《人工智能正面臨可復(fù)現(xiàn)性危機(jī)》一文的啟發(fā)。這種說(shuō)法是炒作嗎?還是它確實(shí)指出了人工智能領(lǐng)域的系統(tǒng)性問(wèn)題?在完成這項(xiàng)工作之后,我傾向于該領(lǐng)域仍然存在改進(jìn)空間的觀點(diǎn)。

但是,人工智能和機(jī)器學(xué)習(xí)領(lǐng)域的科學(xué)家在這方面做的比其它領(lǐng)域的科學(xué)家要好。人工智能領(lǐng)域 62% 的復(fù)現(xiàn)成功率要高于其它科學(xué)領(lǐng)域的元分析中的復(fù)現(xiàn)成功率,實(shí)際上我認(rèn)為 62% 的成功率比實(shí)際還要低一些。其他那些對(duì)我專(zhuān)業(yè)領(lǐng)域之外的研究領(lǐng)域更為熟悉的人,也許能夠在我失敗的案例上取得成功。因此,我認(rèn)為 62% 的估計(jì)是一個(gè)下限。

我想說(shuō)清楚的一點(diǎn)是:前文給出的所有實(shí)驗(yàn)結(jié)果都不應(yīng)該被看做對(duì)于什么是可復(fù)現(xiàn)的,或者什么是不可復(fù)現(xiàn)的明確聲明。有大量潛在的偏見(jiàn)可能會(huì)影響這些結(jié)果。最顯而易見(jiàn)的是,這 255 次對(duì)于可復(fù)現(xiàn)性的嘗試都是同一個(gè)人完成的。元分析師們之間對(duì)于內(nèi)部一致性并沒(méi)有社區(qū)統(tǒng)一的標(biāo)準(zhǔn)。

我認(rèn)為容易復(fù)現(xiàn)的工作對(duì)于別人來(lái)說(shuō)可能就很難,反之亦然。例如,我不能復(fù)現(xiàn)基于貝葉斯或公平性的論文,但我不相信這些領(lǐng)域的工作是完全不可復(fù)現(xiàn)的。我個(gè)人在背景、教育、資源、興趣等方面的偏見(jiàn),可能都與最終獲得的實(shí)驗(yàn)結(jié)果密不可分。

也就是說(shuō),我認(rèn)為這項(xiàng)工作為我們的研究社區(qū)當(dāng)前面臨的一系列挑戰(zhàn)提供了強(qiáng)有力的證據(jù),同時(shí)驗(yàn)證了社區(qū)中目前有許多關(guān)于可復(fù)現(xiàn)性的研究工作。最大的因素是,我們不能把所有關(guān)于所謂的可復(fù)現(xiàn)機(jī)器學(xué)習(xí)的假設(shè)都當(dāng)真。這些假設(shè)需要被檢驗(yàn),我希望這項(xiàng)工作能夠激勵(lì)其它人開(kāi)始量化和收集這些數(shù)據(jù)。

在元科學(xué)研究社區(qū)中,我們?nèi)斯ぶ悄苎芯空咛幱诤芴厥獾奈恢?,我們?fù)現(xiàn)的成本要比其它任何科學(xué)領(lǐng)域都要低得多。我們從這項(xiàng)研究中獲得的啟示,其帶來(lái)的影響可能會(huì)超出人工智能和機(jī)器學(xué)習(xí)的范疇,延伸到計(jì)算機(jī)科學(xué)的其它領(lǐng)域。

最重要的是,我認(rèn)為這項(xiàng)工作強(qiáng)調(diào)了評(píng)估科學(xué)研究的可復(fù)現(xiàn)性到底有多難。孤立地考慮每個(gè)特性是實(shí)現(xiàn)這類(lèi)分析的一種相當(dāng)簡(jiǎn)單的方法。這種分析已經(jīng)給出了一系列潛在的發(fā)現(xiàn)、意想不到的結(jié)果以及復(fù)雜度。

然而,它并沒(méi)有開(kāi)始基于作者考慮論文之間的相關(guān)性,并將數(shù)據(jù)表征為一個(gè)圖,或者甚至只是分析一下當(dāng)前特征之間的非線性相互作用!這就是我試圖將大部分?jǐn)?shù)據(jù)公開(kāi),以便其他人能夠進(jìn)行更深入分析的原因。

數(shù)據(jù)公開(kāi)地址:https://github.com/EdwardRaff/Quantifying-Independently-Reproducible-ML   能夠復(fù)現(xiàn)的好論文,需要具備哪些特質(zhì)?

最后,有人向我指出,我這項(xiàng)研究本身可能就是有史以來(lái)最不可復(fù)現(xiàn)的機(jī)器學(xué)習(xí)研究。但實(shí)際上,它引出了一系列關(guān)于我們?nèi)绾芜M(jìn)行元科學(xué)研究的問(wèn)題,研究了我們?cè)撊绾螌?shí)現(xiàn)和評(píng)估我們的研究。

因此,如果讀者想要了解更多的細(xì)節(jié)和討論,請(qǐng)參閱論文《A Step Toward Quantifying Independently Reproducible Machine Learning Research》,論文地址:https://arxiv.org/abs/1909.06674

試想一下,你自己的工作是如何融入人類(lèi)知識(shí)和科學(xué)的宏偉藍(lán)圖中的呢?隨著人工智能和機(jī)器學(xué)習(xí)研究不斷取得新的進(jìn)展,我們利用這些工作并從中學(xué)習(xí)的能力,也將高度依賴(lài)于我們將越來(lái)越多的知識(shí)提煉成易于理解的形式的能力。

與此同時(shí),我們的工作流程和系統(tǒng)必須產(chǎn)生不會(huì)誤導(dǎo)我們的可復(fù)現(xiàn)工作。期待大家加入元科學(xué)研究領(lǐng)域!

via https://thegradient.pub/independently-reproducible-machine-learning/  雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

能夠復(fù)現(xiàn)的好論文,需要具備哪些特質(zhì)?

分享:
相關(guān)文章

知情人士

當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)