丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給楊曉凡
發(fā)送

3

如何應(yīng)對(duì)視覺(jué)深度學(xué)習(xí)存在的問(wèn)題

本文作者: 楊曉凡 2019-02-15 10:09
導(dǎo)語(yǔ):三項(xiàng)明顯的不足,我們有辦法克服嗎?

雷鋒網(wǎng) AI 科技評(píng)論按:我們經(jīng)常見(jiàn)到介紹計(jì)算機(jī)視覺(jué)領(lǐng)域的深度學(xué)習(xí)新進(jìn)展的文章,不過(guò)針對(duì)深度學(xué)習(xí)本身的研究經(jīng)常告訴我們:深度學(xué)習(xí)并不是那個(gè)最終的解決方案,它有許多問(wèn)題等待我們克服。

曾經(jīng)在 UCLA 任教,如今來(lái)到約翰霍普金斯大學(xué)的認(rèn)知科學(xué)與計(jì)算機(jī)科學(xué)教授 Alan L. Yuille 撰寫(xiě)了一篇學(xué)術(shù)報(bào)告(arxiv.org/abs/1805.04025)分析總結(jié)了他眼中深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域的優(yōu)勢(shì)和不足,也介紹了自己認(rèn)為有潛力的解決辦法。經(jīng)過(guò)近期的一次修訂之后,他也在 thegradient.pub 上發(fā)表了這篇論文的通俗介紹文章《The Limitations of Deep Learning for Vision and How We Might Fix Them》(視覺(jué)深度學(xué)習(xí)有哪些限制,我們要如何克服它們)。雷鋒網(wǎng) AI 科技評(píng)論全文翻譯如下。

如何應(yīng)對(duì)視覺(jué)深度學(xué)習(xí)存在的問(wèn)題

風(fēng)水輪流轉(zhuǎn)的深度學(xué)習(xí)

如今的深度學(xué)習(xí)熱潮已經(jīng)是第三次來(lái)臨了。上世紀(jì) 50 年代和 80 年代的兩次 AI 熱潮雖然也產(chǎn)生了不小的熱度,但很快就歸于冷清,因?yàn)槟菚r(shí)的神經(jīng)網(wǎng)絡(luò)既無(wú)法帶來(lái)多少性能提升,也沒(méi)能幫助我們?cè)黾訉?duì)生物視覺(jué)系統(tǒng)的理解。2010 年之后愈演愈烈的這次新浪潮就不一樣了,如今的神經(jīng)網(wǎng)絡(luò)在各種各樣的 bechmark 中都取得了前所未有的成績(jī),也在真實(shí)世界中得到了不少應(yīng)用。其實(shí)我們現(xiàn)在在深度學(xué)習(xí)中用到的許多基礎(chǔ)思路在第二次浪潮中就已經(jīng)出現(xiàn)了,不過(guò),也只有到了第三波浪潮中出現(xiàn)了大規(guī)模數(shù)據(jù)集、高性能計(jì)算設(shè)備(GPU)之后,它們的威力才得以發(fā)揮出來(lái)。

神經(jīng)網(wǎng)絡(luò)的起起落落也反應(yīng)了人類(lèi)對(duì)智慧的研究、以及熱門(mén)的學(xué)習(xí)算法的不斷變化。在第二次浪潮中,我們見(jiàn)證了傳統(tǒng) AI 如何夸下???、又如何交不出及格的答卷。1980 年代的第二次寒冬就這樣來(lái)了。這次寒冬中我們也見(jiàn)證了 SVM、核方法等機(jī)器學(xué)習(xí)方法的興起。如今我們會(huì)稱(chēng)贊那些在寒冬中不顧反對(duì)之聲一直堅(jiān)持研究神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)的研究人員們,但走向另一個(gè)極端的是,當(dāng)年很難發(fā)表一篇關(guān)于神經(jīng)網(wǎng)絡(luò)的論文,如何則很難發(fā)表一篇不是關(guān)于神經(jīng)網(wǎng)絡(luò)的論文。這并不是什么好的發(fā)展方式。如果研究者們能夠積極探索各種不同的方法和技術(shù),而不是一窩蜂地涌入深度學(xué)習(xí)的話,也許整個(gè) AI 領(lǐng)域可以進(jìn)步得更快一些。而且還有一件事令人擔(dān)心,如今的 AI 課程有不少已經(jīng)完全省略了舊時(shí)代的 AI 技術(shù),僅僅關(guān)注當(dāng)前趨勢(shì)的走向。

深度學(xué)習(xí)的成功與失敗

直到 2011 年 AlexNet 在 ImageNet 上帶來(lái)跨越式的表現(xiàn)提升之前,計(jì)算機(jī)視覺(jué)研究領(lǐng)域都對(duì)深度學(xué)習(xí)抱著懷疑的態(tài)度。這之后,深度學(xué)習(xí)越來(lái)越成為圖像分類(lèi)、物體檢測(cè)等許多任務(wù)中的標(biāo)準(zhǔn)工具,研究人員們提出的各種網(wǎng)絡(luò)架構(gòu)和建模、訓(xùn)練技巧也讓深度學(xué)習(xí)的表現(xiàn)越來(lái)越好。

相比于圖像分類(lèi),物體檢測(cè)任務(wù)針對(duì)的圖像通常含有一個(gè)或更多的物體,背景也更大。用于解決目標(biāo)識(shí)別任務(wù)的神經(jīng)網(wǎng)絡(luò)通常會(huì)分為兩個(gè)階段工作,第一個(gè)階段會(huì)為物體位置和大小選出一些候選邊界框,然后在第二階段中挑選出正確地包含了物體的邊界框并進(jìn)行分類(lèi)。在 ImageNet 出現(xiàn)之前,這項(xiàng)任務(wù)上表現(xiàn)最佳的方法是 PASCAL 物體檢測(cè)競(jìng)賽中的 Deformable Part Models,它也是那時(shí)候主流的物體檢測(cè)和圖像分類(lèi)算法。在各種其他計(jì)算機(jī)視覺(jué)任務(wù)中,不同架構(gòu)的深度學(xué)習(xí)模型也分別帶來(lái)了大規(guī)模的表現(xiàn)提升。

如何應(yīng)對(duì)視覺(jué)深度學(xué)習(xí)存在的問(wèn)題

深度學(xué)習(xí)方法已經(jīng)引入各種視覺(jué)任務(wù)當(dāng)中

但是,即便深度學(xué)習(xí)相比于以往的方法有很大優(yōu)勢(shì),它也并不是一種通用的解決方案。在這里,我們重點(diǎn)分析它面對(duì)的三方面的限制。

首先,深度學(xué)習(xí)絕大多數(shù)時(shí)候都需要大量標(biāo)注數(shù)據(jù)。這種方法本身的偏向性也就使得研究人員們更多研究的是那些「有充足數(shù)據(jù)的、獲取標(biāo)注很容易的任務(wù)」,而不是「真正重要的任務(wù)」

目前我們也確實(shí)有一些方法可以降低對(duì)監(jiān)督的需求,比如遷移學(xué)習(xí)、小樣本學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、弱監(jiān)督學(xué)習(xí)等等。但目前為止,這些方法的表現(xiàn)并不如監(jiān)督學(xué)習(xí)那樣令人滿(mǎn)意。

其次,深度學(xué)習(xí)在研究人員們構(gòu)建的評(píng)價(jià)數(shù)據(jù)集上表現(xiàn)良好,但對(duì)于數(shù)據(jù)集之外的真實(shí)世界圖像可能會(huì)表現(xiàn)得非常糟糕。所有的數(shù)據(jù)集都有偏向,早期的視覺(jué)數(shù)據(jù)中的偏向尤其明顯,研究人員們也很快就學(xué)會(huì)了如何利用這些偏向(比如在 Caltech101 數(shù)據(jù)集中檢測(cè)「魚(yú)」就很簡(jiǎn)單,因?yàn)橹挥羞@一類(lèi)物體的背景是水,這種情境偏向就可以被利用起來(lái))。隨著數(shù)據(jù)集變得更大、深度神經(jīng)網(wǎng)絡(luò)的表現(xiàn)越來(lái)越好,這些問(wèn)題如今稍有緩解,但仍然不容樂(lè)觀。比如下圖中,在 ImageNet 上訓(xùn)練一個(gè)能夠檢測(cè)沙發(fā)的模型,如果展示給它的圖像的視角是 ImageNet 中很少出現(xiàn)的,那么它就不一定能檢測(cè)出圖中的沙發(fā)。更具體地說(shuō),深度神經(jīng)網(wǎng)絡(luò)的偏向是對(duì)于數(shù)據(jù)集中很少出現(xiàn)的情況會(huì)表現(xiàn)很糟糕。然而在真實(shí)世界應(yīng)用中,這種偏向尤其可能帶來(lái)很多問(wèn)題,在某些情況下如果視覺(jué)系統(tǒng)出現(xiàn)失效可能會(huì)帶來(lái)嚴(yán)重的后果。舉個(gè)例子,用來(lái)訓(xùn)練自動(dòng)駕駛汽車(chē)的數(shù)據(jù)集從來(lái)就不會(huì)包含路面上坐著一個(gè)嬰兒的狀況。

如何應(yīng)對(duì)視覺(jué)深度學(xué)習(xí)存在的問(wèn)題

如何應(yīng)對(duì)視覺(jué)深度學(xué)習(xí)存在的問(wèn)題

在 UnrealCV 環(huán)境中,研究人員們變化攝像機(jī)的角度,讓 Faster-RCNN 模型識(shí)別不同角度的室內(nèi)環(huán)境照片。隨著視角變化,檢測(cè)到沙發(fā)的 AP 在 1.0 到 0.1 之間劇烈變化

第三,深度學(xué)習(xí)對(duì)于圖像中的變化過(guò)于敏感,人類(lèi)則難以被欺騙得多。我們不僅已經(jīng)知道標(biāo)準(zhǔn)的對(duì)抗性攻擊可以對(duì)圖像做出人類(lèi)無(wú)法感知的微小改變,但可以讓深度神經(jīng)網(wǎng)絡(luò)的識(shí)別結(jié)果發(fā)生徹底的變化,同時(shí)神經(jīng)網(wǎng)絡(luò)還對(duì)背景環(huán)境的變化過(guò)于敏感。下圖中,研究人眼們把不同的物體拼貼到一張森林中的猴子的照片上。這會(huì)讓深度神經(jīng)網(wǎng)絡(luò)把猴子誤識(shí)別為人,同時(shí)也把吉他誤識(shí)別為鳥(niǎo),我們猜測(cè)這大概是因?yàn)椤改弥母锌赡苁侨祟?lèi)而不是猴子」以及「樹(shù)林中的猴子周?chē)锌赡艹霈F(xiàn)一只鳥(niǎo)而不是吉他」。深度神經(jīng)網(wǎng)絡(luò)記憶相關(guān)性的能力在此時(shí)反倒成了累贅。近期有許多研究都挖掘了深度神經(jīng)網(wǎng)絡(luò)對(duì)于背景環(huán)境變化過(guò)于敏感的問(wèn)題。

如何應(yīng)對(duì)視覺(jué)深度學(xué)習(xí)存在的問(wèn)題

在照片中增加不同的物體,會(huì)影響照片中原有的猴子的識(shí)別結(jié)果

這種敏感問(wèn)題也可以歸因到數(shù)據(jù)集的大小上。對(duì)于每種物體,它在數(shù)據(jù)集中出現(xiàn)的時(shí)候?qū)?yīng)的背景也就只有很少的幾種,所以神經(jīng)網(wǎng)絡(luò)會(huì)對(duì)它們有所偏向。比如人們發(fā)現(xiàn),早期的圖像轉(zhuǎn)文字?jǐn)?shù)據(jù)集中長(zhǎng)頸鹿總是和樹(shù)一起出現(xiàn),用這樣的數(shù)據(jù)集訓(xùn)練出的模型就無(wú)法識(shí)別單獨(dú)出現(xiàn)的長(zhǎng)頸鹿,即便它在圖像中占據(jù)主體位置也不行。

但是我們畢竟沒(méi)有能力把各種各樣的背景環(huán)境收集齊全,對(duì)模型表現(xiàn)有影響的因素除了這個(gè)也還有很多別的,所以深度神經(jīng)網(wǎng)絡(luò)這樣的數(shù)據(jù)驅(qū)動(dòng)的方法就面臨了不小的問(wèn)題。想全面改善模型在這些方面的表現(xiàn)需要大得驚人的數(shù)據(jù)集,這又為構(gòu)建訓(xùn)練和測(cè)試數(shù)據(jù)集帶來(lái)了很多挑戰(zhàn)。下文我們還會(huì)聊到這個(gè)問(wèn)題。

當(dāng)數(shù)據(jù)集不夠大的時(shí)候

組合爆炸

雖然上面提到的幾個(gè)問(wèn)題都還不至于否定了深度學(xué)習(xí)的成功,但我們認(rèn)為這些都是存在問(wèn)題的早期警示信號(hào)。具體來(lái)說(shuō),真實(shí)世界的圖像是無(wú)數(shù)多種物體在無(wú)數(shù)多種背景環(huán)境中的組合,所以不管多大的數(shù)據(jù)集都無(wú)法完全代表真實(shí)世界的復(fù)雜性。

相比于人類(lèi)天然地就對(duì)視覺(jué)環(huán)境的變化有高度的適應(yīng)性,深度神經(jīng)網(wǎng)絡(luò)要敏感脆弱得多、對(duì)錯(cuò)誤的容忍度要低得多,就像上面猴子的那張圖表明的。值得說(shuō)明的是,不同物體和不同環(huán)境的各種組合在有一些視覺(jué)任務(wù)中并不會(huì)出現(xiàn),比如醫(yī)療圖像應(yīng)用,背景環(huán)境的變化要小得多(比如胰腺總是在十二指腸的附近),這時(shí)深度神經(jīng)網(wǎng)絡(luò)就可以發(fā)揮出十分優(yōu)異的表現(xiàn)。但是對(duì)于許多真實(shí)世界應(yīng)用來(lái)說(shuō),沒(méi)有隨著變量數(shù)據(jù)而指數(shù)級(jí)增加的數(shù)據(jù)集,就沒(méi)辦法捕捉到真實(shí)世界的復(fù)雜性。

這種狀況會(huì)帶來(lái)很大的挑戰(zhàn),因?yàn)椤冈谟邢迶?shù)量的隨機(jī)樣本上進(jìn)行訓(xùn)練和測(cè)試」的標(biāo)準(zhǔn)范式會(huì)變得不夠?qū)嵱茫驗(yàn)闃颖緮?shù)量永遠(yuǎn)不夠大、永遠(yuǎn)無(wú)法完全代表數(shù)據(jù)的內(nèi)在分布狀況。

這迫使我們思考這兩個(gè)問(wèn)題:

  1. 我們?nèi)绾卧跇颖緮?shù)量有限的數(shù)據(jù)集上訓(xùn)練算法,以便讓它們?cè)冢傧耄┠軌蛲耆蹲秸鎸?shí)世界復(fù)雜度的無(wú)限大數(shù)據(jù)集上也能發(fā)揮出好的表現(xiàn);

  2. 如果我們手中只有有限的數(shù)據(jù)集,我們要如何高效地測(cè)試這些算法才能確保它們?cè)跓o(wú)限大數(shù)據(jù)集上也有好的表現(xiàn)

克服組合問(wèn)題

目前形式的數(shù)據(jù)驅(qū)動(dòng)方法,比如深度神經(jīng)網(wǎng)絡(luò),可能永遠(yuǎn)也無(wú)法完善解決組合爆炸的問(wèn)題。下面我們列出一些別的有潛力的解決方案。

復(fù)合性(Compositionality)

復(fù)合性是一條通用原則,我們可以把它描述為「一種相信世界是可知的信念,我們可以把事物分解、理解它們,然后在意念中自由地重新組合它們」。這其中的關(guān)鍵假設(shè)是,事物都是按照某一套法則從基礎(chǔ)的子結(jié)構(gòu)復(fù)合成更大的結(jié)構(gòu)的。這意味著,我們可以從有限的數(shù)據(jù)中學(xué)習(xí)到子結(jié)構(gòu)和組合法則,然后把它們泛化到復(fù)合性的情境中。

和深度神經(jīng)網(wǎng)絡(luò)不同,復(fù)合性模型需要結(jié)構(gòu)化的表征,其中要顯式地表示出對(duì)象的結(jié)構(gòu)和子結(jié)構(gòu)。復(fù)合性模型也就擁有了外推到未曾見(jiàn)過(guò)的數(shù)據(jù),對(duì)系統(tǒng)做推理、干涉和診斷,以及對(duì)于同樣的知識(shí)結(jié)構(gòu)回答不同問(wèn)題的能力。值得指出的是,雖然深度神經(jīng)網(wǎng)絡(luò)也能捕捉到某種復(fù)合性(比如高級(jí)別的特征可以來(lái)自地級(jí)別特征的相應(yīng)的復(fù)合),但這與這里討論的復(fù)合性不是一回事。

如何應(yīng)對(duì)視覺(jué)深度學(xué)習(xí)存在的問(wèn)題

以驗(yàn)證碼為例,三個(gè)例子從左到右的變化和遮擋逐步增大。(c) 已經(jīng)達(dá)到 CAPTCHA 驗(yàn)證碼的難度,深度學(xué)習(xí)對(duì)這樣的驗(yàn)證碼的表現(xiàn)就要差得多,而復(fù)合性模型仍然有不錯(cuò)的表現(xiàn)

復(fù)合性模型這個(gè)概念的優(yōu)點(diǎn)已經(jīng)在一些任務(wù)上得到了初步驗(yàn)證,比如用同一個(gè)模型執(zhí)行多種任務(wù),以及識(shí)別 CAPTCHA 驗(yàn)證碼;深度神經(jīng)網(wǎng)絡(luò)就無(wú)法維持高水平的表現(xiàn)。還有一些非平凡的視覺(jué)任務(wù)也表現(xiàn)出了相同的趨勢(shì),比如用深度神經(jīng)網(wǎng)絡(luò)做 IQ 測(cè)試就不怎么成功。這項(xiàng)測(cè)試的具體內(nèi)容是,9 張圖像組成一個(gè) 3x3 的網(wǎng)格,但只給出其中的 8 張,要推測(cè)最后一張的內(nèi)容;圖像之間的變化規(guī)律是復(fù)合性的,而且會(huì)有干擾。對(duì)于神經(jīng)模塊網(wǎng)絡(luò)之類(lèi)的自然語(yǔ)言模型,由于它們具有動(dòng)態(tài)的網(wǎng)絡(luò)結(jié)構(gòu),可以捕捉到一些有意義的組合,就可以在這樣的任務(wù)中擊敗傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)。實(shí)際上,我們最近也實(shí)驗(yàn)驗(yàn)證了其中的不同模塊確實(shí)能夠在聯(lián)合訓(xùn)練后各自發(fā)揮原本設(shè)計(jì)的復(fù)合功能(比如執(zhí)行與、或、過(guò)濾操作等等)。

復(fù)合性模型也還有許多理想的理論屬性,比如可解釋,還可以用來(lái)生成樣本。這可以讓我們更方便地診斷錯(cuò)誤,也就比深度神經(jīng)網(wǎng)絡(luò)這樣的黑盒模型更難以被欺騙。但是復(fù)合性模型也很難學(xué)習(xí),因?yàn)樗枰瑫r(shí)學(xué)習(xí)基礎(chǔ)結(jié)構(gòu)和復(fù)合方法(但復(fù)合方法的本質(zhì)是什么都還有待討論)。而且,為了能夠以生成的方式進(jìn)行分析,復(fù)合性模型還需要搭配物體和場(chǎng)景的生成式模型。按分類(lèi)生成圖像到現(xiàn)在都還是一個(gè)有難度的課題。

更基礎(chǔ)地,處理組合爆炸的問(wèn)題還需要學(xué)習(xí)到三維世界事物的常識(shí)模型,以及學(xué)會(huì)這些模型和圖像的對(duì)應(yīng)關(guān)系。對(duì)人類(lèi)嬰兒的研究表明他們的學(xué)習(xí)方式是構(gòu)建能夠預(yù)測(cè)他們所在的環(huán)境(包括其中的簡(jiǎn)單幾何體)的常識(shí)模型。這種常識(shí)理解的方式讓他們能夠從有限的數(shù)據(jù)中學(xué)習(xí),并真正地泛化到全新的環(huán)境中。這就好比是牛頓的萬(wàn)有引力定律,從一些基本的數(shù)字就可以猜測(cè)出引力公式的基本形式,并推廣到太陽(yáng)系內(nèi)行星的運(yùn)動(dòng)規(guī)律,不過(guò)計(jì)算公式中的常數(shù)和精確的運(yùn)動(dòng)周期還需要大量的數(shù)據(jù)。

在組合性的數(shù)據(jù)上測(cè)試

測(cè)試視覺(jué)算法的一個(gè)潛在的挑戰(zhàn)是我們只能在有限的數(shù)據(jù)上測(cè)試,即便我們測(cè)試的算法是為了解決真實(shí)世界中巨大的組合復(fù)雜度而設(shè)計(jì)的。博弈論中對(duì)這種問(wèn)題的思考方式是關(guān)注于那些最糟糕的情況解決得如何,而不那么關(guān)注平均難度的狀況解決得如何。正如我們前面談到的,有限數(shù)據(jù)集中的平均難度的結(jié)果意義并不高,尤其是當(dāng)數(shù)據(jù)集無(wú)法完全捕捉到問(wèn)題的組合復(fù)雜性的時(shí)候。更為關(guān)注最糟糕的情況當(dāng)然是有一定理由的,比如目標(biāo)是設(shè)計(jì)自動(dòng)駕駛汽車(chē)的視覺(jué)系統(tǒng),或者在醫(yī)療圖像中診斷癌癥,失誤都是更容易在復(fù)雜的情況下出現(xiàn),出現(xiàn)以后也更可能帶來(lái)嚴(yán)重的后果。

如果失效模式可以在低維空間中捕捉到,比如可以縮小到只有兩三個(gè)因素的影響,我們就可以通過(guò)計(jì)算機(jī)圖形學(xué)和網(wǎng)格搜索的方法進(jìn)行研究。但是對(duì)于多數(shù)視覺(jué)任務(wù),尤其是涉及組合性數(shù)據(jù)的任務(wù),我們就很難分辨出來(lái)一小組影響因素并獨(dú)立地研究它們。一種策略是在標(biāo)準(zhǔn)的對(duì)抗性訓(xùn)練的基礎(chǔ)上進(jìn)行拓展,讓它也可以作用于非局部的結(jié)構(gòu),方法是允許模型對(duì)圖像的主要結(jié)構(gòu)、場(chǎng)景做復(fù)雜的操作(比如遮擋、改變圖像中對(duì)象的物理屬性),但同時(shí)不顯著改變?nèi)祟?lèi)的觀感。把這種方法拓展到視覺(jué)算法用來(lái)解決組合復(fù)雜度的問(wèn)題仍然有不小挑戰(zhàn)。不過(guò),如果我們?cè)O(shè)計(jì)算法的時(shí)候心里就注意著復(fù)合性的事情,它們的顯式結(jié)構(gòu)也可以讓我們更方便地進(jìn)行診斷并判斷它們是如何失效的。

結(jié)論

2011 年,Aude Oliva 和 Alan Yuille 共同在 MIT 的計(jì)算機(jī)視覺(jué)前沿研討會(huì)上組織了一個(gè)美國(guó)國(guó)家科學(xué)基金會(huì)資助的 workshop,他們鼓勵(lì)完全開(kāi)放地表達(dá)意見(jiàn),尤其是那時(shí)候許多人對(duì)深度神經(jīng)網(wǎng)絡(luò)的潛力還持有懷疑態(tài)度。Yann LeCun 大膽地預(yù)測(cè)所有人都很快就會(huì)開(kāi)始使用深度學(xué)習(xí);后來(lái)證明他是對(duì)的。深度神經(jīng)網(wǎng)絡(luò)非常成功,它也幫助計(jì)算機(jī)視覺(jué)變成了一個(gè)熱門(mén)的領(lǐng)域,極大地增進(jìn)了學(xué)術(shù)界和工業(yè)界之間的互動(dòng),讓計(jì)算機(jī)視覺(jué)技術(shù)進(jìn)入了許多其他的學(xué)科,還引發(fā)了許多其他重要發(fā)展。

盡管已經(jīng)獲得了這樣的成功,但是在達(dá)到通用人工智能和理解生物視覺(jué)系統(tǒng)的目標(biāo)之前,深度學(xué)習(xí)的這條路上還有重大的挑戰(zhàn)等待解決。其他批評(píng)深度神經(jīng)網(wǎng)絡(luò)的文章中也表達(dá)了和我們類(lèi)似的擔(dān)憂(yōu)。按理說(shuō),當(dāng)現(xiàn)在的研究人員們?cè)谠絹?lái)越逼近現(xiàn)實(shí)的環(huán)境中嘗試解決越來(lái)越復(fù)雜的問(wèn)題的時(shí)候,最重大的挑戰(zhàn)就是如何開(kāi)發(fā)出能夠應(yīng)對(duì)組合爆炸問(wèn)題的算法。雖然神經(jīng)網(wǎng)絡(luò)很有可能還是那個(gè)解決方案的一部分,但我們認(rèn)為我們還需要一些其他的補(bǔ)充方法,包括能夠捕捉數(shù)據(jù)中隱藏的結(jié)構(gòu)的組合性原則和因果模型。更重要的是,面對(duì)組合爆炸的問(wèn)題,我們需要仔細(xì)重新想想如何訓(xùn)練以及評(píng)價(jià)視覺(jué)算法。

原報(bào)告全文可見(jiàn) https://arxiv.org/abs/1805.04025

via thegradient.pub,雷鋒網(wǎng) AI 科技評(píng)論編譯

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

如何應(yīng)對(duì)視覺(jué)深度學(xué)習(xí)存在的問(wèn)題

分享:
相關(guān)文章

讀論文為生

日常笑點(diǎn)滴,學(xué)術(shù)死腦筋
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)