丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

溫故而知新,6位頂級(jí)CV科學(xué)家聚首:計(jì)算機(jī)視覺中的深度學(xué)習(xí)方法vs傳統(tǒng)方法

本文作者: 我在思考中 2021-12-06 15:20
導(dǎo)語(yǔ):了解智能學(xué)科的發(fā)展歷史有助于我們成為更好的研究者!

溫故而知新,6位頂級(jí)CV科學(xué)家聚首:計(jì)算機(jī)視覺中的深度學(xué)習(xí)方法vs傳統(tǒng)方法

作者 | Mr Bear

編輯 | 青暮

2021 年 10 月 13 日,來自麻省理工學(xué)院、加州大學(xué)伯克利分校、伊利諾伊大學(xué)香檳分校、華盛頓大學(xué)、帝國(guó)理工學(xué)院的六名頂級(jí)人工智能科學(xué)家、計(jì)算機(jī)視覺科學(xué)家在 ICCV 2021 大會(huì)期間進(jìn)行了題為「A discussion about deep learning vs classical methods and their roles in computer vision」的學(xué)術(shù)討論。

參與討論的嘉賓包括 Aude Oliva(MIT-IBM Watson 人工智能實(shí)驗(yàn)室)、Svetlana Lazebnik(伊利諾伊大學(xué)香檳分校)、Jitendra Malik(加州大學(xué)伯克利分校)、Andrew Davison(帝國(guó)理工大學(xué))、Richard Szeliski(華盛頓大學(xué))、Alexei Efros(加州大學(xué)伯克利分校)。



1

深度學(xué)習(xí) vs 傳統(tǒng)方法

溫故而知新,6位頂級(jí)CV科學(xué)家聚首:計(jì)算機(jī)視覺中的深度學(xué)習(xí)方法vs傳統(tǒng)方法

Richard Szeliski 首先拋磚引玉,發(fā)表了題為「Deep vs Classical Methods」的簡(jiǎn)短演講。Richard 提到,在設(shè)置人工智能專業(yè)課程時(shí),一個(gè)廣為討論的話題是:我們是否應(yīng)該講授深度學(xué)習(xí)之前的傳統(tǒng)方法?還是直接通過深度學(xué)習(xí)解決所有的問題?

為此,Richard 在過去的四年中持續(xù)更新他的計(jì)算機(jī)視覺教科書(https://szeliski.org/Book)。相較于早先的版本,該書加入了信號(hào)處理、優(yōu)化技術(shù)等章節(jié),這些知識(shí)經(jīng)常被用于計(jì)算機(jī)視覺的各個(gè)領(lǐng)域。在「Deep Learning」和「Recognition」兩個(gè)章節(jié)中,Richard 分別介紹了深度學(xué)習(xí)的基本原理(傳統(tǒng)的網(wǎng)絡(luò)架構(gòu)),以及一些更加復(fù)雜的技術(shù)(例如,分割、目標(biāo)檢測(cè)、視覺和語(yǔ)言)。

溫故而知新,6位頂級(jí)CV科學(xué)家聚首:計(jì)算機(jī)視覺中的深度學(xué)習(xí)方法vs傳統(tǒng)方法

實(shí)際上,在華盛頓大學(xué)「計(jì)算機(jī)視覺」的課程安排中,老師們會(huì)首先介紹經(jīng)典的信號(hào)處理算法,接著介紹神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)。在此基礎(chǔ)上,老師們會(huì)進(jìn)而講解一些經(jīng)典的技術(shù)和應(yīng)用(例如,3D 計(jì)算攝影、神經(jīng)渲染等)。

溫故而知新,6位頂級(jí)CV科學(xué)家聚首:計(jì)算機(jī)視覺中的深度學(xué)習(xí)方法vs傳統(tǒng)方法

密歇根大學(xué)的計(jì)算機(jī)視覺課程 EECS 442 將期中的很大一部分內(nèi)容設(shè)置為深度學(xué)習(xí)相關(guān)的內(nèi)容,但在此之前也會(huì)介紹經(jīng)典的信號(hào)處理、特征提取技術(shù)。最后,教師會(huì)講解 3D 視覺和經(jīng)典計(jì)算機(jī)視覺的內(nèi)容。此外,這門課的任課教師 Justin Johnson 還專門針對(duì)神經(jīng)網(wǎng)絡(luò)開設(shè)了一門課程,更為詳細(xì)地介紹了循環(huán)神經(jīng)網(wǎng)絡(luò)、Transformer 等內(nèi)容。

溫故而知新,6位頂級(jí)CV科學(xué)家聚首:計(jì)算機(jī)視覺中的深度學(xué)習(xí)方法vs傳統(tǒng)方法

盡管深度學(xué)習(xí)已經(jīng)成為了計(jì)算機(jī)視覺領(lǐng)域的主流方法,但是僅僅依靠深度學(xué)習(xí)技術(shù)是否能解決所有的計(jì)算機(jī)視覺問題呢?在論文「What Do Single-view 3D Reconstruction Networks Learn?」中,在基于 ShapeNet 進(jìn)行 3D 重建時(shí),網(wǎng)絡(luò)只是在識(shí)別對(duì)象的類別,然后細(xì)化形狀,并沒有很好地利用圖像的底層信息。

溫故而知新,6位頂級(jí)CV科學(xué)家聚首:計(jì)算機(jī)視覺中的深度學(xué)習(xí)方法vs傳統(tǒng)方法

以視覺定位任務(wù)為例,一些基于深度學(xué)習(xí)的方法只是記住了圖片出現(xiàn)的場(chǎng)景,在定位時(shí)進(jìn)行猜測(cè)。如果查詢并沒有沿著路徑,則回歸的結(jié)果可能始終會(huì)被引導(dǎo)到出發(fā)點(diǎn)。該過程中并沒有任何的 3D 推理,沒有利用 3D 幾何結(jié)構(gòu)。

溫故而知新,6位頂級(jí)CV科學(xué)家聚首:計(jì)算機(jī)視覺中的深度學(xué)習(xí)方法vs傳統(tǒng)方法

另一方面,利用語(yǔ)義信息完成 3D 重建等任務(wù)也是一條很好的思路。論文「Joint 3D Scene Reconstruction and Class Segmentation」發(fā)表于 2013 年,那時(shí)是深度學(xué)習(xí)興起的早期階段。通過識(shí)別建筑和樹的部位,該方法可以更好地進(jìn)行 3D 重建,這說明有時(shí)引入語(yǔ)義信息是十分有效的。

溫故而知新,6位頂級(jí)CV科學(xué)家聚首:計(jì)算機(jī)視覺中的深度學(xué)習(xí)方法vs傳統(tǒng)方法

在單目深度估計(jì)任務(wù)中,我們往往在 KITTI 數(shù)據(jù)集或一些駕駛場(chǎng)景中進(jìn)行訓(xùn)練和測(cè)試。大多數(shù)的神經(jīng)網(wǎng)絡(luò)模型只是識(shí)別物體在圖像中的位置,然后為其賦予一個(gè)相應(yīng)的深度。如果我們將一個(gè)網(wǎng)絡(luò)沒見過的物體(例如,冰箱或狗)放在路的中間,神經(jīng)網(wǎng)絡(luò)可能會(huì)完全忽略掉該物體。在駕駛場(chǎng)景下使用這種神經(jīng)網(wǎng)絡(luò)模型的安全性值得商榷。

溫故而知新,6位頂級(jí)CV科學(xué)家聚首:計(jì)算機(jī)視覺中的深度學(xué)習(xí)方法vs傳統(tǒng)方法

當(dāng)我們可以用一個(gè)很大的數(shù)據(jù)集訓(xùn)練時(shí),神經(jīng)網(wǎng)絡(luò)往往可以表現(xiàn)出很好的性能。然而,如果我們?cè)谀硞€(gè)數(shù)據(jù)集上訓(xùn)練網(wǎng)絡(luò),該網(wǎng)絡(luò)在不被重新訓(xùn)練的情況下會(huì)在另外的數(shù)據(jù)集上表現(xiàn)出怎樣的性能?

溫故而知新,6位頂級(jí)CV科學(xué)家聚首:計(jì)算機(jī)視覺中的深度學(xué)習(xí)方法vs傳統(tǒng)方法

經(jīng)典方法(例如,光流法)和用于提取特征的神經(jīng)網(wǎng)絡(luò)技術(shù)可以很好地結(jié)合起來。因此,許多深度學(xué)習(xí)技術(shù)使傳統(tǒng)方法獲得了新生。論文「PWC-Net」的作者使用前饋神經(jīng)網(wǎng)絡(luò)代替了經(jīng)典的能量最小化方法,該模型運(yùn)行速度更快,也更可靠。此外,在論文「Fast Image Processing with Fully-Convolutional Networks」中,作者使用全卷積網(wǎng)絡(luò)代替一系列經(jīng)典的計(jì)算攝影技術(shù),加速了其運(yùn)算過程。

溫故而知新,6位頂級(jí)CV科學(xué)家聚首:計(jì)算機(jī)視覺中的深度學(xué)習(xí)方法vs傳統(tǒng)方法

在論文「Animating Picture with Eulerian Motion Fields」中,Richard 等人通過提取神經(jīng)網(wǎng)絡(luò)特征,接著將這些特征解碼為彩色像素來合成圖像。

溫故而知新,6位頂級(jí)CV科學(xué)家聚首:計(jì)算機(jī)視覺中的深度學(xué)習(xí)方法vs傳統(tǒng)方法

在 Richard 看來,從事 CV 研究的學(xué)生和工程師不僅僅要會(huì)使用深度學(xué)習(xí)方法,也要學(xué)習(xí)其它類型的 CV 技術(shù)。如果我們可以從數(shù)學(xué)上對(duì)幾何、光學(xué)、物理等性質(zhì)建模,就要大膽地使用這些方法,它們的性能和泛化能力更強(qiáng)。尤其是當(dāng)我們擁有的數(shù)據(jù)十分有限時(shí),使用基于學(xué)習(xí)的方法就要特別小心。有時(shí),神經(jīng)網(wǎng)絡(luò)及其特征提取過程相較于傳統(tǒng)方法更快。

溫故而知新,6位頂級(jí)CV科學(xué)家聚首:計(jì)算機(jī)視覺中的深度學(xué)習(xí)方法vs傳統(tǒng)方法

Richard Szeliski 是華盛頓大學(xué)的兼職教授、美國(guó)國(guó)家工程院院士、ACM Fellow和 IEEE Fellow。Szeliski 在計(jì)算機(jī)視覺、基于圖像的建模、基于圖像的渲染和計(jì)算攝影的貝葉斯方法領(lǐng)域進(jìn)行了開創(chuàng)性的研究,這些領(lǐng)域處于計(jì)算機(jī)視覺和計(jì)算機(jī)圖形的交叉點(diǎn)。

Szeliski 1988 年獲得卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)科學(xué)博士學(xué)位。他于 2015 年加入 Facebook,擔(dān)任計(jì)算攝影小組的創(chuàng)始董事,并于 2020 年退休。在加入 Facebook 之前,他在微軟研究院以及其他幾個(gè)工業(yè)研究實(shí)驗(yàn)室工作了二十年 。

他在計(jì)算機(jī)視覺、計(jì)算機(jī)圖形學(xué)、神經(jīng)網(wǎng)絡(luò)和數(shù)值分析方面發(fā)表了 180 多篇研究論文,并撰寫了《計(jì)算機(jī)視覺:算法與應(yīng)用》和《低級(jí)視覺不確定性的貝葉斯建?!?。他是 CVPR'2013 和 ICCV'2003 的程序主席,曾擔(dān)任 IEEE Transactions on Pattern Analysis and Machine Intelligence 和 International Journal of Computer Vision 編委的副主編,以及Foundations and Trends in Computer Graphics and Vision的創(chuàng)始編輯。



2

在馬爾CV三層次之前,先回答廷伯根四問

溫故而知新,6位頂級(jí)CV科學(xué)家聚首:計(jì)算機(jī)視覺中的深度學(xué)習(xí)方法vs傳統(tǒng)方法

計(jì)算機(jī)視覺是「數(shù)學(xué)」、「科學(xué)」、「工程」的結(jié)合。許多論文將這些元素融合在了一起。

David Marr 最重要的觀點(diǎn)是將視覺作為一種科學(xué)來思考。上世紀(jì) 70 年代末期,他指出我們應(yīng)該從三個(gè)層次理解計(jì)算機(jī)視覺任務(wù):(1)計(jì)算理論:底層的物理約束(2)算法(3)硬件上的算法實(shí)現(xiàn)。實(shí)際上,早在上世紀(jì) 50、60 年代,1973 年的諾貝爾生理和醫(yī)學(xué)獎(jiǎng)得主、生物學(xué)家廷伯根就做了一系列工作,有助于我們?cè)谌缃袼伎蓟趯W(xué)習(xí)的計(jì)算機(jī)視覺和傳統(tǒng)方法之間的關(guān)系。

簡(jiǎn)而言之,廷伯根最為著名的貢獻(xiàn)是圍繞動(dòng)物展現(xiàn)出特定行為的方式和原因提出了四個(gè)基本問題:(1)行為的動(dòng)因和機(jī)理(2)行為隨年齡、經(jīng)驗(yàn)、環(huán)境的發(fā)展(3)進(jìn)化對(duì)行為的影響(4)行為對(duì)生存的作用。

試想一下,人類視覺系統(tǒng)如何感受到「深度」?

從機(jī)理層面上來說,神經(jīng)網(wǎng)絡(luò)中存在視網(wǎng)膜、感光神經(jīng)元等組件,它們會(huì)產(chǎn)生多層計(jì)算。我們看到的兩幅(雙目)圖的差別讓我們可以感受到「深度」。

從行為發(fā)展(發(fā)育)的角度來說,嬰兒初生之時(shí),其感官系統(tǒng)并不能很好地工作,隨著時(shí)間的遷移,孩子會(huì)學(xué)會(huì)一些技能,學(xué)會(huì)觀察物體的運(yùn)動(dòng)。那么,在現(xiàn)實(shí)世界中,我們應(yīng)該如何訓(xùn)練這樣的神經(jīng)網(wǎng)絡(luò)?

以上兩個(gè)問題與行為的方式(How)有關(guān),但是我們還需要回答關(guān)于「Why」的問題,探究人類為什么會(huì)發(fā)展出這樣的行為。從生物進(jìn)化的角度來說,發(fā)展出雙目系統(tǒng)的捕食者可以捕獲只有一側(cè)有眼睛的獵物。從功能的角度來說,這些行為對(duì)物種的生存是有益的。

從計(jì)算機(jī)視覺的角度來看,我們需要思考如何構(gòu)建某種神經(jīng)架構(gòu)來捕獲這些信息,還需要考慮究竟是使用監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí),還是自監(jiān)督學(xué)習(xí)來完成該任務(wù)。上述這些問題是互補(bǔ)的。

溫故而知新,6位頂級(jí)CV科學(xué)家聚首:計(jì)算機(jī)視覺中的深度學(xué)習(xí)方法vs傳統(tǒng)方法

在 Jitendra 看來,我們可以通過訓(xùn)練一個(gè)大型的神經(jīng)網(wǎng)絡(luò)來獲得工程應(yīng)用所需要的能力。但是其背后的原理需要通過光學(xué)和自然世界中的統(tǒng)計(jì)結(jié)果來解釋。這有助于我們應(yīng)對(duì)計(jì)算機(jī)視覺領(lǐng)域發(fā)生的巨大變化。如今,我們正處于從監(jiān)督學(xué)習(xí)范式轉(zhuǎn)向自監(jiān)督學(xué)習(xí)、弱監(jiān)督學(xué)習(xí)等范式的過程中。

此外,我們正處于大數(shù)據(jù)的「陷阱」中。未來,監(jiān)督信號(hào)將從「人工」走向「自然」,我們使用的「大數(shù)據(jù)」在更多情況下將轉(zhuǎn)變?yōu)椤感?shù)據(jù)」。因此,少樣本學(xué)習(xí)是十分重要的,而這就要求我們?cè)O(shè)計(jì)更多新的網(wǎng)絡(luò)架構(gòu)。

溫故而知新,了解智能學(xué)科的發(fā)展歷史有助于我們成為更好的研究者!

溫故而知新,6位頂級(jí)CV科學(xué)家聚首:計(jì)算機(jī)視覺中的深度學(xué)習(xí)方法vs傳統(tǒng)方法

Jitendra Malik 1986 年 1 月加入加州大學(xué)伯克利分校,他目前是電氣工程和計(jì)算機(jī)科學(xué)系的 Arthur J. Chick 教授。他還是生物工程系、認(rèn)知科學(xué)和視覺科學(xué)組的教員。2002-2004年任計(jì)算機(jī)科學(xué)系主任,2004-2006年和2016-2017年任EECS系主任。2018 年和 2019 年,他在 Menlo Park 擔(dān)任 Facebook AI Research 的研究總監(jiān)和站點(diǎn)負(fù)責(zé)人。

Malik 教授的研究小組致力于計(jì)算機(jī)視覺、人類視覺計(jì)算建模、計(jì)算機(jī)圖形學(xué)和生物圖像分析等許多不同的主題。

他于 1980 年獲得 IIT Kanpur 電氣工程最佳畢業(yè)生金獎(jiǎng),并于 1989 年獲得總統(tǒng)青年研究員獎(jiǎng)。他的論文獲得了無(wú)數(shù)最佳論文獎(jiǎng),其中包括五項(xiàng)時(shí)間檢驗(yàn)獎(jiǎng) - 因在 CVPR 發(fā)表的論文而獲得的 Longuet-Higgins 獎(jiǎng)(兩次)和在ICCV發(fā)表的論文而獲得的 Helmholtz 獎(jiǎng)(3次)。他獲得了 2013 年 IEEE PAMI-TC 計(jì)算機(jī)視覺杰出研究員獎(jiǎng),2014 年 K.S.國(guó)際模式識(shí)別協(xié)會(huì)傅獎(jiǎng)、2016年ACM-AAAI艾倫紐厄爾獎(jiǎng)、2018年IJCAI人工智能卓越研究獎(jiǎng)、2019年IEEE計(jì)算機(jī)學(xué)會(huì)計(jì)算機(jī)先鋒獎(jiǎng)。他是 IEEE Fellow和 ACM Fellow 。他是美國(guó)國(guó)家工程院院士和美國(guó)國(guó)家科學(xué)院院士,美國(guó)藝術(shù)與科學(xué)院院士。



3

討論環(huán)節(jié)

Q1:這十年來,從經(jīng)典方法到深度學(xué)習(xí)方法的轉(zhuǎn)變是如何發(fā)生的?請(qǐng)問 Svetlana,在你的研究過程中,這一過程是自頂向下的,還是自底向上的?也就是說,導(dǎo)師們發(fā)現(xiàn)了深度學(xué)習(xí)的強(qiáng)大,并將其介紹給了學(xué)生們;還是學(xué)生們將這一技術(shù)推薦給了導(dǎo)師?

Svetlana:我的經(jīng)歷也許與許多研究者相似。我記得「Alexnet」是深度學(xué)習(xí)時(shí)代到來的重要里程碑,它在 ImageNet 競(jìng)賽中一舉奪冠,并在 ECCV 2012 上發(fā)表了研究論文。Alexei 當(dāng)時(shí)還和 Yann LeCun 等人就此事進(jìn)行了爭(zhēng)論,Alexei 對(duì)神經(jīng)網(wǎng)絡(luò)持懷疑態(tài)度,他認(rèn)為用這些網(wǎng)絡(luò)進(jìn)行分類任務(wù)并不具有說服力,使用神經(jīng)網(wǎng)絡(luò)完成檢測(cè)任務(wù)才可以說服他。就我個(gè)人而言,一開始我也懷疑自己是否能夠參與這類研究,因?yàn)檫@些方法就好像魔法,其中有太多的奧秘。我不知道這些結(jié)果是否可以復(fù)現(xiàn),是否會(huì)被研究社區(qū)所接受。

令人高興的是,這些年過去了,我的懷疑被證明是錯(cuò)誤的。人們發(fā)明了 Caffe 等好用的程序包,2013、2014 年前后,學(xué)生們開始研究此類方法,那時(shí)你甚至只需為自己的特定數(shù)據(jù)集訓(xùn)練一個(gè) Alexnet 或者使用現(xiàn)成的特征就可以發(fā)表研究論文。而如今,研究走進(jìn)了深水區(qū),競(jìng)爭(zhēng)越來越激烈,我又變得悲觀了起來。

溫故而知新,6位頂級(jí)CV科學(xué)家聚首:計(jì)算機(jī)視覺中的深度學(xué)習(xí)方法vs傳統(tǒng)方法

Svetlana Lazebnik 在2006 年獲得伊利諾伊大學(xué)計(jì)算機(jī)科學(xué)博士學(xué)位。2007 年至 2011 年在北卡羅來納大學(xué)教堂山分校擔(dān)任助理教授后,她返回伊利諾伊大學(xué)任教,目前擔(dān)任計(jì)算機(jī)科學(xué)系正教授。她獲得的獎(jiǎng)項(xiàng)包括 NSF CAREER 獎(jiǎng)(2008 年)、微軟研究院研究獎(jiǎng)(2009 年)、斯隆研究獎(jiǎng)(2013 年),并當(dāng)選 IEEE Fellow(2021 年)。她于2006年發(fā)表在 CVPR 的關(guān)于空間金字塔匹配的論文獲得了 2016 年 Longuet-Higgins 獎(jiǎng),該論文對(duì)計(jì)算機(jī)視覺有重大影響。她曾擔(dān)任 ECCV 2012 和 ICCV 2019 的程序主席,目前擔(dān)任國(guó)際計(jì)算機(jī)視覺雜志的主編。她的主要研究主題包括場(chǎng)景理解、大規(guī)模照片集的建模、圖像和文本的聯(lián)合表示以及視覺識(shí)別問題的深度學(xué)習(xí)技術(shù)。

Q2:Lana 提到了當(dāng)年 Alexei 和 Yann 爭(zhēng)論的軼事,請(qǐng)問 Alexei 現(xiàn)在回過頭怎么看待當(dāng)時(shí)的爭(zhēng)論?

Alexei:

2011 年前后,我曾去紐約大學(xué)呆了幾個(gè)月,在 Yann LeCun 那里試圖理解神經(jīng)網(wǎng)絡(luò)。那時(shí),我認(rèn)為人們還沒有準(zhǔn)備好步入深度學(xué)習(xí)時(shí)代,神經(jīng)網(wǎng)絡(luò)在 ImageNet 上的效果并不能說服我,我認(rèn)為分類任務(wù)比檢測(cè)任務(wù)簡(jiǎn)單得多。然而,大概一年之后,RCNN 橫空出世,他們證明了深度學(xué)習(xí)在檢測(cè)任務(wù)上也是可行的。

我是一個(gè)非常保守的研究者,不會(huì)輕易投身于所謂的研究潮流(例如,圖模型、VAE 等)中。盡管我和 Jitendra 等人做了很多與深度學(xué)習(xí)的誕生相關(guān)的關(guān)鍵工作,但是我那時(shí)沒有立刻開展深度學(xué)習(xí)研究。我一直在等待深度學(xué)習(xí)成為一種工具,我所擅長(zhǎng)的是解決視覺問題,而非研究網(wǎng)絡(luò)架構(gòu)。

后來,我和同事們聽說神經(jīng)網(wǎng)絡(luò)受益于 ImageNet 預(yù)訓(xùn)練,在 Pascal 數(shù)據(jù)集上有很好的效果。然而,Pascal 數(shù)據(jù)集中的數(shù)據(jù)分布與 ImageNet 是截然不同的。因此,我猜想預(yù)訓(xùn)練所帶來的性能提升可能并不是由于 ImageNet 的標(biāo)簽,而是由于像素中的信息。

那時(shí),我對(duì) Jitendra 說 1 年之內(nèi)會(huì)出現(xiàn)一些無(wú)需 ImageNet 的標(biāo)簽來預(yù)訓(xùn)練 RCNN 的工作,這實(shí)際上也是自監(jiān)督學(xué)習(xí)的動(dòng)機(jī)之一。在 ICCV 2015 上,大量有關(guān)自監(jiān)督學(xué)習(xí)的文章涌現(xiàn)了出來。如今,自監(jiān)督學(xué)習(xí)成為了重要的預(yù)訓(xùn)練方式。

溫故而知新,6位頂級(jí)CV科學(xué)家聚首:計(jì)算機(jī)視覺中的深度學(xué)習(xí)方法vs傳統(tǒng)方法

Alyosha Efros(Alexei Efros)是加州大學(xué)伯克利分校的教授。他于 2003 年從加州大學(xué)伯克利分校獲得博士學(xué)位,并在牛津、CMU 和 INRIA/Paris 度過了一段時(shí)間,然后于 2013 年回到伯克利。Alyosha 是數(shù)據(jù)、像素、最近鄰和簡(jiǎn)單有效的事物的忠實(shí)粉絲,而對(duì)復(fù)雜(尤其是概率)模型、語(yǔ)義標(biāo)簽和語(yǔ)言持懷疑態(tài)度。

Q3:Andrew Davison 是 SLAM 領(lǐng)域的專家。請(qǐng)問深度學(xué)習(xí)對(duì)你們研究小組的工作有何影響?

Andrew:

我很早就聽說過深度學(xué)習(xí)相關(guān)的研究,但那時(shí)這與我的研究興趣相去甚遠(yuǎn)。直到 2016 年,我才在論文中加入了深度學(xué)習(xí)的相關(guān)技術(shù),用它來解決一些之前難以解決的問題,向 3D 地圖加入一些語(yǔ)義信息。在深度學(xué)習(xí)出現(xiàn)之前,我們可能會(huì)通過隨機(jī)森林等方法來完成該任務(wù)。在當(dāng)時(shí),深度學(xué)習(xí)這類新的技術(shù)取得了巨大成功,人們開始常識(shí)使用該技術(shù)進(jìn)行深度估計(jì)等任務(wù)。相較于傳統(tǒng)方法,深度學(xué)習(xí)技術(shù)有時(shí)更快也更準(zhǔn)確。

因此,我們開始研究如何在 SLAM 領(lǐng)域使用深度學(xué)習(xí)技術(shù)代替手動(dòng)設(shè)計(jì)的先驗(yàn),在這個(gè)方向發(fā)表了一系列文章。具體而言,我們通過深度學(xué)習(xí)進(jìn)行深度預(yù)測(cè)和多視圖優(yōu)化等工作。然而,大約 2018 年之后,人們發(fā)現(xiàn)深度學(xué)習(xí)技術(shù)存在一些系統(tǒng)性誤差,網(wǎng)絡(luò)預(yù)測(cè)出的深度和方向可能是錯(cuò)誤的,我們需要通過多視圖的方式來解決這些問題。在我看來,通過深度學(xué)習(xí)提取的像素級(jí)特征向量比手動(dòng)設(shè)計(jì)的特征要更加強(qiáng)大,但有時(shí)我們也需要回到更傳統(tǒng)的幾何學(xué)、概率化的多視圖優(yōu)化研究上來。

溫故而知新,6位頂級(jí)CV科學(xué)家聚首:計(jì)算機(jī)視覺中的深度學(xué)習(xí)方法vs傳統(tǒng)方法

Andrew Davison 是倫敦帝國(guó)理工學(xué)院機(jī)器人視覺教授兼戴森機(jī)器人實(shí)驗(yàn)室主任。他的長(zhǎng)期研究重點(diǎn)是 SLAM(同步定位和映射)及其向通用“空間 AI”的演變:計(jì)算機(jī)視覺算法,使機(jī)器人和其他人工設(shè)備能夠映射、定位并最終理解周圍的 3D 空間并與之交互。他與他的研究小組和合作者一直在開發(fā)具有突破性意義的系統(tǒng),包括 MonoSLAM、KinectFusion、SLAM++ 和 CodeSLAM,最近的獎(jiǎng)項(xiàng)包括 ECCV 2016 最佳論文和 CVPR 2018 最佳論文榮譽(yù)提名獎(jiǎng)。他還積極參與將這項(xiàng)技術(shù)轉(zhuǎn)化為實(shí)際應(yīng)用,特別是通過他與戴森合作設(shè)計(jì)了戴森 360 Eye 機(jī)器人吸塵器內(nèi)部的視覺映射系統(tǒng)。他當(dāng)選了2017年英國(guó)皇家工程院院士。

Q4:Oliva 是人類感知和認(rèn)知神經(jīng)科學(xué)領(lǐng)域的專家,就你們的領(lǐng)域而言,深度學(xué)習(xí)對(duì)你們的研究帶來了哪些變化?有何前景?

Oliva:在認(rèn)知神經(jīng)科學(xué)領(lǐng)域,我們對(duì)此持樂觀態(tài)度,積極擁抱這種改變。事實(shí)上,早在 2011 年我很幸運(yùn)地將實(shí)驗(yàn)室的研究領(lǐng)域從神經(jīng)科學(xué)拓展到了計(jì)算機(jī)科學(xué)。那時(shí),我們開始討論 Alexnet。

從神經(jīng)科學(xué)家的角度出發(fā),我們認(rèn)為神經(jīng)網(wǎng)絡(luò)是復(fù)雜的黑盒。我們開發(fā)了一系列方法來研究大腦黑盒的功能。當(dāng)我們看到一些關(guān)于人工神經(jīng)網(wǎng)絡(luò)的論文時(shí),一些神經(jīng)科學(xué)家認(rèn)為人工意義上的大腦為我們帶來了一個(gè)新的研究領(lǐng)域。他們使用神經(jīng)科學(xué)的方法來研究深度學(xué)習(xí)模型。

我的研究小組試圖為對(duì)深度學(xué)習(xí)模型中的每一層進(jìn)行評(píng)估,提供一些可解釋性,并在神經(jīng)科學(xué)的啟發(fā)下設(shè)計(jì)一些深度學(xué)習(xí)模型。此外,我有一些從事計(jì)算神經(jīng)科學(xué)的同事開始比較各種物種和人造神經(jīng)網(wǎng)絡(luò),我認(rèn)為深度學(xué)習(xí)極大促進(jìn)了計(jì)算神經(jīng)科學(xué)的發(fā)展。

溫故而知新,6位頂級(jí)CV科學(xué)家聚首:計(jì)算機(jī)視覺中的深度學(xué)習(xí)方法vs傳統(tǒng)方法

Aude Oliva博士 是 MIT-IBM Watson AI Lab 的 MIT 主任,也是 MIT Quest Corporate 和 MIT Schwarzman 計(jì)算學(xué)院的主任,領(lǐng)導(dǎo)與行業(yè)的合作,將自然和人工智能研究轉(zhuǎn)化為更廣闊世界的工具。她還是計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室的高級(jí)研究科學(xué)家,她負(fù)責(zé)領(lǐng)導(dǎo)計(jì)算感知和認(rèn)知小組。她的研究是跨學(xué)科的,涵蓋人類感知和認(rèn)知、計(jì)算機(jī)視覺和認(rèn)知神經(jīng)科學(xué),并專注于所有三個(gè)領(lǐng)域交叉的研究問題。

Q5:在機(jī)器機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺、自然語(yǔ)言處理等任務(wù)中,有一些不易察覺的研究領(lǐng)域正在悄然萌芽?!笌缀紊疃葘W(xué)習(xí)」就是其中一個(gè)研究方向,相較于傳統(tǒng)的 CNN,幾何深度學(xué)習(xí)引入了一些其它類型拓?fù)涞臍w納偏置,為編碼先驗(yàn)知識(shí)提供了新的方式。幾何深度學(xué)習(xí)有助于傳統(tǒng)方法在深度學(xué)習(xí)時(shí)代煥發(fā)新生。另一方面,「具身人工智能」(行為主義人工智能)也是具有廣闊前景的研究方向。請(qǐng)問在深度學(xué)習(xí)領(lǐng)域中,未來有哪些具有潛力的研究方向?

Jitendra:

我曾經(jīng)與同事們針對(duì)圖神經(jīng)網(wǎng)絡(luò)開展過一些研究。我認(rèn)為,這一領(lǐng)域的研究將會(huì)與如今的 Transformer 結(jié)合起來,這是因?yàn)?Transformer 可以更將靈活地通過位置編碼等方式構(gòu)建各種約束。我認(rèn)為,人們對(duì)此類架構(gòu)的研究正在進(jìn)行中,我們還沒有看到其最終的形態(tài)。CNN 和 Transformer 在近年來掀起了兩波研究浪潮,今后還會(huì)有更多新的思路會(huì)引入其它的歸納偏置。在我看來,引入合適的歸納偏置對(duì)于解決少樣本學(xué)習(xí)問題十分重要。

就我個(gè)人而言,我對(duì)具身人工智能的研究充滿熱情,我認(rèn)為深度學(xué)習(xí)與其是相輔相成的。如前文所述,計(jì)算機(jī)視覺領(lǐng)域的問題可以被劃分為多個(gè)層次,我們不應(yīng)混淆它們。深度學(xué)習(xí)的強(qiáng)大之處在于,我們可以將一些可微的參數(shù)化的功能模塊連接起來,使用 SGD 等方法進(jìn)行梯度下降訓(xùn)練。神奇之處在于,這些過參數(shù)化的模型確實(shí)奏效,它們往往不會(huì)被困在局部最小值,可以在許多任務(wù)上取得成功。深度學(xué)習(xí)的成功與你是否使用監(jiān)督學(xué)習(xí)、自監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)無(wú)關(guān)。

我認(rèn)為,具身人工智能是人工智能的另一個(gè)層次,它將視覺和動(dòng)作結(jié)合了起來。典型的應(yīng)用場(chǎng)景包括機(jī)器人、AR 等,人們需要投入更多的資金和數(shù)據(jù),來實(shí)現(xiàn)這個(gè) 1950 年代就產(chǎn)生的夢(mèng)想。

Q6:以前,計(jì)算機(jī)視覺工程師們需要花費(fèi)大量時(shí)間設(shè)計(jì)針對(duì)特定領(lǐng)域、特定物體的算子、時(shí)空度量。但現(xiàn)在,「特征工程」在有些研究者眼中或許已經(jīng)稍顯落伍了。現(xiàn)在流行的對(duì)比學(xué)習(xí)等方法用到了一些特征增強(qiáng)手段?;蛟S,未來特征增強(qiáng)也會(huì)落伍,如何看待這種變化?

Svetlana:

我對(duì)此持開放態(tài)度。從長(zhǎng)遠(yuǎn)的角度來看,研究社區(qū)需要保持繁忙。15 年前,大家都在設(shè)計(jì)手工的算子,現(xiàn)在大家都在做手工的神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)、數(shù)據(jù)增強(qiáng),也許在下一個(gè) 5 到 10 年,大家都會(huì)投身到手工設(shè)計(jì)元學(xué)習(xí)技術(shù)。我認(rèn)為這都是可以接受的,重點(diǎn)在于要保持大的研究愿景。

實(shí)際上,和計(jì)算機(jī)視覺一樣,神經(jīng)網(wǎng)絡(luò)也有著悠久的歷史,Alexnet 等模型的誕生也有其歷史淵源。神經(jīng)網(wǎng)絡(luò)只是我們可以利用的工具之一,我們要做的是維持合適的概念框架,讓各種工具發(fā)揮作用。

Alexei:

除了 ICCV 之外,計(jì)算機(jī)視覺領(lǐng)域還有一個(gè)頂級(jí)會(huì)議叫做 CVPR(computer vision and pattern recognition)。我認(rèn)為這個(gè)名字起的非常好,因?yàn)槲覀兊难芯恳环矫嫔婕坝?jì)算機(jī)視覺、另一方面也涉及模式識(shí)別。在我看來,這兩個(gè)部分分別對(duì)應(yīng)是否需要使用數(shù)據(jù)。

我曾經(jīng)去牛津大學(xué)做過博士后研究,VGG 組確實(shí)是做幾何計(jì)算機(jī)視覺的好地方,但是計(jì)算機(jī)視覺和模式識(shí)別并不應(yīng)該嚴(yán)格地被二分開來。我們需要意識(shí)到的是,數(shù)據(jù)是非常重要的,但數(shù)據(jù)也并不是全部,我們要將 CV 和 PR 結(jié)合起來。

Q7:相對(duì)而言,深度學(xué)習(xí)對(duì) SLAM 研究社區(qū)的影響似乎還沒有那么大。實(shí)際上,目標(biāo)跟蹤和各種濾波器也可以被用于 SLAM 領(lǐng)域。如何看待 SLAM 領(lǐng)域中各種工具的變化呢?

Andrew:

我認(rèn)為這些工具仍然在發(fā)展中。但是顯然,深度學(xué)習(xí)在 SLAM 領(lǐng)域中并沒有完勝傳統(tǒng)方法。我個(gè)人喜歡從整體應(yīng)用的角度來思考 SLAM 問題,它是具身 AI 或?qū)崟r(shí)感知、三維場(chǎng)景理解的一部分。在擁有足夠的數(shù)據(jù)、網(wǎng)絡(luò)規(guī)模足夠大的情況下,人們也許會(huì)通過端到端的學(xué)習(xí)識(shí)別地圖,建立模型。具體的實(shí)現(xiàn)細(xì)節(jié)(基于學(xué)習(xí)技術(shù)或人工設(shè)計(jì))都只是一些計(jì)算的模式,相較于此,我更加關(guān)注整體過程的可行性。我更加關(guān)注如何將這些技術(shù)融入到整體的計(jì)算框架中,解決有趣的問題。

Richard:

正如 Lana 所說,神經(jīng)網(wǎng)絡(luò)的歷史可以追溯到上世紀(jì) 50 年代。但是神經(jīng)網(wǎng)絡(luò)技術(shù)直到 2012 年才在大量真實(shí)任務(wù)上具備可觀的性能。傳統(tǒng)的計(jì)算機(jī)視覺課程中并沒有深度學(xué)習(xí)的部分,那時(shí)我們會(huì)教學(xué)生如何設(shè)計(jì)線性、非線性濾波器。而深度學(xué)習(xí)方法可以通過多層網(wǎng)絡(luò)學(xué)習(xí)出濾波器的權(quán)重。

我們可以從分析和經(jīng)驗(yàn)兩個(gè)方面來看待視覺識(shí)別任務(wù)?!附?jīng)驗(yàn)」指的是神經(jīng)網(wǎng)絡(luò)可以記住數(shù)據(jù),構(gòu)建一個(gè)在數(shù)據(jù)中完成內(nèi)插的系統(tǒng)。然而,這種系統(tǒng)并不一定具有很好的外推能力。如果你可以通過經(jīng)典的數(shù)學(xué)、集合、光學(xué)方法建模,我認(rèn)為你需要積極嘗試這些方法,而不應(yīng)該假設(shè)神經(jīng)網(wǎng)絡(luò)可以解決任何問題。

Jitendra:

我們不妨考慮一下經(jīng)濟(jì)學(xué)領(lǐng)域。人類是經(jīng)濟(jì)學(xué)中復(fù)雜的實(shí)體。我們往往會(huì)通過機(jī)器學(xué)習(xí)等基于數(shù)據(jù)的技術(shù)來解決經(jīng)濟(jì)學(xué)中的預(yù)測(cè)問題。但是當(dāng)我們想要理解預(yù)測(cè)結(jié)果時(shí),我們會(huì)使用一些簡(jiǎn)化的模型進(jìn)行分析。

我認(rèn)為,對(duì)于未來的深度學(xué)習(xí)研究而言,對(duì)模型的理解是十分必要的。機(jī)器學(xué)習(xí)理論似乎并不能勝任這項(xiàng)工作(例如,雙下降現(xiàn)象)。神經(jīng)網(wǎng)絡(luò)似乎在學(xué)習(xí)過程中會(huì)記住數(shù)據(jù),形成經(jīng)驗(yàn)?,F(xiàn)在許多論文所做的工作是針對(duì)以往的工作進(jìn)行數(shù)據(jù)增強(qiáng)、調(diào)整訓(xùn)練參數(shù),而取得的 1-2 個(gè)百分比的性能提升可能是由于完全無(wú)關(guān)的因素,而不是由于論文所提出的核心思想。

如今深度學(xué)習(xí)模型正變得越來越大,這樣一來,只有谷歌、Facebook、亞馬遜、微軟這樣的單位可以從事下一代研究,這對(duì)研究社區(qū)來說并不是一個(gè)好的現(xiàn)象。我希望研究社區(qū)可以出現(xiàn)一些創(chuàng)新的思路,我們或許可以從歷史中尋找一些靈感。

Q8:現(xiàn)在的深度學(xué)習(xí)模型參數(shù)量越來越大(例如,GPT-3),訓(xùn)練成本越來越高,我們是否有必要回過頭研究那些曾經(jīng)看似復(fù)雜的傳統(tǒng)方法?如何看待記憶引擎?

Oliva:

十年前,我們進(jìn)行了大量的記憶實(shí)驗(yàn),讓人們?cè)跀?shù)小時(shí)內(nèi)看上千張圖片,然后測(cè)試他們的記憶。令人驚訝的是,他們可以記住 90% 的圖像。我們可以構(gòu)建一種復(fù)雜的系統(tǒng)來研究人類的大腦,構(gòu)建起認(rèn)知科學(xué)到計(jì)算機(jī)科學(xué)的橋梁,通過實(shí)驗(yàn)的方法來研究這些模型。

溫故而知新,6位頂級(jí)CV科學(xué)家聚首:計(jì)算機(jī)視覺中的深度學(xué)習(xí)方法vs傳統(tǒng)方法

雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))雷峰網(wǎng)


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

溫故而知新,6位頂級(jí)CV科學(xué)家聚首:計(jì)算機(jī)視覺中的深度學(xué)習(xí)方法vs傳統(tǒng)方法

分享:
相關(guān)文章

運(yùn)營(yíng)

當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說