丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能學術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

時隔40年,斯坦福大學吳佳俊再譯馬爾代表作《視覺》:一場超越時空的對話

本文作者: 我在思考中 2022-01-24 15:01
導語:深度學習時代,我們?yōu)槭裁催€要回頭看馬爾計算理論?

時隔40年,斯坦福大學吳佳俊再譯馬爾代表作《視覺》:一場超越時空的對話

深度學習時代,我們?yōu)槭裁催€要回頭看馬爾計算理論?

作者 | 陳彩嫻

編輯 | 岑峰
在數(shù)十年的計算機視覺史上,沒有人能忽視David Marr與其于1982年出版的《視覺》一書。

David Courtnay Marr(1945-1980)是計算神經(jīng)科學領(lǐng)域的先驅(qū)之一。1973年,他應Marvin Minsky與Seymour Papert的邀請加入MIT人工智能實驗室,從事視覺相關(guān)研究,并開創(chuàng)性地提出了三維表達思想,使計算機視覺進入了一個新的時代。

可惜,馬爾于1980年英年早逝。在他的學生幫助下,MIT出版社在1982年出版了他的遺作《Vision: A Computational Investigation into the Human Representation and Processing of Visual Information》。該書一經(jīng)出版,即成經(jīng)典。

時隔40年,斯坦福大學吳佳俊再譯馬爾代表作《視覺》:一場超越時空的對話

圖注:馬爾與《視覺》一書
但同時,這本書涉及心理學、解剖學、神經(jīng)科學、哲學、計算機、圖像處理、人工智能等知識,還夾有大量俚語,即使對于大多學富五車的研究人員來說,要準確理解原意也是極為困難。我國重要的人工智能先驅(qū)、曾任復旦大學計算機科學系主任的吳立德便曾表示「英文原書很多地方因為語言障礙都看不懂」。

馬爾《視覺》的第一個中文譯本由汪云九、姚國正、劉磊等人推動。1983年到1986年,中國神經(jīng)網(wǎng)絡研究先驅(qū)汪云九與其同事姚國正、學生劉磊花費了巨大功夫,將馬爾的原著翻譯成中文,并于1988年出版,也就是著名的《視覺計算理論》(如下)。

時隔40年,斯坦福大學吳佳俊再譯馬爾代表作《視覺》:一場超越時空的對話

《視覺計算理論》一出版,立即成為高校和研究單位必備的參考資料。這本書也成為至今國內(nèi)被引用最多的一本中文譯著,在我國極大地推動了計算機視覺在普通師生間的推廣,對我國計算機視覺、圖像處理、人工智能、模式識別等領(lǐng)域的研究和人才培養(yǎng)具有極其重要的價值。

當時馬爾在撰寫《視覺》一書時,人工智能、尤其是深度學習還未得到發(fā)展。而在深度學習時代,計算機視覺的研究發(fā)展得到了重大突破。此時重溫馬爾的經(jīng)典著作,思考馬爾的計算理論在當代視覺研究中的作用,對計算機視覺未來的研究有很大意義。而現(xiàn)在距汪、姚、劉等人的第一個中文譯本的出版已經(jīng)過去了三十多年,該譯本已經(jīng)不易獲取,書中許多術(shù)語的通用譯法也都已有了改變。

受此啟發(fā),現(xiàn)任斯坦福大學計算機科學系助理教授、昔日清華大學姚班畢業(yè)生的青年學者吳佳俊決定再次基于2010年麻省理工學院出版社出版的英文第2版再次進行翻譯。中文譯本《視覺:對人類如何表示和處理視覺信息的計算研究》已由博文視點出版。新的中文譯本包含了馬爾的同事Tomaso Poggio和Shimon Ullman為中文版新寫的序和后記,討論了馬爾的視覺理論在深度學習時代的價值,給新一代年輕學生提供了一本優(yōu)秀的學習資料,可謂意義非凡!

時隔40年,斯坦福大學吳佳俊再譯馬爾代表作《視覺》:一場超越時空的對話

該譯本也得到了朱松純、沈向洋、張正友、湯曉鷗、李飛飛等名人的大力推薦,不可錯過。



1

深度學習時代的馬爾理論

時隔多年,《視覺》一書所反映的馬爾利用神經(jīng)科學知識、從人類視覺系統(tǒng)出發(fā)研究計算機識別的方法仍具有前瞻性與引領(lǐng)性。

在這本書中,馬爾至少做了兩大貢獻,一是將對信息處理系統(tǒng)的理解分為三個層次(計算理論層次、算法層次與硬件實現(xiàn)層次),二是提出了三維的視覺計算理論,對計算機視覺、人工智能與神經(jīng)科學在內(nèi)的多個領(lǐng)域產(chǎn)生了深遠影響。

比方說,20世紀80年代也是模式識別與計算機視覺、人工智能分化融合的一個關(guān)鍵時間點。模式識別這一學科最初是為了解決用機器識別物體的問題而出現(xiàn)。后來,隨著計算機研究的發(fā)展深入,如何讓計算機識別物體也成為了模式識別最重要的研究方向之一。馬爾的計算視覺理論出來后,模式識別與計算機視覺的結(jié)合也愈發(fā)緊密。

過去模式識別在模擬人的識別能力(尤其是識別3D物體方面)存在先天不足,需要把「識別目標」改為「識別表面」,把三維問題降為「2.5維問題」,從而集中解決從圖像到可見表面的識別問題。而馬爾的計算視覺理論反過來提供了從二維到包含紋理信息的2.5維圖像再到三維圖像的轉(zhuǎn)變方法,可謂是一枚硬幣的兩面,使得計算機視覺的研究取得了突破性的進展,也直接推動模式識別的對象從二維進入了三維領(lǐng)域。

時隔40年,斯坦福大學吳佳俊再譯馬爾代表作《視覺》:一場超越時空的對話

圖注:馬爾的3D表示思想

值得注意的是,在馬爾躬身研究視覺時,深度學習的理論尚未發(fā)展成熟,而近年來,深度學習理論已經(jīng)為計算機視覺領(lǐng)域的突破帶來了不可泯滅的貢獻。四十年前與四十年后,馬爾的視覺計算理論還有立足之地嗎?

在吳佳俊新完成的譯作中,美國藝術(shù)與科學院院士、以色列魏茨曼科學研究所 Samy 和Ruth Cohn 講席教授 Shimon Ullman 參與作序,也談到深度學習的出現(xiàn)對馬爾在40年前對視覺與人工智能的看法提出了多重挑戰(zhàn)。

Ullman認為,深度學習最核心的一點是挑戰(zhàn)了馬爾的基本方法,即為人類視覺與人工智能問題尋求所謂的「計算理論」。

在《視覺》一書中,馬爾的重點是在計算理論層次,而當前的深度網(wǎng)絡建模則側(cè)重于算法和實現(xiàn)層次,摒棄了計算理論的概念。

比方說,在處理從雙眼視覺計算三維形狀的問題時, 馬爾分析,計算任務依賴于在左右眼獲得的兩張圖像中建立視覺特征之間的對應關(guān)系,為了獲得可靠的對應關(guān)系,最合適的特征是多個層次上清晰的圖像強度變化(邊),通過將問題簡化為沿所謂的極線進行一維搜索,對相應特征的搜索也變得容易。根據(jù)這樣的分析,馬爾與團隊描述了基于這一任務的基本原理的計算理論。

而在深度學習的方法中,視覺問題是通過對任務進行端到端訓練來解決。這些訓練基于圖像示例,并將其與所需的輸出配對。作為計算理論支柱的基本原則在這里并不起直接作用。這些原則可能會被網(wǎng)絡模型隱式地發(fā)現(xiàn)并使用,但它們不會被從外部提供或顯式地使用。

這種方法上的差異會對馬爾的方法和方法論的其他核心問題產(chǎn)生影響。例如,馬爾強調(diào)基于計算理論的模塊化設(shè)計的用處,而深度學習方法則強調(diào)端到端訓練的價值。

不過,Ullman指出,在算法層次上,馬爾的計算理論與深度學習的端到端學習方法并不能完全區(qū)分開來。在馬爾發(fā)表于1977年的"Artificial Intelligence — A Personal View"中,馬爾區(qū)分了兩種類型的理論,分別稱為「類型1」與「類型2」。其中,「類型1」理論強調(diào)在設(shè)計合適的算法前必須了解算法應該做什么、且這些信息能夠被計算理論捕獲,許多生物信息處理問題都遵循「類型1」理論,且具有可解釋性;而「類型2」理論則是通過大量同時進行的流程/步驟來解決問題,比如預測蛋白質(zhì)如何折疊的問題,偏向黑盒性質(zhì)。

時隔40年,斯坦福大學吳佳俊再譯馬爾代表作《視覺》:一場超越時空的對話

論文鏈接:http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.111.5076&rep=rep1&type=pdf

在該文中,馬爾提到,他認為視覺與人工智能中的許多問題可能是「類型1」與「類型2」的混合,而不是單純的「類型1」。從理論上看,「類型1」的原則具備「類型2」所缺乏的解釋性。但是,在解決視覺、人工智能與人類認知的問題時,這些原則又是否真的有必要?這是一個爭議性很大的問題。



2

計算機視覺究竟要「計算」什么?

從譯者吳佳俊的序來看,他對馬爾理論最感興趣的自然是馬爾所提出的三大理解層次。計算機視覺在過去十年的進展都與理解層次有著本質(zhì)關(guān)聯(lián),但主流的研究逐漸忽視了計算理論的進展:計算機視覺究竟要「計算」什么?

吳佳俊談到,在過去十年,計算機視覺領(lǐng)域的最大進展是語義上的判別任務,尤其以語義上的圖像識別與分類為代表,判斷圖上的對象是貓還是狗。但計算機視覺中的「計算」,顯然不應該限于這類單一的任務。

馬爾所提出的低層視覺與三維結(jié)構(gòu)重建在很長一段時間內(nèi)主導了計算機視覺的研究。后來,深度學習的興起,以及算力和數(shù)據(jù)的增強對圖像的語義識別帶來了革命性的變化,這也即使導致了有些學者認為馬爾理論在過去的數(shù)十年間誤導了計算機視覺的發(fā)展走向。

對此,吳佳俊提供了一個觀點:現(xiàn)今計算機視覺的發(fā)展并不意味著語義判別是最重要、最正確的計算任務,也就無可區(qū)分馬爾計算理論與深度學習計算理論的優(yōu)劣。此外,除了深度學習理論,計算機視覺在過去十年的爆發(fā)還歸功于以卷積神經(jīng)網(wǎng)絡和反向傳播算法為代表的算法、以 GPU 為代表的硬件實現(xiàn)和以 ImageNet 為代表的數(shù)據(jù),這與馬爾的三個理解層次也是相符合的(除了數(shù)據(jù))。

馬爾在《視覺》一書中提出的計算理論基于包括初草圖和2.5維草圖在內(nèi)的中間表示,以及過零點、視差等基本元素或「特征」,這似乎與當今部分深度學習領(lǐng)袖所強調(diào)的 「完全從數(shù)據(jù)中學習」的概念格格不人。

吳佳俊也在譯者序中提出了兩點看法:

  • 其一,現(xiàn)有的深度學習架構(gòu)有其內(nèi)在的歸納偏置,如卷積神經(jīng)網(wǎng)絡的空間局部性、循環(huán)神經(jīng)網(wǎng)絡的時間局部性、Transformer 的自相似性,等等。而本書中討論的許多基本元素,恰與這些歸納偏置有內(nèi)在的關(guān)聯(lián)。

  • 其二,如果我們還試圖在人工智能和人類智能之間建立聯(lián)系(這本身也還漸成為一個有爭議的話題),那么任何的偏置是應該被預先設(shè)計,還是應該通過學習得到,就與人類認知科學中的先天與后天的概念,以及神經(jīng)科學的內(nèi)在機理,產(chǎn)生了千絲萬縷的聯(lián)系。諸如2.5 維草圖及與其緊密相關(guān)的包括深度圖在內(nèi)的本征圖像這樣的概念,在認知科學和神經(jīng)科學中都有廣泛的研究,這也可以至少在一定程度上解釋將它們引入計算模型的歸納偏置的合理性。而這種聯(lián)系也正是本書作為計算神經(jīng)科學的教科書,可以長期對人工智能有深刻啟發(fā)和深遠影響的原因所在。

馬爾的視覺計算理論對吳佳俊影響深遠。在麻省理工學院求學期間,吳佳俊時常與導師或同事們討論將學習本身的歸納偏置與世界的內(nèi)在先驗建立關(guān)聯(lián)的意義。這樣的先驗可以來源于人(即認知科學或神經(jīng)科學,但在現(xiàn)在的發(fā)展下更多是認知科學),也可以來源于自然(即物理世界,也可以看作「把視覺還給視覺」)。

2017年,吳佳俊與多位合作者還發(fā)表了一篇論文("MarrNet: 3D Shape Reconstruction via 2.5D Sketches),將2.5維草圖的概念及其在恢復物體的三維結(jié)構(gòu)中的作用與神經(jīng)網(wǎng)絡相結(jié)合,將其命名為「MarrNet」,以表對馬爾的尊敬。

時隔40年,斯坦福大學吳佳俊再譯馬爾代表作《視覺》:一場超越時空的對話

論文鏈接:https://jiajunwu.com/papers/marrnet_nips.pdf

吳佳俊的新譯本獲得了計算機視覺領(lǐng)域多位重要學者的推崇與肯定:

時隔40年,斯坦福大學吳佳俊再譯馬爾代表作《視覺》:一場超越時空的對話



3

對話吳佳俊

時隔40年,斯坦福大學吳佳俊再譯馬爾代表作《視覺》:一場超越時空的對話

吳佳俊,斯坦福大學計算機科學系助理教授,研究方向是計算機視覺、機器學習和計算認知科學。加入斯坦福大學之前,曾是谷歌研究院的訪問研究員,并分別在清華大學和麻省理工學院獲得了學士和博士學位。他的研究曾獲ACM博士學位論文榮譽提名獎、AAAIIACM SIGAl博士學位論文獎、麻省理工學院George M. Sprowis人工智能與決策博士學位論文獎,以及2020年三星人工智能年度研究人員獎。

以下是AI科技評論與吳佳俊的簡短對話:

1、AI科技評論:您從什么時候開始翻譯《視覺》這本書?用了多長時間?

吳佳?。?019年開始,基本是過去兩年的課余生活。

2、AI科技評論:促使您決定將《視覺》翻譯成中文的最主要動機是什么?

吳佳俊:我想把這本書好好讀一遍,所以要翻譯的話,就會讓自己盡力把每一句都讀懂。

3、AI科技評論:在翻譯這本書的過程中,您對計算機視覺的研究有了哪些新的理解與認知?

吳佳?。哼@本書本質(zhì)上是關(guān)注于人類視覺的一本教科書。雖然計算神經(jīng)科學在過去四十年間的進展讓我們增進了對人類視覺的理解(毫無疑問,馬爾和他所著的《視覺》起到了重要的作用),但對絕大多數(shù)視覺問題,我們的知識仍舊是非常有限的。

對于計算機視覺而言,我們雖然在一些高層視覺的識別問題上取得了很大進展,但在很多書中提到的視覺的底層和本質(zhì)問題上的進展其實還很有限。同時,并不意外地,我們對計算機視覺和人類視覺(包括行為層次和神經(jīng)層次)的關(guān)聯(lián)的理解也非常初步。

最近幾年,學術(shù)界有越來越多的意愿來構(gòu)建兩者之間的雙向聯(lián)結(jié)。我希望我們能夠有機會真正理解計算機和人類視覺的關(guān)系,以及在何種層次、何種程度上它們可以互相促進。

4、AI科技評論:馬爾在撰寫《視覺》一書時,深度學習仍未得到發(fā)展;而如今,計算機視覺已在深度學習的推動下得到了重大突破。時隔40年,您認為重溫《視覺》一書的意義是什么?對當下的學者研究有哪些啟發(fā)?

吳佳?。何蚁胱钪饕倪€是激勵我們找到正確的計算理論(目標),為達成這個目標所需要的表示,以及獲取這些表示所需要的方法,和學習在獲取表示中所起的作用。

具體來說,以語義分類為代表的識別問題推動了視覺的發(fā)展;在某種意義上,我們可以把對ImageNet數(shù)據(jù)集的語義標注看作一場大型的心理物理學實驗:人類在這一特定的高層次的標注作為計算目標,雖與馬爾提出的計算目標不同,但恰與算法和硬件實現(xiàn)協(xié)同作用,推動了過去十年計算機視覺的跨越式發(fā)展。那在接下來的十年或二十年里,視覺計算的下一個目標又是什么呢?馬爾對于計算理論的追求歷久彌新,始終對我們的研究有所啟發(fā)。

5、AI科技評論:您為什么推薦青年學生就讀此書?在學習計算機視覺的過程中,這本譯作能夠給他們帶來什么?

吳佳俊:深度學習對計算機視覺的發(fā)展起到了極大的推動作用,但計算機視覺不僅僅只有深度學習。對計算機視覺的深入研究需要理解視覺本身,而馬爾的這本教科書是一個很好的出發(fā)點。

留言贈書

AI科技評論本次聯(lián)合【博文視點】為大家?guī)?0本《視覺:對人類如何表示和處理視覺信息的計算研究》正版新書。

在本文(僅限AI科技評論微信公眾號端)留言區(qū)留言,歡迎大家暢所欲言,說一下你和計算機視覺的那些事~在綜合留言質(zhì)量(留言是敷衍還是走心)和留言點贊最高(注:點贊最高的前10不意味著一定會中獎)的讀者中選出10位讀者獲得贈書。獲得贈書的讀者請聯(lián)系 AI 科技評論客服(aitechreview)。

  • 留言內(nèi)容會有篩選,例如"選我上去"、"這書寫的很棒(僅僅幾個字)"等內(nèi)容將不會被篩選,亦不會中獎。

  • 留言送書活動時間為2022年1月21日 - 2022年1月27日(23:00),活動推送時間內(nèi)僅允許贈書福利中獎一次。

點擊【閱讀原文】粉絲福利價69元包郵到家!

參考鏈接:

1.https://mp.weixin.qq.com/s/bKSmCpoYeuxmcqk9BK1EFg


推薦閱讀

斯坦福大學吳佳?。篈I如何學習到現(xiàn)實世界的物理性?從我的研究哲學談起......

2021-06-08

時隔40年,斯坦福大學吳佳俊再譯馬爾代表作《視覺》:一場超越時空的對話

溫故而知新,6位頂級CV科學家聚首:計算機視覺中的深度學習方法vs傳統(tǒng)方法

2021-12-05

時隔40年,斯坦福大學吳佳俊再譯馬爾代表作《視覺》:一場超越時空的對話

【深度】視覺的層次化處理過時了嗎?

2020-06-14

時隔40年,斯坦福大學吳佳俊再譯馬爾代表作《視覺》:一場超越時空的對話

雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

時隔40年,斯坦福大學吳佳俊再譯馬爾代表作《視覺》:一場超越時空的對話

分享:
相關(guān)文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說