丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給楊曉凡
發(fā)送

0

李飛飛:在物體識別之后,計算機視覺還要多久才能理解這個世界 | IROS 2017

本文作者: 楊曉凡 2017-09-28 14:57
導語:計算機視覺的繼續(xù)發(fā)展已經不是計算機視覺本身,要和其它領域結合更好地完成人類的任務

雷鋒網 AI 科技評論按:9 月 26 日,機器人領域的頂級學術會議 IROS 2017 進入第二日。上午,著名華人計算機視覺專家、斯坦福副教授李飛飛,在溫哥華會議中心面向全體與會專家學者作了長達一小時的專題報告。

在昨天發(fā)布的雷鋒網文章 上篇:「李飛飛:為什么計算機視覺對機器人如此重要? | IROS 2017」中,李飛飛介紹了視覺對生物的重要性,以及計算機視覺在物體識別任務中的飛速發(fā)展。在下篇中,李飛飛繼續(xù)與大家討論了計算機視覺的下一步目標:豐富場景理解,以及計算機視覺與語言結合和任務驅動的計算機視覺的進展和前景。場景理解和與語言結合的計算機視覺進一步搭起了人類和計算機之間溝通的橋梁,任務驅動的計算機視覺也會在機器人領域大放異彩。李飛飛介紹的自己團隊的工作也豐富多樣、令人振奮。

李飛飛:在物體識別之后,計算機視覺還要多久才能理解這個世界 | IROS 2017

(2015年,李飛飛也在同一個會場面向著大海和聽眾進行過一次 TED 演講)

物體識別之后:豐富場景識別

(續(xù)上篇)在物體識別問題已經很大程度上解決以后,我們的下一個目標是走出物體本身,關注更為廣泛的對象之間的關系、語言等等。

李飛飛:在物體識別之后,計算機視覺還要多久才能理解這個世界 | IROS 2017

在Visual Genome數(shù)據(jù)集之后,我們做的另一項研究是重新認識場景識別。

李飛飛:在物體識別之后,計算機視覺還要多久才能理解這個世界 | IROS 2017

場景識別單獨來看是一項簡單的任務,在谷歌里搜索“穿西裝的男人”或者“可愛的小狗”,都能直接得到理想的結果。但是當你搜索“穿西裝的男人抱著可愛的小狗”的時候,就得不到什么好結果。它的表現(xiàn)在這里就變得糟糕了,這種物體間的關系是一件很難處理的事情。

李飛飛:在物體識別之后,計算機視覺還要多久才能理解這個世界 | IROS 2017

比如只關注了“長椅”和“人”的物體識別,就得不到“人坐在長椅上”的關系;即便訓練網絡識別“坐著的人”,也無法保證看清全局。我們有個想法是,把物體之外、場景之內的關系全都包含進來,然后再想辦法提取精確的關系。

李飛飛:在物體識別之后,計算機視覺還要多久才能理解這個世界 | IROS 2017

如果我們有一張場景圖(graph),其中包含了場景內各種復雜的語義信息,那我們的場景識別就能做得好得多。其中的細節(jié)可能難以全部用一個長句子描述,但是把一個長句子變成一個場景圖之后,我們就可以用圖相關的方法把它和圖像做對比;場景圖也可以編碼為數(shù)據(jù)庫的一部分,從數(shù)據(jù)庫的角度進行查詢。

李飛飛:在物體識別之后,計算機視覺還要多久才能理解這個世界 | IROS 2017

我們已經用場景圖匹配技術在包含了許多語義信息的場景里得到了許多不錯的量化結果,不過在座的各位可能邊聽就邊覺得,這些場景圖是誰來定義的呢?在Visual Genome數(shù)據(jù)集中,場景圖都是人工定義的,里面的實體、結構、實體間的關系和到圖像的匹配都是我們人工完成的,過程挺痛苦的,我們也不希望以后還要對每一個場景都做這樣的工作。所以在這項工作之后,我們很可能會把注意力轉向自動場景圖生成。

李飛飛:在物體識別之后,計算機視覺還要多久才能理解這個世界 | IROS 2017

比如這項我和我的學生們共同完成的CVPR2017論文就是一個自動生成場景圖的方案,對于一張輸入圖像,我們首先得到物體識別的備選結果,然后用圖推理算法得到實體和實體之間的關系等等;這個過程都是自動完成的。

李飛飛:在物體識別之后,計算機視覺還要多久才能理解這個世界 | IROS 2017

這里涉及到了一些迭代信息傳遞算法,我先不詳細解釋了。但這個結果體現(xiàn)出的是,我們的模型的工作方式和人的做法已經有不少相似之處了。

李飛飛:在物體識別之后,計算機視覺還要多久才能理解這個世界 | IROS 2017

得到這樣的結果我們非常開心,這代表著一組全新的可能性來到了我們面前。借助場景圖,我們可以做信息提取、可以做關系預測、可以理解對應關系等等。

李飛飛:在物體識別之后,計算機視覺還要多久才能理解這個世界 | IROS 2017

當然了論文發(fā)表前我們也做了好看的數(shù)據(jù)出來。

李飛飛:在物體識別之后,計算機視覺還要多久才能理解這個世界 | IROS 2017

我們相信Visual Genome數(shù)據(jù)集也能夠幫助很多的研究人員在研究關系和信息提取的算法和模型實驗中施展拳腳。

場景識別之后還有什么?

李飛飛:在物體識別之后,計算機視覺還要多久才能理解這個世界 | IROS 2017

剛才說過了物體識別、關系預測這兩項場景理解難題之后,Jeremy 提到的最后一件事情就是,“場景中的gist的根本是三維空間中在物體間和物體表面上以一定形式擴散、重復出現(xiàn)的視覺元素”。不過由于我關注的并不是三維場景理解,我就只是簡單介紹一下斯坦福的同事們近期的研究成果。

李飛飛:在物體識別之后,計算機視覺還要多久才能理解這個世界 | IROS 2017

左側是從單張圖片推測三維場景的布局,展現(xiàn)出其中物體的三維幾何特征;右側是空間三維結構的語意分割。除了斯坦福的這兩項之外,三維場景理解還有很多的研究成果,包括使用圖片的和點云的。我也覺得很興奮,將來也不斷地會有新東西來到我們面前,尤其是在機器人領域會非常有用。

這樣,我們就基本覆蓋全了場景的gist,就是看到場景的前150毫秒中發(fā)生的事情。視覺智慧的研究當然并不會局限于這150毫秒,之后要考慮的、我們也在期待的還有兩項任務。

李飛飛:在物體識別之后,計算機視覺還要多久才能理解這個世界 | IROS 2017

我的研究興趣里,除了計算機科學和人工智能之外,認知神經科學也占了相當?shù)奈恢谩K晕蚁牖剡^頭去看看我在加州理工學院讀博士的時候做的一個實驗,我們就讓人們觀察一張照片,然后讓他們盡可能地說出自己在照片中看到的東西。當時做實驗的時候,我們在受試者面前的屏幕上快速閃過一張照片,然后用一個別的圖像、墻紙一樣的圖像蓋住它,它的作用是把他們視網膜暫留的信息清除掉。

李飛飛:在物體識別之后,計算機視覺還要多久才能理解這個世界 | IROS 2017

接下來我們就讓他們盡可能多地寫下自己看到的東西。從結果上看,有的照片好像比較容易,但是其實只是因為我們選擇了不同長短的展示時間,最短的照片只顯示了27毫秒,這已經達到了當時顯示器的顯示速度上限;有些照片顯示了0.5秒的時間,對人類視覺理解來說可算是綽綽有余了。

李飛飛:在物體識別之后,計算機視覺還要多久才能理解這個世界 | IROS 2017

我們得到的結果大概是這樣的,對于這張照片,時間很短的時候看清的內容也很有限,500毫秒的時候他們就能寫下很長一段。進化給了我們這樣的能力,只看到一張圖片就可以講出一個很長的故事。

計算機視覺+語言

李飛飛:在物體識別之后,計算機視覺還要多久才能理解這個世界 | IROS 2017

我展示這個實驗想說的是,在過去的3年里,CV領域的研究人員們就在研究如何把圖像中的信息變成故事。

李飛飛:在物體識別之后,計算機視覺還要多久才能理解這個世界 | IROS 2017

他們首先研究了圖像說明,比如借助CNN把圖像中的內容表示到特征空間,然后用LSTM這樣的RNN生成一系列文字。這類工作在2015年左右有很多成果,從此之后我們就可以讓計算機給幾乎任何東西配上一個句子。

李飛飛:在物體識別之后,計算機視覺還要多久才能理解這個世界 | IROS 2017

比如這兩個例子,“一位穿著橙色馬甲的工人正在鋪路”和“穿著藍色襯衫的男人正在彈吉他”。這讓我想起來,2015年的時候我就是在這同一個房間里做過演講。兩年過去了,我們的算法也已經不是最先進的了,不過那時候我們的研究確實是是圖像說明這個領域的開拓性工作之一。

李飛飛:在物體識別之后,計算機視覺還要多久才能理解這個世界 | IROS 2017

我們沿著這個方向繼續(xù)做研究,迎來的下一個成果是稠密說明,就是在一幅圖片中有很多個區(qū)域都會分配注意力,這樣我們有可以有很多個不同的句子描述不同的區(qū)域,而不僅僅是用一個句子描述整個場景。在這里就用到了CNN模型和邏輯區(qū)域檢測模型的結合,再加上一個語言模型,這樣我們就可以對場景做稠密的標注。

李飛飛:在物體識別之后,計算機視覺還要多久才能理解這個世界 | IROS 2017

比如這張圖里就可以生成,“有兩個人坐在椅子上”、“有一頭大象”、“有一棵樹”等等;另一張我的學生們的室內照片也標出了豐富的內容。

李飛飛:在物體識別之后,計算機視覺還要多久才能理解這個世界 | IROS 2017

我們的稠密標注系統(tǒng)也比當時其它基于滑動窗口的方法表現(xiàn)好得多。

李飛飛:在物體識別之后,計算機視覺還要多久才能理解這個世界 | IROS 2017

在最近的CVPR2017的研究中,我們讓表現(xiàn)邁上了一個新的臺階,不只是簡單的說明句子,還要生成文字段落,把它們以具有空間意義的方式連接起來。

李飛飛:在物體識別之后,計算機視覺還要多久才能理解這個世界 | IROS 2017

這樣我們就可以寫出“一只長頸鹿站在樹邊,在它的右邊有一個有葉子的桿子,在籬笆的后面有一個黑色和白色的磚壘起來的建筑”,等等。雖然里面有錯誤,而且也遠比不上莎士比亞的作品,但我們已經邁出了視覺和語言結合的第一步。

李飛飛:在物體識別之后,計算機視覺還要多久才能理解這個世界 | IROS 2017

而且,視覺和語言的結合并沒有停留在靜止的圖像上,剛才的只是我們的最新成果之一。在另外的研究中,我們把視頻和語言結合起來,比如這個CVPR2017的研究,我們可以對一個說明性視頻中不同的部分做聯(lián)合推理、整理出文本結構。這里的難點是解析文本中的實體,比如第一步是“攪拌蔬菜”,然后“拿出混合物”。如果算法能夠解析出“混合物”指的是前一步里混合的蔬菜,那就棒極了。我的學生和博士后們也都覺得這是讓機器人進行學習的很重要的一步。

李飛飛:在物體識別之后,計算機視覺還要多久才能理解這個世界 | IROS 2017

這里的機會仍然是把視覺問題和語言結合起來,如果只用視覺的方法,就會造成視覺上的模糊性;如果只用語言學的方法,就會造成語言上的模糊性;把視覺和語言結合起來,我們就可以解決這些問題。

李飛飛:在物體識別之后,計算機視覺還要多久才能理解這個世界 | IROS 2017

太細節(jié)的還是不說了,我們主要用了圖優(yōu)化的方法在實體嵌入上解決這些模糊性。我們的結果表明,除了解決模糊性之外,我們還能對視頻中的內容作出更廣泛完善的推理。

任務驅動的計算機視覺

李飛飛:在物體識別之后,計算機視覺還要多久才能理解這個世界 | IROS 2017

在語言之后,我想說的最后一個方向是任務驅動的視覺問題,它和機器人的聯(lián)系也更緊密一些。對整個AI研究大家庭來說,任務驅動的AI是一個共同的長期夢想,從一開始人類就希望用語言給機器人下達指定,然后機器人用視覺方法觀察世界、理解并完成任務。

李飛飛:在物體識別之后,計算機視覺還要多久才能理解這個世界 | IROS 2017

比如人類說:“藍色的金字塔很好。我喜歡不是紅色的立方體,但是我也不喜歡任何一個墊著5面體的東西。那我喜歡那個灰色的盒子嗎?” 那么機器,或者機器人,或者智能體就會回答:“不,因為它墊著一個5面體”。它就是任務驅動的,對這個復雜的世界做理解和推理。

李飛飛:在物體識別之后,計算機視覺還要多久才能理解這個世界 | IROS 2017

最近,我們和Facebook合作重新研究這類問題,創(chuàng)造了帶有各種幾何體的場景,然后給人工智能提問,看它會如何理解、推理、解決這些問題。這其中會涉及到屬性的辨別、計數(shù)、對比、空間關系等等。

李飛飛:在物體識別之后,計算機視覺還要多久才能理解這個世界 | IROS 2017

我們在這方面的第一篇論文用了CNN+LSTM+注意力模型,結果算不上差,人類能達到超過90%的正確率,機器雖然能做到接近70%了,但是仍然有巨大的差距。有這個差距就是因為人類能夠組合推理,機器則做不到。

李飛飛:在物體識別之后,計算機視覺還要多久才能理解這個世界 | IROS 2017

在一個月后的ICCV我們就會介紹新一篇論文中的成果,我們把一個問題分解成帶有功能的程序段,然后在程序段基礎上訓練一個能回答問題的執(zhí)行引擎。這個方案在嘗試推理真實世界問題的時候就具有高得多的組合能力。

李飛飛:在物體識別之后,計算機視覺還要多久才能理解這個世界 | IROS 2017

模型的實際表現(xiàn)當然不錯,所以論文被ICCV接收了。比如這個例子里,我們提問某種顏色的東西是什么形狀的,它就會回答“是一個立方體”這樣,表明了它的推理是正確的。它還可以數(shù)出東西的數(shù)目。這都體現(xiàn)出了算法可以對場景做推理。

李飛飛:在物體識別之后,計算機視覺還要多久才能理解這個世界 | IROS 2017

我們也在嘗試環(huán)境仿真,我們用三維渲染引擎建立執(zhí)行任務的環(huán)境,讓學習策略的機器人在其中學習動作,比如把籃球放進微波爐,也需要它把這個任務分解成許多步驟然后執(zhí)行。

李飛飛:在物體識別之后,計算機視覺還要多久才能理解這個世界 | IROS 2017

我們采用了一種深度語意表征,然后用不同難度的任務測試它,中等難度的任務可以是從廚房里多個不同的地方拿取多個不同的物體,然后把它們放在指定的地方;難的任務可以是需要策略讓它尋找之前從來沒有見過的新物體。

李飛飛:在物體識別之后,計算機視覺還要多久才能理解這個世界 | IROS 2017

視覺相關的任務說了這么多,我想把它們組織成這三類。

  • 首先是除了物體識別之外的關系識別、復雜語意表征、場景圖;

  • 在場景gist之外,我們需要用視覺+語言處理單句標注、段落生成、視頻理解、聯(lián)合推理;

  • 最后是任務驅動的視覺問題,這里還是一個剛剛起步的領域,我相信視覺和邏輯的組合會在這個領域真正攜起手來。

李飛飛:在物體識別之后,計算機視覺還要多久才能理解這個世界 | IROS 2017

人類視覺已經發(fā)展了很久,計算機視覺雖然在出現(xiàn)后的60年里有了長足的進步,但也仍然只是一門新興學科。我以前應該有提過我邊工作邊帶孩子,這也就是一張我女兒二十個月大時候的照片。

李飛飛:在物體識別之后,計算機視覺還要多久才能理解這個世界 | IROS 2017

看著她一天天成長的過程,真的讓我覺得還有許許多多的東西等著我們去研究。視覺能力也是她的日常生活里重要的一部分,讀書、畫畫、觀察情感等等,這些重大的進步都是這個領域未來的研究目標。

李飛飛:在物體識別之后,計算機視覺還要多久才能理解這個世界 | IROS 2017

謝謝大家!

(完)

雷鋒網 AI 科技評論報道。

相關文章:

李飛飛:為什么計算機視覺對機器人如此重要? | IROS 2017

雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。

李飛飛:在物體識別之后,計算機視覺還要多久才能理解這個世界 | IROS 2017

分享:
相關文章

讀論文為生

日常笑點滴,學術死腦筋
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說