丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給楊曉凡
發(fā)送

0

李飛飛最新演講:視覺智慧是人類和計算機合作溝通的橋梁 | CNCC2017

本文作者: 楊曉凡 2017-10-27 08:17
導(dǎo)語:追尋視覺智能:除了物體識別還要探索更多

李飛飛最新演講:視覺智慧是人類和計算機合作溝通的橋梁 | CNCC2017

雷鋒網(wǎng) AI 科技評論報道:中國計算機學(xué)會 CCF 舉辦的中國計算機大會CNCC 2017已于10月26日在福州市海峽國際會展中心開幕。參加會議的人數(shù)眾多,主會場座無虛席。雷鋒網(wǎng) AI 科技評論也派出記者團全程參與大會報道。

26日上午開幕式結(jié)束后,多位特邀嘉賓進(jìn)行了現(xiàn)場演講,主題涵蓋計算機科學(xué)發(fā)展中的新技術(shù)和應(yīng)用、自然語言利凈額、AI如何服務(wù)于人、人工智能在信息平臺的應(yīng)用等等。斯坦福大學(xué)副教授、谷歌云首席科學(xué)家、機器學(xué)習(xí)界的標(biāo)桿人物之一的李飛飛進(jìn)行了題目為「Visual Intelligence: Beyond ImageNet」的演講。

李飛飛首先介紹了視覺對生物的重要性,以及計算機視覺在物體識別任務(wù)中的飛速發(fā)展。然后繼續(xù)與大家討論了計算機視覺的下一步目標(biāo):豐富場景理解,以及計算機視覺與語言結(jié)合和任務(wù)驅(qū)動的計算機視覺的進(jìn)展和前景。場景理解和與語言結(jié)合的計算機視覺進(jìn)一步搭起了人類和計算機之間溝通的橋梁,任務(wù)驅(qū)動的計算機視覺也會在機器人領(lǐng)域大放異彩。李飛飛介紹的自己團隊的工作也豐富多樣、令人振奮。

李飛飛最新演講:視覺智慧是人類和計算機合作溝通的橋梁 | CNCC2017

李飛飛首先介紹了構(gòu)建視覺智能中的第一個里程碑,那就是物體識別。人類具有無與倫比的視覺識別能力,認(rèn)知神經(jīng)科學(xué)家們的許多研究都展示出了這一現(xiàn)象。李飛飛在現(xiàn)場與聽眾們做了一個小互動,在屏幕上閃過一系列持續(xù)時間只有0.1秒的照片,不加任何別的說明,而觀眾們還是能夠識別到有一張中有一個人。

MIT教授Simon Thorpe在1996年的一個實驗中,也通過記錄腦波的方式表明,人類只需要觀察一張復(fù)雜照片150ms的時間,就能辨別出其中是否包含動物,不管是哺乳動物、鳥類、魚,還是蟲子。

李飛飛最新演講:視覺智慧是人類和計算機合作溝通的橋梁 | CNCC2017

這種對復(fù)雜物體的快速視覺識別能力是人類視覺系統(tǒng)的基本特質(zhì),而這也是計算機視覺中的“圣杯”。在過去的20年中,物體識別都是計算機視覺社區(qū)研究的重要任務(wù)。ImageNet就是起到了貢獻(xiàn)的數(shù)據(jù)集之一。

李飛飛最新演講:視覺智慧是人類和計算機合作溝通的橋梁 | CNCC2017

從2010年以來,從 2010 到 2017,ImageNet 挑戰(zhàn)賽的物體識別錯誤率下降到了原來的十分之一。到 2015 年,錯誤率已經(jīng)達(dá)到甚至低于人類水平。這基本表明計算機視覺已經(jīng)基本攻克了簡單的物體識別問題。

計算機視覺研究當(dāng)然不會止步于 ImageNet 和物體識別,這僅僅是人類豐富視覺感受的基礎(chǔ)。

李飛飛最新演講:視覺智慧是人類和計算機合作溝通的橋梁 | CNCC2017

下一個關(guān)鍵步驟就是視覺關(guān)系的識別。這項任務(wù)的定義是:“把一張照片輸入算法模型中,希望算法可以識別出其中的重點物體,找到它們的所在位置,并且找到它們之間的兩兩關(guān)系”。

兩張照片都是人和羊駝,但是發(fā)生的事情完全不同。這就是單純的物體識別所無法描述的了。

李飛飛最新演講:視覺智慧是人類和計算機合作溝通的橋梁 | CNCC2017

在深度學(xué)習(xí)時代之前,這方面也有不少的研究,但多數(shù)都只能在人為控制的空間中分析空間關(guān)系、動作關(guān)系、類似關(guān)系等寥寥幾種關(guān)系。隨著計算力和數(shù)據(jù)量的爆發(fā),在深度學(xué)習(xí)時代研究者們終于能夠做出大的進(jìn)展。這需要卷積神經(jīng)網(wǎng)絡(luò)的視覺表征和語言模型的結(jié)合。

在李飛飛團隊ECCV2016的收錄論文中,他們的模型已經(jīng)可以預(yù)測空間關(guān)系、比較關(guān)系、語義關(guān)系、動作關(guān)系和位置關(guān)系,在“列出所有物體”之外,向著場景內(nèi)的物體的豐富關(guān)系理解邁出了堅實的一步。

李飛飛最新演講:視覺智慧是人類和計算機合作溝通的橋梁 | CNCC2017

除了關(guān)系預(yù)測之外,還可以做無樣本學(xué)習(xí)。舉個例子,用人坐在椅子上的照片訓(xùn)練模型,加上用消防栓在地上的圖片訓(xùn)練模型。然后再拿出另一張圖片,一個人坐在消防栓上。雖然算法沒見過這張圖片,但能夠表達(dá)出這是“一個人坐在消防栓上”。

李飛飛最新演講:視覺智慧是人類和計算機合作溝通的橋梁 | CNCC2017

類似的,算法能識別出“一匹馬戴著帽子”,雖然訓(xùn)練集里只有“人騎馬”以及“人戴著帽子”的圖片。

李飛飛最新演講:視覺智慧是人類和計算機合作溝通的橋梁 | CNCC2017

在李飛飛團隊的 ECCV 2016 論文之后,今年有一大堆相關(guān)論文發(fā)表了出來,一些甚至已經(jīng)超過了他們模型的表現(xiàn)。她也非常欣喜看到這項任務(wù)相關(guān)研究的繁榮發(fā)展。

在物體識別問題已經(jīng)很大程度上解決以后,李飛飛的下一個目標(biāo)是走出物體本身。微軟的Coco數(shù)據(jù)集就已經(jīng)不再是圖像+標(biāo)簽,而是圖像+一個簡短的句子描述圖像中的主要內(nèi)容。

經(jīng)過三年的準(zhǔn)備后,李飛飛團隊推出了Visual Genome數(shù)據(jù)集,包含了10萬張圖像、420萬條圖像描述、180萬個問答對、140萬個帶標(biāo)簽的物體、150萬條關(guān)系以及170萬條屬性。這是一個非常豐富的數(shù)據(jù)集,它的目標(biāo)就是走出物體本身,關(guān)注更為廣泛的對象之間的關(guān)系、語言、推理等等。

李飛飛最新演講:視覺智慧是人類和計算機合作溝通的橋梁 | CNCC2017

李飛飛最新演講:視覺智慧是人類和計算機合作溝通的橋梁 | CNCC2017

在Visual Genome數(shù)據(jù)集之后,李飛飛團隊做的另一項研究是重新認(rèn)識場景識別。

場景識別單獨來看是一項簡單的任務(wù),在谷歌里搜索“穿西裝的男人”或者“可愛的小狗”,都能直接得到理想的結(jié)果。

李飛飛最新演講:視覺智慧是人類和計算機合作溝通的橋梁 | CNCC2017

但是當(dāng)你搜索“穿西裝的男人抱著可愛的小狗”的時候,就得不到什么好結(jié)果。它的表現(xiàn)在這里就變得糟糕了,這種物體間的關(guān)系是一件很難處理的事情。

李飛飛最新演講:視覺智慧是人類和計算機合作溝通的橋梁 | CNCC2017

如果只關(guān)注了“長椅”和“人”的物體識別,就得不到“人坐在長椅上”的關(guān)系;即便訓(xùn)練網(wǎng)絡(luò)識別“坐著的人”,也無法保證看清全局。

李飛飛最新演講:視覺智慧是人類和計算機合作溝通的橋梁 | CNCC2017

他們有個想法是,把物體之外、場景之內(nèi)的關(guān)系全都包含進(jìn)來,然后再想辦法提取精確的關(guān)系。

李飛飛最新演講:視覺智慧是人類和計算機合作溝通的橋梁 | CNCC2017

如果有一張場景圖(graph),其中包含了場景內(nèi)各種復(fù)雜的語義信息,那場景識別就能做得好得多。其中的細(xì)節(jié)可能難以全部用一個長句子描述,但是把一個長句子變成一個場景圖之后,我們就可以用圖相關(guān)的方法把它和圖像做對比;場景圖也可以編碼為數(shù)據(jù)庫的一部分,從數(shù)據(jù)庫的角度進(jìn)行查詢。

李飛飛最新演講:視覺智慧是人類和計算機合作溝通的橋梁 | CNCC2017

李飛飛團隊已經(jīng)用場景圖匹配技術(shù)在包含了許多語義信息的場景里得到了許多不錯的量化結(jié)果。不過,這些場景圖是誰來定義的呢?在Visual Genome數(shù)據(jù)集中,場景圖都是人工定義的,里面的實體、結(jié)構(gòu)、實體間的關(guān)系和到圖像的匹配都是李飛飛團隊人工完成的,過程挺痛苦的,他們也不希望以后還要對每一個場景都做這樣的工作。所以在這項工作之后,他們也正在把注意力轉(zhuǎn)向自動場景圖生成。

李飛飛最新演講:視覺智慧是人類和計算機合作溝通的橋梁 | CNCC2017

比如這項她和她的學(xué)生們共同完成的CVPR2017論文就是一個自動生成場景圖的方案,對于一張輸入圖像,首先得到物體識別的備選結(jié)果,然后用圖推理算法得到實體和實體之間的關(guān)系等等;這個過程都是自動完成的。

李飛飛最新演講:視覺智慧是人類和計算機合作溝通的橋梁 | CNCC2017

這里涉及到了一些迭代信息傳遞算法,李飛飛并沒有詳細(xì)解釋。但這個結(jié)果體現(xiàn)出的是,這個模型的工作方式和人的做法已經(jīng)有不少相似之處了。

李飛飛最新演講:視覺智慧是人類和計算機合作溝通的橋梁 | CNCC2017

這代表著一組全新的可能性來到了人類面前。借助場景圖,們可以做信息提取、可以做關(guān)系預(yù)測、可以理解對應(yīng)關(guān)系等等。

李飛飛最新演講:視覺智慧是人類和計算機合作溝通的橋梁 | CNCC2017

QA問題也得到了更好的解決。

李飛飛最新演講:視覺智慧是人類和計算機合作溝通的橋梁 | CNCC2017

還有一個研究目標(biāo)是,給圖片配上整段的說明文字。

當(dāng)李飛飛在加州理工學(xué)院讀博士的時候做過一個實驗,就讓人們觀察一張照片,然后讓他們盡可能地說出自己在照片中看到的東西。當(dāng)時做實驗的時候,在受試者面前的屏幕上快速閃過一張照片,然后用一個別的圖像、墻紙一樣的圖像蓋住它,它的作用是把他們視網(wǎng)膜暫留的信息清除掉。

接下來就讓他們盡可能多地寫下自己看到的東西。從結(jié)果上看,有的照片好像比較容易,但是其實只是因為我們選擇了不同長短的展示時間,最短的照片只顯示了27毫秒,這已經(jīng)達(dá)到了當(dāng)時顯示器的顯示速度上限;有些照片顯示了0.5秒的時間,對人類視覺理解來說可算是綽綽有余了。

李飛飛最新演講:視覺智慧是人類和計算機合作溝通的橋梁 | CNCC2017

對于這張照片,時間很短的時候看清的內(nèi)容也很有限,500毫秒的時候他們就能寫下很長一段。進(jìn)化給了我們這樣的能力,只看到一張圖片就可以講出一個很長的故事。

在過去的3年里,CV領(lǐng)域的研究人員們就在研究如何把圖像中的信息變成故事。

李飛飛最新演講:視覺智慧是人類和計算機合作溝通的橋梁 | CNCC2017

他們首先研究了圖像說明,比如借助CNN把圖像中的內(nèi)容表示到特征空間,然后用LSTM這樣的RNN生成一系列文字。這類工作在2015年左右有很多成果,從此之后我們就可以讓計算機給幾乎任何東西配上一個句子。

李飛飛最新演講:視覺智慧是人類和計算機合作溝通的橋梁 | CNCC2017

比如這兩個例子,“一位穿著橙色馬甲的工人正在鋪路”和“穿著黑色襯衫的男人正在彈吉他”。

李飛飛最新演講:視覺智慧是人類和計算機合作溝通的橋梁 | CNCC2017

李飛飛最新演講:視覺智慧是人類和計算機合作溝通的橋梁 | CNCC2017

這都是CVPR2015上的成果。兩年過去了,李飛飛團隊的算法也已經(jīng)不是最先進(jìn)的了,不過那時候確實是是圖像說明這個領(lǐng)域的開拓性工作之一。

沿著這個方向繼續(xù)做研究,他們迎來的下一個成果是稠密說明,就是在一幅圖片中有很多個區(qū)域都會分配注意力,這樣有可以有很多個不同的句子描述不同的區(qū)域,而不僅僅是用一個句子描述整個場景。在這里就用到了CNN模型和邏輯區(qū)域檢測模型的結(jié)合,再加上一個語言模型,這樣就可以對場景做稠密的標(biāo)注。

李飛飛最新演講:視覺智慧是人類和計算機合作溝通的橋梁 | CNCC2017

比如這張圖里就可以生成,“有兩個人坐在椅子上”、“有一頭大象”、“有一棵樹”等等

李飛飛最新演講:視覺智慧是人類和計算機合作溝通的橋梁 | CNCC2017

另一張李飛飛的學(xué)生們的室內(nèi)照片也標(biāo)出了豐富的內(nèi)容。

李飛飛最新演講:視覺智慧是人類和計算機合作溝通的橋梁 | CNCC2017

在最近的CVPR2017的研究中,他們讓表現(xiàn)邁上了一個新的臺階,不只是簡單的說明句子,還要生成文字段落,把它們以具有空間意義的方式連接起來。這樣我們就可以寫出“一只長頸鹿站在樹邊,在它的右邊有一個有葉子的桿子,在籬笆的后面有一個黑色和白色的磚壘起來的建筑”,等等。雖然里面有錯誤,而且也遠(yuǎn)比不上莎士比亞的作品,但我們已經(jīng)邁出了視覺和語言結(jié)合的第一步。

李飛飛最新演講:視覺智慧是人類和計算機合作溝通的橋梁 | CNCC2017

而且,視覺和語言的結(jié)合并沒有停留在靜止的圖像上,剛才的只是最新成果之一。在另外的研究中,他們把視頻和語言結(jié)合起來。

李飛飛最新演講:視覺智慧是人類和計算機合作溝通的橋梁 | CNCC2017

比如這個CVPR2017的研究,可以對一個說明性視頻中不同的部分做聯(lián)合推理、整理出文本結(jié)構(gòu)。這里的難點是解析文本中的實體,比如第一步是“攪拌蔬菜”,然后“拿出混合物”。如果算法能夠解析出“混合物”指的是前一步里混合的蔬菜,那就棒極了。

李飛飛最新演講:視覺智慧是人類和計算機合作溝通的橋梁 | CNCC2017

在語言之后,李飛飛還介紹了任務(wù)驅(qū)動的視覺問題。對整個AI研究大家庭來說,任務(wù)驅(qū)動的AI是一個共同的長期夢想,從一開始人類就希望用語言給機器人下達(dá)指定,然后機器人用視覺方法觀察世界、理解并完成任務(wù)。

這是一個經(jīng)典的任務(wù)驅(qū)動問題,人類說:“藍(lán)色的金字塔很好。我喜歡不是紅色的立方體,但是我也不喜歡任何一個墊著5面體的東西。那我喜歡那個灰色的盒子嗎?” 那么機器,或者機器人,或者智能體就會回答:“不,因為它墊著一個5面體”。它就是任務(wù)驅(qū)動的,對這個復(fù)雜的世界做理解和推理。

李飛飛最新演講:視覺智慧是人類和計算機合作溝通的橋梁 | CNCC2017

李飛飛團隊和Facebook合作重新研究這類問題,創(chuàng)造了帶有各種幾何體的場景,然后給人工智能提問,看它會如何理解、推理、解決這些問題。這其中會涉及到屬性的辨別、計數(shù)、對比、空間關(guān)系等等。

李飛飛最新演講:視覺智慧是人類和計算機合作溝通的橋梁 | CNCC2017

在這方面的第一篇論文用了CNN+LSTM+注意力模型,結(jié)果算不上差,人類能達(dá)到超過90%的正確率,機器雖然能做到接近70%了,但是仍然有巨大的差距。有這個差距就是因為人類能夠組合推理,機器則做不到。

李飛飛最新演講:視覺智慧是人類和計算機合作溝通的橋梁 | CNCC2017

而在ICCV上,他們介紹了新一篇論文中的成果。借助新的CLEVR數(shù)據(jù)集,把一個問題分解成帶有功能的程序段,然后在程序段基礎(chǔ)上訓(xùn)練一個能回答問題的執(zhí)行引擎。這個方案在嘗試推理真實世界問題的時候就具有高得多的組合能力。

李飛飛最新演講:視覺智慧是人類和計算機合作溝通的橋梁 | CNCC2017

在測試中也終于超出了人類的表現(xiàn)。

李飛飛最新演講:視覺智慧是人類和計算機合作溝通的橋梁 | CNCC2017

模型的實際表現(xiàn)當(dāng)然不錯。比如這個例子里,我們提問某種顏色的東西是什么形狀的,它就會回答“是一個立方體”這樣,表明了它的推理是正確的。它還可以數(shù)出東西的數(shù)目。這都體現(xiàn)出了算法可以對場景做推理。熱力圖也展示出了模型正確地關(guān)注了圖中的區(qū)域。

李飛飛最新演講:視覺智慧是人類和計算機合作溝通的橋梁 | CNCC2017

圖像相關(guān)的任務(wù)說了這么多,李飛飛把它們總結(jié)為了兩大類

  • 首先是除了物體識別之外的關(guān)系識別、復(fù)雜語意表征、場景圖;

  • 在場景gist之外,我們需要用視覺+語言處理單句標(biāo)注、段落生成、視頻理解、聯(lián)合推理;

李飛飛最新演講:視覺智慧是人類和計算機合作溝通的橋梁 | CNCC2017

李飛飛最后展示了她女兒的照片,她只有20個月大,但視覺能力也是她的日常生活里重要的一部分,讀書、畫畫、觀察情感等等,這些重大的進(jìn)步都是這個領(lǐng)域未來的研究目標(biāo)。

李飛飛最新演講:視覺智慧是人類和計算機合作溝通的橋梁 | CNCC2017

視覺智慧是理解、交流、合作、交互等等的關(guān)鍵一步,人類在這方面的探索也只稱得上是剛剛開始。

李飛飛最新演講:視覺智慧是人類和計算機合作溝通的橋梁 | CNCC2017

(完)

CNCC2017還在進(jìn)行中,請期待雷鋒網(wǎng) AI 科技評論帶來的后續(xù)精彩報道。

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

李飛飛最新演講:視覺智慧是人類和計算機合作溝通的橋梁 | CNCC2017

分享:
相關(guān)文章

讀論文為生

日常笑點滴,學(xué)術(shù)死腦筋
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說