丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給楊曉凡
發(fā)送

2

DeepMind 提出 GQN,神經(jīng)網(wǎng)絡(luò)也有空間想象力

本文作者: 楊曉凡 2018-06-15 22:15
導(dǎo)語:強(qiáng)大的場(chǎng)景表征,和仿佛學(xué)到了環(huán)境常識(shí)的渲染器

DeepMind 提出 GQN,神經(jīng)網(wǎng)絡(luò)也有空間想象力

雷鋒網(wǎng) AI 科技評(píng)論按:人類理解一個(gè)視覺場(chǎng)景的過程遠(yuǎn)比看上去復(fù)雜,我們的大腦能夠根據(jù)已有的先驗(yàn)知識(shí)進(jìn)行推理,推理的結(jié)果所能涵蓋的內(nèi)容也要遠(yuǎn)超出視網(wǎng)膜接收到的光線模式的豐富程度。比如,即便是第一次走進(jìn)某個(gè)房間,你也能馬上就認(rèn)出房間里都有哪些東西、它們的位置又都在哪里。如果你看到了一張桌子下面有三條腿,你很容易推斷出來很有可能它還有一條一樣形狀、一樣顏色的第四條腿,只不過現(xiàn)在不在可見范圍里而已。即便你沒法一眼看到房間里所有的東西,你也基本上能描繪出房間里的大致情況,或者想象出從另一個(gè)角度看這間房間能看到什么。

這種視覺和認(rèn)知任務(wù)對(duì)于人類來說看似毫不費(fèi)力,但它們對(duì)人工智能系統(tǒng)來說卻是一大挑戰(zhàn)。如今頂級(jí)的視覺識(shí)別系統(tǒng)都是由人類標(biāo)注過的大規(guī)模圖像數(shù)據(jù)集訓(xùn)練的。獲取這種數(shù)據(jù)成本很高,也很費(fèi)時(shí),需要人工把每個(gè)場(chǎng)景里的每一個(gè)物體的每一個(gè)視角都用標(biāo)簽標(biāo)識(shí)出來。所以最后,整個(gè)場(chǎng)景里往往只有一小部分的物體能被標(biāo)識(shí)出來,這也就限制了在這樣的數(shù)據(jù)上訓(xùn)練的人工智能系統(tǒng)的能力。隨著研究員們開發(fā)能夠運(yùn)行在現(xiàn)實(shí)世界里的機(jī)器系統(tǒng),我們也希望它們能夠完全理解它們所處的環(huán)境 —— 比如最近的能夠站穩(wěn)的平面在哪里?沙發(fā)的材質(zhì)是什么?這些陰影是哪個(gè)光源造成的?燈光開關(guān)有可能在哪里?

DeepMind 近期發(fā)表在 Science 雜志上的論文《Neural Scene Representation and Rendering》(神經(jīng)網(wǎng)絡(luò)場(chǎng)景表征與渲染)就研究了這個(gè)問題,這篇文章是對(duì)雷鋒網(wǎng) AI 科技評(píng)論對(duì) DeepMind 的論文介紹博客的編譯。論文中他們提出了生成式詢問網(wǎng)絡(luò) GQN(Generative Query Network),這是一個(gè)可以讓機(jī)器在場(chǎng)景中移動(dòng),根據(jù)移動(dòng)過程中它們收集到的數(shù)據(jù)進(jìn)行訓(xùn)練,從而學(xué)會(huì)理解它們自己的所處環(huán)境的網(wǎng)絡(luò)框架。就像嬰兒和動(dòng)物一樣,GQN 嘗試?yán)斫庾约河^察到的所處的世界的樣子,從而進(jìn)行學(xué)習(xí)。在這個(gè)過程中,GQN 基本學(xué)到了場(chǎng)景的大致樣子、學(xué)到了它的幾何特點(diǎn),而且不需要人類對(duì)場(chǎng)景中的任何物體進(jìn)行標(biāo)注。

DeepMind 提出 GQN,神經(jīng)網(wǎng)絡(luò)也有空間想象力

GQN 模型由兩部分組成:一個(gè)表征網(wǎng)絡(luò)和一個(gè)生成網(wǎng)絡(luò)。表征網(wǎng)絡(luò)把智能體觀察到的畫面作為輸入,然后生成一個(gè)表征向量,這個(gè)向量就描述了網(wǎng)絡(luò)認(rèn)識(shí)到的場(chǎng)景。生成網(wǎng)絡(luò)接下來就會(huì)從一個(gè)之前未使用過的觀察角度對(duì)場(chǎng)景進(jìn)行預(yù)測(cè)(也可以說是「想象」)。

表征網(wǎng)絡(luò)并不知道生成網(wǎng)絡(luò)要預(yù)測(cè)的視角是什么樣的,所以它需要找到盡可能高效的方式、盡可能準(zhǔn)確地表征出場(chǎng)景的真實(shí)布局。它的做法是捕捉最重要的元素,比如物體的位置、顏色以及整個(gè)屋子的布局,在簡(jiǎn)明的分布式表征中記錄下來。在訓(xùn)練過程中,生成器逐漸學(xué)到了環(huán)境中的典型的物體、特征、物體間關(guān)系以及一些基本規(guī)律。由于有了這組共享的「概念般」的表示方法,表征網(wǎng)絡(luò)也就可以用一種高度壓縮、抽象的方式描述場(chǎng)景,然后生成器會(huì)自動(dòng)補(bǔ)足其它必要的細(xì)節(jié)。例如,表征網(wǎng)絡(luò)可以簡(jiǎn)潔地用一組數(shù)字代表「藍(lán)色方塊」,同時(shí)生成器網(wǎng)絡(luò)也知道給定一個(gè)視角以后要如何把這串?dāng)?shù)字再次轉(zhuǎn)化為像素點(diǎn)。

DeepMind 在一組模擬的 3D 世界環(huán)境中進(jìn)行了控制實(shí)驗(yàn),環(huán)境里有隨機(jī)位置、顏色、形狀、紋理的多個(gè)物體,光源是隨機(jī)的,觀察到的圖像中也有許多遮擋。在環(huán)境中訓(xùn)練過后,DeepMind 的研究人員們用 GQN 的表征網(wǎng)絡(luò)為新的、從未見過的場(chǎng)景生成表征。通過實(shí)驗(yàn),研究人員們表明了 GQN 有以下幾個(gè)重要的特性:

  • GQN 的生成網(wǎng)絡(luò)可以以驚人的精確性從新的視角為從未見過的場(chǎng)景生成「想象」的圖像。對(duì)于給定的場(chǎng)景表征和新的視角,生成網(wǎng)絡(luò)不需要任何透視、遮擋、光照條件的先驗(yàn)指定,就可以生成清晰的圖像。這樣一來,生成網(wǎng)絡(luò)也就是一個(gè)從數(shù)據(jù)學(xué)到的不錯(cuò)的圖像渲染器。

DeepMind 提出 GQN,神經(jīng)網(wǎng)絡(luò)也有空間想象力

  • GQN 的 表征網(wǎng)絡(luò)不需要任何物體級(jí)別的標(biāo)簽就可以學(xué)會(huì)計(jì)數(shù)、定位以及分類。即便網(wǎng)絡(luò)生成的表征規(guī)模不大,GQN 對(duì)于提問視角的預(yù)測(cè)也很準(zhǔn)確,與事實(shí)相差無幾。這表明表征網(wǎng)絡(luò)對(duì)場(chǎng)景的感知也很準(zhǔn)確,比如準(zhǔn)確描述了下面這個(gè)場(chǎng)景中組成積木的方塊的具體狀況。

DeepMind 提出 GQN,神經(jīng)網(wǎng)絡(luò)也有空間想象力

  • GQN 能表征、測(cè)量以及減小不確定性。它自己對(duì)于場(chǎng)景的認(rèn)知中可以包含一定的不確定性,尤其對(duì)于場(chǎng)景中的部分內(nèi)容不可見的情況,它可以組合多個(gè)部分的視角,形成一個(gè)一致的整體理解。下圖通過第一人稱視角以及上帝視角展示了網(wǎng)絡(luò)的這項(xiàng)能力。網(wǎng)絡(luò)通過生成一系列不同的預(yù)測(cè)結(jié)果的方式展現(xiàn)出了不確定性,而隨著智能體在迷宮中四處移動(dòng),不確定的范圍逐漸減小。(圖中灰色圓錐表示觀察的位置,黃色圓錐表示提問的位置)

DeepMind 提出 GQN,神經(jīng)網(wǎng)絡(luò)也有空間想象力

  • GQN 的表征為魯棒、樣本高效的強(qiáng)化學(xué)習(xí)帶來了可能。把 GQN 的緊湊的表征作為輸入,相比無模型的基準(zhǔn)線智能體,目前頂級(jí)的強(qiáng)化學(xué)習(xí)智能體能夠以更數(shù)據(jù)高效的方式進(jìn)行學(xué)習(xí),如下圖所示。對(duì)于這些智能體來說,生成網(wǎng)絡(luò)中編碼的信息可以看做是存儲(chǔ)了這些環(huán)境的「固有信息」、「通用特性」。

DeepMind 提出 GQN,神經(jīng)網(wǎng)絡(luò)也有空間想象力

通過使用 GQN,DeepMind 的研究人員們觀察到了數(shù)據(jù)效率顯著更高的策略學(xué)習(xí),相比一個(gè)標(biāo)準(zhǔn)的、把原始像素作為數(shù)據(jù)的方法,它與環(huán)境交互的數(shù)量只需要大概 1/4 就可以得到接近收斂級(jí)別的表現(xiàn)。

GQN 是基于多視角幾何、生成式建模、無監(jiān)督學(xué)習(xí)和預(yù)測(cè)學(xué)習(xí)方面的大量近期論文構(gòu)建的,DeepMind 也在這篇報(bào)告中介紹了相關(guān)工作。GQN 介紹了一種新的方式從物理場(chǎng)景學(xué)習(xí)緊湊的、可靠的表征。最關(guān)鍵的是,所提的方法也不需要任何專門針對(duì)領(lǐng)域的工程設(shè)計(jì)或者耗時(shí)的內(nèi)容標(biāo)注,所以同一個(gè)模型可以用在多種不同的環(huán)境中。它還學(xué)到了一個(gè)強(qiáng)有力的神經(jīng)網(wǎng)絡(luò)渲染器,能夠從新的視角為場(chǎng)景生成準(zhǔn)確的圖像。

不過 DeepMind 也表示,相比傳統(tǒng)的計(jì)算機(jī)視覺技術(shù),GQN 也遇到了諸多限制,目前也只嘗試了在生成的場(chǎng)景中訓(xùn)練。不過,隨著獲得新的數(shù)據(jù)、硬件方面得到新的提升,他們也希望未來能夠在更高分辨率的、真實(shí)的場(chǎng)景中研究 GQN 網(wǎng)絡(luò)框架的應(yīng)用。在后續(xù)研究中,研究如何把 GQN 應(yīng)用到場(chǎng)景理解的更多層面上也是一個(gè)重要課題,比如通過對(duì)于一段時(shí)間和空間的提問,讓模型學(xué)會(huì)一些物理原理和運(yùn)動(dòng)常識(shí);GQN 在虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)中也有機(jī)會(huì)得到應(yīng)用。

雖然這項(xiàng)方法距離實(shí)際應(yīng)用還有很長(zhǎng)的距離,但 DeepMind 相信這是向著全自動(dòng)場(chǎng)景理解的目標(biāo)的重要一步。

論文地址(Science版):http://science.sciencemag.org/content/sci/360/6394/1204.full.pdf

論文地址(Open Access 版):https://deepmind.com/documents/211/Neural_Scene_Representation_and_Rendering_preprint.pdf

via DeepMind Blog,雷鋒網(wǎng) AI 科技評(píng)論編譯

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

DeepMind 提出 GQN,神經(jīng)網(wǎng)絡(luò)也有空間想象力

分享:
相關(guān)文章

讀論文為生

日常笑點(diǎn)滴,學(xué)術(shù)死腦筋
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說