丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學(xué)術(shù) 正文
發(fā)私信給MrBear
發(fā)送

0

CVPR 2019 最佳學(xué)生論文官方解讀!

本文作者: MrBear 編輯:幸麗娟 2019-07-25 11:08 專題:CVPR 2019
導(dǎo)語:通往強 AI 之路,從架起視覺與語言的橋梁開始!

雷鋒網(wǎng) AI 科技評論按:作為人類感知世界、進行交互的兩大最重要的方式,視覺和語言一直是人工智能領(lǐng)域研究的重點。近年來,將視覺與語言信息進行融合和轉(zhuǎn)化成為了一個活躍的研究方向,許多讓人眼前一亮的工作也隨之產(chǎn)生。微軟研究院在文本中,對其獲得 CVPR 2019 最佳學(xué)生論文的工作進行了技術(shù)解析,非常值得一讀!

人類如何進行高效的溝通呢?人們普遍認為,人類用來交流的詞語(例如「狗」)會引發(fā)對物理概念的相似理解。實際上,我們對于狗的物理外形、發(fā)出的聲音、行走或奔跑的方式等都有共同的概念。換句話說,自然語言與人類與他們所處的環(huán)境之間的交互方式息息相關(guān)。因此,通過將自然語言基標(biāo)對準(zhǔn)到我們所處環(huán)境的各種模態(tài)中(例如圖像、動作、物體、聲音等),可以產(chǎn)生有意義的行為。心理學(xué)領(lǐng)域最新的研究成果表明,嬰兒最可能學(xué)會的第一個單詞是基于其視覺體驗的,這為嬰兒語言學(xué)習(xí)問題的新理論奠定了基礎(chǔ)。那么現(xiàn)在問題來了:我們是否能夠構(gòu)建出可以像人類一樣,學(xué)著在不同模態(tài)下進行溝通的智能體?

在各種多模態(tài)學(xué)習(xí)任務(wù)中,視覺-語言導(dǎo)航(VLN)是一類十分有趣也極具挑戰(zhàn)性的任務(wù)。這是因為,為了能夠以遵循自然語言指令的方式對真實環(huán)境中的智能體進行導(dǎo)航,我們需要執(zhí)行兩層基標(biāo)對準(zhǔn):將指令基標(biāo)對準(zhǔn)到局部空間視覺場景中,然后將指令與全局時序視覺軌跡相匹配。最近,深度神經(jīng)網(wǎng)絡(luò)領(lǐng)域的工作重點關(guān)注于通過在視覺上基標(biāo)對準(zhǔn)語言學(xué)習(xí)任務(wù),來連通視覺和自然語言理解的橋梁,從而構(gòu)建智能體,這要求研究人員具備機器學(xué)習(xí)、計算機視覺、自然語言處理以及其它領(lǐng)域的專業(yè)知識。

對于這種基標(biāo)對準(zhǔn)任務(wù)而言,深度學(xué)習(xí)技術(shù)非常具有使用前景,這是因為使用深度學(xué)習(xí)技術(shù)能夠使得同時從計算機視覺和語言的低級感知數(shù)據(jù)中學(xué)習(xí)到高級語義特征成為可能。此外,深度學(xué)習(xí)模型也使我們可以將不同模態(tài)的信息融合到同一種表征中?;A(chǔ)語言學(xué)習(xí)任務(wù)還要求與某個外部環(huán)境進行交互;因此,強化學(xué)習(xí)為我們提供了一種優(yōu)雅的框架,能夠基于視覺層面來完成對話任務(wù)規(guī)劃。所有這些研究進展使得解決具有挑戰(zhàn)性的 VLN 任務(wù)在技術(shù)上可行。

CVPR 2019 最佳學(xué)生論文官方解讀!

圖 1:視覺語言導(dǎo)航(VLN)任務(wù)示意圖。圖中展示了指令、局部視覺場景,以及從俯視視角描繪的全局軌跡。智能體并不能獲取俯視圖信息。路徑 A 是遵循指令得到的正確演示路徑。路徑 B 和 C 代表智能體執(zhí)行出的兩條路徑。

微軟研究院的視覺和語言研究人員一直致力于研究對自然語言和視覺交互進行基標(biāo)對準(zhǔn)的各種不同的方法,并一直在應(yīng)對 VLN 所特有的挑戰(zhàn)。 CVPR 2019 中,由微軟 AI 研究院的 Qiuyuan Huang、Asli Celikyilmaz、Lei Zhang、Jianfeng Gao,加州大學(xué)圣巴巴拉分校的王鑫、Yuan-Feng Wang、王威廉,以及杜克大學(xué)的 Dinghan Shen 共同完成的工作「Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation」獲得了最佳學(xué)生論文,微軟的 VLN 研究團隊在本論文中探索了解決 VLN 領(lǐng)域這三個關(guān)鍵挑戰(zhàn)的方案:跨模態(tài)基標(biāo)對準(zhǔn)(cross-modal grounding)、不適定反饋(ill-posed feedback)以及泛化(generalization)問題。不僅如此,這項工作所取得的好結(jié)果非常激動人心!

其中的一個挑戰(zhàn)是,根據(jù)視覺圖像和自然語言指令進行推理。如圖 1 所示,為了到達目的地(用黃色圓圈高亮表示),智能體需要將用單詞序列表征的指令對標(biāo)到局部的視覺場景中,并且將指令與全局時序空間中的視覺軌跡匹配起來。為了解決這個問題,我們提出了一種新的強化跨模態(tài)匹配(RCM)方法,它可以通過強化學(xué)習(xí)在局部和全局進行跨模態(tài)基礎(chǔ)標(biāo)對。

如圖 2a 所示,我們的研究團隊設(shè)計了一個帶有兩種獎勵函數(shù)的推理導(dǎo)航器。外部獎勵會指導(dǎo)智能體學(xué)習(xí)文本指令和局部視覺場景之間的跨模態(tài)基礎(chǔ)對標(biāo),從而使智能體可以推測出要關(guān)注的子指令以及相應(yīng)的視覺內(nèi)容。同時,從全局的角度來看,內(nèi)部獎勵和匹配評價器一起,通過根據(jù)執(zhí)行的路徑重建原始指令的概率來評估一個執(zhí)行路徑,我們將其稱為「循環(huán)重建」獎勵。

CVPR 2019 最佳學(xué)生論文官方解讀!

圖 2:用于將自然語言指令與視覺環(huán)境對標(biāo)的強化跨模態(tài)匹配框架。

該內(nèi)部獎勵對于這種 VLN 任務(wù)尤為重要;如何訓(xùn)練這些智能體,以及從它們的環(huán)境中獲取反饋是VLN 研究人員面臨的重大挑戰(zhàn)。在訓(xùn)練時,學(xué)習(xí)遵循專家演示需要頻繁的反饋,從而使智能體可以保持在正確的軌跡上,并且按時到達目的地。然而,在 VLN 任務(wù)中,反饋是非常粗糙的,因為只有當(dāng)智能體到達了某個目標(biāo)位置后才會提供「成功」的反饋,完全沒有考慮智能體是否遵循了指令(如圖 1 中的路徑 A 所示),或者是按照隨機的路徑到達了目的地(如圖 1 中路徑 C 所示)。如果智能體稍微比預(yù)計時間停止得早了一些(如圖 1 中的路徑 B 所示),即使與指令相匹配的「好」軌跡也可能被認為是「不成功」的。這樣的話,不適定反饋可能會與最優(yōu)策略學(xué)習(xí)的結(jié)果不符。

如圖 2a 和 2b 所示,我們提出通過局部測量一個循環(huán)重建獎勵來評價智能體遵循指令的能力;這種機制能夠提供一種細粒度的內(nèi)部獎勵信號,促使智能體更好地理解語言輸入,并且懲罰與指令不匹配的軌跡。舉例而言,如圖 1 所示,使用我們提出的獎勵,路徑 B 就會被認為優(yōu)于路徑 C。

使用匹配評價器提供的內(nèi)部獎勵以及環(huán)境提供外部獎勵進行訓(xùn)練,我們的推理導(dǎo)航器會學(xué)著將自然語言指令同時在局部空間視覺場景和全局時序視覺軌跡進行基標(biāo)對準(zhǔn)。在一個 VLN 對比基準(zhǔn)數(shù)據(jù)集上的評估結(jié)果顯示,我們的 RCM 模型在 SPL(通過逆路徑長度加權(quán)的成功率)指標(biāo)上顯著優(yōu)于之前的方法,提升高達 10%,實現(xiàn)了目前最佳的模型性能。

當(dāng)處于訓(xùn)練時未曾見過的環(huán)境中時,VLN 智能體的性能會顯著降低。為了縮小這種差距,我們提出了一種通過自監(jiān)督學(xué)習(xí)探索未見過的環(huán)境的有效解決方案。通過這種新技術(shù),我們可以促進終身學(xué)習(xí)以及對新環(huán)境的適應(yīng)。例如,家用機器人可以探索一個新的房子,然后通過學(xué)習(xí)之前的經(jīng)驗迭代式地改進導(dǎo)航策略。受到這一事實的啟發(fā),我們引入了一種自監(jiān)督模仿學(xué)習(xí)機制(SIL)來支持智能體對未見過的環(huán)境(沒有帶標(biāo)簽的數(shù)據(jù))進行探索。其中,智能體會學(xué)習(xí)自己過去積極的經(jīng)驗。

具體而言,在我們的框架中,導(dǎo)航器將執(zhí)行多次「roll-out」策略,其中好的軌跡(由匹配評價器確定)將會被保存在經(jīng)驗回放緩存中,然后被導(dǎo)航器用于模仿。通過這種方式,當(dāng)行器可以對其最佳行為進行近似,從而得到更好地策略。我們能夠證明 SIL 可以近似得到一個更好、更高效的策略,這極大地縮小了訓(xùn)練時見過和未曾見過的環(huán)境之間的成功率的性能差異(從 30.7% 降低到 11.7%)。

非常榮幸,這篇論文被選為了 CVPR 2019 的最佳學(xué)生論文。用 CVPR 2019 最佳論文獎組委會的話來說,就是「視覺導(dǎo)航是計算機視覺的一個重要領(lǐng)域,而這篇論文在視覺-語言導(dǎo)航方面取得了進展。在該領(lǐng)域之前工作的基礎(chǔ)上,該論文在跨模態(tài)環(huán)境下基于自模仿學(xué)習(xí)所取得的成果令人激動!」熱烈祝賀這篇論的作者們:來自加州大學(xué)圣巴巴拉分校的王鑫、Yuan-Fang Wang、王威廉,來自微軟 AI 研究院的 Qiuyuan Huang、Asli Celikyilmaz、Lei Zhang、Jianfeng Gao, 以及來自杜克大學(xué)的 Dinghan Shen。其中,王鑫對這一工作所做的貢獻是其在微軟研究院實習(xí)期間完成的。

在另外一篇 CVPR 2019 論文「Tactical Rewind: Self-Correction via Backtracking in Vision-and-Language Navigation」(由微軟 AI 研究院的 Xiujun Li 和 Jianfeng Gao,華盛頓大學(xué)的 Liyiming Ke、Yonatan Bisk、Ari Holtzman、Yejin Choi、Siddhartha Srinivasa,以及微軟 Dynamics AI 的 Zhe Gan 和 Jingjing Liu 共同完成)中,我們改進了 VLN 智能體的搜索方法,提出了一個被稱為「快速導(dǎo)航器」(Fast Navigator)的動作編碼的通用框架,使智能體能夠基于局部和全局的信息比較長度不同的部分路徑,并且在出錯時進行回溯。

我們注意到,VLN 與文本生成任務(wù)有一些相似之處,所有現(xiàn)有的工作可以被分為兩類:

  • 貪婪搜索(Greedy search)——在每個時間步做出決策時,智能體僅僅考慮局部信息,其中所有的智能體都存在「exposure bias」的現(xiàn)象,這是序列生成任務(wù)中的一類典型問題;

  • 集束搜索(Beam search)是另一個極端。智能體會使用「roll-out」策略生成多條軌跡,然后選擇最好的那一條。盡管這種方法提升了成功率,但是其計算成本與軌跡數(shù)成正比,并且這種成本可能十分巨大。不可能會有人部署一個在執(zhí)行每次命令前都要在房子里重復(fù)進行 100 次導(dǎo)航(即使它最終到達了正確的位置)的家用機器人吧!

總的來說,當(dāng)前的 VLN 模型面臨著兩大核心問題:首先,我們應(yīng)該回溯嗎?如果我們應(yīng)該回溯,那么我們應(yīng)該回溯到哪一步呢?其次,我們應(yīng)該在何時停止搜索?

為了使智能體能夠在出錯時進行回溯,我們將搜索與神經(jīng)編碼結(jié)合了起來,從而使得智能體可以基于局部和全局信息比較長度不同的部分路徑,然后在發(fā)現(xiàn)錯誤時進行回溯。為了確定我們是否應(yīng)該停止搜索,我們使用了一個融合函數(shù),該函數(shù)會將局部動作知識和歷史轉(zhuǎn)化為一個進度的估計值,從而通過對我們之前的動作與給定的文本指令的匹配程度建模來評估智能體的進度。

 via https://www.microsoft.com/en-us/research/blog/see-what-we-mean-visually-grounded-natural-language-navigation-is-going-places/  雷鋒網(wǎng) 雷鋒網(wǎng) 

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

CVPR 2019 最佳學(xué)生論文官方解讀!

分享:
相關(guān)文章

知情人士

當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說