丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給楊曉凡
發(fā)送

0

能看圖回答問題的AI離我們還有多遠?Facebook向視覺對話進發(fā)

本文作者: 楊曉凡 編輯:郭奕欣 2017-11-08 16:37
導語:Facebook AI 研究院(FAIR)日前撰寫了一篇長文章,介紹了自己在基于圖像的自然語言對話系統(tǒng)方面的研究方向以及現(xiàn)有的研究成果。

雷鋒網(wǎng) AI 科技評論按:Facebook AI 研究院(FAIR)日前撰寫了一篇長文章,介紹了自己在基于圖像的自然語言對話系統(tǒng)方面的研究方向以及現(xiàn)有的研究成果。

圖像理解和自然語言對話系統(tǒng)都是當前的熱門研究領域,兩者結(jié)合的領域更是又迷人、又讓人頭疼。下面我們來一起看看Facebook AI 研究院對這一問題有何見解、他們又做出了哪些成果。雷鋒網(wǎng) AI 科技評論編譯此文如下。

能看圖回答問題的AI離我們還有多遠?Facebook向視覺對話進發(fā)

人們對視覺對話(Visual Dialog)的研究抱有一個遠大的目標,就是教會機器用自然語言與人類討論視覺內(nèi)容。這個正在快速增長的研究領域集合了計算機視覺、自然語言處理以及對話系統(tǒng)研究三個方向的成果。

總的來說,對話系統(tǒng)的功能可以在一個范圍內(nèi)變化。這個范圍一個極端是任務驅(qū)動的對話機器人,人們可以和它對話來完成一些具體的任務,比如訂一張機票;另一個極端是閑聊機器人,你們可以聊任何話題,但是聊天的時候并不為了達成什么目的。視覺對話大概在這兩個極端中間的一個位置上,這確實是一種不限定形式的聊天,但是對話內(nèi)容需要限定在給定圖像的內(nèi)容范圍之內(nèi)。

能看圖回答問題的AI離我們還有多遠?Facebook向視覺對話進發(fā)

未來的視覺對話應用:一個能利用視覺能力和自然語言界面幫助人類的智能助手

雖然目前的視覺對話系統(tǒng)還處在很早期的階段,但這類技術未來有很多的應用潛力。比如,能回答一系列問題的智能助手就可以幫助視覺障礙人群理解網(wǎng)上照片中的內(nèi)容,或者看他現(xiàn)拍的照片幫他了解他所處的周圍環(huán)境;還可以幫助醫(yī)療人員更好地解讀醫(yī)學成像照片。在AR/VR應用中也能派得上用場,用戶跟一個虛擬的同伴身處同一個視覺環(huán)境中,然后可以用自然語言跟他聊環(huán)境中的東西。

能看圖回答問題的AI離我們還有多遠?Facebook向視覺對話進發(fā)

未來的視覺對話應用:基于同一視覺環(huán)境的虛擬伙伴

要造出類似這樣的系統(tǒng),目前還有不少基礎研究方面的困難。Facebook的研究人員們近期就沿著兩個研究方向做出了自己的努力:1,對視覺內(nèi)容做顯式的推理;2,模仿人類的視覺對話。

視覺內(nèi)容的顯式推理

連接到視覺數(shù)據(jù)的一個核心語言界面就是問一個自然語言的問題,比如:“圖中有什么動物?”或者“有多少人坐在長椅上?”每個問題中需要解決的都是不同的任務,然而目前具有頂尖表現(xiàn)的系統(tǒng)里多數(shù)都還運用的是整體性的方法,用同一個計算圖或者計算網(wǎng)絡給出所有問題的答案。然而,這些模型只有有限的解釋能力,而且對于更復雜一些的推理任務就很容變得無能為力,比如:“有多少東西和球的大小一樣?”如下圖

能看圖回答問題的AI離我們還有多遠?Facebook向視覺對話進發(fā)

用模塊化的結(jié)構表征問題就給符合性的、可解釋的推理帶來了可能

為了解決這樣的問題,UC伯克利的研究員們在一篇CVPR2016的論文中提出了“神經(jīng)模塊網(wǎng)絡”,它吧計算過程拆分成了幾個顯式的模塊。在上面的例子中,一個模塊“尋找”或者說定位了這個球,然后另一個模塊“重定位”或者說找到相同大小的物體,最后一個模型就可以數(shù)出來“有多少”。這個過程中重要的是,對于不同的照片或者問題,模型可以反復使用,比如“尋找球”的這個模塊對于另一張圖像來說就可以回答“圖中的球體比立方體多嗎”這個問題。就像和上面的圖中一樣,這樣讓人們可以通過“注意力地圖”的方式檢驗中間的可解釋的輸出,可以看到模型在關注圖中的哪些區(qū)域。

最初的這項工作基于的是一個不可微的自然語言分析器,后來2篇ICCV2017的論文就展現(xiàn)出了如何端到端地訓練一個類似這樣的系統(tǒng)。如果想要解答CVPR2017上Facebook AI研究院和斯坦福大學共同發(fā)布的CLEVR數(shù)據(jù)集中困難得多的組合問題,作者們認為這樣的系統(tǒng)應當至關重要。

能看圖回答問題的AI離我們還有多遠?Facebook向視覺對話進發(fā)

論文「Learning to Reason: End-to-End Module Networks for Visual Question Answering」(學習推理:用于視覺問題回答的端到端模塊網(wǎng)絡)首先用一個帶有編碼器和解碼器的循環(huán)神經(jīng)網(wǎng)絡(RNN)根據(jù)問題建立一個策略或者一個程序,然后它就會構建出一個模塊化的網(wǎng)絡,用這個網(wǎng)絡對圖像進行操作、回答問題。

不過,這兩篇論文提出了不同的架構。第一篇由Facebook AI研究院和斯坦福大學合作完成的論文「Inferring and Executing Programs for Visual Reasoning」(用于視覺推理的推斷和處理程序)中,不同的模塊中有不同的參數(shù),但網(wǎng)絡結(jié)構是一樣的。第二篇由UC伯克利大學、波士頓大學和Facebook AI研究院協(xié)作完成的「Learning to Reason: End-to-End Module Networks for Visual Question Answering」中,依靠不同的模塊完成不同的計算任務,模塊之間可以共享問題表述的嵌入的參數(shù)。

雖然兩篇論文中方法的架構不同,但兩項研究中都發(fā)現(xiàn)有必要借助標準答案對程序的預測結(jié)果進行監(jiān)督,以便得到更好的結(jié)果,不過一小批訓練樣本也就足夠了?!癐nferring and Executing Programs”論文中就表現(xiàn)出強化學習的使用可以讓網(wǎng)絡學到最好的端到端程序,這比直接學習標準答案的程序帶來了顯著的提升,而且可以對新問題和新答案做出細微調(diào)整。

近期新提出的RelationNet和FiLM兩種網(wǎng)絡架構也不需要在訓練中用到任何標準答案程序就可以達到與整體式網(wǎng)絡相當或更好的表現(xiàn);這也意味著它們失去了顯式的、可解釋的推理結(jié)構。在“Inferring and Executing Programs”論文中除了基于CLEVR綜合生成的問題之外也收集了真實人類提出的問題。不過,所有提到的這些研究都不具有好的泛化性。與此相似的是,如果在帶有真實圖像和問題的VQA數(shù)據(jù)集上測試,“Learning to Reason”論文的程序預測只帶來的非常有限的表現(xiàn)提升,很可能是因為VQA數(shù)據(jù)集的問題需要的推理復雜度比CLEVR數(shù)據(jù)集低得多。

總的來說,F(xiàn)acebook的研究人員們對繼續(xù)探索新的點子、構建真正具有復合性解釋性、能夠處理真實世界情境中的新設置和新程序帶來的麻煩的模型還抱著飽滿的熱情。

模仿人類的視覺對話

這篇介紹文章由三位Facebook AI研究院的研究員Dhruv Batra、Devi Parikh、Marcus Rohrbach三人共同撰寫,前兩者同時也是佐治亞理工大學的助理教授。兩人以及他們在佐治亞理工大學和卡耐基梅隆大學的學生們共同研究著針對圖像的自然語言對話問題。他們開發(fā)了一個新的雙人對話數(shù)據(jù)收集程序,從而構建了一個大規(guī)模的視覺對話數(shù)據(jù)集VisDial,其中包含了十二萬張圖像,每張圖像帶有10對問答句子,一共一百二十萬個對話問答對。

能看圖回答問題的AI離我們還有多遠?Facebook向視覺對話進發(fā)

視覺對話智能體的示意圖。用戶上傳一張圖像,智能體就會首先開口給圖像配上一句說明比如“一棟大樓,它中間有一個塔樓”,然后它還可以回答用戶的一系列問題。

由于這個研究處于多個領域的交叉口上,它也就帶動著不同領域的研究人員們攜起手來解決共同的問題。為了給這個研究前線帶來更大的貢獻,他們也把VisDial數(shù)據(jù)集和相關代碼開放出來,便于其它的對話系統(tǒng)研究者們?yōu)樽约旱膯栴}創(chuàng)建定制化的數(shù)據(jù)集。

能看圖回答問題的AI離我們還有多遠?Facebook向視覺對話進發(fā)

對于對話系統(tǒng),一個可能有點反直覺的研究角度是,把對話看作一個固定的監(jiān)督學習問題,而不是一個交互性的智能體學習問題。根本上來說,監(jiān)督學習的每一輪 t 中,對話模型都被人為地“插入”到兩個人類的對話中,然后要求它回答一個問題。但機器的回答又會被拋棄,因為在下一輪 t+1 中,人們會給模型輸入“標準答案”的人和人之間的對話,這其中包含了人類的應答而不包含機器的應答。這樣一來,人類從來都不會把引導聊天走向的機會交給機器,因為這樣就會讓對話內(nèi)容超出數(shù)據(jù)集之外,變得無法評估。

為了改善這個問題,佐治亞理工、卡內(nèi)基梅隆和Facebook AI研究院共同在論文「Learning Cooperative Visual Dialog Agents with Deep Reinforcement Learning」(用深度強化學習學習合作性的視覺對話智能體)中提出了首個目標驅(qū)動的訓練方式,用來訓練視覺問題回答以及視覺對話智能體。他們提出了一個兩個之間智能體合作完成的“猜圖片”小游戲GuessWhich,其中一個“提問者”Q-BOT和一個“回答者”A-BOT要用自然語言對話交流。在游戲開始前會先給A-BOT指定一張圖像,Q-BOT看不到圖像;然后兩個BOT都會收到一條關于這張圖像的自然語言的描述。在游戲接下來的每一輪中,Q-BOT都要生成一個問題,A-BOT要回答它,然后兩個BOT的狀態(tài)都得到更新。在10論問答結(jié)束后,Q-BOT就要開始猜剛才的圖像是一組圖像中的哪一張。研究人員們發(fā)現(xiàn),這些強化學習的方式訓練得到的智能體要比傳統(tǒng)監(jiān)督學習訓練的智能體強得多。最有意思的是,雖然有監(jiān)督訓練的Q-BOT會模仿人類如何問問題,強化學習訓練的Q-BOT會變化策略,問一些A-BOT更善于回答的問題,最終在對話中包含了更多的信息量,組成了更好的團隊。

目標驅(qū)動的學習有一種替代方案,就是選用一個對抗性損失或者感知損失,用來區(qū)分真實人類的和智能體生成的回答。在馬上要到來的NIPS 2017中就收錄了一篇介紹這個點子的論文,「Best of Both Worlds: Transferring Knowledge from Discriminative Learning to a Generative Visual Dialog Model」(雙料冠軍:從對抗性學習轉(zhuǎn)移知識到生成式視覺對話模型),來自Facebook AI研究院和佐治亞理工大學。還有一篇相關的論文來自普朗克信息學研究所、UC伯克利、Facebook AI研究院的共同合作,「Speaking the Same Language: Matching Machine to Human Captions by Adversarial Training」(講一樣的話:通過對抗性訓練把機器匹配到人類描述上),這篇論文中表明,相比給定一張圖像以后一次只讓模型生成一條描述,一次生成多條描述可以讓模型生成更加多變、更像人類的圖像描述。

開放的多學科協(xié)作一直必不可少

作為人類,大腦相關功能中很大的一部分是通過視覺處理和自然語言處理與別人進行溝通交流。構建能夠把視覺和語言連接起來的AI不僅令人激動,而且也非常具有挑戰(zhàn)性。在這篇文章中,F(xiàn)acebook的研究人員們就介紹了這一空間中的兩個研究方向:顯式的視覺推理和模仿人類的視覺對話。雖然大大小小的研究進展不斷涌現(xiàn),但未來還有許多難題等待解決。如果想要繼續(xù)進步,F(xiàn)acebook AI研究院、學術界,以及整個AI生態(tài)之間都需要繼續(xù)保持開放、長期、基礎的多學科研究協(xié)作體系。

參考文獻

via FAIR,雷鋒網(wǎng) AI 科技評論編譯

相關文章:

Facebook打算重新摸進中國市場,現(xiàn)在正悄悄地尋找辦公場地

Facebook介紹ICCV2017收錄論文,其中五分之一都有何愷明的名字(附下載鏈接)

雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

能看圖回答問題的AI離我們還有多遠?Facebook向視覺對話進發(fā)

分享:
相關文章

讀論文為生

日常笑點滴,學術死腦筋
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說