丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能學術(shù) 正文
發(fā)私信給楊曉凡
發(fā)送

0

多模態(tài)和多語言視覺研究走到哪里了?專訪王威廉組王鑫

本文作者: 楊曉凡 2019-11-21 11:19 專題:ICCV 2019
導語:視覺可以成為連接語言的橋梁

雷鋒網(wǎng) AI 科技評論按:CMU 博士、UC Santa Barbara 計算機科學系助理教授王威廉(William Wang)是一位非?;钴S、非常出名的華人學者,他是該校 NLP 小組的負責人,研究領(lǐng)域涵蓋信息提取、社交媒體、語言和視覺、口語處理、機器學習理論和知識圖譜等。他是社交媒體紅人,他的科研團隊也連續(xù)有大批論文被近幾年的 AI/ML/NLP 會議接收,以及獲得最佳論文獎或獎項提名。

多模態(tài)和多語言視覺研究走到哪里了?專訪王威廉組王鑫

王威廉組的王鑫就以第一作者的身份獲得了 CVPR 2019 的最佳學生論文獎。近期的 ICCV 2019 上,王鑫也有一篇第一作者論文被收錄。從論文主題來看,王鑫對多模態(tài)、多語言學習有不少心得,雷鋒網(wǎng) AI 科技評論記者在 ICCV 2019 現(xiàn)場對王鑫進行了采訪,請他介紹介紹相關(guān)話題。

雷鋒網(wǎng) AI 科技評論:首先請您簡單介紹一下您的 ICCV 論文《VaTeX: A Large-Scale, High-Quality Multilingual Dataset for Video-and-Language Research》(arxiv.org/abs/1904.03493

王鑫:我們這次 ICCV 的論文主要創(chuàng)建了一個新的多語言數(shù)據(jù)集。之前的視頻的數(shù)據(jù)集都只是基于英文的,但是其實地球上大概有幾千種不同的語言,僅僅在中國就有將近一百種語言,所以訓練一個多語言的模型去為這些非英語母語的人服務(wù)是非常有必要的?;谶@個出發(fā)點,我們收集了英文和中文數(shù)據(jù),然后提供一個對下游任務(wù)可以起到很大幫助的數(shù)據(jù)集,方便其他人做更多后續(xù)研究,以及推動基于實證的多語言自然語言的研究。

多模態(tài)和多語言視覺研究走到哪里了?專訪王威廉組王鑫

多模態(tài)和多語言視覺研究走到哪里了?專訪王威廉組王鑫

雷鋒網(wǎng) AI 科技評論:今年在 CVPR 上您獲得了最佳學生論文獎,獲獎?wù)撐摹禦einforced Cross-Modal Matching & Self-Supervised Imitation Learning for Vision-Language Navigation》(arxiv.org/abs/1811.10092)也是做視覺和語言。

多模態(tài)和多語言視覺研究走到哪里了?專訪王威廉組王鑫

王鑫:對,那篇論文是主要是解決視覺與語言結(jié)合去進行導航的問題。相較于其他的傳統(tǒng)問題來說,導航問題中感知到的視覺信息是動態(tài)的,因為每次接收到語言的指令之后,機器人每次產(chǎn)生的動作可以向左轉(zhuǎn)、向右轉(zhuǎn)、以及往前走;產(chǎn)生動作之后,所看到的就發(fā)生了變化,所以它是一個動態(tài)的處理過程。而且它還是一個連續(xù)的處理過程,是經(jīng)過一系列的動作,最后你才能判斷這個機器人到底成功了沒有。

雷鋒網(wǎng) AI 科技評論:這兩篇論文之間有什么聯(lián)系嗎?

王鑫:我覺得還是很有聯(lián)系的。因為視覺語言的這些任務(wù),大家都是只關(guān)注英文,沒有考慮、或者很少考慮其它語言。但是根據(jù)我們之前做視頻描述(video-captioning)的經(jīng)驗,就發(fā)現(xiàn)這是一個很嚴重的問題;所以我們?nèi)U充了他的數(shù)據(jù),擴充了中文。然后我們 CVPR 做的那篇論文是導航,也是基于自然語言的,輸入指令也是全都是英文,所以考慮怎樣讓它能拓展到更多的語言是非常有必要的。其實我們最近也有一個最新的工作,我們也剛剛把 tech report 放到 arXiv 上(《Cross-Lingual Vision-Language Navigation》,arxiv.org/abs/1910.11301)。這個工作是做跨語言視覺導航,所以那里我們就把導航數(shù)據(jù)集相應(yīng)的中文部分也給收集了。

我們?nèi)ツ曛饕芯苛藘蓚€主要問題,一個是,雖然多語言的學習很有必要,但是也不可能針對每一種語言都去收集大量的數(shù)據(jù)來訓練模型,這樣做可能非常的耗時、耗力、耗金錢。所以我們研究的第一個問題就是怎么利用已有的數(shù)據(jù)集,比如用已有的英文的數(shù)據(jù)集,訓練一個模型,然后可以執(zhí)行中文或者韓文的指令。所以我們結(jié)合了機器翻譯的模型,然后看我們怎樣利用原有的英文指令和機器翻譯過來的中文指令,把它們結(jié)合在一起,想出這樣一種方法,可以得到和完全在中文指令上訓練的模型相同的表現(xiàn)或者相近的表現(xiàn)。

另外一個問題是,如果我們有了一部分中文標的數(shù)據(jù),要怎么更好地提升跨語言學習的模型的表現(xiàn)。這些中文數(shù)據(jù)的數(shù)量相比于英文數(shù)據(jù)可能是 0%,這就對應(yīng)著零樣本學習(zero-shot learning);也可能是 10%、20% 甚至 100%;100% 就是說所有的英文數(shù)據(jù)都有對應(yīng)的中文數(shù)據(jù),收集齊了。

雷鋒網(wǎng) AI 科技評論:在 CVPR 這篇論文中,使用了很多組件來增強跨模態(tài)學習的效果,看論文標題都覺得有一些復雜。您是否覺得這么做很復雜?以及未來是否能用更簡單的跨模態(tài)學習方法達到類似的效果?

王鑫:我覺得那篇論文的思路還是很清晰的。因為對于導航這個任務(wù),在那篇論文之前大家使用的評價指標只是簡單的「是否成功了」,你只有到了終點才是「成功」。然而有時候機器人根本沒有按照指令行動也到了終點,這樣也算為了一個成功,就可能背離了任務(wù)設(shè)置的本質(zhì)。我們之所以選用了細粒度的指令,就是因為我們想去研究語言與視覺的結(jié)合、它們之間的實證連接(grouding);我們想要智能體按照指令行動,所以我們的第一個出發(fā)點就是增強這兩者之間的一致性,就設(shè)計了這樣的一個跨模態(tài)匹配的方法。而同時,如果有了這樣一致性,我們還可以利用它去探索沒有見到過的新環(huán)境,因為模型見過的和沒見過的環(huán)境之間存在表現(xiàn)的區(qū)別,我們可以利用這些信息讓它預探索這些沒見過的環(huán)境,它就可以更好地適應(yīng)現(xiàn)有的環(huán)境,做得更好。

雷鋒網(wǎng) AI 科技評論:這幾年多模態(tài)學習熱度很高,可不可以說多模態(tài)學習是CV原有的那些任務(wù)遇到瓶頸之后的一個新的出口?其它還有哪些從原來的CV任務(wù)衍生出的新任務(wù)?

王鑫:首先,我可能不太贊同 CV 的研究已經(jīng)遇到了瓶頸??赡芎芏嗳耍ㄒ恍┢渌I(lǐng)域的人說 ImageNet 已經(jīng)刷分刷得很高,超過了人類的分數(shù),但如果你去問研究 CV 問題的,即使只是研究物體識別問題的人聊的話,你會發(fā)現(xiàn)其實還有很多在實際生活沒有解決的方面。ImageNet 雖然很大,但它和整個世界中各種圖像數(shù)據(jù)相比的話,只代表了非常小的一部分數(shù)據(jù),圖像識別也還有很多的不常見案例沒有解決。所以 CV 的研究人員都在極力地解決那些問題,不要再局限于 ImageNet,解決更實際的問題。

然后,其實視覺和語言結(jié)合領(lǐng)域也不是這幾年才比較火,它其實存在了很多年,在深度學習時代之前也有人在研究。但是在深度學習出現(xiàn)之后,就大概 2014、15年,大家開始在這方面著力。因為我們是生活在一個多模態(tài)的世界,作為人類我們不是只用眼去看的,從視覺捕捉,到認知,然后還通過語言進行交流表達,甚至去記錄一些東西;而且語言本身也是基于我們所看到的才發(fā)展起來。所以我覺得歸根結(jié)底,把兩件事分開研究是一種選擇,但是最終我們要做的科研是肯定是要把 CV 和 NLP、甚至其他的模態(tài)都結(jié)合在一起的。而且我不認為我們需要等到一個完全發(fā)展好,再去發(fā)展另一個或去發(fā)展它們的結(jié)合,因為你會發(fā)現(xiàn)你永遠不可能達到一個頂峰。

雷鋒網(wǎng) AI 科技評論:找到對多種模態(tài)的信息的連貫一致(coherent)的表征,可以說是多模態(tài)學習的圣杯。目前這個領(lǐng)域的前沿進展如何?有哪些突出的論文?我們離圣杯還有多遠?

王鑫:其實在視覺-語言領(lǐng)域里,相對比較傳統(tǒng)的像圖像描述、視覺問答這種任務(wù),大家都已經(jīng)在探索更多的可能性,一個是從任務(wù)角度,比如說我們做的導航任務(wù),是從靜態(tài)的信息升級到動態(tài)的環(huán)境;還有實體機器人學習(embodied agent learning)這種,與人做交互、與這個世界做交互,這是一個很有趣的方向。

現(xiàn)在還有人在研究模型預訓練,就像 BERT 一樣,BERT 的預訓練模型在 NLP 領(lǐng)域取得了很大的貢獻。然后其實視覺和語言的聯(lián)合訓練也是很有意義的,所以有很多人,尤其是最近這幾個月,有很多人在研究視覺和語言相結(jié)合的預訓練,然后用這樣的預訓練策略去提高下游的視覺-語言任務(wù)中的表現(xiàn)。

另外還有,研究語言并不等于研究英文,所以我覺得多語言的科研是非常有必要的,尤其是與視覺結(jié)合的多語言研究。因為我們不可能一直去收集不同語言之間的平行語料,而視覺信息,包括一些其他的模態(tài)的信息,在不同的語言之間是共通的,就像來自不同國家不同語言不同背景的人,看到前面的一座塔,都會知道它是什么,這甚至不需要語言的翻譯 —— 也就是說,視覺信息可以作為橋梁,連接不同的語言,所以這也是一個很有很有趣的一個方向。還有,怎樣把知識結(jié)合到視覺和語言里面去,更好地學一些結(jié)構(gòu)的信息。

雷鋒網(wǎng) AI 科技評論:這些方向近期有哪些論文是你們比較關(guān)注的?

王鑫:剛才提到的我們多語言 ,我們最近有 ICCV 的這篇論文(arxiv.org/abs/1904.03493),以及我們做了一個跨語言視覺-語言導航的論文(arxiv.org/abs/1910.11301);預訓練視頻-語言模型目前有很多論文,我之前在推特上發(fā)過一個列表總結(jié)了一下(搬運見這里 )。最近,微軟的人有篇 ICLR 投稿,是一個統(tǒng)一模型,通過預訓練在 7 到 13 個任務(wù)上都達到了最好的效果;導航方面,人與世界與環(huán)境結(jié)合,像之前的導航,以及包括最近的一些與對話相關(guān)的,UW 華盛頓大學有研究者也出了一個視覺與對話導航,就是將導航用對話的形式去做,機器人不僅可以遵照指令行動,如果機器人有不明白的地方還可以反過來提問。

雷鋒網(wǎng) AI 科技評論:你們組還有哪些計劃的科研方向?

王鑫:除了剛才我說的多語言研究之外,我們還是希望能做機器人與外界環(huán)境的交互,尤其在語言的指導下交互。所以我們對于導航,不管是室內(nèi)室外的導航也好,或者執(zhí)行任務(wù)也好,這種方向都是非常感興趣,我們也會繼續(xù)做新的成果出來。另外,自監(jiān)督學習這種從沒有標簽的數(shù)據(jù)里學習到更好的表征,我們也有在做這方面的研究。除此之外,我們組對 NLP 的很多其他領(lǐng)域都有深入研究,包括知識圖譜、知識推理、自然語言生成、社會科學、機器學習的公平性、責任性和可解釋性研究等等。

雷鋒網(wǎng) AI 科技評論:大家根據(jù)以往的經(jīng)驗總結(jié)出了一個現(xiàn)象,頂會上的獲獎?wù)撐囊话愣疾皇悄切┯泻艽箝L期影響的論文(用時間檢驗獎 Test of Time Award 來衡量)。您對這個現(xiàn)象有什么看法?

王鑫:首先,有長期影響力,可能不同的人有不同的定義,大家一般通常會從被引數(shù)量上來看,這樣的話,比較火的領(lǐng)域的論文可能會得到更多的被引。

但是正如你所說的,很長期的影響力的那些獎項,獲獎?wù)撐囊话悴⒉皇钱敃r的最佳論文,是因為大家很難意識一篇論文到底未來會產(chǎn)生多大的影響。但是當前的視角來說,我認為所有得獎的論文都是有獨到的過人之處的,都提出了一些新的洞見,至少會給當前的學術(shù)研究帶來很多思考;或者他的論文做得非常扎實完善。

雷鋒網(wǎng) AI 科技評論:您是 Closing the Loop Between Vision and Language Workshop 的組織者之一,28 號我們?nèi)タ吹臅r候非?;鸨?。為什么要舉辦這個workshop?今年第三屆 workshop 相比前兩屆有哪些變化?

王鑫:對,這個 workshop 今年已經(jīng)是第三屆了,已經(jīng)是非常有影響力了;它每一屆也會有不同的側(cè)重點,這一屆我們同時舉行了兩個比賽競賽,一個是我們的 VaTeX 競賽,另外一個是視頻描述的一個長語言生成的競賽(LSMDC)。因為我們覺得從過去的相關(guān)領(lǐng)域的科研都主要關(guān)注圖像角度,但是其實你想想,視頻才能夠更好地捕捉到這個世界中事物的動態(tài)關(guān)系,因為它有更復雜的信息,包括物體本身的視覺信息、物體的動作、物體之間的空間關(guān)系、物體的時空關(guān)系,而且它還可能含有聽覺的、語音的信息,所以從圖像到視頻這樣一個轉(zhuǎn)變是非常有必要的,我覺得也是值得更多的人投入精力學習研究的。

當然,我們 workshop 也不只局限于視頻描述。你可以看到,我們邀請的演講者其實是來自不同的研究背景,有做純做視覺的,有做視覺和語言的結(jié)合的,甚至有 NLP 的教授過來講,講常識、知識這樣的東西??偠灾?,我們希望通過促進不同學科之間的交互,真正地推動視覺和語言的結(jié)合領(lǐng)域的發(fā)展。

雷鋒網(wǎng) AI 科技評論:更詳細介紹一下 VaTeX 競賽吧

王鑫:用于視覺和語言實證的多語言研究,這個領(lǐng)域是非常有必要去研究的,這是一個很大的原因,促使我們?nèi)ネ苿舆@樣一件事情,讓大家意識到它的重要性;而且視頻也是很重要。所以我們舉辦了這樣的一個比賽,讓大家去參與,去更好的去研究它。

我認為這次競賽也非常成功,一共有 57 支隊伍來自于世界各地,冠軍是由中科院的自動化所的隊伍取得的。其實當你推動這樣一件事情的時候,大家是很有興趣、很有意愿參與,以及往更深的研究層次發(fā)掘的,比如有一個評價指標是 CIDEr score,冠軍的成績比我們在論文里提出的基線模型提高了幾十個點,這是非常驚人的成績。

我們的比賽包括英語賽道和中文賽道,取得亞軍的一個是來自澳大利亞阿德萊德大學和人大合作的團隊,另外一個是自動化研究所的另外一支團隊,他們也取得了很好的表現(xiàn),以及他們的方法也都很有意義??偨Y(jié)一下你會發(fā)現(xiàn),所有的團隊都會去都去探索視頻中的不同模態(tài)的信息,包括圖像級別的、動作級別的視覺信息,還有時序級別的、甚至音頻的,他們結(jié)合了各種信息建立了這樣的模型。

但是,還有一些方向是很少人關(guān)注的,比如說從語言本身的角度??赡艽蠹抑饕紒碜宰?CV 的科研團隊,所以更多的精力放在視頻上面;但是語言這邊、描述這邊做探索的人就比較少,目前還沒有人用 BERT 模型去做。其實要做的話,可以利用預訓練模型,甚至自己提出一個模型然后做它的預訓練,達到更好的多模態(tài)對齊效果,以及更好的描述生成。

雷鋒網(wǎng) AI 科技評論:今年參加 ICCV 有什么感受?

王鑫:現(xiàn)在每年大家對 C V的研究都越來越感興趣,參會的人越來越多,今年 CVPR 和 ICCV 都是有七千人甚至一萬人參加,所以人數(shù)增多,可能大家交流的也就會更多。對我來說,我看到越來越多的生面孔來參會,這是一件很好的事情,大家一起來推動這個科研領(lǐng)域更好的發(fā)展;而且工業(yè)界也對我們 CV 和 NLP 的研究非常感興趣,在展區(qū)可以看到來自全世界各地的很多不同的公司,然后他們可能對于如何把科研成果更好地運用到產(chǎn)品中更感興趣,我覺得這都是很好的。

雷鋒網(wǎng) AI 科技評論:你認為 CVPR 和 ICCV 兩個會之間有什么不同?

王鑫:其實這是我第一次參加 ICCV 的,但是我 CVPR 參加了很多屆。我也很難講兩個會之間的區(qū)別,但我覺得在討論的問題上沒有太大區(qū)別,只不過 ICCV 可能因為在美國之外舉辦,CVPR 是大多數(shù)在美國,所以 ICCV 參會的人會來自國際上的、美國之外國家的研究者更多一點。美國因為它的簽證比較嚴,可能其它國家的研究者就相應(yīng)的會少一點。

雷鋒網(wǎng) AI 科技評論:再問一個問題,華人在近年的頂會上表現(xiàn)都很好,但是這次在 ICCV 的獎項上也有一些遺憾。您怎樣評價這屆 ICCV 中華人的整體表現(xiàn)?

王鑫:我不覺得這是一個遺憾,因為我覺得華人,尤其是在 CV 領(lǐng)域,華人的表現(xiàn)越來越突出,有時候你甚至會看到至少有一半的論文里都有華人作者。而論文沒被選中最佳論文、或者最佳論文候選,這并不意味著他們的工作不好,其實,所有的口頭報告論文或者海報展示論文,所有的接收論文都有他的亮點。

其實,本來評獎里也帶有主觀的看法,我認為大家更應(yīng)該關(guān)注自己的研究內(nèi)容,期望能夠做出有影響力的工作,以及把自己的工作做完善。要有一些學術(shù)前瞻性,去看看到底科研方向應(yīng)該往哪里走,而不是通過堆一堆技巧、提高一兩個點的分數(shù)。如果你持續(xù)地做好的工作,我覺得論文獎是會找到你的 —— 不是把得獎作為目標、迎合獎項的評選方式來做科研,而是為了做更好的科研而做科研。


雷鋒網(wǎng) AI 科技評論報道。更多學術(shù)報道、頂會觀察請繼續(xù)關(guān)注。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

多模態(tài)和多語言視覺研究走到哪里了?專訪王威廉組王鑫

分享:
相關(guān)文章

讀論文為生

日常笑點滴,學術(shù)死腦筋
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說