丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

北大鄒月嫻:視覺-語(yǔ)言預(yù)訓(xùn)練模型演進(jìn)及應(yīng)用

本文作者: 我在思考中 2022-02-08 15:22
導(dǎo)語(yǔ):大規(guī)模預(yù)訓(xùn)練模型相關(guān)研究的進(jìn)展如何?還有哪些問題需要進(jìn)一步探索?

北大鄒月嫻:視覺-語(yǔ)言預(yù)訓(xùn)練模型演進(jìn)及應(yīng)用

作者丨鄒月嫻

整理 | 維克多

編輯 | 青暮

預(yù)訓(xùn)練模型在自然語(yǔ)言處理和計(jì)算機(jī)視覺領(lǐng)域引起了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。利用大規(guī)模無監(jiān)督數(shù)據(jù)進(jìn)行訓(xùn)練的預(yù)訓(xùn)練模型有著非常好的泛化性,只需在小規(guī)模標(biāo)注數(shù)據(jù)上進(jìn)行微調(diào),就可以在相應(yīng)任務(wù)上有所提高。但相關(guān)研究的進(jìn)展如何?還有哪些問題需要進(jìn)一步探索?

2021年12月16日,北京大學(xué)深圳研究生院黨委副書記、教授、博士生導(dǎo)師、北京大學(xué)現(xiàn)代信號(hào)與數(shù)據(jù)處理實(shí)驗(yàn)室主任鄒月嫻在中國(guó)計(jì)算機(jī)大會(huì)(CNCC 2021)“產(chǎn)業(yè)共話:大型預(yù)訓(xùn)練模型的商業(yè)應(yīng)用及技術(shù)發(fā)展方向”論壇上,做了《視覺-語(yǔ)言預(yù)訓(xùn)練模型演進(jìn)及應(yīng)用》的報(bào)告,討論了圍繞大規(guī)模預(yù)訓(xùn)練模型的爭(zhēng)議、最新進(jìn)展以及研究思路,并給出了未來展望。

例如她提到:

“‘視覺-語(yǔ)言’的子任務(wù)非常多,有各自的數(shù)據(jù)集,這使得解決NLP任務(wù)的進(jìn)展非??欤A(yù)訓(xùn)練模型方法在視覺領(lǐng)域卻遇到了非常大的問題:數(shù)據(jù)標(biāo)記成本很高。MSCOCO數(shù)據(jù)集只標(biāo)記了12萬張圖片,每張圖片給出5個(gè)標(biāo)記,總共花費(fèi)了10.8W美金?!?/span>

“當(dāng)前的幾個(gè)主流VL-PTMs的技術(shù)路線很相似,都采用單一 Transformer架構(gòu)建模視覺和文本輸入;視覺輸入為 Region-of- Interests (Rols) 或者 Patches,缺失全局或者其他高級(jí)視覺語(yǔ)義信息……”

而后者表明,主流視覺-語(yǔ)言預(yù)訓(xùn)練模型存在很多局限,導(dǎo)致在遷移至下游任務(wù)時(shí),只適用于分類任務(wù),而不適用生成任務(wù)。

以下是演講全文,AI科技評(píng)論做了不改變?cè)獾恼怼?/span>

今天演講的題目是《視覺-語(yǔ)言預(yù)訓(xùn)練模型演進(jìn)及應(yīng)用》,主要結(jié)合團(tuán)隊(duì)工作以及本人感悟探討人工智能發(fā)展目前展現(xiàn)的趨勢(shì)。本次演講分為4個(gè)部分:背景介紹、視覺-語(yǔ)言預(yù)訓(xùn)練模型、視覺-語(yǔ)言預(yù)訓(xùn)練模型及應(yīng)用研究以及未來展望。

北大鄒月嫻:視覺-語(yǔ)言預(yù)訓(xùn)練模型演進(jìn)及應(yīng)用

人工智能已經(jīng)有六十多年的發(fā)展歷程,自2017年以來,Transformer和BERT(2018年)相繼提出,開啟了大數(shù)據(jù)、預(yù)訓(xùn)練與遷移學(xué)習(xí)新篇章,將其定義為新時(shí)代也毫不夸張。目前,不同于前幾十年的工作已成定論,該領(lǐng)域尚待進(jìn)一步深入探索。

北大鄒月嫻:視覺-語(yǔ)言預(yù)訓(xùn)練模型演進(jìn)及應(yīng)用

以自然語(yǔ)言處理(NLP)為例,其演化過程如上圖所示,OpenAI在2018年發(fā)布第一代GPT模型,短短幾年時(shí)間“大模型”已經(jīng)初具規(guī)模。這里的“大”有兩層含義:模型訓(xùn)練使用的數(shù)據(jù)量大,模型蘊(yùn)含的參數(shù)規(guī)模大。中國(guó)在這方面也有出色的工作,2021年的悟道2.0更是達(dá)到了萬億參數(shù)規(guī)模。

目前關(guān)于大規(guī)模預(yù)訓(xùn)練模型還有一些爭(zhēng)議,主要的爭(zhēng)論點(diǎn)在于:

1.超大模型學(xué)到了什么?如何驗(yàn)證?

2.如何從超大模型遷移“知識(shí)”,提升下游任務(wù)的性能?

3.更好的預(yù)訓(xùn)練任務(wù)設(shè)計(jì)、模型架構(gòu)設(shè)計(jì)和訓(xùn)練方法?

4.選擇單模態(tài)預(yù)訓(xùn)練模型還是多模態(tài)訓(xùn)練模型?

雖然有爭(zhēng)議,但不得不承認(rèn) “暴力美學(xué)”確實(shí)有獨(dú)到之處,例如百度ERNIE3.0曾經(jīng)刷新了50多個(gè)NLP任務(wù)基準(zhǔn)。要知道,在業(yè)界,無數(shù)學(xué)生、學(xué)者為一個(gè)SOTA就絞盡腦汁了,但大規(guī)模預(yù)訓(xùn)練模型卻能批量“生產(chǎn)”SOTA。另一方面,50多個(gè)SOTA也說明,這不是偶然。

北大鄒月嫻:視覺-語(yǔ)言預(yù)訓(xùn)練模型演進(jìn)及應(yīng)用

目前學(xué)界已經(jīng)公認(rèn)AI的發(fā)展離不開借鑒人類大腦的研究成果,因此多模態(tài)預(yù)訓(xùn)練模型這條集成類腦機(jī)制和機(jī)器學(xué)習(xí)的路徑,自然也成為關(guān)注的焦點(diǎn)。

但仍然有許多腦科學(xué)發(fā)現(xiàn)的機(jī)理未能弄清楚,例如多層抽象、注意力機(jī)制、多模態(tài)聚合機(jī)制、多模態(tài)代償機(jī)制、多線索機(jī)制、協(xié)同機(jī)制等等。

人類約有70%的信息依靠視覺獲得,剩余約20%~30%的信息依靠聽覺和觸覺。關(guān)于人類智能,語(yǔ)言具備真正高階的語(yǔ)義。例如,當(dāng)說到“蘋果”一詞的時(shí)候,腦子 “浮現(xiàn)”的是一張“可以吃”的蘋果圖片;當(dāng)說到 “蘋果手機(jī)”的時(shí)候,大腦則會(huì)出現(xiàn)蘋果牌手機(jī)的概念。

因此,大腦這種“視覺參與聽覺感知”的機(jī)制、“視覺概念與語(yǔ)言概念一致性”的認(rèn)知機(jī)制是我們機(jī)器學(xué)習(xí)采取多模態(tài)預(yù)訓(xùn)練模型的可靠性依據(jù)之一。

“視覺-語(yǔ)言模型”開發(fā)是否可行?中國(guó)人民大學(xué)的一項(xiàng)研究表明,互聯(lián)網(wǎng)提供了90%的圖文大數(shù)據(jù),而文本數(shù)據(jù)只占了10%。在大量數(shù)據(jù)源的加持下,視覺-語(yǔ)言預(yù)訓(xùn)練模型也成了2021年的研究熱點(diǎn)。

北大鄒月嫻:視覺-語(yǔ)言預(yù)訓(xùn)練模型演進(jìn)及應(yīng)用

視覺-語(yǔ)言,英文名稱是“Vision and Language,VL”。VL預(yù)訓(xùn)練模型旨在讓機(jī)器處理涉及到“理解視覺內(nèi)容和文本內(nèi)容”的任務(wù)。VL任務(wù)可以分成VL生成任務(wù)和VL分類任務(wù)。

這兩類任務(wù)解決的問題不一樣,難度也不一樣。對(duì)于VL生成任務(wù),不僅需要對(duì)視覺信息進(jìn)行理解,還需要生成相應(yīng)的語(yǔ)言描述,既涉及編碼,又涉及解碼;而VL分類任務(wù)只需要理解信息。顯然,生成任務(wù)的難度較大。

北大鄒月嫻:視覺-語(yǔ)言預(yù)訓(xùn)練模型演進(jìn)及應(yīng)用

VL生成任務(wù)的技術(shù)難點(diǎn)在于需要理解視覺的高階語(yǔ)義,建立視覺-文本的語(yǔ)義關(guān)聯(lián)。例如,視頻描述(Video Captioning)任務(wù)需要“概括”視頻內(nèi)容,圖像描述(Image Captioning)任務(wù)需要對(duì)每一幀圖像生成描述。

目前,視覺問答(VQA)是熱門的VL分類任務(wù)之一,可以理解為:給定一張圖像,讓模型回答任何形式的基于自然語(yǔ)言的問題。

北大鄒月嫻:視覺-語(yǔ)言預(yù)訓(xùn)練模型演進(jìn)及應(yīng)用

如上(左)圖所示,如果你詢問機(jī)器“What is she eating?”,VL分類器就會(huì)理解圖片信息,然后給出正確的回答“hamburger”。

當(dāng)前“視覺-語(yǔ)言”的子任務(wù)非常多,各有數(shù)據(jù)集,例如VQA、VCR、NLVR2等等。我們注意到,由于NLP任務(wù)有大數(shù)據(jù)集支持,其預(yù)訓(xùn)練模型技術(shù)發(fā)展迅猛。但對(duì)于視覺-語(yǔ)言任務(wù),由于標(biāo)注大規(guī)模數(shù)據(jù)集需要極高的成本,導(dǎo)致VL模型的性能提升緩慢。

以圖像描述任務(wù)為例,MSCOCO數(shù)據(jù)集只標(biāo)記了12萬張圖片,每張圖片給出5個(gè)標(biāo)記,總共花費(fèi)了10.8W美金。因此,不同的VL任務(wù)依賴于不同的模型框架+不同的標(biāo)注數(shù)據(jù)集,標(biāo)注代價(jià)昂貴,性能尚未滿足應(yīng)用需求。

因此,探索新的VL預(yù)訓(xùn)練代理任務(wù),減少對(duì)數(shù)標(biāo)注的依賴,是一個(gè)很有意義的研究方向。2019年學(xué)術(shù)界開啟了VL-PTMs的研究工作。

北大鄒月嫻:視覺-語(yǔ)言預(yù)訓(xùn)練模型演進(jìn)及應(yīng)用



1

視覺-語(yǔ)言預(yù)訓(xùn)練模型的演進(jìn)

北大鄒月嫻:視覺-語(yǔ)言預(yù)訓(xùn)練模型演進(jìn)及應(yīng)用

關(guān)于VL預(yù)訓(xùn)練模型,從2019年開始就出現(xiàn)了非常多的出色工作,例如“開山”的ViLBERT,2020年的UNITER以及2021年的CLIP。隨著時(shí)間的推移,模型包含的數(shù)據(jù)量也越來越大,能力越來越“出眾”。整體的技術(shù)路線可以分為兩大類:單塔模型和雙塔模型。

北大鄒月嫻:視覺-語(yǔ)言預(yù)訓(xùn)練模型演進(jìn)及應(yīng)用

UNITER是2020年由微軟提出的,它用了4個(gè)代理任務(wù)訓(xùn)練模型,在4個(gè)下游任務(wù)進(jìn)行了測(cè)試,獲得了性能提升。上述研究都是采用預(yù)訓(xùn)練模型加 “微調(diào)”的研究范式。

北大鄒月嫻:視覺-語(yǔ)言預(yù)訓(xùn)練模型演進(jìn)及應(yīng)用

2021年OpenAI用雙流框架開發(fā)了CLIP,CLIP的出現(xiàn)就技驚四座。其原理非常簡(jiǎn)單,分為編碼和解碼兩個(gè)部分,編碼器選用典型的Transformer。CLIP模型的驚艷之處在于,CLIP預(yù)訓(xùn)練模型直接能夠擁有零樣本學(xué)習(xí)(Zero-Shot Learning)能力, OpenAI在20多個(gè)不同粒度的分類任務(wù)中測(cè)試發(fā)現(xiàn),CLIP預(yù)訓(xùn)練模型具有良好的零樣本遷移性能,能學(xué)到更通用的視覺表征。



2

視覺-語(yǔ)言預(yù)訓(xùn)練模型及應(yīng)用研究

我們對(duì)上述主流VL預(yù)訓(xùn)練模型,從基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)、視覺輸入、文本輸入、主流數(shù)據(jù)集、訓(xùn)練策略以及下游任務(wù)六個(gè)方面進(jìn)行了分析。

北大鄒月嫻:視覺-語(yǔ)言預(yù)訓(xùn)練模型演進(jìn)及應(yīng)用

分析發(fā)現(xiàn),主流VL-PTMs的技術(shù)路線很相似:

1. 采用單一Transformer架構(gòu)建模視覺和文本輸入;

2. 視覺輸入為 Region-of- Interests(Rols)或者 Patches,缺失全局或者其他高級(jí)視覺語(yǔ)義信息;

3.大多采用的代理任務(wù)是BLM(雙向語(yǔ)言模型)、S2SLM(單向語(yǔ)言模型)、ISPR(圖文匹配)、MOP(掩蔽物體預(yù)測(cè))等等。

因此,已提出的視覺-語(yǔ)言預(yù)訓(xùn)練模型更適合遷移到下游分類任務(wù),例如VQA。對(duì)于下游生成任務(wù),例如圖像描述,視覺-語(yǔ)言預(yù)訓(xùn)練模型并不適合。

北大鄒月嫻:視覺-語(yǔ)言預(yù)訓(xùn)練模型演進(jìn)及應(yīng)用

我們團(tuán)隊(duì)也開展了探索性研究,研究思路是堆疊Transformer+自注意力機(jī)制,其中創(chuàng)新地提出自注意力模型區(qū)別地處理視覺模態(tài)和文本模態(tài),即采用不同的QKV變換參數(shù),分別對(duì)視覺和文本模態(tài)建模。

同時(shí),引入視覺概念信息,緩解視覺語(yǔ)義鴻溝。經(jīng)過驗(yàn)證發(fā)現(xiàn),我們提出的基于注意力模態(tài)解耦的VL-PTM: DIMBERT(2020),可以同時(shí)適用于分類任務(wù)和生成任務(wù)。

相比當(dāng)年(2020年)的最新SOTA, DIMBERT模型更?。[形雙塔),僅僅在 Conceptual Captions任務(wù)上進(jìn)行預(yù)訓(xùn)練,具有數(shù)據(jù)量需求優(yōu)勢(shì),在測(cè)試的下游任務(wù)都達(dá)到SOTA,在沒有decoder的架構(gòu)下,可以遷移至下游生成任務(wù)。

這項(xiàng)工作也給我們兩點(diǎn)啟示

1.從信息表征視角來看,視覺信息和文本信息需要不同的表達(dá)方法,畢竟文本擁有相對(duì)更加高階的語(yǔ)義信息。

2.盡量引入人類高階語(yǔ)義信息,人類對(duì)物體有非常明確的定義,蘋果就是蘋果,梨就是梨,因此定義物體屬性,用語(yǔ)言信息緩解語(yǔ)義鴻溝非常有必要。

北大鄒月嫻:視覺-語(yǔ)言預(yù)訓(xùn)練模型演進(jìn)及應(yīng)用

2021年10月份,F(xiàn)acebook發(fā)布了Video CLIP相關(guān)工作,屬于視頻VL預(yù)訓(xùn)練模型。從這個(gè)模型可以看出,Video CLIP頗具野心,期待對(duì)于下游任務(wù)不需要任務(wù)相關(guān)訓(xùn)練數(shù)據(jù)集,不需要進(jìn)行微調(diào),直接基于Video CLIP進(jìn)行零樣本遷移。

具體而言,它基于對(duì)比學(xué)習(xí)結(jié)合Transformer框架,試圖搭建視覺-文本聯(lián)合預(yù)訓(xùn)練模型,期望能夠關(guān)注更細(xì)粒度的結(jié)構(gòu)。

Video CLIP的核心工作聚焦于對(duì)比學(xué)習(xí)框架結(jié)合訓(xùn)練數(shù)據(jù)樣本的構(gòu)造,其正樣本的構(gòu)造是視頻段-匹配文本描述對(duì)。此外,通過對(duì)正樣本進(jìn)行近鄰搜索,獲得困難負(fù)樣本,從而構(gòu)建出視頻-非匹配文本對(duì)。

更為具體,該模型采用對(duì)比損失,學(xué)習(xí)匹配視頻-文本對(duì)之間的細(xì)粒度相似性;通過對(duì)比學(xué)習(xí)方式拉近具有相似語(yǔ)義的視頻-文本表征。這個(gè)工作從研究的創(chuàng)新性來看并不突出,但模型性能令人驚訝。

北大鄒月嫻:視覺-語(yǔ)言預(yù)訓(xùn)練模型演進(jìn)及應(yīng)用

我們認(rèn)為,借鑒Video CLIP的研究思路,可以在更細(xì)粒度層面進(jìn)行提升,我們提出了一個(gè)幀級(jí)別文本細(xì)粒度匹配方法。

實(shí)驗(yàn)結(jié)果表明,細(xì)粒度匹配能獲得更加準(zhǔn)確、具有完整的空間建模能力。我們?cè)?ActivityNet數(shù)據(jù)集上進(jìn)行了視頻檢索的召回率測(cè)試,發(fā)現(xiàn)在所有 epoch下,我們提出的基于細(xì)粒度匹配策略的預(yù)訓(xùn)練模型性能都優(yōu)于基于全局匹配策略的預(yù)訓(xùn)練模型;此外,我們發(fā)現(xiàn),當(dāng)獲得同一性能,我們提出的基于細(xì)粒度匹配的模型其訓(xùn)練速度是基于全局匹配方法的四倍。

綜上,預(yù)訓(xùn)練模型、跨模態(tài)預(yù)訓(xùn)練模型方面的研究是非常值得探索的,無論是模型結(jié)構(gòu)、訓(xùn)練策略還是預(yù)訓(xùn)練任務(wù)的設(shè)計(jì)都尚有非常大的潛力。

未來,AI社區(qū)或許會(huì)探索更多的模態(tài),例如多語(yǔ)言、運(yùn)動(dòng)、音頻以及文字;更多的下游任務(wù),例如視頻描述、視頻摘要;更多的遷移學(xué)習(xí)機(jī)制,例如參數(shù)遷移、提示學(xué)習(xí)、知識(shí)遷移等等。

北大鄒月嫻:視覺-語(yǔ)言預(yù)訓(xùn)練模型演進(jìn)及應(yīng)用

雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

北大鄒月嫻:視覺-語(yǔ)言預(yù)訓(xùn)練模型演進(jìn)及應(yīng)用

分享:
相關(guān)文章

運(yùn)營(yíng)

當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說