0
作者丨鄒月嫻
編輯 | 青暮
預訓練模型在自然語言處理和計算機視覺領(lǐng)域引起了學術(shù)界和工業(yè)界的廣泛關(guān)注。利用大規(guī)模無監(jiān)督數(shù)據(jù)進行訓練的預訓練模型有著非常好的泛化性,只需在小規(guī)模標注數(shù)據(jù)上進行微調(diào),就可以在相應任務上有所提高。但相關(guān)研究的進展如何?還有哪些問題需要進一步探索?
2021年12月16日,北京大學深圳研究生院黨委副書記、教授、博士生導師、北京大學現(xiàn)代信號與數(shù)據(jù)處理實驗室主任鄒月嫻在中國計算機大會(CNCC 2021)“產(chǎn)業(yè)共話:大型預訓練模型的商業(yè)應用及技術(shù)發(fā)展方向”論壇上,做了《視覺-語言預訓練模型演進及應用》的報告,討論了圍繞大規(guī)模預訓練模型的爭議、最新進展以及研究思路,并給出了未來展望。
例如她提到:
“‘視覺-語言’的子任務非常多,有各自的數(shù)據(jù)集,這使得解決NLP任務的進展非常快,但預訓練模型方法在視覺領(lǐng)域卻遇到了非常大的問題:數(shù)據(jù)標記成本很高。MSCOCO數(shù)據(jù)集只標記了12萬張圖片,每張圖片給出5個標記,總共花費了10.8W美金?!?/span>
“當前的幾個主流VL-PTMs的技術(shù)路線很相似,都采用單一 Transformer架構(gòu)建模視覺和文本輸入;視覺輸入為 Region-of- Interests (Rols) 或者 Patches,缺失全局或者其他高級視覺語義信息……”
而后者表明,主流視覺-語言預訓練模型存在很多局限,導致在遷移至下游任務時,只適用于分類任務,而不適用生成任務。
以下是演講全文,AI科技評論做了不改變原意的整理。
今天演講的題目是《視覺-語言預訓練模型演進及應用》,主要結(jié)合團隊工作以及本人感悟探討人工智能發(fā)展目前展現(xiàn)的趨勢。本次演講分為4個部分:背景介紹、視覺-語言預訓練模型、視覺-語言預訓練模型及應用研究以及未來展望。
人工智能已經(jīng)有六十多年的發(fā)展歷程,自2017年以來,Transformer和BERT(2018年)相繼提出,開啟了大數(shù)據(jù)、預訓練與遷移學習新篇章,將其定義為新時代也毫不夸張。目前,不同于前幾十年的工作已成定論,該領(lǐng)域尚待進一步深入探索。
以自然語言處理(NLP)為例,其演化過程如上圖所示,OpenAI在2018年發(fā)布第一代GPT模型,短短幾年時間“大模型”已經(jīng)初具規(guī)模。這里的“大”有兩層含義:模型訓練使用的數(shù)據(jù)量大,模型蘊含的參數(shù)規(guī)模大。中國在這方面也有出色的工作,2021年的悟道2.0更是達到了萬億參數(shù)規(guī)模。
目前關(guān)于大規(guī)模預訓練模型還有一些爭議,主要的爭論點在于:
1.超大模型學到了什么?如何驗證?
2.如何從超大模型遷移“知識”,提升下游任務的性能?
3.更好的預訓練任務設計、模型架構(gòu)設計和訓練方法?
4.選擇單模態(tài)預訓練模型還是多模態(tài)訓練模型?
雖然有爭議,但不得不承認 “暴力美學”確實有獨到之處,例如百度ERNIE3.0曾經(jīng)刷新了50多個NLP任務基準。要知道,在業(yè)界,無數(shù)學生、學者為一個SOTA就絞盡腦汁了,但大規(guī)模預訓練模型卻能批量“生產(chǎn)”SOTA。另一方面,50多個SOTA也說明,這不是偶然。
目前學界已經(jīng)公認AI的發(fā)展離不開借鑒人類大腦的研究成果,因此多模態(tài)預訓練模型這條集成類腦機制和機器學習的路徑,自然也成為關(guān)注的焦點。
但仍然有許多腦科學發(fā)現(xiàn)的機理未能弄清楚,例如多層抽象、注意力機制、多模態(tài)聚合機制、多模態(tài)代償機制、多線索機制、協(xié)同機制等等。
人類約有70%的信息依靠視覺獲得,剩余約20%~30%的信息依靠聽覺和觸覺。關(guān)于人類智能,語言具備真正高階的語義。例如,當說到“蘋果”一詞的時候,腦子 “浮現(xiàn)”的是一張“可以吃”的蘋果圖片;當說到 “蘋果手機”的時候,大腦則會出現(xiàn)蘋果牌手機的概念。
因此,大腦這種“視覺參與聽覺感知”的機制、“視覺概念與語言概念一致性”的認知機制是我們機器學習采取多模態(tài)預訓練模型的可靠性依據(jù)之一。
“視覺-語言模型”開發(fā)是否可行?中國人民大學的一項研究表明,互聯(lián)網(wǎng)提供了90%的圖文大數(shù)據(jù),而文本數(shù)據(jù)只占了10%。在大量數(shù)據(jù)源的加持下,視覺-語言預訓練模型也成了2021年的研究熱點。
視覺-語言,英文名稱是“Vision and Language,VL”。VL預訓練模型旨在讓機器處理涉及到“理解視覺內(nèi)容和文本內(nèi)容”的任務。VL任務可以分成VL生成任務和VL分類任務。
這兩類任務解決的問題不一樣,難度也不一樣。對于VL生成任務,不僅需要對視覺信息進行理解,還需要生成相應的語言描述,既涉及編碼,又涉及解碼;而VL分類任務只需要理解信息。顯然,生成任務的難度較大。
VL生成任務的技術(shù)難點在于需要理解視覺的高階語義,建立視覺-文本的語義關(guān)聯(lián)。例如,視頻描述(Video Captioning)任務需要“概括”視頻內(nèi)容,圖像描述(Image Captioning)任務需要對每一幀圖像生成描述。
目前,視覺問答(VQA)是熱門的VL分類任務之一,可以理解為:給定一張圖像,讓模型回答任何形式的基于自然語言的問題。
如上(左)圖所示,如果你詢問機器“What is she eating?”,VL分類器就會理解圖片信息,然后給出正確的回答“hamburger”。
當前“視覺-語言”的子任務非常多,各有數(shù)據(jù)集,例如VQA、VCR、NLVR2等等。我們注意到,由于NLP任務有大數(shù)據(jù)集支持,其預訓練模型技術(shù)發(fā)展迅猛。但對于視覺-語言任務,由于標注大規(guī)模數(shù)據(jù)集需要極高的成本,導致VL模型的性能提升緩慢。
以圖像描述任務為例,MSCOCO數(shù)據(jù)集只標記了12萬張圖片,每張圖片給出5個標記,總共花費了10.8W美金。因此,不同的VL任務依賴于不同的模型框架+不同的標注數(shù)據(jù)集,標注代價昂貴,性能尚未滿足應用需求。
因此,探索新的VL預訓練代理任務,減少對數(shù)標注的依賴,是一個很有意義的研究方向。2019年學術(shù)界開啟了VL-PTMs的研究工作。
關(guān)于VL預訓練模型,從2019年開始就出現(xiàn)了非常多的出色工作,例如“開山”的ViLBERT,2020年的UNITER以及2021年的CLIP。隨著時間的推移,模型包含的數(shù)據(jù)量也越來越大,能力越來越“出眾”。整體的技術(shù)路線可以分為兩大類:單塔模型和雙塔模型。
UNITER是2020年由微軟提出的,它用了4個代理任務訓練模型,在4個下游任務進行了測試,獲得了性能提升。上述研究都是采用預訓練模型加 “微調(diào)”的研究范式。
2021年OpenAI用雙流框架開發(fā)了CLIP,CLIP的出現(xiàn)就技驚四座。其原理非常簡單,分為編碼和解碼兩個部分,編碼器選用典型的Transformer。CLIP模型的驚艷之處在于,CLIP預訓練模型直接能夠擁有零樣本學習(Zero-Shot Learning)能力, OpenAI在20多個不同粒度的分類任務中測試發(fā)現(xiàn),CLIP預訓練模型具有良好的零樣本遷移性能,能學到更通用的視覺表征。
我們對上述主流VL預訓練模型,從基礎網(wǎng)絡結(jié)構(gòu)、視覺輸入、文本輸入、主流數(shù)據(jù)集、訓練策略以及下游任務六個方面進行了分析。
分析發(fā)現(xiàn),主流VL-PTMs的技術(shù)路線很相似:
1. 采用單一Transformer架構(gòu)建模視覺和文本輸入;
2. 視覺輸入為 Region-of- Interests(Rols)或者 Patches,缺失全局或者其他高級視覺語義信息;
3.大多采用的代理任務是BLM(雙向語言模型)、S2SLM(單向語言模型)、ISPR(圖文匹配)、MOP(掩蔽物體預測)等等。
因此,已提出的視覺-語言預訓練模型更適合遷移到下游分類任務,例如VQA。對于下游生成任務,例如圖像描述,視覺-語言預訓練模型并不適合。
我們團隊也開展了探索性研究,研究思路是堆疊Transformer+自注意力機制,其中創(chuàng)新地提出自注意力模型區(qū)別地處理視覺模態(tài)和文本模態(tài),即采用不同的QKV變換參數(shù),分別對視覺和文本模態(tài)建模。
同時,引入視覺概念信息,緩解視覺語義鴻溝。經(jīng)過驗證發(fā)現(xiàn),我們提出的基于注意力模態(tài)解耦的VL-PTM: DIMBERT(2020),可以同時適用于分類任務和生成任務。
相比當年(2020年)的最新SOTA, DIMBERT模型更?。[形雙塔),僅僅在 Conceptual Captions任務上進行預訓練,具有數(shù)據(jù)量需求優(yōu)勢,在測試的下游任務都達到SOTA,在沒有decoder的架構(gòu)下,可以遷移至下游生成任務。
這項工作也給我們兩點啟示:
1.從信息表征視角來看,視覺信息和文本信息需要不同的表達方法,畢竟文本擁有相對更加高階的語義信息。
2.盡量引入人類高階語義信息,人類對物體有非常明確的定義,蘋果就是蘋果,梨就是梨,因此定義物體屬性,用語言信息緩解語義鴻溝非常有必要。
2021年10月份,F(xiàn)acebook發(fā)布了Video CLIP相關(guān)工作,屬于視頻VL預訓練模型。從這個模型可以看出,Video CLIP頗具野心,期待對于下游任務不需要任務相關(guān)訓練數(shù)據(jù)集,不需要進行微調(diào),直接基于Video CLIP進行零樣本遷移。
具體而言,它基于對比學習結(jié)合Transformer框架,試圖搭建視覺-文本聯(lián)合預訓練模型,期望能夠關(guān)注更細粒度的結(jié)構(gòu)。
Video CLIP的核心工作聚焦于對比學習框架結(jié)合訓練數(shù)據(jù)樣本的構(gòu)造,其正樣本的構(gòu)造是視頻段-匹配文本描述對。此外,通過對正樣本進行近鄰搜索,獲得困難負樣本,從而構(gòu)建出視頻-非匹配文本對。
更為具體,該模型采用對比損失,學習匹配視頻-文本對之間的細粒度相似性;通過對比學習方式拉近具有相似語義的視頻-文本表征。這個工作從研究的創(chuàng)新性來看并不突出,但模型性能令人驚訝。
我們認為,借鑒Video CLIP的研究思路,可以在更細粒度層面進行提升,我們提出了一個幀級別文本細粒度匹配方法。
實驗結(jié)果表明,細粒度匹配能獲得更加準確、具有完整的空間建模能力。我們在 ActivityNet數(shù)據(jù)集上進行了視頻檢索的召回率測試,發(fā)現(xiàn)在所有 epoch下,我們提出的基于細粒度匹配策略的預訓練模型性能都優(yōu)于基于全局匹配策略的預訓練模型;此外,我們發(fā)現(xiàn),當獲得同一性能,我們提出的基于細粒度匹配的模型其訓練速度是基于全局匹配方法的四倍。
綜上,預訓練模型、跨模態(tài)預訓練模型方面的研究是非常值得探索的,無論是模型結(jié)構(gòu)、訓練策略還是預訓練任務的設計都尚有非常大的潛力。
未來,AI社區(qū)或許會探索更多的模態(tài),例如多語言、運動、音頻以及文字;更多的下游任務,例如視頻描述、視頻摘要;更多的遷移學習機制,例如參數(shù)遷移、提示學習、知識遷移等等。
雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。