0
本文作者: 我在思考中 | 2022-03-09 15:52 |
作者 | 叢末
根據(jù) Ferenc Huszár 的介紹,他是在 ICLR 審稿期間閱讀到馬騰宇等人的這篇工作,覺得該論文所取得的成果十分引人入勝,并進行了深入思考。
ICLR 2022 在去年11月公布初審結(jié)果,馬騰宇團隊有3篇工作入選,《將上下文學(xué)習(xí)視作隱式貝葉斯推理的闡釋》(An Explanation of In-Context Learning as Implicit Bayesian Inference)便是其中之一。
作者:Sang Michael Xie, Aditi Raghunathan, Percy Liang,馬騰宇
馬騰宇與Percy Liang分別為斯坦福大學(xué)計算機系的助理教授與副教授,是人工智能領(lǐng)域的著名新秀,都曾獲得斯隆研究獎,其研究工作受到同行關(guān)注。
圖注:馬騰宇
如AI科技評論此前對馬騰宇的專訪介紹,馬騰宇主要從事人工智能基礎(chǔ)理論的研究工作,課題覆蓋非凸優(yōu)化、深度學(xué)習(xí)及理論等等。這篇被 ICLR 2022 接收的工作也是從理論出發(fā),研究上下文學(xué)習(xí)/語境學(xué)習(xí)(In-Context Learning)與隱式貝葉斯推理之間的關(guān)系。
當(dāng)前,GPT-3等大規(guī)模預(yù)訓(xùn)練語言模型進行上下文學(xué)習(xí)的表現(xiàn)驚人:模型只需基于由輸入—輸出示例組成的提示進行訓(xùn)練,學(xué)習(xí)完成下游任務(wù)。在沒有明確經(jīng)過這種預(yù)訓(xùn)練的情況下,語言模型會在正向傳播過程中學(xué)習(xí)這些示例,而不會基于“分布外”提示更新參數(shù)。
但研究者尚不清楚是什么機制讓上下文學(xué)習(xí)得以實現(xiàn)。
在這篇論文中,馬騰宇等人研究了在預(yù)訓(xùn)練文本具有遠程連貫性的數(shù)學(xué)設(shè)置下,預(yù)訓(xùn)練分布對上下文學(xué)習(xí)的實現(xiàn)所起到的作用。在該研究中,對語言模型進行預(yù)訓(xùn)練需要從條件文本中推斷出潛在的文檔級別概念,以生成有連貫性的下一個標記。在測試時,該機制通過推斷提示示例之間共享的潛在概念,并應(yīng)用該概念對測試示例進行預(yù)測,從而實現(xiàn)上下文學(xué)習(xí)。
他們證明了:當(dāng)預(yù)訓(xùn)練分布是混合隱馬爾可夫模型時,上下文學(xué)習(xí)是通過對潛在概念進行貝葉斯推理隱式地產(chǎn)生的。即便提示和預(yù)訓(xùn)練數(shù)據(jù)之間的分布不匹配,這種情況依舊成立。
與自然語言中用于上下文學(xué)習(xí)的混亂的大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)集不同,他們生成了一系列小規(guī)模合成數(shù)據(jù)集(GINC),在這個過程中,Transformer 和 LSTM 語言模型都使用了上下文學(xué)習(xí)。除了聚焦預(yù)訓(xùn)練分布效果的理論之外,他們還實證發(fā)現(xiàn),當(dāng)預(yù)訓(xùn)練損失相同時,縮放模型的大小能夠提高上下文(預(yù)測)的準確性。
Ferenc Huszár 是劍橋大學(xué)計算機系的高級機器學(xué)習(xí)講師,對貝葉斯機器學(xué)習(xí)有深入的研究。2016年與2017年,他在基于深度學(xué)習(xí)的圖像超分辨率與壓縮技術(shù)上取得兩大突破(如下),谷歌學(xué)術(shù)引用了超過1萬4。
Photo-realistic single image super-resolution using a generative adversarial network(谷歌學(xué)術(shù)引用7.5k+)
Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network(3.5k+)
圖注:Ferenc Huszár
Ferenc Huszár 對馬騰宇等人的工作給予了高度評價。AI科技評論對 Ferenc 的點評做了不改原意的整理:
我喜歡這篇論文,因為它與可交換性(exchangeability)相關(guān),這是我最喜歡的概念和想法之一。它讓我想起了我在2015年(當(dāng)時還處于深度學(xué)習(xí)的發(fā)展早期)的想法——利用可交換序列模型實現(xiàn)大規(guī)模通用學(xué)習(xí)機。在那篇舊博文中,我對可交換模型做了如下思考:
老實說,在我讀到馬騰宇等人發(fā)表的這篇論文之前,我從來沒有把大型可交換序列模型視作通用學(xué)習(xí)工具的動機和使用GPT-3進行上下文學(xué)習(xí)的最新趨勢聯(lián)系起來。事實上,我對后者深表懷疑,認為它本質(zhì)上就是必然存在根本缺陷的另一種黑客行為。但是這篇論文將這些點都聯(lián)系起來了,這也是它為什么如此吸引我的原因,因為我永遠無法想到“提示黑客行為”和上下文學(xué)習(xí)竟然完全一樣。
1)將可交換序列作為隱式學(xué)習(xí)機
在探討這篇論文前,讓我們先來溫習(xí)下關(guān)于可交換序列和隱式學(xué)習(xí)的已有概念。
可交換序列模型是一個序列概率分布,在序列
中,對于任意一個置換 π,該分布都是對標記的置換不變量。
de Finetti 定理將這些序列模型與貝葉斯推理聯(lián)系在一起,假設(shè)任意分布都可以分解成混合獨立同分布(I.I.D.)序列模型:
因此,前一步的預(yù)測分布(用來預(yù)測序列的下一個標記)總能分解成貝葉斯積分:
其中,是由先驗
計算得到的貝葉斯后驗,計算的貝葉斯公式為:
在這種情況下,如果我們有一個可交換序列模型,就可以將這些前一步的預(yù)測分布視作隱式執(zhí)行的貝葉斯推理。關(guān)鍵是,即便我們并不知道θ個 π 是什么,以及可能性是什么,也能實現(xiàn)這一操作。我們不必明確指出公式的這些組成部分是什么,de Finetti 定理都能夠確保這些組成部分都存在,而只需要讓預(yù)測
與可交換序列模型保持一致。
這一想法驅(qū)使我通過構(gòu)建這一模型,來嘗試設(shè)計總是能夠產(chǎn)生可變換分布的循環(huán)神經(jīng)網(wǎng)絡(luò)(當(dāng)時Transformer 還沒有出現(xiàn))。最終證明這種想法很難實現(xiàn),不過這一想法最后衍生出了 BRUNO(名字取自Bruno de Finetti)這一工作。
論文地址:https://arxiv.org/pdf/1802.07535.pdf
BRUNO 是一個用于可交換數(shù)據(jù)的靈活的元訓(xùn)練模型,擁有小樣本概念學(xué)習(xí)能力。這個想法后來在 Ira Korshunova 的博士論文中得到多種方式的拓展。
2)從可交換序列到混合隱馬爾可夫模型(HMM)
但GPT-3是一個語言模型,很明顯語言標記是不可交換的,所以兩者聯(lián)系是什么?
伴隨著de Finetti 型定理出現(xiàn)了一些引人關(guān)注的泛化成果,可交換性的概念也出現(xiàn)了一些有趣的擴展。Diaconis、Freedman(1980)等人定義,偏導(dǎo)可交換性(Partial exchangeability),指的是能確保序列可被分別為混合馬爾可夫鏈的序列分布的不變屬性。因此,可以說,使用偏導(dǎo)可交換過程對馬爾可夫鏈進行貝葉斯推理,與使用可交換過程對獨立同分布(I.I.D.)數(shù)據(jù)生成過程進行推理的方式非常相似。
馬騰宇等人在這篇論文中,假設(shè)使用的序列模型是混合隱馬爾可夫模型。這比 Diaconis 和Freedman 提出的偏導(dǎo)可交換混合馬爾可夫鏈更具泛化性。
我不知道是否混合隱馬爾可夫模型能用可交換性此類的不變性來表征,但這不打緊。實際上這篇論文根本沒有提及可交換性,其關(guān)于隱式貝葉斯推理的核心論點是:每當(dāng)使用由簡單分布組成的序列模型時,可以將前一步的預(yù)測闡釋為“對一些參數(shù)隱式地進行貝葉斯推理”。雖然互聯(lián)網(wǎng)上人類語言的分布不太可能遵循多觀察隱馬爾可夫模型(Multi Observation Hidden Markov Model,MoHMM)分布,但假設(shè)GPT-3輸出的序列可能是混合隱馬爾可夫模型的某些部分,這種說法就是合理的。并且如果真是這樣,預(yù)測下一個標記就會對一些參數(shù)(作者所指的“概念”)隱式地進行貝葉斯推理。
3)上下文學(xué)習(xí)和隱式貝葉斯推理
這篇論文的核心思想是,也許上下文推理能夠利用這種與語言統(tǒng)計模型密切相關(guān)的隱式貝葉斯推理來解決問題。語言模型能夠?qū)W習(xí)隱式地對任何概念進行概率推理,因為要想在預(yù)測下一個標記的任務(wù)上表現(xiàn)得好,就必須進行這種推理。如果模型具備這種隱式學(xué)習(xí)能力,那它就能夠操縱這種能力去執(zhí)行其他同樣需要這種推理的任務(wù),包括小樣本分類等等。
我認為這是一個非常有意思的泛化想法。但令我稍感遺憾的是,作者聚焦的關(guān)鍵問題是特定性和人為性:雖然多觀察隱馬爾可夫模型可以用來“補全”從某個特定的隱馬爾可夫模型(混合組成部分的其中一個)中提取的序列,但如果讓多觀察隱馬爾可夫模型補全它們根本無法直接生成的序列,例如一個人為構(gòu)建的嵌入了小樣本分類任務(wù)的序列,會發(fā)生什么?這就變成了一個分布不匹配的問題。
論文關(guān)鍵的發(fā)現(xiàn)在于,即便這種分布不匹配,多觀察隱馬爾可夫模型中的隱式推理機制也能夠識別正確的概念,并且能在小樣本任務(wù)中使用這種分布來做出正確的預(yù)測。
這一分析為嵌入序列中的上下文學(xué)習(xí)任務(wù)與多觀察隱馬爾可夫模型分布的相關(guān)性,做出了強有力的假設(shè)(具體細節(jié)請閱讀原論文)。從某種程度上來說,作者研究的上下文任務(wù),與其說是一個分類任務(wù),不如說是一個小樣本序列補全任務(wù)。
總而言之,這是一篇值得思考的、有意思的論文,它顯著地改變了我對整個上下文學(xué)習(xí)以及將語言模型訓(xùn)練成小樣本學(xué)習(xí)工具的研究方向的思考方式。
大家怎么看?
參考鏈接:
1.https://www.inference.vc/implicit-bayesian-inference-in-sequence-models/
2.https://www.inference.vc/exchangeable-processes-via-neural-networks/
雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。