丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

少于兩層的transformer,且只有注意力塊,GPT-3:你怕不是搞事情?

本文作者: 我在思考中 2022-05-05 11:03
導(dǎo)語(yǔ):少于兩層、且只有注意力塊的transformer在某些方面也能達(dá)到復(fù)雜transformer的效果。
少于兩層的transformer,且只有注意力塊,GPT-3:你怕不是搞事情?
只有一層或兩層、且只有注意力塊的transformer,在性能上有望達(dá)到96層、兼具注意力塊與MLP塊的GPT-3的效果嗎?

作者 | Mordechai Rorvig

編譯 | bluemin

編輯 | 陳彩嫻

在過去的兩年里,基于Transformer架構(gòu)開發(fā)的大規(guī)模語(yǔ)言模型在性能(如語(yǔ)言流暢度)上達(dá)到了令人嘆為觀止的效果。

但是,Transformer對(duì)單詞的處理方法是什么?學(xué)術(shù)界仍未有確定的答案。普遍的理解是,transformer模型能夠以某種方式同時(shí)關(guān)注多個(gè)單詞,以便立即進(jìn)行“全局”分析。但它到底是如何工作的,或者這是否是transformer模型的真正處理方式,仍舊撲朔迷離。

換言之,我們知道菜品的配料,但不知道配方。

針對(duì)這一問題,一家叫做 Anthropic AI 公司的研究人員進(jìn)行了兩項(xiàng)研究,希望從根本上理清transformer在處理和生成文本時(shí)的工作內(nèi)容是什么。

他們發(fā)現(xiàn),少于兩層、且只有注意力塊的transformer在某些方面也能達(dá)到復(fù)雜transformer的效果,且能夠幫助理解背后的工作機(jī)制。



1

少于兩層的Transformer

在12月發(fā)布的第一篇論文(如下)中, Anthropic AI 公司的科研人員研究了transformer的簡(jiǎn)化版本,并全面解釋了它們的功能。

這個(gè)工作得到了以色列理工學(xué)院 Yonatan Belinkov 的高度評(píng)價(jià):“這篇論文很好地講述了transformer架構(gòu)在非常簡(jiǎn)單的情況下是如何工作的?!薄拔曳浅?春眠@項(xiàng)工作,它既有趣又有前途,并且有些獨(dú)特和新穎?!?/span>

少于兩層的transformer,且只有注意力塊,GPT-3:你怕不是搞事情?

論文地址:https://transformer-circuits.pub/2021/framework/index.html

根據(jù)論文內(nèi)容,他們所研究的簡(jiǎn)化版transformer是先學(xué)習(xí)基本語(yǔ)言模式,再獲得語(yǔ)言處理的通用能力。哈佛大學(xué)的 Martin Wattenberg 教授評(píng)價(jià),他們的研究使得transformer的競(jìng)爭(zhēng)力得到大幅躍升,同時(shí)揭露transformer背后的工作原理。

在3月8日發(fā)布的第二篇論文中,研究人員發(fā)現(xiàn),他們所提出的簡(jiǎn)化版transformer的能力在最復(fù)雜的transformer模型中也發(fā)揮了作用。他們?cè)诤?jiǎn)單模型中的發(fā)現(xiàn)可以應(yīng)用到規(guī)模更大的模型中。雖然這些簡(jiǎn)化模型的數(shù)學(xué)原理仍然高深莫測(cè),但其結(jié)果為深入理解transformers提供了一條新途徑。

少于兩層的transformer,且只有注意力塊,GPT-3:你怕不是搞事情?

論文地址:https://transformer-circuits.pub/2022/in-context-learning-and-induction-heads/index.html

理解 transformer 的難點(diǎn)在于其抽象性。傳統(tǒng)的程序遵循一個(gè)合乎情理的過程,例如,每當(dāng)看到“green”(綠色的)這個(gè)詞,它們就會(huì)輸出“grass”(草)這個(gè)詞,而transformer將“green”這個(gè)詞轉(zhuǎn)換為數(shù)字,然后將它們乘以某些值。這些值(也稱為參數(shù))決定了下一個(gè)單詞是什么。參數(shù)在訓(xùn)練過程中得到了微調(diào),模型會(huì)學(xué)習(xí)如何生成最佳輸出,但不清楚模型具體在學(xué)習(xí)什么。

大多數(shù)機(jī)器學(xué)習(xí)程序?qū)⑵鋽?shù)學(xué)部分封裝成模塊化要素,并稱之為“神經(jīng)元”。transformer加入了另外一種要素,稱為attention head(注意頭),它們成組分層排列,就像神經(jīng)元一樣。但head執(zhí)行的操作與神經(jīng)元不同。一般認(rèn)為,head允許程序記住輸入的多個(gè)單詞,但這僅是一知半解。

為了更好地理解transformer的工作原理,Anthropic AI的研究人員簡(jiǎn)化了transformer的結(jié)構(gòu),去除了所有的神經(jīng)元層和除一層或兩層以外的所有attention head層。這讓他們發(fā)現(xiàn)了transformer和他們已經(jīng)完全理解的更簡(jiǎn)單模型之間的聯(lián)系。

我們可以看最簡(jiǎn)單的語(yǔ)言模型——二元模型,它再現(xiàn)了基本的語(yǔ)言模式。例如,在對(duì)大量文本進(jìn)行訓(xùn)練時(shí),二元模型會(huì)注意到“green”一詞后面最常出現(xiàn)的單詞(例如“grass”)并記住它。然后,在生成文本時(shí),它會(huì)重現(xiàn)相同的模式。通過為每個(gè)輸入單詞記憶一個(gè)相關(guān)的后續(xù)單詞,它可以獲得非?;镜恼Z(yǔ)言知識(shí)。

研究人員表明,具有一層attention head的 transformer 模型也具備同樣的能力:它再現(xiàn)了所記憶的內(nèi)容。假設(shè)給定一個(gè)特定的輸入,比如“Doctor Smith went to the store because Doctor X…”(史密斯博士去商店是因?yàn)閄博士)這個(gè)輸入被稱為提示或上下文。對(duì)我們來(lái)說,下一個(gè)詞X指向“Smith”是顯而易見的。

在經(jīng)過訓(xùn)練的單層模型中,attention head可以通過兩個(gè)步驟進(jìn)行預(yù)測(cè)。首先,它查看上下文中的最后一個(gè)單詞(Doctor),并在上下文中搜索它已經(jīng)學(xué)習(xí)(在訓(xùn)練期間)與最后一個(gè)單詞相關(guān)聯(lián)的特定單詞。然后,對(duì)于它找到的任意單詞,從中查找另一個(gè)它已經(jīng)學(xué)會(huì)與找到的單詞相關(guān)聯(lián)的單詞,就像在二元模型中一樣,這可以是同一個(gè)詞。再將這個(gè)關(guān)聯(lián)的單詞作為模型的輸出。

在上述例子中,研究人員表明,根據(jù)最后一個(gè)單詞“Doctor”,head通過訓(xùn)練知道如何搜索一個(gè)常用名稱。在句子的前面找到“Smith”這個(gè)名字后,head會(huì)查看所學(xué)的與“Smith”關(guān)聯(lián)的內(nèi)容,并將該單詞作為輸出。在這種情況下,模型已經(jīng)學(xué)會(huì)將同一個(gè)詞“Smith”與找到的詞“Smith”相關(guān)聯(lián)。整個(gè)過程的最終效果是模型將“Smith”一詞從上下文復(fù)制到輸出。

少于兩層的transformer,且只有注意力塊,GPT-3:你怕不是搞事情?

圖注:從左到右分別為 Chris Olah、Catherine Olsson 與 Nelson Elhage

不過,到目前為止,記憶只能采用一種模式。不妨想一下,當(dāng)Smith的名字變成了一個(gè)虛構(gòu)的名字,比如“Gigamuru”時(shí)會(huì)發(fā)生什么。對(duì)我們而言,預(yù)測(cè)下一個(gè)單詞輕而易舉,但模型在訓(xùn)練期間不會(huì)識(shí)別出虛構(gòu)的詞,因此不可能記住它與其他詞之間的任何關(guān)系,也不會(huì)生成它。



2

引入歸納頭

Anthropic 團(tuán)隊(duì)還發(fā)現(xiàn),當(dāng)他們研究一個(gè)更復(fù)雜的模型時(shí),比如一個(gè)有兩層attention head的模型,出現(xiàn)了一種解決方案。它依賴于attention head獨(dú)有的能力:不僅可以將信息移動(dòng)到輸出,還可以移動(dòng)到上下文中的其他位置。這種能力可以使第一層的head利用前面單詞的信息,學(xué)習(xí)注釋上下文中的每個(gè)單詞。然后,第二個(gè)head可以搜索“Doctor”(在本例中為“Gigamuru”)之前的單詞,并像單層模型中的head一樣,將其移動(dòng)到輸出。

研究人員將后一層與前一層協(xié)作的attention head稱為induction head(歸納頭)。它不僅僅起到記憶的作用。根據(jù)Nelson Elhage的解釋,它還可以做一些看起來(lái)更像是抽象推理或算法實(shí)現(xiàn)的工作。

induction head可以讓兩層模型發(fā)揮更大的作用,但它們與全尺度transformer的相關(guān)性尚不清楚,因?yàn)槿叨萾ransformer有數(shù)百個(gè)attention head協(xié)同工作。在他們的第二篇論文中,研究人員表示這些發(fā)現(xiàn)得到了延續(xù):induction head似乎對(duì)一些最復(fù)雜、多層結(jié)構(gòu)的行為起到了關(guān)鍵作用。

在這些行為中,算術(shù)能力尤為突出,因?yàn)槟P椭唤邮芰送瓿晌谋镜挠?xùn)練。例如,如果給出重復(fù)提示:“問:48+76是多少?答:124,問:48+76是多少?答:“全尺度模型會(huì)得到正確答案?!?。在給出充足的非重復(fù)性示例后,它將能夠正確回答從未見過的算術(shù)問題。這種從語(yǔ)境中學(xué)習(xí)新能力的現(xiàn)象被稱為上下文學(xué)習(xí)。

這種現(xiàn)象令人費(fèi)解,因?yàn)閺纳舷挛?/span>中學(xué)習(xí)是不可能的。這是因?yàn)闆Q定模型性能的參數(shù)只在訓(xùn)練期間調(diào)整,而不是在模型處理輸入上下文時(shí)調(diào)整。

induction head至少解決了部分難題。它們解釋了如何使上下文學(xué)習(xí)的簡(jiǎn)單和重復(fù)形式成為可能,并且提供了所需的功能:能夠復(fù)制模型沒有訓(xùn)練過的新單詞(如“Gigamuru”或“124”)。

另一位來(lái)自Anthropic的合著者Catherine Olsson說:“induction head更有可能執(zhí)行任何模式,即使它有些奇異或新穎。”

研究人員進(jìn)一步在多層次模型中識(shí)別出induction head,并表明它們參與了更新穎的上下文學(xué)習(xí)形式,比如學(xué)習(xí)語(yǔ)言間的翻譯。

“這并不是要解釋整個(gè)機(jī)制,”O(jiān)penAI 的 Jacob Hilton 說?!爸皇莍nduction head似乎參與其中?!?/span>

這些結(jié)果為我們理解transformer模型提供了一個(gè)立足點(diǎn)。它們不僅在獲取知識(shí),還在學(xué)習(xí)如何處理他們根本沒有學(xué)到的事物。也許通過了解其工作機(jī)制,我們可以對(duì)“大放異彩”的transformer少些驚訝與感嘆。

原文鏈接:

https://www.quantamagazine.org/researchers-glimpse-how-ai-gets-so-good-at-language-processing-20220414/

少于兩層的transformer,且只有注意力塊,GPT-3:你怕不是搞事情?

雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

少于兩層的transformer,且只有注意力塊,GPT-3:你怕不是搞事情?

分享:
相關(guān)文章

運(yùn)營(yíng)

當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說