丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

字節(jié)跳動(dòng) AI Lab 總監(jiān)李航:語言模型的過去、現(xiàn)在和未來

本文作者: 我在思考中 2022-07-11 09:57
導(dǎo)語:在未來幾年,神經(jīng)語言模型尤其是預(yù)訓(xùn)練的語言模型仍將是 NLP 最有力的工具。
字節(jié)跳動(dòng) AI Lab 總監(jiān)李航:語言模型的過去、現(xiàn)在和未來

作者 | 李航

編譯 | 李梅、黃楠

編輯 | 陳彩嫻

從俄國(guó)數(shù)學(xué)家 Andrey Markov (安德烈·馬爾可夫)提出著名的「馬爾科夫鏈」以來,語言建模的研究已經(jīng)有了 100 多年的歷史。近年來,自然語言處理(NLP)發(fā)生了革命性的變化。2001年,Yoshua Bengio 用神經(jīng)網(wǎng)絡(luò)進(jìn)行參數(shù)化的神經(jīng)語言模型,開啟了語言建模的新時(shí)代。其后,預(yù)訓(xùn)練語言模型如 BERT 和 GPT 的出現(xiàn)再次將 NLP 提高到一個(gè)新的水平。

最近,字節(jié)跳動(dòng) AI Lab 的總監(jiān)李航博士在《ACM通訊》(The Communications of ACM)上發(fā)表了一篇綜述文章,展示了他對(duì)于語言模型在過去、現(xiàn)在和未來的觀察。

在本文中,李航博士首先介紹了馬爾可夫和香農(nóng)基于概率論研究的語言建模的基本概念。之后,他討論了喬姆斯基提出的基于形式語言理論的語言模型,描述了作為傳統(tǒng)語言模型的擴(kuò)展的神經(jīng)語言模型的定義。其后,他解釋了預(yù)訓(xùn)練語言模型的基本思想,最后討論了神經(jīng)語言建模方法的優(yōu)勢(shì)和局限性,并對(duì)未來的趨勢(shì)進(jìn)行預(yù)測(cè)。

李航認(rèn)為,在未來幾年,神經(jīng)語言模型尤其是預(yù)訓(xùn)練的語言模型仍將是 NLP 最有力的工具。他指出,預(yù)訓(xùn)練語言模型具有兩大優(yōu)勢(shì),其一,它們可以顯著提高許多 NLP 任務(wù)的準(zhǔn)確性;例如,可以利用 BERT 模型來實(shí)現(xiàn)比人類更好的語言理解性能,在語言生成方面還可以利用 GPT-3 模型生成類似人類寫作的文本。其二,它們是通用的語言處理工具。在傳統(tǒng)的 NLP 中進(jìn)行基于機(jī)器學(xué)習(xí)的任務(wù),必須標(biāo)記大量數(shù)據(jù)來訓(xùn)練一個(gè)模型,相比之下,目前只需要標(biāo)記少量數(shù)據(jù)來微調(diào)預(yù)訓(xùn)練的語言模型,因?yàn)樗呀?jīng)獲得了語言處理所需的大量知識(shí)。

在文中,李航還提出一個(gè)重要的問題,即如何設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)來使模型在表征能力和計(jì)算效率方面更接近于人類語言處理過程。他建議,我們應(yīng)當(dāng)從人類大腦中尋找靈感。

字節(jié)跳動(dòng) AI Lab 總監(jiān)李航:語言模型的過去、現(xiàn)在和未來

李航,字節(jié)跳動(dòng)人工智能實(shí)驗(yàn)室總監(jiān)、ACL Fellow、IEEE Fellow、ACM 杰出科學(xué)家。他碩士畢業(yè)于日本京都大學(xué)電氣工程系,后在東京大學(xué)取得計(jì)算機(jī)科學(xué)博士學(xué)位。畢業(yè)之后,他先后就職于 NEC 公司中央研究所(任研究員)、微軟亞洲研究院(任高級(jí)研究員與主任研究員)、華為技術(shù)有限公司諾亞方舟實(shí)驗(yàn)室(任首席科學(xué)家)。李航博士的主要研究方向包括自然語言處理、信息檢索、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等。

以下是 AI 科技評(píng)論在不改變?cè)獾幕A(chǔ)上對(duì)原文所作編譯。

自然語言處理是計(jì)算機(jī)科學(xué)、人工智能和語言學(xué)相交叉的一個(gè)子領(lǐng)域,在機(jī)器翻譯、閱讀理解、對(duì)話系統(tǒng)、文檔摘要、文本生成等方面都有應(yīng)用。近年來,深度學(xué)習(xí)已成為 NLP 的基礎(chǔ)技術(shù)。

使用數(shù)學(xué)方法對(duì)人類語言建模有兩種主要方法:一種是基于概率理論,另一種是基于形式語言理論。這兩種方法也可以結(jié)合使用。從基本框架的角度來看,語言模型屬于第一類。

形式上,語言模型是定義在單詞序列(句子或段落)上的概率分布。它是基于概率論、統(tǒng)計(jì)學(xué)、信息論和機(jī)器學(xué)習(xí)的自然語言文本建模的重要機(jī)制。深度學(xué)習(xí)的神經(jīng)語言模型,特別是最近開發(fā)的預(yù)訓(xùn)練語言模型,已成為自然語言處理的基本技術(shù)。



1

馬爾可夫與語言模型

Andrey Markov (安德烈·馬爾可夫)可能是第一位研究語言模型的科學(xué)家,盡管當(dāng)時(shí)「語言模型」一詞尚不存在。

假設(shè) w((1)), w((2)), ···, w((N)) 是一個(gè)單詞序列。我們可以計(jì)算這個(gè)單詞序列的概率如下:

字節(jié)跳動(dòng) AI Lab 總監(jiān)李航:語言模型的過去、現(xiàn)在和未來

設(shè) p(w((1))|w((0))) = p(w((1))) 。不同類型的語言模型使用不同的方法來計(jì)算條件概率 p(w((i))|w((1)), w((2)), ···, w((i-1))) 。學(xué)習(xí)和使用語言模型的過程稱為語言建模。n-gram 模型是一種基本模型,它假設(shè)每個(gè)位置出現(xiàn)什么單詞僅取決于前 n-1個(gè) 位置上是什么單詞。也就是說,該模型是一個(gè) n–1 階馬爾可夫鏈。

字節(jié)跳動(dòng) AI Lab 總監(jiān)李航:語言模型的過去、現(xiàn)在和未來

馬爾可夫在 1906 年研究出了馬爾可夫鏈。他一開始考慮的模型非常簡(jiǎn)單,在這個(gè)模型中,只有兩個(gè)狀態(tài)和這些狀態(tài)之間的轉(zhuǎn)換概率。他證明,如果根據(jù)轉(zhuǎn)換概率在兩個(gè)狀態(tài)之間跳躍,那么訪問兩個(gè)狀態(tài)的頻率將收斂到期望值,這就是馬爾可夫鏈的遍歷定理。在接下來的幾年里,他擴(kuò)展了該模型,并證明了上述結(jié)論在更通用的情況下仍然成立。

這里舉一個(gè)具體的例子。1913年,馬爾可夫?qū)⑺岢龅哪P蛻?yīng)用于亞歷山大·普希金的詩體小說《尤金·奧涅金》中。他去掉文本中的空格和標(biāo)點(diǎn)符號(hào),將小說的前 20000 個(gè)俄語字母分為元音和輔音,從而得到小說中的元音和輔音序列。然后,他用紙和筆計(jì)算出元音和輔音之間的轉(zhuǎn)換概率。最后,這些數(shù)據(jù)被用來驗(yàn)證最簡(jiǎn)單的馬爾可夫鏈的特征。

非常有趣的是,馬爾可夫鏈最開始被應(yīng)用的領(lǐng)域是語言。馬爾可夫研究的這個(gè)例子就是一個(gè)最簡(jiǎn)單的語言模型。



2

香農(nóng)與語言模型

1948年, Claude Shannon (克勞德·香農(nóng))發(fā)表了一篇開創(chuàng)性的論文 “The Mathematical Theory of Communication”(《通信的數(shù)學(xué)理論》),開辟了信息論這一研究領(lǐng)域。在這篇論文中,香農(nóng)引入了熵和交叉熵的概念,并研究了 n-gram 模型的性質(zhì)。(根據(jù)馮·諾依曼的建議,香農(nóng)借用了統(tǒng)計(jì)力學(xué)中的“熵”一詞。)

熵表示一個(gè)概率分布的不確定性,交叉熵則表示一個(gè)概率分布相對(duì)于另一個(gè)概率分布的不確定性。熵是交叉熵的下限。

假設(shè)語言(即一個(gè)單詞序列)是由隨機(jī)過程生成的數(shù)據(jù)。n-gram 的概率分布熵定義如下:

字節(jié)跳動(dòng) AI Lab 總監(jiān)李航:語言模型的過去、現(xiàn)在和未來

其中 p(w((1)), w((2)), ···, w((n))) 表示 n-gram w((1)), w((2)), ···, w((n)) 的概率。n-gram 概率分布相對(duì)于數(shù)據(jù)“真實(shí)”概率分布的交叉熵定義如下:

字節(jié)跳動(dòng) AI Lab 總監(jiān)李航:語言模型的過去、現(xiàn)在和未來

其中, q(w((1)), w((2)), ···, w((n))) 表示 n-gram w((1)), w((2)), ···, w((n)) 的概率,p(w((1)), w((2)), ···, w((n))) 表示 n-gram w((1)), w((2)), ···, w((n)) 的真實(shí)概率。以下關(guān)系成立:

字節(jié)跳動(dòng) AI Lab 總監(jiān)李航:語言模型的過去、現(xiàn)在和未來

Shannon-McMillan-Breiman 定理指出,當(dāng)語言的隨機(jī)過程滿足平穩(wěn)性和遍歷性條件時(shí),以下關(guān)系成立:

字節(jié)跳動(dòng) AI Lab 總監(jiān)李航:語言模型的過去、現(xiàn)在和未來

換句話說,當(dāng)單詞序列長(zhǎng)度趨于無窮大時(shí),就可以定義語言的熵。熵取一個(gè)常數(shù)值,可以從語言數(shù)據(jù)中進(jìn)行估計(jì)。

如果一種語言模型比另一種語言模型更能準(zhǔn)確地預(yù)測(cè)單詞序列,那么它應(yīng)該具有較低的交叉熵。因此,香農(nóng)的工作為語言建模提供了一個(gè)評(píng)估工具。

需要注意的是,語言模型不僅可以對(duì)自然語言進(jìn)行建模,還可以對(duì)形式語言和半形式語言進(jìn)行建模。



3

喬姆斯基與語言模型

與此同時(shí), 美國(guó)語言學(xué)家 Noam Chomsky(諾姆·喬姆斯基)在 1956 年提出了喬姆斯基語法結(jié)構(gòu),用于表示語言的句法。他指出,有限狀態(tài)語法以及 n-gram 模型在描述自然語言方面具有局限性。

喬姆斯基的理論認(rèn)為,一種語言由一組有限或無限的句子組成,每個(gè)句子包含一系列長(zhǎng)度有限的單詞。單詞來自有限的詞匯庫,語法作為一組用于生成句子的規(guī)則,可以生成語言中的所有句子。不同的語法可以產(chǎn)生不同復(fù)雜程度的語言,從而構(gòu)成一個(gè)層次結(jié)構(gòu)。

有限狀態(tài)語法或正則語法,是指能夠生成有限狀態(tài)機(jī)可以接受的句子的語法。而能夠生成非確定性下推自動(dòng)機(jī)(non-deterministic pushdown automaton)可以接受的句子的語法則是上下文無關(guān)語法。有限狀態(tài)語法包含在上下文無關(guān)語法中。

有限馬爾可夫鏈(或 n-gram 模型)背后的「語法」就是有限狀態(tài)語法。有限狀態(tài)語法在生成英語句子方面確實(shí)有局限性。比方說,英語的表達(dá)式之間存在如(i)和(ii)中的語法關(guān)系。

  • (i) If S1, then S2.

  • (ii) Either S3, or S4.

  • (iii) Either if S5, then S6, or if S7, then S8

    原則上,我們可以無限地將這些關(guān)系進(jìn)行組合以產(chǎn)生正確的英語表達(dá),比如(iii)。然而,有限狀態(tài)語法無法窮盡描述所有的組合,而且在理論上,有些英語句子是無法被涵蓋的。因此,喬姆斯基認(rèn)為,用有限狀態(tài)語法包括 n-gram 模型來描述語言有很大的局限性。相反,他指出上下文無關(guān)語法可以更有效地建模語言。在他的影響下,接下來的幾十年里,上下文無關(guān)語法在自然語言處理中更為常用。在今天,喬姆斯基的理論對(duì)自然語言處理的影響不大,但它仍具有重要的科學(xué)價(jià)值。



    4

    神經(jīng)語言模型

    2001年,Yoshua Bengio 和他的合著者提出了最早的神經(jīng)語言模型之一,開創(chuàng)了語言建模的新時(shí)代。眾所周知,Bengio、Geoffrey Hinton 和 Yann LeCun 在概念和工程上的突破使深度神經(jīng)網(wǎng)絡(luò)成為計(jì)算的關(guān)鍵部分,他們因此而獲得 2018 年圖靈獎(jiǎng)。

    n-gram 模型的學(xué)習(xí)能力有限。傳統(tǒng)方法是使用平滑方法從語料庫中估計(jì)模型中的條件概率 p(w((i))|w((i-n+1)), w((i-n+2)), ···, w((i-1))) 。然而,模型中的參數(shù)數(shù)量為指數(shù)級(jí) O(V((n))),其中 V 表示詞匯量。當(dāng) n 增大時(shí),由于訓(xùn)練數(shù)據(jù)的稀疏性,就無法準(zhǔn)確地學(xué)習(xí)模型的參數(shù)。

    Bengio 等人提出的神經(jīng)語言模型從兩個(gè)方面改進(jìn)了 n-gram 模型。首先,被稱為詞嵌入的實(shí)值向量,可用于表示單詞或單詞組合。單詞嵌入的維度比單詞的獨(dú)熱向量(one-hot vector)的維度要低得多,獨(dú)熱向量通過詞匯大小的向量表示文本中的詞,其中只有對(duì)應(yīng)于該詞的項(xiàng)是 1,而其他所有項(xiàng)都是 0。

    詞嵌入作為一種「分布式表示」,可以比獨(dú)熱向量更有效地表示一個(gè)詞,它具有泛化能力、魯棒性和可擴(kuò)展性。其次,語言模型是由神經(jīng)網(wǎng)絡(luò)表示的,這大大減少了模型中的參數(shù)數(shù)量。條件概率由神經(jīng)網(wǎng)絡(luò)確定:

    字節(jié)跳動(dòng) AI Lab 總監(jiān)李航:語言模型的過去、現(xiàn)在和未來

    其中 (w((i-n+1)), w((i-n+2)), ···, w((i-1))) 表示單詞 w((i-n+1)), w((i-n+2)), ···, w((i-1)) ;f(·) 表示神經(jīng)網(wǎng)絡(luò);? 表示網(wǎng)絡(luò)參數(shù)。模型中的參數(shù)數(shù)量?jī)H為 O(V) 階。下圖顯示了模型中各表征之間的關(guān)系。每個(gè)位置都有一個(gè)中間表征,它取決于前 n–1個(gè) 位置處的單詞嵌入(單詞),這個(gè)原則適用于所有位置。使用當(dāng)前位置的中間表征可以為該位置生成一個(gè)單詞。

    字節(jié)跳動(dòng) AI Lab 總監(jiān)李航:語言模型的過去、現(xiàn)在和未來
    圖 1:在初始神經(jīng)語言模型中各表征之間的關(guān)系

    在 Bengio 等人的工作之后,大量的詞嵌入方法和神經(jīng)語言建模方法被開發(fā)出來,從不同的角度未語言建模帶來了改進(jìn)。

    詞嵌入的代表性方法包括 Word2Vec。代表性的神經(jīng)語言模型是循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型 (RNN) ,如長(zhǎng)短期記憶語言模型 (LSTM) 。在一個(gè) RNN 語言模型中,每個(gè)位置上單詞的條件概率由一個(gè) RNN 決定:

    字節(jié)跳動(dòng) AI Lab 總監(jiān)李航:語言模型的過去、現(xiàn)在和未來

    其中 w((1)), w((2)), ···, w((i-1))  表示詞的嵌入 w((1)), w((2)), ···, w((i-1));f(·)  表示 RNN;?  表示網(wǎng)絡(luò)參數(shù)。RNN 語言模型不再使用馬爾可夫假設(shè),每個(gè)位置上的單詞都取決于之前所有位置上的單詞。RNN 的一個(gè)重要概念是它的中間表征或狀態(tài)。詞之間的依賴關(guān)系以 RNN 模型中狀態(tài)之間的依賴關(guān)系為特征。模型的參數(shù)在不同的位置可以共享,但在不同的位置得到的表征是不同的。

    下圖顯示了 RNN 語言模型中各表征之間的關(guān)系。每個(gè)位置的每一層都有一個(gè)中間表征,它表示到目前為止單詞序列的「狀態(tài)」。當(dāng)前層在當(dāng)前位置的中間表征,由同一層在前一位置的中間表征和下一層在當(dāng)前位置的中間表征決定。當(dāng)前位置的最終中間表征用于計(jì)算下一個(gè)單詞的概率。

    字節(jié)跳動(dòng) AI Lab 總監(jiān)李航:語言模型的過去、現(xiàn)在和未來

    圖 2:RNN 語言模型中各表征之間的關(guān)系。這里標(biāo)記了句首(bos)和句尾(eos)。

    語言模型可用于計(jì)算語言(詞序列)的概率或生成語言。比如在生成語言方面,可以通過從語言模型中隨機(jī)抽樣來生成自然語言的句子或文章。眾所周知,從大量數(shù)據(jù)中學(xué)習(xí)的 LSTM 語言模型可以生成非常自然的句子。

    對(duì)語言模型的一個(gè)擴(kuò)展是條件語言模型,它計(jì)算一個(gè)詞序列在給定條件下的條件概率。如果條件是另一個(gè)詞序列,那么問題就變成了從一個(gè)詞序列到另一個(gè)詞序列的轉(zhuǎn)換——即所謂的序列到序列問題,涉及的任務(wù)如機(jī)器翻譯、文本摘要和生成對(duì)話。如果給定的條件是一張圖片,那么問題就變成了從圖片到單詞序列的轉(zhuǎn)換,比如圖像捕捉任務(wù)。

    條件語言模型可以用在各種各樣的應(yīng)用程序中。在機(jī)器翻譯中,在保持相同語義的條件下,系統(tǒng)將一種語言的句子轉(zhuǎn)換成另一種語言的句子。在對(duì)話生成中,系統(tǒng)對(duì)用戶的話語產(chǎn)生響應(yīng),兩條消息構(gòu)成一輪對(duì)話。在文本摘要中,系統(tǒng)將長(zhǎng)文本轉(zhuǎn)換為短文本,后者包含前者的要點(diǎn)。由模型的條件概率分布所表示的語義因應(yīng)用程序而異,而且它們都是從應(yīng)用程序中的數(shù)據(jù)中來學(xué)習(xí)的。

    序列到序列模型的研究為新技術(shù)的發(fā)展做出了貢獻(xiàn)。一個(gè)具有代表性的例子是由 Vaswani 等人開發(fā)的 Transformer。Transformer 完全基于注意力機(jī)制,利用注意力在編碼器之間進(jìn)行編碼和解碼,以及在編碼器和解碼器之間進(jìn)行。目前,幾乎所有的機(jī)器翻譯系統(tǒng)都采用了 Transformer 模型,而且機(jī)器翻譯已經(jīng)達(dá)到了可以滿足實(shí)際需要的水平?,F(xiàn)在幾乎所有預(yù)訓(xùn)練的語言模型都采用 Transformer 架構(gòu),因?yàn)樗谡Z言表示方面具有卓越的能力。



    5

    預(yù)訓(xùn)練語言模型

    預(yù)訓(xùn)練語言模型的基本思想如下。首先,基于如  transformer 的編碼器或解碼器來實(shí)現(xiàn)語言模型。該模型的學(xué)習(xí)分兩個(gè)階段:一是預(yù)訓(xùn)練階段,通過無監(jiān)督學(xué)習(xí)(也稱為自監(jiān)督學(xué)習(xí))使用大量的語料庫來訓(xùn)練模型的參數(shù);二是微調(diào)階段,將預(yù)訓(xùn)練的模型應(yīng)用于一個(gè)特定的任務(wù),并通過監(jiān)督學(xué)習(xí)使用少量標(biāo)記數(shù)據(jù)進(jìn)一步調(diào)整模型的參數(shù)。下表中的鏈接提供了學(xué)習(xí)和使用預(yù)訓(xùn)練語言模型的資源。

    字節(jié)跳動(dòng) AI Lab 總監(jiān)李航:語言模型的過去、現(xiàn)在和未來

    預(yù)訓(xùn)練語言模型有三種: 單向、雙向和序列到序列。由于篇幅所限,這里只介紹前兩種類型。所有主要的預(yù)訓(xùn)練語言模型都采用了 Transformer 架構(gòu)。下表是對(duì)現(xiàn)有的預(yù)訓(xùn)練語言模型的概括。

    字節(jié)跳動(dòng) AI Lab 總監(jiān)李航:語言模型的過去、現(xiàn)在和未來

    Transformer 有很強(qiáng)的語言表示能力。一個(gè)非常大的語料庫會(huì)包含豐富的語言表達(dá)(這樣的未標(biāo)記數(shù)據(jù)很容易獲得),訓(xùn)練大規(guī)模深度學(xué)習(xí)模型就會(huì)變得更加高效。因此,預(yù)訓(xùn)練語言模型可以有效地表示語言中的詞匯、句法和語義特征。預(yù)訓(xùn)練語言模型如 BERT 和 GPT(GPT-1、GPT-2 和 GPT-3),已成為當(dāng)前 NLP 的核心技術(shù)。

    預(yù)訓(xùn)的語言模型的應(yīng)用為 NLP 帶來了巨大的成功。「微調(diào)」的 BERT 在語言理解任務(wù)(如閱讀理解)的準(zhǔn)確性方面優(yōu)于人類。「微調(diào)」的 GPT-3 在文本生成任務(wù)中也達(dá)到了驚人的流利程度。要注意的是,這些結(jié)果僅表明機(jī)器在這些任務(wù)中具有更高的性能;我們不應(yīng)簡(jiǎn)單地將其理解為 BERT 和 GPT-3 能比人類更好地理解語言,因?yàn)檫@也取決于如何進(jìn)行基準(zhǔn)測(cè)試。從歷史上可以看到,對(duì)人工智能技術(shù)持有正確的理解和期望,對(duì)于機(jī)器的健康成長(zhǎng)和發(fā)展至關(guān)重要。

    Radford 等人和 Brown 等人開發(fā)的 GPT 具有以下架構(gòu)。輸入是單詞的序列 w((1)), w((2)), ···, w((N))。首先,通過輸入層,創(chuàng)建一系列輸入表征,記為矩陣 H(((0)))。在通過 L 個(gè) transformer 解碼器層之后,創(chuàng)建一系列中間表征序列,記為矩陣 H(((L)))。

    字節(jié)跳動(dòng) AI Lab 總監(jiān)李航:語言模型的過去、現(xiàn)在和未來

    最后,基于該位置的最終中間表征來計(jì)算每個(gè)位置的單詞概率分布。GPT 的預(yù)訓(xùn)練與傳統(tǒng)的語言建模相同。目標(biāo)是預(yù)測(cè)單詞序列的可能性。對(duì)于給定的詞序列 w = w((1)), w((2)), ···, w((N)),我們計(jì)算并最小化交叉熵或負(fù)對(duì)數(shù)似然來估計(jì)參數(shù) :

    字節(jié)跳動(dòng) AI Lab 總監(jiān)李航:語言模型的過去、現(xiàn)在和未來

    其中 ? 指 GPTs 模型的參數(shù)。

    下圖顯示了 GPTs 模型中各表征之間的關(guān)系。每個(gè)位置上的輸入表征由詞嵌入和“位置嵌入”組成。每個(gè)位置上的每一層的中間表征是從下一層在先前位置上的中間表征創(chuàng)建的。單詞的預(yù)測(cè)或生成在每個(gè)位置從左到右重復(fù)執(zhí)行。換句話說,GPT 是一種單向語言模型,其中單詞序列是從單一方向建模的。(注意,RNN 語言模型也是單向語言模型。)因此,GPT 更適合解決自動(dòng)生成句子的語言生成問題。

    字節(jié)跳動(dòng) AI Lab 總監(jiān)李航:語言模型的過去、現(xiàn)在和未來

    圖 3:GPTs 語言模型中各表征之間的關(guān)系。這里標(biāo)記了句首(bos)和句尾(eos)。

    由 Devlin 等人開發(fā)的 BERT 具有以下架構(gòu)。輸入是一個(gè)單詞序列,它可以是來自單個(gè)文檔的連續(xù)句子,也可以是來自兩個(gè)文檔的連續(xù)句子的串聯(lián)。這使得該模型適用于以一個(gè)文本為輸入的任務(wù)(例如文本分類),以及以兩個(gè)文本為輸入的任務(wù)(例如回答問題)。首先,通過輸入層,創(chuàng)建一系列輸入表征,記為矩陣  H(((0)))。通過 L 個(gè) transformer 編碼器層之后,創(chuàng)建一個(gè)中間表征序列,記為 H(((L)))。

    字節(jié)跳動(dòng) AI Lab 總監(jiān)李航:語言模型的過去、現(xiàn)在和未來

    最后,可以根據(jù)該位置上的最終中間表征,來計(jì)算每個(gè)位置上單詞的概率分布。BERT 的預(yù)訓(xùn)練被執(zhí)行為所謂的掩碼語言建模。假設(shè)詞序列為 w = w((1)), w((2)), ···, w((N))。序列中的幾個(gè)單詞被隨機(jī)掩蔽——即更改為特殊符號(hào) [mask] —— 從而產(chǎn)生一個(gè)新的單詞序列字節(jié)跳動(dòng) AI Lab 總監(jiān)李航:語言模型的過去、現(xiàn)在和未來其中掩碼詞的集合記為字節(jié)跳動(dòng) AI Lab 總監(jiān)李航:語言模型的過去、現(xiàn)在和未來學(xué)習(xí)的目標(biāo)是通過計(jì)算和最小化下面的負(fù)對(duì)數(shù)似然來估計(jì)參數(shù),以恢復(fù)被掩蔽的單詞:

    字節(jié)跳動(dòng) AI Lab 總監(jiān)李航:語言模型的過去、現(xiàn)在和未來

    其中 ? 表示 BERT 模型的參數(shù),δ((i)) 取值為 1 或 0,表示位置 i 處的單詞是否被掩蔽。注意,掩碼語言建模已經(jīng)是一種不同于傳統(tǒng)語言建模的技術(shù)。

    圖4展示了 BERT 模型中表示之間的關(guān)系。每個(gè)位置的輸入表示由詞嵌入、「位置嵌入」等組成,每層在每個(gè)位置的中間表征,是由下面一層在所有位置的中間表征創(chuàng)建的,詞的預(yù)測(cè)或生成是在每個(gè)掩碼位置獨(dú)立進(jìn)行的--參見(圖3)。也就是說,BERT是一個(gè)雙向語言模型,其中單詞序列是從兩個(gè)方向建模的。因此,BERT可以自然地應(yīng)用于語言理解問題,其輸入是整個(gè)單詞序列,其輸出通常是一個(gè)標(biāo)簽或一個(gè)標(biāo)簽序列。

    字節(jié)跳動(dòng) AI Lab 總監(jiān)李航:語言模型的過去、現(xiàn)在和未來

    圖 4:BERT 模型中各表征之間的關(guān)系。這里表示代表整個(gè)輸入序列的特殊符號(hào)。

    對(duì)預(yù)訓(xùn)練語言模型的一個(gè)直觀解釋是,機(jī)器在預(yù)訓(xùn)練中根據(jù)大型語料庫進(jìn)行了大量的單詞接龍(GPT)或單詞完形填空練習(xí)(BERT),捕捉到由單詞組成句子的各種模式,由句子組成文章,并在模型中表達(dá)和記憶了這些模式。

    一個(gè)文本不是由單詞和句子隨機(jī)產(chǎn)生的,而是基于詞法、句法和語義規(guī)則來構(gòu)建。GPT 和 BERT 可以分別使用轉(zhuǎn)化器的解碼器和編碼器,來實(shí)現(xiàn)語言的組合性(組合性是語言最基本的特征,它也是由Chomsky 層次結(jié)構(gòu)中的語法所建模的)。換句話說,GPT 和 BERT 在預(yù)訓(xùn)練中已經(jīng)獲得了相當(dāng)數(shù)量的詞匯、句法和語義知識(shí)。因此,當(dāng)適應(yīng)微調(diào)中的特定任務(wù)時(shí),只需少量標(biāo)記數(shù)據(jù)即可對(duì)模型進(jìn)行細(xì)化,從而實(shí)現(xiàn)高性能。例如,人們發(fā)現(xiàn) BERT 的不同層有不同的特點(diǎn),底層主要代表詞法知識(shí),中間層主要代表句法知識(shí),而頂層主要代表語義知識(shí)。

    預(yù)訓(xùn)練的語言模型(沒有微調(diào)),例如 BERT 和 GPT-3,就包含大量的事實(shí)知識(shí),它們可以用來回答諸如「但丁在哪里出生?」之類的問題,只要它們?cè)谟?xùn)練數(shù)據(jù)中獲得了知識(shí),就可以進(jìn)行簡(jiǎn)單的推理,例如「48加76是多少?」

    但是語言模型本身沒有推理機(jī)制,其「推理」能力是基于聯(lián)想、而不是真正的邏輯推理。因此,它們?cè)谛枰獜?fù)雜推理的問題上表現(xiàn)不佳,包括論證推理、數(shù)值和時(shí)間推理和話語推理,將推理能力和語言能力集成到 NLP 系統(tǒng)中,將是未來的一個(gè)重要課題。



    6

    未來展望

    當(dāng)代科學(xué)(腦科學(xué)和認(rèn)知科學(xué))對(duì)人類語言處理機(jī)制(語言理解和語言生成)的理解有限。在可預(yù)見的未來,很難看到有重大突破發(fā)生,永遠(yuǎn)不會(huì)突破的可能性是存在的。另一方面,我們希望不斷推動(dòng)人工智能技術(shù)的發(fā)展,開發(fā)出對(duì)人類有用的語言處理機(jī)器,神經(jīng)語言建模似乎是迄今為止最成功的方法。

    目前看來,神經(jīng)語言建模是迄今為止最成功的方法,它的基本特征沒有改變--那就是,它依賴于在包含所有單詞序列的離散空間中定義的概率分布。學(xué)習(xí)過程是為了找到最佳模型,以便交叉熵在預(yù)測(cè)語言數(shù)據(jù)的準(zhǔn)確性方面是最高的(圖5)。

    神經(jīng)語言建模通過神經(jīng)網(wǎng)絡(luò)構(gòu)建模型,其優(yōu)點(diǎn)在于,它可以利用復(fù)雜的模型、大數(shù)據(jù)和強(qiáng)大的計(jì)算來非常準(zhǔn)確地模擬人類語言行為。從 Bengio 等人提出的原始模型、到 RNN 語言模型以及 GPT 和 BERT 等預(yù)訓(xùn)練語言模型,神經(jīng)網(wǎng)絡(luò)的架構(gòu)變得越來越復(fù)雜(如圖1-4),而預(yù)測(cè)語言的能力也越來越高(交叉熵越來越小)。然而,這并不一定意味著這些模型具有和人類一樣的語言能力,而且其局限性也是不言而喻的。

    字節(jié)跳動(dòng) AI Lab 總監(jiān)李航:語言模型的過去、現(xiàn)在和未來

    圖5:機(jī)器通過調(diào)整其「大腦」內(nèi)的神經(jīng)網(wǎng)絡(luò)參數(shù)來模仿人類語言行為,最終它可以像人類一樣處理語言

    那么,有其他可能的發(fā)展路徑嗎?目前還不清楚。但可以預(yù)見的是,神經(jīng)語言建模的方法仍有很多改進(jìn)機(jī)會(huì)。

    目前,神經(jīng)語言模型與人腦在表示能力和計(jì)算效率(功耗方面)方面還有很大差距,成人大腦的工作功率僅為 12 W,而訓(xùn)練 GPT-3 模型消耗了數(shù)千 Petaflop/s-day,這形成了鮮明的對(duì)比。能否開發(fā)出更好的語言模型、使其更接近人類語言處理,是未來研究的重要方向。我們可以從有限的腦科學(xué)發(fā)現(xiàn)中學(xué)習(xí),技術(shù)提升仍然有很多機(jī)會(huì)。

    人類語言處理被認(rèn)為主要在大腦皮層的兩個(gè)大腦區(qū)域進(jìn)行:布羅卡區(qū)和韋尼克區(qū)(圖6)。前者負(fù)責(zé)語法,后者負(fù)責(zé)詞匯。腦損傷導(dǎo)致失語的典型案例有兩種,布羅卡區(qū)受傷的患者只能說出零星的單詞而無法說出句子,而韋尼克區(qū)受傷的患者可以構(gòu)建語法正確的句子,但單詞往往缺乏意義。

    一個(gè)自然的假設(shè)是,人類語言處理是在兩個(gè)大腦區(qū)域中并行進(jìn)行的,是否需要采用更人性化的處理機(jī)制是一個(gè)值得研究的課題。正如Chomsky所指出的,語言模型沒有明確地使用語法,也不能無限地組合語言,這是人類語言的一個(gè)重要屬性,將語法更直接地結(jié)合到語言模型中的能力、將是一個(gè)需要研究的問題。

    字節(jié)跳動(dòng) AI Lab 總監(jiān)李航:語言模型的過去、現(xiàn)在和未來

    圖6:人腦中負(fù)責(zé)語言處理的區(qū)域

    腦科學(xué)家認(rèn)為,人類語言理解是在潛意識(shí)中激活相關(guān)概念的表征、并在意識(shí)中生成相關(guān)圖像的過程。表征包括視覺、聽覺、觸覺、嗅覺和味覺表征,它們是人在成長(zhǎng)和發(fā)育過程中的經(jīng)歷、在大腦各部分記憶的概念的視覺、聽覺、觸覺、嗅覺和味覺內(nèi)容。

    因此,語言理解與人們的經(jīng)驗(yàn)密切相關(guān)。生活中的基本概念,比如貓和狗,都是通過視覺、聽覺、觸覺等傳感器的輸入來學(xué)習(xí)的,當(dāng)聽到或看到「貓」和「狗」這兩個(gè)詞,就會(huì)重新激活人們大腦中與其相關(guān)的視覺、聽覺和觸覺表征。

    機(jī)器能否從大量的多模態(tài)數(shù)據(jù)(語言、視覺、語音)中學(xué)習(xí)更好的模型,從而更智能地處理語言、視覺和語音?多模態(tài)語言模型將是未來探索的重要課題。最近,該主題的研究也取得了一些進(jìn)展——例如,Ramesh 等人發(fā)表的「Zero-shot text-to-image generation」,Radford 等人的「Learning transferable visual models from natural language supervision」。



    7

    結(jié)語

    語言模型的歷史可以追溯到一百多年前,Markov、Shannon 等人沒有預(yù)見到他們所研究的模型和理論會(huì)在后來產(chǎn)生如此大的影響;對(duì) Bengio 來說,這甚至可能是出乎意料的。

    未來一百年,語言模型將如何發(fā)展?它們?nèi)匀皇侨斯ぶ悄芗夹g(shù)的重要組成部分嗎?這可能超出了我們所能想象和預(yù)測(cè)的范圍。但可以看到,語言建模技術(shù)在不斷發(fā)展。在未來幾年,可能有更強(qiáng)大的模型出現(xiàn)會(huì)取代 BERT 和 GPT,我們有幸成為看到巨大成就的技術(shù)、并參與研發(fā)的第一代。

    原文鏈接:https://cacm.acm.org/magazines/2022/7/262080-language-models/fulltext

    更多內(nèi)容,點(diǎn)擊下方關(guān)注:

    掃碼添加 AI 科技評(píng)論 微信號(hào),投稿&進(jìn)群:

    字節(jié)跳動(dòng) AI Lab 總監(jiān)李航:語言模型的過去、現(xiàn)在和未來

    雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

    雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

    字節(jié)跳動(dòng) AI Lab 總監(jiān)李航:語言模型的過去、現(xiàn)在和未來

    分享:
    相關(guān)文章

    運(yùn)營(yíng)

    當(dāng)月熱門文章
    最新文章
    請(qǐng)?zhí)顚懮暾?qǐng)人資料
    姓名
    電話
    郵箱
    微信號(hào)
    作品鏈接
    個(gè)人簡(jiǎn)介
    為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請(qǐng)驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號(hào)信息
    您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說