有人預(yù)測(cè)GPT-4長這樣：比GPT-3略大、純文本、更注重最優(yōu)計(jì)算與對(duì)齊

本文作者：我在思考中

2022-04-20 10:29

導(dǎo)語：GPT-4預(yù)計(jì)將在7-8月發(fā)布，性能果真如文中所言嗎？

圖源 Pinkeyes on Shutterstock

作者 | 錢磊、Ailleurs

編輯 | 陳彩嫻

不久前，谷歌發(fā)布基于他們最新一代人工智能架構(gòu)Pathways研發(fā)的 5400 億參數(shù)大模型——PaLM，具備標(biāo)記因果關(guān)系、上下文理解、推理、代碼生成等等多項(xiàng)功能，其中常識(shí)推理能力更是較以往的語言模型有較大提升。

但同時(shí)，大家也一如既往地注意到 PaLM 的計(jì)算成本：用了6144塊TPU。如果租顯卡訓(xùn)練，最高花費(fèi)可能達(dá)到1700萬美元（人民幣超過1個(gè)億，“一個(gè)小目標(biāo)”）。

顯然，這很燒錢，不符合“經(jīng)濟(jì)可用”的原則。難怪業(yè)內(nèi)人士常常吐槽：苦大模型久矣。

如果模型往大走，一個(gè)勁地砸錢，何時(shí)是個(gè)盡頭？有學(xué)者也向AI科技評(píng)論表示：類似PaLM這樣的大模型在結(jié)果上確實(shí)取得了不錯(cuò)的突破，但訓(xùn)練與計(jì)算的成本非常高，沒必要將許多任務(wù)拼在一起。

對(duì)于大模型的未來發(fā)展，GPT系列或許能提供一些新的見解。

近日，Cambrian AI的分析師Alberto Romero便發(fā)表了一篇文章，基于OpenAI首席執(zhí)行官Sam Altman在數(shù)月前的說法，推測(cè)GPT-4即將在今年7月到8月發(fā)布，并基于Altman在去年的一場(chǎng)問答，對(duì)GPT-4的特征進(jìn)行了預(yù)測(cè)。

可以肯定的是，Altman稱，GPT-4的參數(shù)不會(huì)達(dá)到100T。

Alberto Romero也猜測(cè)，或許GPT-4的規(guī)模會(huì)比GPT-3略大，但“大”不會(huì)像GPT-3一樣成為GPT-4的“賣點(diǎn)”。相反，OpenAI更致力于如何讓規(guī)模較小的模型發(fā)揮更大的性能。

預(yù)測(cè)1：GPT-4不會(huì)太大

首先，Alberto判斷，GPT-4不會(huì)是最大的語言模型。Altman也稱它不會(huì)比GPT-3大很多。與前幾代的神經(jīng)網(wǎng)絡(luò)相比，GPT-4肯定會(huì)很大，但大小不會(huì)是它的顯著特征。GPT-4可能介于GPT-3和Gopher (175B-280B)之間。

接著，Alberto給出了他預(yù)測(cè)的理由：

去年由英偉達(dá)和微軟開發(fā)的Megatron-Turing NLG有530B參數(shù)，一直是最大的密集神經(jīng)網(wǎng)絡(luò)——其大小已是GPT-3的3倍——直到最近出現(xiàn)了谷歌的PaLM，其大小為540B。但值得注意的是，MT-NLG之后的一些較小的模型達(dá)到了更高的性能水平。

也就是說，更大 ≠ 更好。小型模型的存在有兩個(gè)意義。

其一是，企業(yè)已經(jīng)意識(shí)到，要改善性能，擴(kuò)大模型的規(guī)模不是唯一的方法，也不是最好的方法。2020年，OpenAI的Jared Kaplan和同事得出結(jié)論，當(dāng)增加的計(jì)算預(yù)算主要分配到增加參數(shù)的數(shù)量上時(shí)，性能的提高是最顯著的，并且遵循冪律關(guān)系。谷歌、英偉達(dá)、微軟、OpenAI、DeepMind和其他開發(fā)語言模型的公司從表面上看接受了這一指導(dǎo)原則。

有人預(yù)測(cè)GPT-4長這樣：比GPT-3略大、純文本、更注重最優(yōu)計(jì)算與對(duì)齊

論文地址：https://arxiv.org/pdf/2001.08361.pdf

MT-NLG雖然規(guī)模很大，但在性能方面并不是最好的。事實(shí)上，它在任何單一類別基準(zhǔn)上都不是最好的存在。像Gopher (280B)或Chinchilla (70B)這種更小的模型——哪怕僅僅是其一小部分——在任務(wù)上的表現(xiàn)都比MT-NLG好得多。

第二個(gè)意義是，公司開始拒絕“越大越好”的教條。雖然增加參數(shù)很簡單，但是擁有更多參數(shù)只是眾多可以提高性能的因素之一，而附帶損害（如碳足跡、計(jì)算成本或進(jìn)入死路）反而使其成為最糟糕的因素之一。如果企業(yè)能夠從一個(gè)較小的模型中獲得類似或更好的結(jié)果時(shí)，在構(gòu)建一個(gè)龐大的模型之前就會(huì)三思而后行。

Altman說，他們不再專注于制造非常大的模型，而是致力于讓較小的模型發(fā)揮最大的作用。OpenAI的研究人員是縮放假設(shè)（scaling hypothesis）早期的倡導(dǎo)人，但現(xiàn)在他們可能已經(jīng)意識(shí)到其他還沒走過的路可以改進(jìn)模型。

相比將GPT-4做大，Alberto更傾向于認(rèn)為，OpenAI會(huì)將把重點(diǎn)轉(zhuǎn)移到其他方面——比如數(shù)據(jù)、算法、參數(shù)化或?qū)R——這些因素可以更顯著地改進(jìn)模型。

預(yù)測(cè)2：GPT-4試圖尋找“最優(yōu)”

當(dāng)涉及到優(yōu)化時(shí)，語言模型會(huì)遇到一個(gè)關(guān)鍵的問題。訓(xùn)練如此昂貴，以至于企業(yè)不得不在準(zhǔn)確性和成本之間做出權(quán)衡。而這種抉擇常常會(huì)導(dǎo)致模型明顯未優(yōu)化。

GPT-3只被訓(xùn)練了一次，仍有一些錯(cuò)誤，這些錯(cuò)誤在某些情況下可能會(huì)導(dǎo)致重新訓(xùn)練。由于成本太高、負(fù)擔(dān)不起，OpenAI決定不進(jìn)行優(yōu)化，而這使得研究人員無法找到模型的最佳超參數(shù)集（例如學(xué)習(xí)速率、批尺寸、序列長度等）。

訓(xùn)練成本很高導(dǎo)致的另一個(gè)后果是模型行為的分析受到限制。當(dāng)Kaplan的團(tuán)隊(duì)總結(jié)出模型大小是提高性能最相關(guān)的變量時(shí)，他們沒有考慮到訓(xùn)練令牌的數(shù)量——也就是輸入模型的數(shù)據(jù)量。這樣做將需要大量的計(jì)算資源。

科技公司遵循Kaplan的結(jié)論，因?yàn)檫@已是他們所知最好的想法。諷刺的是，正是受到經(jīng)濟(jì)限制的影響，谷歌、微軟、Facebook和其他公司在越來越大的模型上“浪費(fèi)”了數(shù)百萬美元，并且在這個(gè)過程中產(chǎn)生了大量的污染。

現(xiàn)在，以DeepMind和OpenAI為首的公司正在探索其他方法。他們?cè)噲D找到最優(yōu)模型，而不僅僅是更大的模型。

最佳參數(shù)化

上個(gè)月，微軟和OpenAI證明，如果使用最優(yōu)超參數(shù)訓(xùn)練模型，GPT-3可以得到進(jìn)一步的改進(jìn)。他們發(fā)現(xiàn)，6.7B版GPT-3的性能提高了很多，可以與最初的13B版GPT-3媲美。超參數(shù)調(diào)優(yōu)（對(duì)于較大的模型來說不可行）賦予的性能提升相當(dāng)于參數(shù)數(shù)量增加了一倍。

他們發(fā)現(xiàn)了一種新的參數(shù)化(μP)，在這種參數(shù)化中，小型模型的最佳超參數(shù)也同樣適用于同類大型模型。μP使他們能夠優(yōu)化任意大小的模型，而且只需花費(fèi)很小一部分的培訓(xùn)成本。然后這些超參數(shù)可以幾乎不花錢地轉(zhuǎn)移到更大的模型中。

最優(yōu)計(jì)算模型

幾周前，DeepMind重新審視了Kaplan的發(fā)現(xiàn)，并意識(shí)到訓(xùn)練令牌的數(shù)量與模型大小一樣影響性能，而這與人們的看法相反。他們的結(jié)論是，隨著更多的計(jì)算預(yù)算可用，應(yīng)該將其平均分配給可縮放參數(shù)和數(shù)據(jù)。他們通過訓(xùn)練Chinchilla來證明自己的假設(shè)，Chinchilla是一個(gè)70B模型（是曾經(jīng)的SOTA，比Gopher小4倍），它使用的數(shù)據(jù)是GPT-3 (1.4T令牌-來自典型的300B）以來所有大型語言模型的4倍。

結(jié)果是明確的。在許多語言基準(zhǔn)測(cè)試中，Chinchilla“一致且顯著地”優(yōu)于Gopher、GPT-3、MT-NLG和所有其他語言模型，而目前的模型有過大的問題，且訓(xùn)練不足。

考慮到GPT-4將略大于GPT-3，根據(jù)DeepMind的發(fā)現(xiàn)，GPT-4需要達(dá)到計(jì)算優(yōu)化的訓(xùn)練令牌數(shù)量將約為5萬億，比當(dāng)前的數(shù)據(jù)集高出一個(gè)數(shù)量級(jí)。他們需要訓(xùn)練模型以達(dá)到最小訓(xùn)練損失的失敗次數(shù)，將比他們使用GPT-3（使用Gopher的計(jì)算預(yù)算作為代替）時(shí)多10 - 20倍。

Altman在問答中說GPT-4將比GPT-3使用更多的計(jì)算時(shí)，可能就是在指這一點(diǎn)。

OpenAI肯定會(huì)對(duì)GPT-4進(jìn)行優(yōu)化相關(guān)的調(diào)查——盡管具體到什么程度還無法預(yù)測(cè)，因?yàn)樗麄兊念A(yù)算是未知的?？梢钥隙ǖ氖?，OpenAI將專注于優(yōu)化除模型大小之外的其他變量。找到超參數(shù)的最佳集合，最優(yōu)計(jì)算模型大小和參數(shù)的數(shù)量可以在所有基準(zhǔn)測(cè)試中帶來難以置信的改進(jìn)。如果將這些方法合并到一個(gè)模型中，那這個(gè)模型將會(huì)達(dá)到一個(gè)所有預(yù)測(cè)都難以想象的高度。

Altman還說，如果不把模型做大，人們就不會(huì)相信模型能有多好。他可能是指擴(kuò)大模型尺寸的工作目前已經(jīng)結(jié)束。

預(yù)測(cè)3：GPT-4將是一個(gè)純文本模型

深度學(xué)習(xí)的未來是多模態(tài)模型。人類的大腦有多種感覺，這是因?yàn)槲覀兩钤谝粋€(gè)多模態(tài)的世界。每次只以一種模式感知世界，極大地限制了人工智能處理或理解世界的能力。

然而，良好的多模態(tài)模型比良好的僅用語言或僅用視覺的模型要難得多。將視覺信息和文本信息組合成單一的表示形式是一項(xiàng)艱巨的任務(wù)。我們對(duì)大腦是如何做到這一點(diǎn)的了解非常有限（并不是說深度學(xué)習(xí)社區(qū)考慮了認(rèn)知科學(xué)對(duì)大腦結(jié)構(gòu)和功能的見解），所以我們不知道如何在神經(jīng)網(wǎng)絡(luò)中實(shí)施。

Altman在問答中說GPT-4不會(huì)是多模態(tài)的（像DALL·E或LaMDA那樣），而是一個(gè)純文本模型。因此，Alberto的猜測(cè)是，在跳到下一代多模態(tài)人工智能之前，他們?cè)噲D通過對(duì)模型和數(shù)據(jù)集大小等因素進(jìn)行調(diào)整來達(dá)到語言模型的極限。

預(yù)測(cè)4：GPT-4將是一個(gè)密集模型

稀疏模型利用條件計(jì)算，使用模型的不同部分處理不同類型的輸入。稀疏模型最近取得了巨大的成功，其可以很容易地?cái)U(kuò)展到超過1T參數(shù)標(biāo)記，而不會(huì)產(chǎn)生高額的計(jì)算成本，能夠在模型大小和計(jì)算預(yù)算之間創(chuàng)建一個(gè)看似正交的關(guān)系。然而，MoE方法的好處在非常大的模型上就沒那么多了。

考慮到OpenAI關(guān)注密集語言模型的歷史，Alberto認(rèn)為，GPT-4大概率也將是一個(gè)密集模型。又因?yàn)锳ltman說GPT-4不會(huì)比GPT-3大很多，我們可以得出結(jié)論，稀疏性不是OpenAI的選擇——至少目前是這樣。

鑒于人工智能的靈感來源，即人類大腦，嚴(yán)重依賴于稀疏處理。與多模態(tài)一樣，稀疏性很可能會(huì)主導(dǎo)未來幾代的神經(jīng)網(wǎng)絡(luò)。

預(yù)測(cè)5：GPT-4會(huì)比GPT-3更對(duì)齊

OpenAI在解決AI對(duì)齊問題上投入了大量的精力：如何讓語言模型遵循我們的意圖并堅(jiān)持我們的價(jià)值觀——不管這到底意味著什么。這不僅是一個(gè)數(shù)學(xué)難題（例如，我們?nèi)绾巫屓斯ぶ悄軠?zhǔn)確理解我們想要的東西?），而且也是一個(gè)哲學(xué)難題（比如沒有一種通用的方法可以讓人工智能與人類保持一致，因?yàn)槿祟悆r(jià)值觀在不同群體之間的差異是巨大的，而且常常互相沖突）。

他們使用InstructGPT進(jìn)行了第一次嘗試，這是一種通過人類的反饋來學(xué)習(xí)遵守指令的新GPT-3(不管這些指令是出于好意還是惡意，都沒有被納入模型中)。

InstructGPT的主要突破在于，不管其在語言基準(zhǔn)上的結(jié)果如何，其都被人類評(píng)審認(rèn)為是一個(gè)更好的模型（這些評(píng)審是一個(gè)由OpenAI員工和英語人士構(gòu)成的同質(zhì)的群體，所以我們應(yīng)該對(duì)得出的結(jié)論保持謹(jǐn)慎的態(tài)度）。這顯著表明，我們有必要克服把基準(zhǔn)作為評(píng)估人工智能能力的唯一指標(biāo)。人類如何感知這些模型可能同樣重要，如果不是更重要的話。

考慮到Altman和OpenAI要遵守作為一個(gè)有益AGI的承諾，我相信GPT-4將實(shí)現(xiàn)并構(gòu)建他們從InstructGPT中獲得的發(fā)現(xiàn)。

我認(rèn)為他們將改進(jìn)對(duì)齊模式的方式，因?yàn)槟壳盀檫@個(gè)模型制作標(biāo)簽的僅限于OpenAI員工和英語人士。而真正的對(duì)齊應(yīng)該包括各種性別、種族、國籍、宗教等方面群體。這是一個(gè)巨大的挑戰(zhàn)，朝著這個(gè)目標(biāo)邁進(jìn)的任何一步都將受到大眾的歡迎。

總結(jié)

模型大?。篏PT-4將比GPT-3大，但與目前最大的模型（MT-NLG 530B和PaLM 540B）相比不是很大。模型規(guī)模不會(huì)是一個(gè)顯著的特征。

最優(yōu)性：GPT-4將比GPT-3使用更多的計(jì)算。GPT-4 將實(shí)現(xiàn)對(duì)參數(shù)化（最優(yōu)超參數(shù)）和比例法則（訓(xùn)練令牌的數(shù)量與模型大小同樣重要）的新優(yōu)化見解。

多模態(tài)：GPT-4將是一個(gè)純文本模型，而不是多模態(tài)模型。OpenAI希望在完全跳到像DALL·E這樣的多模態(tài)模型之前先充分利用好語言模型。

稀疏性：按照GPT-2和GPT-3的趨勢(shì)，GPT-4將是一個(gè)密集模型（所有參數(shù)將用于處理任何給定的輸入）。在未來，稀缺性將變得更加重要。

對(duì)齊：GPT-4將比GPT-3更對(duì)齊，其將從InstructGPT進(jìn)行學(xué)習(xí)，而InstructGPT是根據(jù)人類的反饋進(jìn)行訓(xùn)練的。不過，人工智能的對(duì)齊還有很長的路要走，我們應(yīng)該仔細(xì)評(píng)估所做出的工作，而不應(yīng)該對(duì)此進(jìn)行炒作。

你怎么看？

參考鏈接：

https://towardsdatascience.com/gpt-4-is-coming-soon-heres-what-we-know-about-it-64db058cfd45

https://towardsdatascience.com/how-microsoft-openai-are-squeezing-the-best-out-of-gpt-3-ad0990a66cbe

https://www.metaculus.com/questions/7401/when-will-gpt-4-be-announced/