Andrej Karpathy 最新視頻盛贊 DeepSeek：R1 正在發(fā)現(xiàn)人類(lèi)思考的邏輯并進(jìn)行復(fù)現(xiàn)

本文作者：鄭佳美

2025-02-07 14:50

導(dǎo)語(yǔ)：如果只是模仿人類(lèi)玩家、AI 是無(wú)法超越人類(lèi)的，但純 RL 算法卻能突破人類(lèi)限制。

繼近日斯坦福李飛飛、Percy Liang 等人推出 S1 后，李飛飛的學(xué)生、OpenAI 早期成員與前特斯拉 AI 總監(jiān)也錄制了一期最新長(zhǎng)達(dá) 3 小時(shí)的長(zhǎng)視頻上傳到 YouTube，深入淺出地從神經(jīng)網(wǎng)絡(luò)的起源、GPT-2、ChatGPT 到最近 DeepSeek-R1 介紹了 AI 大模型的系列進(jìn)化：

視頻鏈接：https://www.youtube.com/watch?v=7xTGNNLPyMI

經(jīng)筆者親自體驗(yàn)，視頻講解十分通俗易懂，即使沒(méi)有技術(shù)背景的觀(guān)眾也能輕松理解！

尤其是在視頻的第 2 個(gè)小時(shí)開(kāi)始，他對(duì)最近爆火的 DeepSeek-R1 論文進(jìn)行了深入介紹，并直言 DeepSeek R1 在性能方面與 OpenAI 的模型不相上下，它的出現(xiàn)推動(dòng)了 RL 技術(shù)的發(fā)展。

除了盛贊 DeepSeek-R1 的技術(shù)創(chuàng)新外，Andrej Karpathy 還對(duì)純 RL 的學(xué)習(xí)能力給予了高度評(píng)價(jià)，但又指出 RL 非常非常擅長(zhǎng)發(fā)現(xiàn)一種方法來(lái)“欺騙”模型，阻礙了 RLHF 成為專(zhuān)業(yè)技術(shù)的步伐。

同時(shí)他也提出了一個(gè)名為“瑞士奶酪”的 LLM 能力框架，表示大模型會(huì)在在某些特定情況下出現(xiàn)隨機(jī)的失敗，告誡人們不要完全依賴(lài)大模型。

不僅如此，他還表示在不久的將來(lái)，人們可能會(huì)看到能夠執(zhí)行長(zhǎng)期任務(wù)的“智能體”，而人類(lèi)將成為數(shù)字領(lǐng)域中智能體任務(wù)的監(jiān)督者。

由于視頻較長(zhǎng)、且視頻前半段主要是復(fù)盤(pán) R1 前的故事，所以雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng)) AI 科技評(píng)論主要聚焦在視頻后半段，篩選并提煉了出視頻中的一些關(guān)鍵觀(guān)點(diǎn)，不改原意整理如下：

RL 在大模型中是起步狀態(tài)

從高層次來(lái)看，我們訓(xùn)練大語(yǔ)言模型的方式實(shí)際上與訓(xùn)練孩子的過(guò)程非常相似。

我想指出其中幾個(gè)關(guān)鍵的階段，前兩個(gè)階段——預(yù)訓(xùn)練和監(jiān)督微調(diào)——已經(jīng)存在多年，并且是非常標(biāo)準(zhǔn)的，幾乎所有的語(yǔ)言模型廠(chǎng)商都會(huì)使用這兩種方法。但最后一個(gè)階段——強(qiáng)化學(xué)習(xí)訓(xùn)練，卻處于相對(duì)早期的發(fā)展階段，至今還沒(méi)有成為行業(yè)的標(biāo)準(zhǔn)。所以，這個(gè)階段還處于一種比較初步和新興的狀態(tài)。

雖然高層次的思路非常簡(jiǎn)單，就是通過(guò)試錯(cuò)學(xué)習(xí)，但在具體操作中涉及大量的數(shù)學(xué)細(xì)節(jié)，比如如何選擇最優(yōu)的解決方案，如何確定訓(xùn)練的量，如何設(shè)置訓(xùn)練運(yùn)行的參數(shù)，如何設(shè)定提示分布等等，這些都需要精心設(shè)計(jì)。

包括 OpenAI 在內(nèi)的很多 LLM 公司實(shí)際上已經(jīng)在內(nèi)部進(jìn)行過(guò)強(qiáng)化學(xué)習(xí)微調(diào)的實(shí)驗(yàn)，盡管他們一直沒(méi)有公開(kāi)談?wù)撨@部分內(nèi)容。

DeepSeek 最近發(fā)布的論文引起了廣泛關(guān)注，因?yàn)檫@篇論文來(lái)自中國(guó)，（首次）公開(kāi)討論了強(qiáng)化學(xué)習(xí)微調(diào)在大語(yǔ)言模型中的應(yīng)用，強(qiáng)調(diào)了它對(duì)于大語(yǔ)言模型的重要性，以及它如何能夠提升模型的推理能力。

這篇論文重新激發(fā)了公眾對(duì)使用 RL 訓(xùn)練 LLM 的興趣，并提供了許多特定程度的細(xì)節(jié)，這些細(xì)節(jié)是重現(xiàn)結(jié)果并實(shí)際使邏輯調(diào)用可行的必要條件。

Andrej Karpathy 最新視頻盛贊 DeepSeek：R1 正在發(fā)現(xiàn)人類(lèi)思考的邏輯并進(jìn)行復(fù)現(xiàn)

值得盛贊的 DeepSeek-R1

讓我簡(jiǎn)要帶你了解一下 DeepSeek 的這篇強(qiáng)化學(xué)習(xí)（RL）論文，以及當(dāng)你正確地將 RL 應(yīng)用于語(yǔ)言模型時(shí)會(huì)發(fā)生什么、它是如何提升模型表現(xiàn)的。

在解決數(shù)學(xué)問(wèn)題上，你可以看到一開(kāi)始他們做得不太好。但是當(dāng)你用成千上萬(wàn)的步驟更新模型后，它們的準(zhǔn)確性會(huì)持續(xù)攀升。

當(dāng)你在這些問(wèn)題的大型數(shù)據(jù)集上進(jìn)行試錯(cuò)時(shí)，它們會(huì)以更高的精度解決這些問(wèn)題。模型正在自己探索如何解決數(shù)學(xué)問(wèn)題。但比用更高精度解決這些問(wèn)題的定量結(jié)果更令人難以置信的是模型實(shí)現(xiàn)這些結(jié)果的定性手段。

Andrej Karpathy 最新視頻盛贊 DeepSeek：R1 正在發(fā)現(xiàn)人類(lèi)思考的邏輯并進(jìn)行復(fù)現(xiàn)

有趣的是，在優(yōu)化的后期，模型似乎使用每個(gè)響應(yīng)的平均長(zhǎng)度上升。該模型似乎使用更多令牌（token）來(lái)獲得更高的準(zhǔn)確性結(jié)果，所以基本上他們發(fā)現(xiàn)模型的解決方案變得非常長(zhǎng)。這是優(yōu)化的一個(gè)新興屬性，它只是發(fā)現(xiàn)這對(duì)解決問(wèn)題有好處，因?yàn)樗_(kāi)始做這樣的事情。

讓我們逐步重新評(píng)估，以確定正確的總和。模型這個(gè)時(shí)候已經(jīng)開(kāi)始嘗試許多想法，從不同的角度嘗試一些東西、回溯、重新構(gòu)建?；厮莞芴岣邷?zhǔn)確性。它做了很多人們?cè)诮鉀Q數(shù)學(xué)問(wèn)題的過(guò)程中會(huì)做的事情，同時(shí)它重新發(fā)現(xiàn)了你腦海中發(fā)生的事情，而不是你在解決方案上寫(xiě)下的東西。

這一點(diǎn)只有在強(qiáng)化學(xué)習(xí)的過(guò)程中才能發(fā)現(xiàn)，這對(duì)提升模型很有效，因?yàn)樗_實(shí)提高了解決問(wèn)題的準(zhǔn)確性。所以這個(gè)模型學(xué)習(xí)了我們?cè)谀X海中稱(chēng)之為“思維鏈”（CoT）的東西，這是優(yōu)化的一個(gè)緊急屬性。這就是反應(yīng)鏡頭膨脹的原因，但也是提高解決問(wèn)題準(zhǔn)確性的原因。

令人難以置信的是，這個(gè)基于強(qiáng)化學(xué)習(xí)的模型正在發(fā)現(xiàn)人類(lèi)思考的方法。

它在學(xué)習(xí)人類(lèi)的認(rèn)知策略，關(guān)于你如何操縱一個(gè)問(wèn)題，以及你如何從不同的角度來(lái)處理它，甚至是你如何引入一些類(lèi)比或做不同類(lèi)型的事情，以及你如何隨著時(shí)間的推移去不斷嘗試，并且試圖正確解決它們，這是令人感到非常不可思議的。

Andrej Karpathy 最新視頻盛贊 DeepSeek：R1 正在發(fā)現(xiàn)人類(lèi)思考的邏輯并進(jìn)行復(fù)現(xiàn)

GPT 等模型中其實(shí)也涉及一些 RL 技術(shù)，但它們主要還是 SFT 模型。盡管模型在底層產(chǎn)生了類(lèi)似的思維鏈，但 OpenAI 選擇不在用戶(hù)界面中顯示明確的思維鏈，而是顯示這些思維鏈的小結(jié)。OpenAI 這樣做，部分原因是擔(dān)心所謂的“蒸餾風(fēng)險(xiǎn)”，因?yàn)橛腥丝赡軙?huì)嘗試模仿這些推理痕跡，并通過(guò)模仿思維鏈來(lái)恢復(fù)大量的推理性能。因此， OpenAI 隱藏了這些內(nèi)容，只顯示了小結(jié)。

但原則上，就模型的力量而言，OpenAI 的模型與 DeepSeek 不相上下，它們都會(huì)寫(xiě)出解決方案，所以這些模型在某種程度上是等效的，盡管人們沒(méi)有看到完整的底層細(xì)節(jié)。

當(dāng)然如果你遇到需要高級(jí)推理的提示，那么你可能應(yīng)該嘗試使用一些思維模型，或者至少試試看。但從經(jīng)驗(yàn)上看，對(duì)于我大部分的使用場(chǎng)景來(lái)說(shuō)，當(dāng)你問(wèn)的是一個(gè)比較簡(jiǎn)單的問(wèn)題，像是知識(shí)性問(wèn)題之類(lèi)的，（類(lèi)似 R1、o1）這種思維模型可能會(huì)有點(diǎn)過(guò)度處理。

比如，某些事實(shí)性問(wèn)題不需要你思考30秒。所以在這種情況下，我有時(shí)會(huì)默認(rèn)使用GPT-4。根據(jù)我的使用情況，我大約 80% 到 90% 的使用都是 GPT-4，只有當(dāng)我遇到非常復(fù)雜的問(wèn)題，比如代碼映射等，我才會(huì)使用思維模型。但這時(shí)我需要稍等一會(huì)兒，因?yàn)樗季S模型需要一些時(shí)間來(lái)進(jìn)行推理。

你可以在 ChatGPT 或 DeepMind 上使用這些思維模型。此外，我還想指出，AI Studio 雖然看起來(lái)很亂，很丑，因?yàn)?Google 做這些東西的方式實(shí)在不太行，但實(shí)際上是發(fā)生了很多有趣的事情。如果你選擇模型，并選擇 Gemini 2.0 Flash Thinking Experimental 0.1.21，你就可以訪(fǎng)問(wèn) Google 的一種早期實(shí)驗(yàn)性思維模型。

你可以在這里輸入相同的問(wèn)題并點(diǎn)擊運(yùn)行，這個(gè)思維模型也會(huì)給出正確答案。所以，基本上 Gemini 也提供了一個(gè)思維模型。而 Anthropic 目前并沒(méi)有提供思維模型。不過(guò)，這就是大語(yǔ)言模型的前沿發(fā)展。

我認(rèn)為強(qiáng)化學(xué)習(xí)是一個(gè)非常令人興奮的新階段，但要把細(xì)節(jié)做對(duì)并不容易。這就是為什么目前這些模型和思維模型（截至 2025 年初）都還處于實(shí)驗(yàn)階段。但這正是推動(dòng)這些推理能力在困難問(wèn)題中表現(xiàn)的前沿發(fā)展。

Andrej Karpathy 最新視頻盛贊 DeepSeek：R1 正在發(fā)現(xiàn)人類(lèi)思考的邏輯并進(jìn)行復(fù)現(xiàn)

純 RL 可以學(xué)習(xí)人類(lèi)沒(méi)見(jiàn)過(guò)的策略

我還想提到的一點(diǎn)是，強(qiáng)化學(xué)習(xí)作為一種極其強(qiáng)大的學(xué)習(xí)方式，并不是 AI 領(lǐng)域的新發(fā)現(xiàn)。我們已經(jīng)在圍棋這項(xiàng)游戲中看到了這一點(diǎn)的體現(xiàn)。眾所周知，DeepMind 開(kāi)發(fā)了系統(tǒng) AlphaGo。當(dāng)我們翻閱 AlphaGo 的相關(guān)論文時(shí)，實(shí)際上會(huì)看到一個(gè)非常有趣的圖表，我覺(jué)得它對(duì)我們來(lái)說(shuō)非常熟悉。我們?cè)诟娱_(kāi)放的問(wèn)題解決領(lǐng)域中的發(fā)現(xiàn)，也可以在圍棋這個(gè)封閉的特定領(lǐng)域中看到。

基本上，他們看到的結(jié)果，隨著 LLM 逐漸成熟、我們也會(huì)在大語(yǔ)言模型中看到。上面說(shuō)到的那個(gè)圖表顯示的是圍棋的黃色評(píng)級(jí)（指圍棋水平分），和一位極強(qiáng)的人類(lèi)選手的對(duì)比。這里，他們對(duì)比了由監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)訓(xùn)練的模型的強(qiáng)度。監(jiān)督學(xué)習(xí)模型是模仿人類(lèi)專(zhuān)家玩家的。

也就是說(shuō)，如果你拿到大量圍棋專(zhuān)家的對(duì)局?jǐn)?shù)據(jù)，并嘗試模仿他們，你會(huì)變得更強(qiáng)，但最終你會(huì)遇到瓶頸，無(wú)法超越某些頂級(jí)玩家的水平。

因?yàn)槿绻阒皇悄７氯祟?lèi)玩家，你永遠(yuǎn)無(wú)法超越他們的極限。

但是，在強(qiáng)化學(xué)習(xí)的過(guò)程中，它顯著地更強(qiáng)大。在圍棋這個(gè)例子中，強(qiáng)化學(xué)習(xí)意味著系統(tǒng)會(huì)根據(jù)經(jīng)驗(yàn)和統(tǒng)計(jì)數(shù)據(jù)來(lái)選擇那些能夠贏(yíng)得比賽的走法。因此，AlphaGo 是一個(gè)通過(guò)自我對(duì)弈并使用強(qiáng)化學(xué)習(xí)生成回合的系統(tǒng)。

這個(gè)過(guò)程與我們之前提到的圖表完全一致。它沒(méi)有預(yù)設(shè)的 prompt ，而是一個(gè)固定的圍棋游戲。但系統(tǒng)會(huì)嘗試很多不同的走法，然后在那些能夠帶來(lái)勝利的對(duì)局中，強(qiáng)化那些策略，使它們變得更強(qiáng)大。因此，系統(tǒng)本質(zhì)上是在學(xué)習(xí)那些經(jīng)驗(yàn)上、統(tǒng)計(jì)上能夠?qū)е聞倮男袆?dòng)序列。

強(qiáng)化學(xué)習(xí)的優(yōu)勢(shì)在于，它不會(huì)受到人類(lèi)表現(xiàn)的限制。

通過(guò)強(qiáng)化學(xué)習(xí)，AI 系統(tǒng)可以做得更好，甚至超越頂級(jí)的圍棋選手?？赡芩麄儽究梢岳^續(xù)運(yùn)行這個(gè)實(shí)驗(yàn)，只是因?yàn)槌杀締?wèn)題，他們選擇在某個(gè)點(diǎn)上停止了。但這無(wú)疑是強(qiáng)化學(xué)習(xí)的一個(gè)非常強(qiáng)大的示范。我們現(xiàn)在才剛開(kāi)始在大語(yǔ)言模型的推理問(wèn)題中看到這種圖表的蛛絲馬跡。

Andrej Karpathy 最新視頻盛贊 DeepSeek：R1 正在發(fā)現(xiàn)人類(lèi)思考的邏輯并進(jìn)行復(fù)現(xiàn)

在圍棋游戲中，強(qiáng)化學(xué)習(xí)意味著系統(tǒng)會(huì)自己與自己對(duì)弈，通過(guò)試錯(cuò)來(lái)學(xué)習(xí)哪些走法能贏(yíng)得比賽。這種方法最終使AlphaGo能夠超越人類(lèi)頂尖棋手，甚至發(fā)明了一些人類(lèi)棋手從未想到過(guò)的創(chuàng)新走法。這種強(qiáng)化學(xué)習(xí)的能力不僅在圍棋游戲中取得了巨大成功，也為 LLMs 的發(fā)展提供了啟示。

強(qiáng)化學(xué)習(xí)有什么獨(dú)特性呢？需要注意的是，當(dāng)你進(jìn)行強(qiáng)化學(xué)習(xí)時(shí)，沒(méi)有什么能阻止你偏離人類(lèi)玩游戲的方式。所以，當(dāng)我們回到 AlphaGo 的這個(gè)搜索過(guò)程時(shí)，其中一個(gè)被提到的修改是“第37手”。AlphaGo 在這次對(duì)弈中，實(shí)際上下了一步人類(lèi)專(zhuān)家通常不會(huì)下的棋。評(píng)估來(lái)看，這步棋被人類(lèi)玩家下的概率大約是1/10,000。也就是說(shuō)，這是一個(gè)非常罕見(jiàn)的走法，但回過(guò)頭來(lái)看，這卻是一步非常出色的棋。

在強(qiáng)化學(xué)習(xí)的過(guò)程中，AlphaGo 發(fā)現(xiàn)了一種人類(lèi)之前并未意識(shí)到的策略，雖然這個(gè)策略在當(dāng)時(shí)對(duì)人類(lèi)來(lái)說(shuō)是陌生的，但事后證明卻是極為聰明的。我看到這一步時(shí)，也以為它是個(gè)錯(cuò)誤。不過(guò)，基本上大家都驚呆了，因?yàn)檫@一步是人類(lèi)根本不會(huì)下的，而 AlphaGo 卻下了這一步，因?yàn)樵谒挠?xùn)練過(guò)程中，這步棋被認(rèn)為是一個(gè)好主意。只是恰好它不是人類(lèi)會(huì)做的那種棋步。所以，這再次展示了強(qiáng)化學(xué)習(xí)的強(qiáng)大力量。

Andrej Karpathy 最新視頻盛贊 DeepSeek：R1 正在發(fā)現(xiàn)人類(lèi)思考的邏輯并進(jìn)行復(fù)現(xiàn)

原則上，系統(tǒng)的行為是沒(méi)有那么固定的，它可以做任何有效的事情，也可以在訓(xùn)練數(shù)據(jù)的分布中慢慢漂移。這一切都只有在我們擁有一個(gè)非常龐大、多樣化的問(wèn)題集時(shí)才能實(shí)現(xiàn)，而這些策略可以在其中得到完善和優(yōu)化。

所以，現(xiàn)在很多前沿研究的重點(diǎn)正是嘗試創(chuàng)建這些種類(lèi)的提示分布——它們既龐大又多樣。這些就像是 LMS 練習(xí)思維的游戲環(huán)境。就像是寫(xiě)作練習(xí)題一樣，我們需要為所有知識(shí)領(lǐng)域創(chuàng)建練習(xí)題。如果我們有大量這樣的練習(xí)題，模型就能在其上進(jìn)行強(qiáng)化學(xué)習(xí)，并在開(kāi)放性思維的領(lǐng)域中繪制出類(lèi)似的圖示，而不是像圍棋那樣的封閉領(lǐng)域。

到目前為止，我們看到的所有問(wèn)題都屬于所謂的可驗(yàn)證領(lǐng)域。也就是說(shuō)，任何時(shí)候我們都可以很容易地與一個(gè)具體答案進(jìn)行比較評(píng)分。例如，答案是 3，我們可以很容易地將這些解與答案 3 進(jìn)行比較。我們要么要求模型將答案框起來(lái)，然后檢查框中的內(nèi)容是否與答案相等，要么可以使用一種被稱(chēng)為“LLM 判定器”的工具。這個(gè)判定器會(huì)查看一個(gè)解并得出答案，基本上會(huì)評(píng)分該解是否與答案一致。

根據(jù)經(jīng)驗(yàn)，當(dāng)前能力的 LLM 已經(jīng)足夠強(qiáng)大，能夠相對(duì)可靠地完成這項(xiàng)工作。所以我們也可以應(yīng)用這些技術(shù)。無(wú)論如何，我們都有一個(gè)具體的答案，我們只需要檢查解是否與之匹配，而且我們可以自動(dòng)完成這個(gè)過(guò)程，無(wú)需人類(lèi)參與。

Andrej Karpathy 最新視頻盛贊 DeepSeek：R1 正在發(fā)現(xiàn)人類(lèi)思考的邏輯并進(jìn)行復(fù)現(xiàn)

基本的思路就是我們訓(xùn)練人類(lèi)的模擬器，并通過(guò)強(qiáng)化學(xué)習(xí)對(duì)這些模擬器進(jìn)行優(yōu)化。

瑕瑜互見(jiàn)的 RLHF

現(xiàn)在我想談?wù)剰娜祟?lèi)反饋中進(jìn)行強(qiáng)化學(xué)習(xí)的優(yōu)勢(shì)。

首先，這使我們能夠運(yùn)行強(qiáng)化學(xué)習(xí)，而我們知道強(qiáng)化學(xué)習(xí)是一套非常強(qiáng)大的技術(shù)。它讓我們能夠在任意領(lǐng)域進(jìn)行強(qiáng)化學(xué)習(xí)，包括那些無(wú)法驗(yàn)證的領(lǐng)域。例如，像摘要生成、寫(xiě)詩(shī)、編笑話(huà)或任何其他創(chuàng)意寫(xiě)作，實(shí)際上是在數(shù)學(xué)和編程等領(lǐng)域之外的。

從經(jīng)驗(yàn)上看，當(dāng)我們實(shí)際應(yīng)用 RLHF 時(shí)，這確實(shí)是提升模型性能的一種方式。雖然我有一個(gè)初步的解釋?zhuān)也⒉淮_定為什么它如此有效。我們可以通過(guò)實(shí)驗(yàn)證明，當(dāng)我們正確地做 RLHF 時(shí)，得到的模型表現(xiàn)會(huì)稍微好一些，但為什么會(huì)這樣，我認(rèn)為還是不太清楚。

我的最佳猜測(cè)是，這可能主要與判別器和生成器之間的差距有關(guān)。所謂差距就是，在許多情況下，對(duì)于人類(lèi)來(lái)說(shuō)，判別比生成要容易得多。舉個(gè)例子，在我們進(jìn)行監(jiān)督微調(diào)時(shí)，我們要求人類(lèi)生成理想的助手回應(yīng)。而在許多情況下，理想的回應(yīng)是非常簡(jiǎn)單的，但在某些情況下可能并不是這樣。例如，在摘要生成、詩(shī)歌創(chuàng)作或笑話(huà)編寫(xiě)時(shí)，作為一個(gè)人類(lèi)標(biāo)注者，需要?jiǎng)?chuàng)造性的人工寫(xiě)作才能做到。

而 RLHF 卻繞過(guò)了這個(gè)問(wèn)題，因?yàn)槲覀兛梢詥?wèn)人們一個(gè)相對(duì)簡(jiǎn)單的問(wèn)題。作為數(shù)據(jù)標(biāo)注者，他們不需要直接寫(xiě)出創(chuàng)意內(nèi)容，只需要從模型提供的 5 個(gè)選項(xiàng)中對(duì)它們進(jìn)行排序。所以，這對(duì)人類(lèi)標(biāo)注者來(lái)說(shuō)任務(wù)要簡(jiǎn)單得多，也可以讓我們獲得更多高準(zhǔn)確度的數(shù)據(jù)。

我們并不是要求他們進(jìn)行創(chuàng)意寫(xiě)作，而只是希望他們區(qū)分不同的創(chuàng)意寫(xiě)作，并找出最好的那個(gè)。這就是人類(lèi)提供的信號(hào)，就是排序。然后，RLHF 中的系統(tǒng)就會(huì)發(fā)現(xiàn)哪些回應(yīng)會(huì)被人類(lèi)評(píng)分得更高。因此，這種互動(dòng)的步驟使得模型變得更加優(yōu)秀。

Andrej Karpathy 最新視頻盛贊 DeepSeek：R1 正在發(fā)現(xiàn)人類(lèi)思考的邏輯并進(jìn)行復(fù)現(xiàn)

這就是RLHF的優(yōu)勢(shì)。它讓我們能夠運(yùn)行強(qiáng)化學(xué)習(xí)，實(shí)驗(yàn)證明它能帶來(lái)更好的模型，并且讓人們?cè)诓恍枰鰳O其困難的任務(wù)情況下，也能對(duì)生成內(nèi)容進(jìn)行監(jiān)督和選擇。

不幸的是，RLHF也有顯著的缺點(diǎn)。

首先，主要的問(wèn)題是，我們實(shí)際上是在進(jìn)行強(qiáng)化學(xué)習(xí)，不是基于人類(lèi)和實(shí)際的人類(lèi)判斷，而是基于人類(lèi)的一個(gè)有損模擬，并且這個(gè)有損模擬可能會(huì)產(chǎn)生誤導(dǎo)，因?yàn)樗皇且粋€(gè)模擬，它只是一個(gè)語(yǔ)言模型，在為模型打分。而且它并不能完美地反映一個(gè)有實(shí)際大腦的人類(lèi)在所有可能的不同情況下的觀(guān)點(diǎn)。

除此之外，還有一些更加微妙的因素阻礙了我們將 RLHF 作為一種技術(shù)，真正擴(kuò)展到更智能系統(tǒng)的步伐。那就是強(qiáng)化學(xué)習(xí)非常擅長(zhǎng)發(fā)現(xiàn)一種方法來(lái)“欺騙”模型，誤導(dǎo)其做出許多錯(cuò)誤的決定。

Andrej Karpathy 最新視頻盛贊 DeepSeek：R1 正在發(fā)現(xiàn)人類(lèi)思考的邏輯并進(jìn)行復(fù)現(xiàn)

迅速發(fā)展的 LLM

具體來(lái)說(shuō)，預(yù)訓(xùn)練就像是孩子們通過(guò)閱讀和解釋獲得基礎(chǔ)知識(shí)，監(jiān)督微調(diào)就像是看大量的示范例子、模仿專(zhuān)家并做練習(xí)題。

唯一的區(qū)別是，我們現(xiàn)在必須為大模型編寫(xiě)教科書(shū)，涵蓋所有人類(lèi)知識(shí)領(lǐng)域。并且，在所有我們希望它們能夠應(yīng)用的領(lǐng)域（如代碼、數(shù)學(xué)以及其他領(lǐng)域）中，我們也需要這樣做。所以，我們正在為它們編寫(xiě)教科書(shū)，優(yōu)化所有算法，當(dāng)然，還要在大規(guī)模和高效地訓(xùn)練這些模型時(shí)做到非常出色。

除了以上介紹的內(nèi)容外，我還想說(shuō)一個(gè)我把它稱(chēng)之為“瑞士奶酪”的 LLM 能力框架，我希望大家都能知道這個(gè)東西，因?yàn)槟Ｐ驮诤芏嗖煌念I(lǐng)域表現(xiàn)得都很出色，但同時(shí)它們?cè)谀承┨囟ㄇ闆r下卻會(huì)隨機(jī)失敗。

這幾乎是毫無(wú)規(guī)律的。例如你問(wèn)它“9.11 和 9.9 哪個(gè)更大”的問(wèn)題它就可能答不出來(lái)，但與此同時(shí)，它卻能夠解出奧林匹克競(jìng)賽題。這就像是瑞士奶酪上的一個(gè)“漏洞”。這樣的漏洞有很多，使用時(shí)需要小心，不要被它們“絆倒”。

所以不要把這些模型當(dāng)作無(wú)懈可擊的模型。要檢查它們的工作。把它們當(dāng)作工具，作為靈感的來(lái)源，作為初稿的起點(diǎn)，要與它們合作，并對(duì)你工作的成果負(fù)責(zé)任。

最后，我還有幾點(diǎn)關(guān)于大模型行業(yè)未來(lái)發(fā)展的看法。

首先，你會(huì)注意到，很快我們的 LLM 將擁有不僅能處理文本的能力，它們還能夠輕松地進(jìn)行音頻處理。我們已經(jīng)看到了這一切的開(kāi)端，并且以后這一切都將在大語(yǔ)言模型內(nèi)部實(shí)現(xiàn)。

Andrej Karpathy 最新視頻盛贊 DeepSeek：R1 正在發(fā)現(xiàn)人類(lèi)思考的邏輯并進(jìn)行復(fù)現(xiàn)

大致來(lái)說(shuō)，這與我們之前討論的內(nèi)容沒(méi)有什么不同，以此作為基礎(chǔ)，你可以對(duì)音頻和圖像進(jìn)行標(biāo)記化，并應(yīng)用我們之前談到的相同方法。所以這不是一個(gè)根本性的變化，只是我們需要添加一些標(biāo)記。舉個(gè)例子，對(duì)于音頻的標(biāo)記化，我們可以查看音頻信號(hào)的頻譜切片，然后添加更多的標(biāo)記，并將它們加入到上下文窗口中，像之前一樣進(jìn)行訓(xùn)練。圖像也是如此，我們可以使用圖像塊，并分別對(duì)這些塊進(jìn)行標(biāo)記。

事實(shí)上，這種方法是有效的，并且在這個(gè)方向上已有很多早期的研究。所以我們可以創(chuàng)建代表音頻、圖像以及文本的標(biāo)記流，將它們交替放入一起，并在一個(gè)模型中同時(shí)處理。這就是多模態(tài)的一個(gè)例子。

其次，人們現(xiàn)在很關(guān)心的一點(diǎn)是，現(xiàn)在我們總是把一些任務(wù)交給模型去處理，但仍然是我們負(fù)責(zé)組織任務(wù)的連貫執(zhí)行來(lái)完成工作。模型目前還沒(méi)有達(dá)到在長(zhǎng)時(shí)間內(nèi)以連貫且能糾錯(cuò)的方式執(zhí)行這些任務(wù)的能力，所以它們無(wú)法完全將任務(wù)整合起來(lái)，執(zhí)行這些長(zhǎng)期運(yùn)行的工作，但它們正在向這個(gè)方向發(fā)展，而且這種能力在逐漸提高。

不過(guò)在未來(lái)，我們將看到所謂的“智能體”，它們能夠隨著時(shí)間推移執(zhí)行任務(wù)。但這些模型并不是無(wú)懈可擊的，你需要監(jiān)督它們，觀(guān)察它們的工作，不過(guò)它們偶爾會(huì)來(lái)主動(dòng)向你報(bào)告進(jìn)展。所以在未來(lái)，我們將看到更多的能夠執(zhí)行長(zhǎng)期任務(wù)的“智能體”，從而提升我們的工作效率，這也意味著人類(lèi)將成為數(shù)字領(lǐng)域中智能體任務(wù)的監(jiān)督者。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

鄭佳美

編輯

發(fā)私信

當(dāng)月熱門(mén)文章