丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給鄭佳美
發(fā)送

0

Andrej Karpathy 最新視頻盛贊 DeepSeek:R1 正在發(fā)現(xiàn)人類思考的邏輯并進(jìn)行復(fù)現(xiàn)

本文作者: 鄭佳美   2025-02-07 14:50
導(dǎo)語:如果只是模仿人類玩家、AI 是無法超越人類的,但純 RL 算法卻能突破人類限制。

繼近日斯坦福李飛飛、Percy Liang 等人推出 S1 后,李飛飛的學(xué)生、OpenAI 早期成員與前特斯拉 AI 總監(jiān)也錄制了一期最新長達(dá) 3 小時(shí)的長視頻上傳到 YouTube,深入淺出地從神經(jīng)網(wǎng)絡(luò)的起源、GPT-2、ChatGPT 到最近 DeepSeek-R1 介紹了 AI 大模型的系列進(jìn)化:

Andrej Karpathy 最新視頻盛贊 DeepSeek:R1 正在發(fā)現(xiàn)人類思考的邏輯并進(jìn)行復(fù)現(xiàn)

視頻鏈接:https://www.youtube.com/watch?v=7xTGNNLPyMI

經(jīng)筆者親自體驗(yàn),視頻講解十分通俗易懂,即使沒有技術(shù)背景的觀眾也能輕松理解!

尤其是在視頻的第 2 個(gè)小時(shí)開始,他對最近爆火的 DeepSeek-R1 論文進(jìn)行了深入介紹,并直言 DeepSeek R1 在性能方面與 OpenAI 的模型不相上下,它的出現(xiàn)推動(dòng)了 RL 技術(shù)的發(fā)展。

除了盛贊 DeepSeek-R1 的技術(shù)創(chuàng)新外,Andrej Karpathy 還對純 RL 的學(xué)習(xí)能力給予了高度評(píng)價(jià),但又指出 RL 非常非常擅長發(fā)現(xiàn)一種方法來“欺騙”模型,阻礙了 RLHF 成為專業(yè)技術(shù)的步伐。

同時(shí)他也提出了一個(gè)名為“瑞士奶酪”的 LLM 能力框架,表示大模型會(huì)在在某些特定情況下出現(xiàn)隨機(jī)的失敗,告誡人們不要完全依賴大模型。

不僅如此,他還表示在不久的將來,人們可能會(huì)看到能夠執(zhí)行長期任務(wù)的“智能體”,而人類將成為數(shù)字領(lǐng)域中智能體任務(wù)的監(jiān)督者。

由于視頻較長、且視頻前半段主要是復(fù)盤 R1 前的故事,所以雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng)) AI 科技評(píng)論主要聚焦在視頻后半段,篩選并提煉了出視頻中的一些關(guān)鍵觀點(diǎn),不改原意整理如下:

RL 在大模型中是起步狀態(tài)

從高層次來看,我們訓(xùn)練大語言模型的方式實(shí)際上與訓(xùn)練孩子的過程非常相似。

我想指出其中幾個(gè)關(guān)鍵的階段,前兩個(gè)階段——預(yù)訓(xùn)練和監(jiān)督微調(diào)——已經(jīng)存在多年,并且是非常標(biāo)準(zhǔn)的,幾乎所有的語言模型廠商都會(huì)使用這兩種方法。但最后一個(gè)階段——強(qiáng)化學(xué)習(xí)訓(xùn)練,卻處于相對早期的發(fā)展階段,至今還沒有成為行業(yè)的標(biāo)準(zhǔn)。所以,這個(gè)階段還處于一種比較初步和新興的狀態(tài)。

雖然高層次的思路非常簡單,就是通過試錯(cuò)學(xué)習(xí),但在具體操作中涉及大量的數(shù)學(xué)細(xì)節(jié),比如如何選擇最優(yōu)的解決方案,如何確定訓(xùn)練的量,如何設(shè)置訓(xùn)練運(yùn)行的參數(shù),如何設(shè)定提示分布等等,這些都需要精心設(shè)計(jì)。

包括 OpenAI 在內(nèi)的很多 LLM 公司實(shí)際上已經(jīng)在內(nèi)部進(jìn)行過強(qiáng)化學(xué)習(xí)微調(diào)的實(shí)驗(yàn),盡管他們一直沒有公開談?wù)撨@部分內(nèi)容。

DeepSeek 最近發(fā)布的論文引起了廣泛關(guān)注,因?yàn)檫@篇論文來自中國,(首次)公開討論了強(qiáng)化學(xué)習(xí)微調(diào)在大語言模型中的應(yīng)用,強(qiáng)調(diào)了它對于大語言模型的重要性,以及它如何能夠提升模型的推理能力。

這篇論文重新激發(fā)了公眾對使用 RL 訓(xùn)練 LLM 的興趣,并提供了許多特定程度的細(xì)節(jié),這些細(xì)節(jié)是重現(xiàn)結(jié)果并實(shí)際使邏輯調(diào)用可行的必要條件。

Andrej Karpathy 最新視頻盛贊 DeepSeek:R1 正在發(fā)現(xiàn)人類思考的邏輯并進(jìn)行復(fù)現(xiàn)

值得盛贊的 DeepSeek-R1

讓我簡要帶你了解一下 DeepSeek 的這篇強(qiáng)化學(xué)習(xí)(RL)論文,以及當(dāng)你正確地將 RL 應(yīng)用于語言模型時(shí)會(huì)發(fā)生什么、它是如何提升模型表現(xiàn)的。

在解決數(shù)學(xué)問題上,你可以看到一開始他們做得不太好。但是當(dāng)你用成千上萬的步驟更新模型后,它們的準(zhǔn)確性會(huì)持續(xù)攀升。

當(dāng)你在這些問題的大型數(shù)據(jù)集上進(jìn)行試錯(cuò)時(shí),它們會(huì)以更高的精度解決這些問題。模型正在自己探索如何解決數(shù)學(xué)問題。但比用更高精度解決這些問題的定量結(jié)果更令人難以置信的是模型實(shí)現(xiàn)這些結(jié)果的定性手段。

Andrej Karpathy 最新視頻盛贊 DeepSeek:R1 正在發(fā)現(xiàn)人類思考的邏輯并進(jìn)行復(fù)現(xiàn)

有趣的是,在優(yōu)化的后期,模型似乎使用每個(gè)響應(yīng)的平均長度上升。該模型似乎使用更多令牌(token)來獲得更高的準(zhǔn)確性結(jié)果,所以基本上他們發(fā)現(xiàn)模型的解決方案變得非常長。這是優(yōu)化的一個(gè)新興屬性,它只是發(fā)現(xiàn)這對解決問題有好處,因?yàn)樗_始做這樣的事情。

讓我們逐步重新評(píng)估,以確定正確的總和。模型這個(gè)時(shí)候已經(jīng)開始嘗試許多想法,從不同的角度嘗試一些東西、回溯、重新構(gòu)建?;厮莞芴岣邷?zhǔn)確性。它做了很多人們在解決數(shù)學(xué)問題的過程中會(huì)做的事情,同時(shí)它重新發(fā)現(xiàn)了你腦海中發(fā)生的事情,而不是你在解決方案上寫下的東西。

這一點(diǎn)只有在強(qiáng)化學(xué)習(xí)的過程中才能發(fā)現(xiàn),這對提升模型很有效,因?yàn)樗_實(shí)提高了解決問題的準(zhǔn)確性。所以這個(gè)模型學(xué)習(xí)了我們在腦海中稱之為“思維鏈”(CoT)的東西,這是優(yōu)化的一個(gè)緊急屬性。這就是反應(yīng)鏡頭膨脹的原因,但也是提高解決問題準(zhǔn)確性的原因。

令人難以置信的是,這個(gè)基于強(qiáng)化學(xué)習(xí)的模型正在發(fā)現(xiàn)人類思考的方法。

它在學(xué)習(xí)人類的認(rèn)知策略,關(guān)于你如何操縱一個(gè)問題,以及你如何從不同的角度來處理它,甚至是你如何引入一些類比或做不同類型的事情,以及你如何隨著時(shí)間的推移去不斷嘗試,并且試圖正確解決它們,這是令人感到非常不可思議的。

Andrej Karpathy 最新視頻盛贊 DeepSeek:R1 正在發(fā)現(xiàn)人類思考的邏輯并進(jìn)行復(fù)現(xiàn)

GPT 等模型中其實(shí)也涉及一些 RL 技術(shù),但它們主要還是 SFT 模型。盡管模型在底層產(chǎn)生了類似的思維鏈,但 OpenAI 選擇不在用戶界面中顯示明確的思維鏈,而是顯示這些思維鏈的小結(jié)。OpenAI 這樣做,部分原因是擔(dān)心所謂的“蒸餾風(fēng)險(xiǎn)”,因?yàn)橛腥丝赡軙?huì)嘗試模仿這些推理痕跡,并通過模仿思維鏈來恢復(fù)大量的推理性能。因此, OpenAI 隱藏了這些內(nèi)容,只顯示了小結(jié)。

但原則上,就模型的力量而言,OpenAI 的模型與 DeepSeek 不相上下,它們都會(huì)寫出解決方案,所以這些模型在某種程度上是等效的,盡管人們沒有看到完整的底層細(xì)節(jié)。

當(dāng)然如果你遇到需要高級(jí)推理的提示,那么你可能應(yīng)該嘗試使用一些思維模型,或者至少試試看。但從經(jīng)驗(yàn)上看,對于我大部分的使用場景來說,當(dāng)你問的是一個(gè)比較簡單的問題,像是知識(shí)性問題之類的,(類似 R1、o1)這種思維模型可能會(huì)有點(diǎn)過度處理。

比如,某些事實(shí)性問題不需要你思考30秒。所以在這種情況下,我有時(shí)會(huì)默認(rèn)使用GPT-4。根據(jù)我的使用情況,我大約 80% 到 90% 的使用都是 GPT-4,只有當(dāng)我遇到非常復(fù)雜的問題,比如代碼映射等,我才會(huì)使用思維模型。但這時(shí)我需要稍等一會(huì)兒,因?yàn)樗季S模型需要一些時(shí)間來進(jìn)行推理。

你可以在 ChatGPT 或 DeepMind 上使用這些思維模型。此外,我還想指出,AI Studio 雖然看起來很亂,很丑,因?yàn)?Google 做這些東西的方式實(shí)在不太行,但實(shí)際上是發(fā)生了很多有趣的事情。如果你選擇模型,并選擇 Gemini 2.0 Flash Thinking Experimental 0.1.21,你就可以訪問 Google 的一種早期實(shí)驗(yàn)性思維模型。

你可以在這里輸入相同的問題并點(diǎn)擊運(yùn)行,這個(gè)思維模型也會(huì)給出正確答案。所以,基本上 Gemini 也提供了一個(gè)思維模型。而 Anthropic 目前并沒有提供思維模型。不過,這就是大語言模型的前沿發(fā)展。

我認(rèn)為強(qiáng)化學(xué)習(xí)是一個(gè)非常令人興奮的新階段,但要把細(xì)節(jié)做對并不容易。這就是為什么目前這些模型和思維模型(截至 2025 年初)都還處于實(shí)驗(yàn)階段。但這正是推動(dòng)這些推理能力在困難問題中表現(xiàn)的前沿發(fā)展。

Andrej Karpathy 最新視頻盛贊 DeepSeek:R1 正在發(fā)現(xiàn)人類思考的邏輯并進(jìn)行復(fù)現(xiàn)

純 RL 可以學(xué)習(xí)人類沒見過的策略

我還想提到的一點(diǎn)是,強(qiáng)化學(xué)習(xí)作為一種極其強(qiáng)大的學(xué)習(xí)方式,并不是 AI 領(lǐng)域的新發(fā)現(xiàn)。我們已經(jīng)在圍棋這項(xiàng)游戲中看到了這一點(diǎn)的體現(xiàn)。眾所周知,DeepMind 開發(fā)了系統(tǒng) AlphaGo。當(dāng)我們翻閱 AlphaGo 的相關(guān)論文時(shí),實(shí)際上會(huì)看到一個(gè)非常有趣的圖表,我覺得它對我們來說非常熟悉。我們在更加開放的問題解決領(lǐng)域中的發(fā)現(xiàn),也可以在圍棋這個(gè)封閉的特定領(lǐng)域中看到。

基本上,他們看到的結(jié)果,隨著 LLM 逐漸成熟、我們也會(huì)在大語言模型中看到。上面說到的那個(gè)圖表顯示的是圍棋的黃色評(píng)級(jí)(指圍棋水平分),和一位極強(qiáng)的人類選手的對比。這里,他們對比了由監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)訓(xùn)練的模型的強(qiáng)度。監(jiān)督學(xué)習(xí)模型是模仿人類專家玩家的。

也就是說,如果你拿到大量圍棋專家的對局?jǐn)?shù)據(jù),并嘗試模仿他們,你會(huì)變得更強(qiáng),但最終你會(huì)遇到瓶頸,無法超越某些頂級(jí)玩家的水平。

因?yàn)槿绻阒皇悄7氯祟愅婕?,你永遠(yuǎn)無法超越他們的極限。

但是,在強(qiáng)化學(xué)習(xí)的過程中,它顯著地更強(qiáng)大。在圍棋這個(gè)例子中,強(qiáng)化學(xué)習(xí)意味著系統(tǒng)會(huì)根據(jù)經(jīng)驗(yàn)和統(tǒng)計(jì)數(shù)據(jù)來選擇那些能夠贏得比賽的走法。因此,AlphaGo 是一個(gè)通過自我對弈并使用強(qiáng)化學(xué)習(xí)生成回合的系統(tǒng)。

這個(gè)過程與我們之前提到的圖表完全一致。它沒有預(yù)設(shè)的 prompt ,而是一個(gè)固定的圍棋游戲。但系統(tǒng)會(huì)嘗試很多不同的走法,然后在那些能夠帶來勝利的對局中,強(qiáng)化那些策略,使它們變得更強(qiáng)大。因此,系統(tǒng)本質(zhì)上是在學(xué)習(xí)那些經(jīng)驗(yàn)上、統(tǒng)計(jì)上能夠?qū)е聞倮男袆?dòng)序列。

強(qiáng)化學(xué)習(xí)的優(yōu)勢在于,它不會(huì)受到人類表現(xiàn)的限制。

通過強(qiáng)化學(xué)習(xí),AI 系統(tǒng)可以做得更好,甚至超越頂級(jí)的圍棋選手。可能他們本可以繼續(xù)運(yùn)行這個(gè)實(shí)驗(yàn),只是因?yàn)槌杀締栴},他們選擇在某個(gè)點(diǎn)上停止了。但這無疑是強(qiáng)化學(xué)習(xí)的一個(gè)非常強(qiáng)大的示范。我們現(xiàn)在才剛開始在大語言模型的推理問題中看到這種圖表的蛛絲馬跡。

Andrej Karpathy 最新視頻盛贊 DeepSeek:R1 正在發(fā)現(xiàn)人類思考的邏輯并進(jìn)行復(fù)現(xiàn)

在圍棋游戲中,強(qiáng)化學(xué)習(xí)意味著系統(tǒng)會(huì)自己與自己對弈,通過試錯(cuò)來學(xué)習(xí)哪些走法能贏得比賽。這種方法最終使AlphaGo能夠超越人類頂尖棋手,甚至發(fā)明了一些人類棋手從未想到過的創(chuàng)新走法。這種強(qiáng)化學(xué)習(xí)的能力不僅在圍棋游戲中取得了巨大成功,也為 LLMs 的發(fā)展提供了啟示。

強(qiáng)化學(xué)習(xí)有什么獨(dú)特性呢?需要注意的是,當(dāng)你進(jìn)行強(qiáng)化學(xué)習(xí)時(shí),沒有什么能阻止你偏離人類玩游戲的方式。所以,當(dāng)我們回到 AlphaGo 的這個(gè)搜索過程時(shí),其中一個(gè)被提到的修改是“第37手”。AlphaGo 在這次對弈中,實(shí)際上下了一步人類專家通常不會(huì)下的棋。評(píng)估來看,這步棋被人類玩家下的概率大約是1/10,000。也就是說,這是一個(gè)非常罕見的走法,但回過頭來看,這卻是一步非常出色的棋。

在強(qiáng)化學(xué)習(xí)的過程中,AlphaGo 發(fā)現(xiàn)了一種人類之前并未意識(shí)到的策略,雖然這個(gè)策略在當(dāng)時(shí)對人類來說是陌生的,但事后證明卻是極為聰明的。我看到這一步時(shí),也以為它是個(gè)錯(cuò)誤。不過,基本上大家都驚呆了,因?yàn)檫@一步是人類根本不會(huì)下的,而 AlphaGo 卻下了這一步,因?yàn)樵谒挠?xùn)練過程中,這步棋被認(rèn)為是一個(gè)好主意。只是恰好它不是人類會(huì)做的那種棋步。所以,這再次展示了強(qiáng)化學(xué)習(xí)的強(qiáng)大力量。

Andrej Karpathy 最新視頻盛贊 DeepSeek:R1 正在發(fā)現(xiàn)人類思考的邏輯并進(jìn)行復(fù)現(xiàn)

原則上,系統(tǒng)的行為是沒有那么固定的,它可以做任何有效的事情,也可以在訓(xùn)練數(shù)據(jù)的分布中慢慢漂移。這一切都只有在我們擁有一個(gè)非常龐大、多樣化的問題集時(shí)才能實(shí)現(xiàn),而這些策略可以在其中得到完善和優(yōu)化。

所以,現(xiàn)在很多前沿研究的重點(diǎn)正是嘗試創(chuàng)建這些種類的提示分布——它們既龐大又多樣。這些就像是 LMS 練習(xí)思維的游戲環(huán)境。就像是寫作練習(xí)題一樣,我們需要為所有知識(shí)領(lǐng)域創(chuàng)建練習(xí)題。如果我們有大量這樣的練習(xí)題,模型就能在其上進(jìn)行強(qiáng)化學(xué)習(xí),并在開放性思維的領(lǐng)域中繪制出類似的圖示,而不是像圍棋那樣的封閉領(lǐng)域。

到目前為止,我們看到的所有問題都屬于所謂的可驗(yàn)證領(lǐng)域。也就是說,任何時(shí)候我們都可以很容易地與一個(gè)具體答案進(jìn)行比較評(píng)分。例如,答案是 3,我們可以很容易地將這些解與答案 3 進(jìn)行比較。我們要么要求模型將答案框起來,然后檢查框中的內(nèi)容是否與答案相等,要么可以使用一種被稱為“LLM 判定器”的工具。這個(gè)判定器會(huì)查看一個(gè)解并得出答案,基本上會(huì)評(píng)分該解是否與答案一致。

根據(jù)經(jīng)驗(yàn),當(dāng)前能力的 LLM 已經(jīng)足夠強(qiáng)大,能夠相對可靠地完成這項(xiàng)工作。所以我們也可以應(yīng)用這些技術(shù)。無論如何,我們都有一個(gè)具體的答案,我們只需要檢查解是否與之匹配,而且我們可以自動(dòng)完成這個(gè)過程,無需人類參與。

Andrej Karpathy 最新視頻盛贊 DeepSeek:R1 正在發(fā)現(xiàn)人類思考的邏輯并進(jìn)行復(fù)現(xiàn)

基本的思路就是我們訓(xùn)練人類的模擬器,并通過強(qiáng)化學(xué)習(xí)對這些模擬器進(jìn)行優(yōu)化。

瑕瑜互見的 RLHF

現(xiàn)在我想談?wù)剰娜祟惙答佒羞M(jìn)行強(qiáng)化學(xué)習(xí)的優(yōu)勢。

首先,這使我們能夠運(yùn)行強(qiáng)化學(xué)習(xí),而我們知道強(qiáng)化學(xué)習(xí)是一套非常強(qiáng)大的技術(shù)。它讓我們能夠在任意領(lǐng)域進(jìn)行強(qiáng)化學(xué)習(xí),包括那些無法驗(yàn)證的領(lǐng)域。例如,像摘要生成、寫詩、編笑話或任何其他創(chuàng)意寫作,實(shí)際上是在數(shù)學(xué)和編程等領(lǐng)域之外的。

從經(jīng)驗(yàn)上看,當(dāng)我們實(shí)際應(yīng)用 RLHF 時(shí),這確實(shí)是提升模型性能的一種方式。雖然我有一個(gè)初步的解釋,但我并不確定為什么它如此有效。我們可以通過實(shí)驗(yàn)證明,當(dāng)我們正確地做 RLHF 時(shí),得到的模型表現(xiàn)會(huì)稍微好一些,但為什么會(huì)這樣,我認(rèn)為還是不太清楚。

我的最佳猜測是,這可能主要與判別器和生成器之間的差距有關(guān)。所謂差距就是,在許多情況下,對于人類來說,判別比生成要容易得多。舉個(gè)例子,在我們進(jìn)行監(jiān)督微調(diào)時(shí),我們要求人類生成理想的助手回應(yīng)。而在許多情況下,理想的回應(yīng)是非常簡單的,但在某些情況下可能并不是這樣。例如,在摘要生成、詩歌創(chuàng)作或笑話編寫時(shí),作為一個(gè)人類標(biāo)注者,需要?jiǎng)?chuàng)造性的人工寫作才能做到。

而 RLHF 卻繞過了這個(gè)問題,因?yàn)槲覀兛梢詥柸藗円粋€(gè)相對簡單的問題。作為數(shù)據(jù)標(biāo)注者,他們不需要直接寫出創(chuàng)意內(nèi)容,只需要從模型提供的 5 個(gè)選項(xiàng)中對它們進(jìn)行排序。所以,這對人類標(biāo)注者來說任務(wù)要簡單得多,也可以讓我們獲得更多高準(zhǔn)確度的數(shù)據(jù)。

我們并不是要求他們進(jìn)行創(chuàng)意寫作,而只是希望他們區(qū)分不同的創(chuàng)意寫作,并找出最好的那個(gè)。這就是人類提供的信號(hào),就是排序。然后,RLHF 中的系統(tǒng)就會(huì)發(fā)現(xiàn)哪些回應(yīng)會(huì)被人類評(píng)分得更高。因此,這種互動(dòng)的步驟使得模型變得更加優(yōu)秀。

Andrej Karpathy 最新視頻盛贊 DeepSeek:R1 正在發(fā)現(xiàn)人類思考的邏輯并進(jìn)行復(fù)現(xiàn)

這就是RLHF的優(yōu)勢。它讓我們能夠運(yùn)行強(qiáng)化學(xué)習(xí),實(shí)驗(yàn)證明它能帶來更好的模型,并且讓人們在不需要做極其困難的任務(wù)情況下,也能對生成內(nèi)容進(jìn)行監(jiān)督和選擇。

不幸的是,RLHF也有顯著的缺點(diǎn)。

首先,主要的問題是,我們實(shí)際上是在進(jìn)行強(qiáng)化學(xué)習(xí),不是基于人類和實(shí)際的人類判斷,而是基于人類的一個(gè)有損模擬,并且這個(gè)有損模擬可能會(huì)產(chǎn)生誤導(dǎo),因?yàn)樗皇且粋€(gè)模擬,它只是一個(gè)語言模型,在為模型打分。而且它并不能完美地反映一個(gè)有實(shí)際大腦的人類在所有可能的不同情況下的觀點(diǎn)。

除此之外,還有一些更加微妙的因素阻礙了我們將 RLHF 作為一種技術(shù),真正擴(kuò)展到更智能系統(tǒng)的步伐。那就是強(qiáng)化學(xué)習(xí)非常擅長發(fā)現(xiàn)一種方法來“欺騙”模型,誤導(dǎo)其做出許多錯(cuò)誤的決定。

Andrej Karpathy 最新視頻盛贊 DeepSeek:R1 正在發(fā)現(xiàn)人類思考的邏輯并進(jìn)行復(fù)現(xiàn)

迅速發(fā)展的 LLM

具體來說,預(yù)訓(xùn)練就像是孩子們通過閱讀和解釋獲得基礎(chǔ)知識(shí),監(jiān)督微調(diào)就像是看大量的示范例子、模仿專家并做練習(xí)題。

唯一的區(qū)別是,我們現(xiàn)在必須為大模型編寫教科書,涵蓋所有人類知識(shí)領(lǐng)域。并且,在所有我們希望它們能夠應(yīng)用的領(lǐng)域(如代碼、數(shù)學(xué)以及其他領(lǐng)域)中,我們也需要這樣做。所以,我們正在為它們編寫教科書,優(yōu)化所有算法,當(dāng)然,還要在大規(guī)模和高效地訓(xùn)練這些模型時(shí)做到非常出色。

除了以上介紹的內(nèi)容外,我還想說一個(gè)我把它稱之為“瑞士奶酪”的 LLM 能力框架,我希望大家都能知道這個(gè)東西,因?yàn)槟P驮诤芏嗖煌念I(lǐng)域表現(xiàn)得都很出色,但同時(shí)它們在某些特定情況下卻會(huì)隨機(jī)失敗。

這幾乎是毫無規(guī)律的。例如你問它“9.11 和 9.9 哪個(gè)更大”的問題它就可能答不出來,但與此同時(shí),它卻能夠解出奧林匹克競賽題。這就像是瑞士奶酪上的一個(gè)“漏洞”。這樣的漏洞有很多,使用時(shí)需要小心,不要被它們“絆倒”。

所以不要把這些模型當(dāng)作無懈可擊的模型。要檢查它們的工作。把它們當(dāng)作工具,作為靈感的來源,作為初稿的起點(diǎn),要與它們合作,并對你工作的成果負(fù)責(zé)任。

最后,我還有幾點(diǎn)關(guān)于大模型行業(yè)未來發(fā)展的看法。

首先,你會(huì)注意到,很快我們的 LLM 將擁有不僅能處理文本的能力,它們還能夠輕松地進(jìn)行音頻處理。我們已經(jīng)看到了這一切的開端,并且以后這一切都將在大語言模型內(nèi)部實(shí)現(xiàn)。

Andrej Karpathy 最新視頻盛贊 DeepSeek:R1 正在發(fā)現(xiàn)人類思考的邏輯并進(jìn)行復(fù)現(xiàn)

大致來說,這與我們之前討論的內(nèi)容沒有什么不同,以此作為基礎(chǔ),你可以對音頻和圖像進(jìn)行標(biāo)記化,并應(yīng)用我們之前談到的相同方法。所以這不是一個(gè)根本性的變化,只是我們需要添加一些標(biāo)記。舉個(gè)例子,對于音頻的標(biāo)記化,我們可以查看音頻信號(hào)的頻譜切片,然后添加更多的標(biāo)記,并將它們加入到上下文窗口中,像之前一樣進(jìn)行訓(xùn)練。圖像也是如此,我們可以使用圖像塊,并分別對這些塊進(jìn)行標(biāo)記。

事實(shí)上,這種方法是有效的,并且在這個(gè)方向上已有很多早期的研究。所以我們可以創(chuàng)建代表音頻、圖像以及文本的標(biāo)記流,將它們交替放入一起,并在一個(gè)模型中同時(shí)處理。這就是多模態(tài)的一個(gè)例子。

其次,人們現(xiàn)在很關(guān)心的一點(diǎn)是,現(xiàn)在我們總是把一些任務(wù)交給模型去處理,但仍然是我們負(fù)責(zé)組織任務(wù)的連貫執(zhí)行來完成工作。模型目前還沒有達(dá)到在長時(shí)間內(nèi)以連貫且能糾錯(cuò)的方式執(zhí)行這些任務(wù)的能力,所以它們無法完全將任務(wù)整合起來,執(zhí)行這些長期運(yùn)行的工作,但它們正在向這個(gè)方向發(fā)展,而且這種能力在逐漸提高。

不過在未來,我們將看到所謂的“智能體”,它們能夠隨著時(shí)間推移執(zhí)行任務(wù)。但這些模型并不是無懈可擊的,你需要監(jiān)督它們,觀察它們的工作,不過它們偶爾會(huì)來主動(dòng)向你報(bào)告進(jìn)展。所以在未來,我們將看到更多的能夠執(zhí)行長期任務(wù)的“智能體”,從而提升我們的工作效率,這也意味著人類將成為數(shù)字領(lǐng)域中智能體任務(wù)的監(jiān)督者。


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

Andrej Karpathy 最新視頻盛贊 DeepSeek:R1 正在發(fā)現(xiàn)人類思考的邏輯并進(jìn)行復(fù)現(xiàn)

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說