0
本文作者: 鄭佳美 | 2025-02-07 14:50 |
繼近日斯坦福李飛飛、Percy Liang 等人推出 S1 后,李飛飛的學生、OpenAI 早期成員與前特斯拉 AI 總監(jiān)也錄制了一期最新長達 3 小時的長視頻上傳到 YouTube,深入淺出地從神經(jīng)網(wǎng)絡的起源、GPT-2、ChatGPT 到最近 DeepSeek-R1 介紹了 AI 大模型的系列進化:
視頻鏈接:https://www.youtube.com/watch?v=7xTGNNLPyMI
經(jīng)筆者親自體驗,視頻講解十分通俗易懂,即使沒有技術背景的觀眾也能輕松理解!
尤其是在視頻的第 2 個小時開始,他對最近爆火的 DeepSeek-R1 論文進行了深入介紹,并直言 DeepSeek R1 在性能方面與 OpenAI 的模型不相上下,它的出現(xiàn)推動了 RL 技術的發(fā)展。
除了盛贊 DeepSeek-R1 的技術創(chuàng)新外,Andrej Karpathy 還對純 RL 的學習能力給予了高度評價,但又指出 RL 非常非常擅長發(fā)現(xiàn)一種方法來“欺騙”模型,阻礙了 RLHF 成為專業(yè)技術的步伐。
同時他也提出了一個名為“瑞士奶酪”的 LLM 能力框架,表示大模型會在在某些特定情況下出現(xiàn)隨機的失敗,告誡人們不要完全依賴大模型。
不僅如此,他還表示在不久的將來,人們可能會看到能夠執(zhí)行長期任務的“智能體”,而人類將成為數(shù)字領域中智能體任務的監(jiān)督者。
由于視頻較長、且視頻前半段主要是復盤 R1 前的故事,所以雷峰網(wǎng)(公眾號:雷峰網(wǎng)) AI 科技評論主要聚焦在視頻后半段,篩選并提煉了出視頻中的一些關鍵觀點,不改原意整理如下:
從高層次來看,我們訓練大語言模型的方式實際上與訓練孩子的過程非常相似。
我想指出其中幾個關鍵的階段,前兩個階段——預訓練和監(jiān)督微調(diào)——已經(jīng)存在多年,并且是非常標準的,幾乎所有的語言模型廠商都會使用這兩種方法。但最后一個階段——強化學習訓練,卻處于相對早期的發(fā)展階段,至今還沒有成為行業(yè)的標準。所以,這個階段還處于一種比較初步和新興的狀態(tài)。
雖然高層次的思路非常簡單,就是通過試錯學習,但在具體操作中涉及大量的數(shù)學細節(jié),比如如何選擇最優(yōu)的解決方案,如何確定訓練的量,如何設置訓練運行的參數(shù),如何設定提示分布等等,這些都需要精心設計。
包括 OpenAI 在內(nèi)的很多 LLM 公司實際上已經(jīng)在內(nèi)部進行過強化學習微調(diào)的實驗,盡管他們一直沒有公開談論這部分內(nèi)容。
DeepSeek 最近發(fā)布的論文引起了廣泛關注,因為這篇論文來自中國,(首次)公開討論了強化學習微調(diào)在大語言模型中的應用,強調(diào)了它對于大語言模型的重要性,以及它如何能夠提升模型的推理能力。
這篇論文重新激發(fā)了公眾對使用 RL 訓練 LLM 的興趣,并提供了許多特定程度的細節(jié),這些細節(jié)是重現(xiàn)結果并實際使邏輯調(diào)用可行的必要條件。
讓我簡要帶你了解一下 DeepSeek 的這篇強化學習(RL)論文,以及當你正確地將 RL 應用于語言模型時會發(fā)生什么、它是如何提升模型表現(xiàn)的。
在解決數(shù)學問題上,你可以看到一開始他們做得不太好。但是當你用成千上萬的步驟更新模型后,它們的準確性會持續(xù)攀升。
當你在這些問題的大型數(shù)據(jù)集上進行試錯時,它們會以更高的精度解決這些問題。模型正在自己探索如何解決數(shù)學問題。但比用更高精度解決這些問題的定量結果更令人難以置信的是模型實現(xiàn)這些結果的定性手段。
有趣的是,在優(yōu)化的后期,模型似乎使用每個響應的平均長度上升。該模型似乎使用更多令牌(token)來獲得更高的準確性結果,所以基本上他們發(fā)現(xiàn)模型的解決方案變得非常長。這是優(yōu)化的一個新興屬性,它只是發(fā)現(xiàn)這對解決問題有好處,因為它開始做這樣的事情。
讓我們逐步重新評估,以確定正確的總和。模型這個時候已經(jīng)開始嘗試許多想法,從不同的角度嘗試一些東西、回溯、重新構建?;厮莞芴岣邷蚀_性。它做了很多人們在解決數(shù)學問題的過程中會做的事情,同時它重新發(fā)現(xiàn)了你腦海中發(fā)生的事情,而不是你在解決方案上寫下的東西。
這一點只有在強化學習的過程中才能發(fā)現(xiàn),這對提升模型很有效,因為它確實提高了解決問題的準確性。所以這個模型學習了我們在腦海中稱之為“思維鏈”(CoT)的東西,這是優(yōu)化的一個緊急屬性。這就是反應鏡頭膨脹的原因,但也是提高解決問題準確性的原因。
令人難以置信的是,這個基于強化學習的模型正在發(fā)現(xiàn)人類思考的方法。
它在學習人類的認知策略,關于你如何操縱一個問題,以及你如何從不同的角度來處理它,甚至是你如何引入一些類比或做不同類型的事情,以及你如何隨著時間的推移去不斷嘗試,并且試圖正確解決它們,這是令人感到非常不可思議的。
GPT 等模型中其實也涉及一些 RL 技術,但它們主要還是 SFT 模型。盡管模型在底層產(chǎn)生了類似的思維鏈,但 OpenAI 選擇不在用戶界面中顯示明確的思維鏈,而是顯示這些思維鏈的小結。OpenAI 這樣做,部分原因是擔心所謂的“蒸餾風險”,因為有人可能會嘗試模仿這些推理痕跡,并通過模仿思維鏈來恢復大量的推理性能。因此, OpenAI 隱藏了這些內(nèi)容,只顯示了小結。
但原則上,就模型的力量而言,OpenAI 的模型與 DeepSeek 不相上下,它們都會寫出解決方案,所以這些模型在某種程度上是等效的,盡管人們沒有看到完整的底層細節(jié)。
當然如果你遇到需要高級推理的提示,那么你可能應該嘗試使用一些思維模型,或者至少試試看。但從經(jīng)驗上看,對于我大部分的使用場景來說,當你問的是一個比較簡單的問題,像是知識性問題之類的,(類似 R1、o1)這種思維模型可能會有點過度處理。
比如,某些事實性問題不需要你思考30秒。所以在這種情況下,我有時會默認使用GPT-4。根據(jù)我的使用情況,我大約 80% 到 90% 的使用都是 GPT-4,只有當我遇到非常復雜的問題,比如代碼映射等,我才會使用思維模型。但這時我需要稍等一會兒,因為思維模型需要一些時間來進行推理。
你可以在 ChatGPT 或 DeepMind 上使用這些思維模型。此外,我還想指出,AI Studio 雖然看起來很亂,很丑,因為 Google 做這些東西的方式實在不太行,但實際上是發(fā)生了很多有趣的事情。如果你選擇模型,并選擇 Gemini 2.0 Flash Thinking Experimental 0.1.21,你就可以訪問 Google 的一種早期實驗性思維模型。
你可以在這里輸入相同的問題并點擊運行,這個思維模型也會給出正確答案。所以,基本上 Gemini 也提供了一個思維模型。而 Anthropic 目前并沒有提供思維模型。不過,這就是大語言模型的前沿發(fā)展。
我認為強化學習是一個非常令人興奮的新階段,但要把細節(jié)做對并不容易。這就是為什么目前這些模型和思維模型(截至 2025 年初)都還處于實驗階段。但這正是推動這些推理能力在困難問題中表現(xiàn)的前沿發(fā)展。
我還想提到的一點是,強化學習作為一種極其強大的學習方式,并不是 AI 領域的新發(fā)現(xiàn)。我們已經(jīng)在圍棋這項游戲中看到了這一點的體現(xiàn)。眾所周知,DeepMind 開發(fā)了系統(tǒng) AlphaGo。當我們翻閱 AlphaGo 的相關論文時,實際上會看到一個非常有趣的圖表,我覺得它對我們來說非常熟悉。我們在更加開放的問題解決領域中的發(fā)現(xiàn),也可以在圍棋這個封閉的特定領域中看到。
基本上,他們看到的結果,隨著 LLM 逐漸成熟、我們也會在大語言模型中看到。上面說到的那個圖表顯示的是圍棋的黃色評級(指圍棋水平分),和一位極強的人類選手的對比。這里,他們對比了由監(jiān)督學習和強化學習訓練的模型的強度。監(jiān)督學習模型是模仿人類專家玩家的。
也就是說,如果你拿到大量圍棋專家的對局數(shù)據(jù),并嘗試模仿他們,你會變得更強,但最終你會遇到瓶頸,無法超越某些頂級玩家的水平。
因為如果你只是模仿人類玩家,你永遠無法超越他們的極限。
但是,在強化學習的過程中,它顯著地更強大。在圍棋這個例子中,強化學習意味著系統(tǒng)會根據(jù)經(jīng)驗和統(tǒng)計數(shù)據(jù)來選擇那些能夠贏得比賽的走法。因此,AlphaGo 是一個通過自我對弈并使用強化學習生成回合的系統(tǒng)。
這個過程與我們之前提到的圖表完全一致。它沒有預設的 prompt ,而是一個固定的圍棋游戲。但系統(tǒng)會嘗試很多不同的走法,然后在那些能夠帶來勝利的對局中,強化那些策略,使它們變得更強大。因此,系統(tǒng)本質(zhì)上是在學習那些經(jīng)驗上、統(tǒng)計上能夠?qū)е聞倮男袆有蛄小?/p>
強化學習的優(yōu)勢在于,它不會受到人類表現(xiàn)的限制。
通過強化學習,AI 系統(tǒng)可以做得更好,甚至超越頂級的圍棋選手??赡芩麄儽究梢岳^續(xù)運行這個實驗,只是因為成本問題,他們選擇在某個點上停止了。但這無疑是強化學習的一個非常強大的示范。我們現(xiàn)在才剛開始在大語言模型的推理問題中看到這種圖表的蛛絲馬跡。
在圍棋游戲中,強化學習意味著系統(tǒng)會自己與自己對弈,通過試錯來學習哪些走法能贏得比賽。這種方法最終使AlphaGo能夠超越人類頂尖棋手,甚至發(fā)明了一些人類棋手從未想到過的創(chuàng)新走法。這種強化學習的能力不僅在圍棋游戲中取得了巨大成功,也為 LLMs 的發(fā)展提供了啟示。
強化學習有什么獨特性呢?需要注意的是,當你進行強化學習時,沒有什么能阻止你偏離人類玩游戲的方式。所以,當我們回到 AlphaGo 的這個搜索過程時,其中一個被提到的修改是“第37手”。AlphaGo 在這次對弈中,實際上下了一步人類專家通常不會下的棋。評估來看,這步棋被人類玩家下的概率大約是1/10,000。也就是說,這是一個非常罕見的走法,但回過頭來看,這卻是一步非常出色的棋。
在強化學習的過程中,AlphaGo 發(fā)現(xiàn)了一種人類之前并未意識到的策略,雖然這個策略在當時對人類來說是陌生的,但事后證明卻是極為聰明的。我看到這一步時,也以為它是個錯誤。不過,基本上大家都驚呆了,因為這一步是人類根本不會下的,而 AlphaGo 卻下了這一步,因為在它的訓練過程中,這步棋被認為是一個好主意。只是恰好它不是人類會做的那種棋步。所以,這再次展示了強化學習的強大力量。
原則上,系統(tǒng)的行為是沒有那么固定的,它可以做任何有效的事情,也可以在訓練數(shù)據(jù)的分布中慢慢漂移。這一切都只有在我們擁有一個非常龐大、多樣化的問題集時才能實現(xiàn),而這些策略可以在其中得到完善和優(yōu)化。
所以,現(xiàn)在很多前沿研究的重點正是嘗試創(chuàng)建這些種類的提示分布——它們既龐大又多樣。這些就像是 LMS 練習思維的游戲環(huán)境。就像是寫作練習題一樣,我們需要為所有知識領域創(chuàng)建練習題。如果我們有大量這樣的練習題,模型就能在其上進行強化學習,并在開放性思維的領域中繪制出類似的圖示,而不是像圍棋那樣的封閉領域。
到目前為止,我們看到的所有問題都屬于所謂的可驗證領域。也就是說,任何時候我們都可以很容易地與一個具體答案進行比較評分。例如,答案是 3,我們可以很容易地將這些解與答案 3 進行比較。我們要么要求模型將答案框起來,然后檢查框中的內(nèi)容是否與答案相等,要么可以使用一種被稱為“LLM 判定器”的工具。這個判定器會查看一個解并得出答案,基本上會評分該解是否與答案一致。
根據(jù)經(jīng)驗,當前能力的 LLM 已經(jīng)足夠強大,能夠相對可靠地完成這項工作。所以我們也可以應用這些技術。無論如何,我們都有一個具體的答案,我們只需要檢查解是否與之匹配,而且我們可以自動完成這個過程,無需人類參與。
基本的思路就是我們訓練人類的模擬器,并通過強化學習對這些模擬器進行優(yōu)化。
現(xiàn)在我想談談從人類反饋中進行強化學習的優(yōu)勢。
首先,這使我們能夠運行強化學習,而我們知道強化學習是一套非常強大的技術。它讓我們能夠在任意領域進行強化學習,包括那些無法驗證的領域。例如,像摘要生成、寫詩、編笑話或任何其他創(chuàng)意寫作,實際上是在數(shù)學和編程等領域之外的。
從經(jīng)驗上看,當我們實際應用 RLHF 時,這確實是提升模型性能的一種方式。雖然我有一個初步的解釋,但我并不確定為什么它如此有效。我們可以通過實驗證明,當我們正確地做 RLHF 時,得到的模型表現(xiàn)會稍微好一些,但為什么會這樣,我認為還是不太清楚。
我的最佳猜測是,這可能主要與判別器和生成器之間的差距有關。所謂差距就是,在許多情況下,對于人類來說,判別比生成要容易得多。舉個例子,在我們進行監(jiān)督微調(diào)時,我們要求人類生成理想的助手回應。而在許多情況下,理想的回應是非常簡單的,但在某些情況下可能并不是這樣。例如,在摘要生成、詩歌創(chuàng)作或笑話編寫時,作為一個人類標注者,需要創(chuàng)造性的人工寫作才能做到。
而 RLHF 卻繞過了這個問題,因為我們可以問人們一個相對簡單的問題。作為數(shù)據(jù)標注者,他們不需要直接寫出創(chuàng)意內(nèi)容,只需要從模型提供的 5 個選項中對它們進行排序。所以,這對人類標注者來說任務要簡單得多,也可以讓我們獲得更多高準確度的數(shù)據(jù)。
我們并不是要求他們進行創(chuàng)意寫作,而只是希望他們區(qū)分不同的創(chuàng)意寫作,并找出最好的那個。這就是人類提供的信號,就是排序。然后,RLHF 中的系統(tǒng)就會發(fā)現(xiàn)哪些回應會被人類評分得更高。因此,這種互動的步驟使得模型變得更加優(yōu)秀。
這就是RLHF的優(yōu)勢。它讓我們能夠運行強化學習,實驗證明它能帶來更好的模型,并且讓人們在不需要做極其困難的任務情況下,也能對生成內(nèi)容進行監(jiān)督和選擇。
不幸的是,RLHF也有顯著的缺點。
首先,主要的問題是,我們實際上是在進行強化學習,不是基于人類和實際的人類判斷,而是基于人類的一個有損模擬,并且這個有損模擬可能會產(chǎn)生誤導,因為它只是一個模擬,它只是一個語言模型,在為模型打分。而且它并不能完美地反映一個有實際大腦的人類在所有可能的不同情況下的觀點。
除此之外,還有一些更加微妙的因素阻礙了我們將 RLHF 作為一種技術,真正擴展到更智能系統(tǒng)的步伐。那就是強化學習非常擅長發(fā)現(xiàn)一種方法來“欺騙”模型,誤導其做出許多錯誤的決定。
具體來說,預訓練就像是孩子們通過閱讀和解釋獲得基礎知識,監(jiān)督微調(diào)就像是看大量的示范例子、模仿專家并做練習題。
唯一的區(qū)別是,我們現(xiàn)在必須為大模型編寫教科書,涵蓋所有人類知識領域。并且,在所有我們希望它們能夠應用的領域(如代碼、數(shù)學以及其他領域)中,我們也需要這樣做。所以,我們正在為它們編寫教科書,優(yōu)化所有算法,當然,還要在大規(guī)模和高效地訓練這些模型時做到非常出色。
除了以上介紹的內(nèi)容外,我還想說一個我把它稱之為“瑞士奶酪”的 LLM 能力框架,我希望大家都能知道這個東西,因為模型在很多不同的領域表現(xiàn)得都很出色,但同時它們在某些特定情況下卻會隨機失敗。
這幾乎是毫無規(guī)律的。例如你問它“9.11 和 9.9 哪個更大”的問題它就可能答不出來,但與此同時,它卻能夠解出奧林匹克競賽題。這就像是瑞士奶酪上的一個“漏洞”。這樣的漏洞有很多,使用時需要小心,不要被它們“絆倒”。
所以不要把這些模型當作無懈可擊的模型。要檢查它們的工作。把它們當作工具,作為靈感的來源,作為初稿的起點,要與它們合作,并對你工作的成果負責任。
最后,我還有幾點關于大模型行業(yè)未來發(fā)展的看法。
首先,你會注意到,很快我們的 LLM 將擁有不僅能處理文本的能力,它們還能夠輕松地進行音頻處理。我們已經(jīng)看到了這一切的開端,并且以后這一切都將在大語言模型內(nèi)部實現(xiàn)。
大致來說,這與我們之前討論的內(nèi)容沒有什么不同,以此作為基礎,你可以對音頻和圖像進行標記化,并應用我們之前談到的相同方法。所以這不是一個根本性的變化,只是我們需要添加一些標記。舉個例子,對于音頻的標記化,我們可以查看音頻信號的頻譜切片,然后添加更多的標記,并將它們加入到上下文窗口中,像之前一樣進行訓練。圖像也是如此,我們可以使用圖像塊,并分別對這些塊進行標記。
事實上,這種方法是有效的,并且在這個方向上已有很多早期的研究。所以我們可以創(chuàng)建代表音頻、圖像以及文本的標記流,將它們交替放入一起,并在一個模型中同時處理。這就是多模態(tài)的一個例子。
其次,人們現(xiàn)在很關心的一點是,現(xiàn)在我們總是把一些任務交給模型去處理,但仍然是我們負責組織任務的連貫執(zhí)行來完成工作。模型目前還沒有達到在長時間內(nèi)以連貫且能糾錯的方式執(zhí)行這些任務的能力,所以它們無法完全將任務整合起來,執(zhí)行這些長期運行的工作,但它們正在向這個方向發(fā)展,而且這種能力在逐漸提高。
不過在未來,我們將看到所謂的“智能體”,它們能夠隨著時間推移執(zhí)行任務。但這些模型并不是無懈可擊的,你需要監(jiān)督它們,觀察它們的工作,不過它們偶爾會來主動向你報告進展。所以在未來,我們將看到更多的能夠執(zhí)行長期任務的“智能體”,從而提升我們的工作效率,這也意味著人類將成為數(shù)字領域中智能體任務的監(jiān)督者。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。