丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給鄭佳美
發(fā)送

0

DeepSeek-R1 最新發(fā)布,劍指 OpenAI o1

本文作者: 鄭佳美   2025-01-22 10:48
導(dǎo)語:PK GPT-o1 還開源,真正的“Open AI”在中國。

昨日 1 月20 號,DeepSeek 團(tuán)隊推出了全新開源模型 DeepSeek-R1,一夜之間模型就在 Github 上收獲了 4k+star,引爆大模型領(lǐng)域。

而這次的 R1 模型一出,不僅反駁了之前蒸餾 OpenAI o1 的說法,官方更是直接下場表示:“我們可以和開源版的 o1 打成平手”。

DeepSeek-R1 最新發(fā)布,劍指 OpenAI o1

值得一提的是, R1 突破了以往的模型訓(xùn)練形式,完全沒有使用任何 SFT 數(shù)據(jù),僅通過純粹的 RL 來訓(xùn)練模型,這一點說明 R1 已經(jīng)學(xué)會了自己思考問題——這實則更符合人類的思維規(guī)則。

DeepSeek-R1 最新發(fā)布,劍指 OpenAI o1

更有網(wǎng)友稱其為“開源的 LLM 界 AlphaGo”。

DeepSeek-R1 最新發(fā)布,劍指 OpenAI o1

OpenAI,你的“強(qiáng)”來了

叫板 o1,Deepseek 的自信并不是空穴來風(fēng)。

先是在在后訓(xùn)練階段憑借憑借有限的數(shù)據(jù)直接在模型推理能力方面把 o1 甩了幾條街。

DeepSeek-R1 最新發(fā)布,劍指 OpenAI o1

并且在數(shù)學(xué)、代碼、自然語言推理上更是和 o1 正式版不相上下,在多個基準(zhǔn)測試中展現(xiàn)了卓越的性能。

例如 DeepSeek - R1 在 AIME 2024 數(shù)學(xué)競賽中,取得了79.8%的成績,略高于 OpenAI 的 o1-1217。在 MATH-500 測試中,DeepSeek-R1 更是達(dá)到了 97.3% 的高分,與 OpenAI-o1-1217 相當(dāng),同時顯著優(yōu)于其他模型。

在編程競賽方面,DeepSeek-R1 表現(xiàn)出了專家級水平,其在 Codeforces 上的 Elo 評級達(dá)到了 2029,超過了 96.3% 的人類參賽者。此外,在工程相關(guān)任務(wù)中,DeepSeek-R1 的表現(xiàn)也略勝 OpenAI-o1-1217 一籌。

DeepSeek-R1 最新發(fā)布,劍指 OpenAI o1

除此之外,團(tuán)隊還 R1 蒸餾出了 6 個小模型開源給社區(qū),參數(shù)從小到大分別為 1.5B、7B、8B、14B、32B 以及 70B。其中蒸餾過的 R1 32B 和 70B 模型在性能方面不僅超過了 GPT-4o、Claude 3.5 Sonnet 和 QwQ-32B,甚至比肩 o1-mini 的效果。

DeepSeek-R1 最新發(fā)布,劍指 OpenAI o1

如果你仍未真切領(lǐng)略到它的強(qiáng)大,那么請注意:它只需付出 o1 五十分之一的成本,卻能收獲 o1 百分之百的效能。

典型的花小錢,辦大事。

DeepSeek-R1 最新發(fā)布,劍指 OpenAI o1

除了 R1 在幾乎所有的基準(zhǔn)測試中性能都優(yōu)于 o1 的硬實力,再其發(fā)布即開源的訓(xùn)練數(shù)據(jù)集和優(yōu)化工具,讓不少網(wǎng)友直呼:這才是真正的 Open AI。

三點核心技術(shù),劍指 o1

R1 發(fā)布后,國內(nèi)外大模型從業(yè)者紛紛圍觀、并交流點評。

深度賦智 CEO 吳承霖向 雷峰網(wǎng)(公眾號:雷峰網(wǎng))AI 科技評論評價: DeepSeek R1 確實厲害,但方法非常簡單,核心其實就三點。

Self play、Grpo 以及 Cold start。

DeepSeek 團(tuán)隊這次開源的 R1 模型共有兩個版本,分別是 DeepSeek-R1-Zero 和 DeepSeek-R1,參數(shù)都是 660B 且功能各有千秋。

先說 DeepSeek-R1-Zero,這個模型完全沒有使用任何 SFT 數(shù)據(jù),僅通過純粹的 RL 來訓(xùn)練模型,突破了以往模型在提升推理能力時常依賴于 SFT 作為預(yù)訓(xùn)練步驟的形式。這是大模型訓(xùn)練中首次跳過監(jiān)督微調(diào),是此次DeepSeek的核心創(chuàng)新。

通俗一點講,就是我們不直接告訴模型“應(yīng)該如何解題”,而是讓它通過自主試錯并從中學(xué)習(xí)正確的方法,即 Self play。這就像不讓孩子死記硬背公式,而是直接提供題目和評分標(biāo)準(zhǔn),讓他們在實踐中自行摸索解法。這樣的方式不僅能激發(fā)模型的自主學(xué)習(xí)能力,還可能在探索過程中發(fā)現(xiàn)更具創(chuàng)新性的思路。

DeepSeek-R1 最新發(fā)布,劍指 OpenAI o1

但是DeepSeek-R1-Zero這個孩子一直做試錯練習(xí)的話,就會有可讀性差和語言混合問題。于是團(tuán)隊研發(fā)推出了 DeepSeek-R1,這個模型在訓(xùn)練過程中引入了少量的冷啟動數(shù)據(jù),即cold-start data,并通過多階段 RL 優(yōu)化模型,在僅有極少標(biāo)注數(shù)據(jù)的情況下,極大提升了模型的推理能力。

具體來說,冷啟動數(shù)據(jù)包含數(shù)千條高質(zhì)量的長思維鏈(CoT)示例,通過人工標(biāo)注和格式過濾(如使用<reasoning>和<summary>標(biāo)簽),強(qiáng)制模型生成結(jié)構(gòu)清晰、語言一致的內(nèi)容。其核心優(yōu)勢在于:

1、穩(wěn)定性:為強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練提供高質(zhì)量的初始策略,有效避免早期探索階段輸出的混亂無序,確保訓(xùn)練過程平穩(wěn)起步。

2、可讀性:借助模板化輸出(如總結(jié)模塊),顯著提升生成內(nèi)容的用戶友好性,使用戶能夠更直觀地理解和接受輸出結(jié)果。

3、加速收斂:有效減少強(qiáng)化學(xué)習(xí)訓(xùn)練所需的步數(shù),顯著提升訓(xùn)練效率,加快模型收斂速度。

DeepSeek-R1 最新發(fā)布,劍指 OpenAI o1

這么說吧,雖然孩子做錯題集可以有效提高分?jǐn)?shù),但是他的答案可能寫得亂七八糟。通過先教模型如何規(guī)范地寫步驟和總結(jié),再讓它自由發(fā)揮,最終答案既正確又容易看懂。

除此之外,DeepSeek-R1 Zero還創(chuàng)新了一種很厲害的算法 GRPO,通過采樣一組輸出并計算獎勵的均值和標(biāo)準(zhǔn)差來生成優(yōu)勢函數(shù),從而優(yōu)化策略。這種方法避免了傳統(tǒng) PPO 中需要額外訓(xùn)練價值模型的高成本,讓模型能夠自主探索復(fù)雜的推理行為,比如長思維鏈、自我驗證和反思。

這種純強(qiáng)化學(xué)習(xí)訓(xùn)練方式在數(shù)學(xué)(AIME 2024 的 Pass@1 從 15.6% 提升至 71.0%)和代碼任務(wù)中取得了顯著提升。簡單來說,就像讓機(jī)器人通過“試錯”學(xué)習(xí)解題,而不是依賴?yán)},最終讓它學(xué)會了復(fù)雜的解題步驟,表現(xiàn)非常出色。

DeepSeek-R1 最新發(fā)布,劍指 OpenAI o1

最后,團(tuán)隊還分享了他們在實驗中遇到的很多失敗嘗試,并表示雖然在過程獎勵模型以及蒙特卡洛樹搜索算法上團(tuán)隊都沒有取得研究進(jìn)展,但這并不意味著這些方法無法開發(fā)出有效的推理模型。

DeepSeek-R1 最新發(fā)布,劍指 OpenAI o1

One more thing

值得一提的是, R1 在訓(xùn)練時甚至還出現(xiàn)了“頓悟時刻”,就像我們在解難題時突然“靈光一閃”,模型在訓(xùn)練過程中也自發(fā)地學(xué)會了“回頭檢查步驟”。這種能力并非程序員直接教授,而是在算法通過獎勵正確答案的機(jī)制下,自然涌現(xiàn)的。

DeepSeek-R1 最新發(fā)布,劍指 OpenAI o1


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

DeepSeek-R1 最新發(fā)布,劍指 OpenAI o1

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說