丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

<label id="qtdnu"></label>

<li id="qtdnu"><legend id="qtdnu"></legend></li>

<span id="qtdnu"></span>

您正在使用IE低版瀏覽器，為了您的雷峰網賬號安全和更好的產品體驗，強烈建議使用更快更安全的瀏覽器

此為臨時鏈接，僅用于文章預覽，將在時失效

人工智能正文

發(fā)私信給鄭佳美

發(fā)送

0

推特熱帖：k1.5 很牛，因為借鑒了 UCLA 與 CMU 合作團隊的這項技術

本文作者：鄭佳美

2025-02-27 14:22

導語：在月亮的暗面，閃閃發(fā)光。

2025 年 1 月 20 日 Kimi k1.5 正式發(fā)布，伴隨著技術報告的公布，有網友表示：“這應該是全球范圍內，除 OpenAI 之外的公司首次實現 o1 正式版的多模態(tài)推理性能了吧！”

一時間，Kimi k1.5 成了話題王者。

但在一個月后的 2 月 24 日，X 上出現了一篇關于 Kimi k1.5 的技術爆料帖，博主直言 k1.5 所用到的強化學習算法，其實是借鑒了自己在 24 年 5 月提出的一種名為 SPPO 的技術。

消息一出，瞬間吸引了數萬人關注。

推特熱帖：k1.5 很牛，因為借鑒了 UCLA 與 CMU 合作團隊的這項技術

Kimi k1.5 背后的 SPPO 技術

在這則爆料中，博主 Yue Wu 先是對 SPPO 進行了簡單解釋，并且附上了相關論文（https://arxiv.org/abs/2405.00675），簡單來說，SPPO是一種自博弈算法，最初的動機來源于刻畫廣泛意義上的人類偏好，并且使用了如下圖所示的平方損失函數：

推特熱帖：k1.5 很牛，因為借鑒了 UCLA 與 CMU 合作團隊的這項技術

值得一提的是，點開論文鏈接，你會發(fā)現原來 Yue Wu 和 Zhiqing Sun 同為這篇文章的第一作者。

推特熱帖：k1.5 很牛，因為借鑒了 UCLA 與 CMU 合作團隊的這項技術

緊接著，他開始對 SPPO 技術進行解析：

通過迭代求解上式中的 theta_t，我們可以得到一個與人類偏好對齊良好的語言模型。SPPO 使用勝率（紅色部分）作為獎勵，并用常數近似基線（藍色部分）。

推特熱帖：k1.5 很牛，因為借鑒了 UCLA 與 CMU 合作團隊的這項技術

讓我們感興趣的是，我們發(fā)現它與 RLHF 目標的策略梯度有著深層的聯(lián)系：如果我們直接用普通的策略梯度優(yōu)化 RLHF （人類反饋強化學習）目標會怎樣？根據策略梯度定理，策略梯度實際上也具有平方損失形式（藍色項是策略梯度中的基線）：

推特熱帖：k1.5 很牛，因為借鑒了 UCLA 與 CMU 合作團隊的這項技術

從數學上，我們證明了 SPPO 的平方損失等價于普通策略梯度的一種半在線變體：

SPPO 中的勝率充當獎勵函數（紅色部分）。

分區(qū)函數項自然地成為（軟）值函數（藍色部分）。

推特熱帖：k1.5 很牛，因為借鑒了 UCLA 與 CMU 合作團隊的這項技術

那么這到底意味著什么呢？

標準策略梯度（PPO、GRPO、REINFORCE）在每一步都收集遵循當前策略的樣本。

SPPO 在每次迭代開始時只采樣一次，然后通過平方損失進行優(yōu)化。

這使得 SPPO 成為一種輕量級的 RLHF 方法——無需即時生成！

推特熱帖：k1.5 很牛，因為借鑒了 UCLA 與 CMU 合作團隊的這項技術

上述分析揭示了大型語言模型（LLM）后訓練階段一個有趣的發(fā)展趨勢：

離線 DPO（IPO、KTO 等）取代 RLHF（獎勵模型 + 強化學習）

迭代 DPO、SPPO 等方法將離線方法轉化為在線對齊方法

更加精細的迭代 → 回歸到在線強化學習

推特熱帖：k1.5 很牛，因為借鑒了 UCLA 與 CMU 合作團隊的這項技術

鑒于 GRPO（Deepseek-R1）和平方損失（Kimi k1.5）的成功，端到端強化學習的強大作用愈發(fā)凸顯，或許在大型語言模型（LLM）后訓練階段無需額外技巧——價值函數、廣義優(yōu)勢估計（GAE），甚至梯度裁剪都無需使用。

推特熱帖：k1.5 很牛，因為借鑒了 UCLA 與 CMU 合作團隊的這項技術

另一個簡單但有趣的發(fā)現是，他們發(fā)現 SPPO 暗中在詞匯級別優(yōu)化最優(yōu)最大熵策略。其平方損失隱含地最小化了學習到的策略與最優(yōu)詞匯級別策略之間的 KL 散度。

推特熱帖：k1.5 很牛，因為借鑒了 UCLA 與 CMU 合作團隊的這項技術

在我們后續(xù)的研究 GPO 中，我們直接最小化相對獎勵與對數比率之間的平方損失。這兩項工作中的平方損失等價于策略梯度，但它是以迭代的方式進行的。

推特熱帖：k1.5 很牛，因為借鑒了 UCLA 與 CMU 合作團隊的這項技術

SPPO 技術背后的科研大牛

除了提出助力 Kimi k1.5 大獲成功的 SPPO 技術外，Wu Yue 也是一個學術背景很強的科研大牛。他本科期間師從北京大學的王立威教授，博士期間師從加利福尼亞大學洛杉磯分校的顧全全教授，目前以博士后研究員的身份在普林斯頓大學人工智能實驗室繼續(xù)著自己的科研之路。推特熱帖：k1.5 很牛，因為借鑒了 UCLA 與 CMU 合作團隊的這項技術

除此之外，2023 年至今他一共參與發(fā)布了 9 篇 Paper，其中 3 篇均為第一作者。

推特熱帖：k1.5 很牛，因為借鑒了 UCLA 與 CMU 合作團隊的這項技術

強大的學術背景之外，Wu Yue 的實習經歷也非常加分。2022 年至 2024 年，他分別在 NEC 美研院、字節(jié)美國 AI lab和 Meta 工作實習。在 NEC 美研院期間，Wu Yue 從事個性化聯(lián)邦學習研究，并開發(fā)了一種基于混合模型的方法，該方法被 ICML 2023 接受發(fā)表；在字節(jié)美國 AI lab 時，他專注于藥物發(fā)現領域的多構象生成，將分子動力學的物理先驗納入基于擴散的生成模型，相關成果被 ICML 2024 接受；來到 Meta 后，Wu Yue 又致力于詞匯級別獎勵建模和新架構設計，用于一般人類偏好和一般偏好優(yōu)化，為生成式人工智能的發(fā)展做出了貢獻。

推特熱帖：k1.5 很牛，因為借鑒了 UCLA 與 CMU 合作團隊的這項技術雷峰網(公眾號：雷峰網)還了解到，與他同為第一作者的 Zhiqing Sun ，目前已經從 CMU 畢業(yè)，并在今年 2 月加入 OpenAI。

推特熱帖：k1.5 很牛，因為借鑒了 UCLA 與 CMU 合作團隊的這項技術

雷峰網原創(chuàng)文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

分享：

相關文章

鄭佳美

編輯

發(fā)私信

當月熱門文章

最新文章

熱門搜索

微軟 NLP 移動應用字節(jié)跳動 PYTHON 商湯清華大學創(chuàng)業(yè)公司槽點 Netflix 移動電源

為了您的賬戶安全，請驗證郵箱

您的郵箱還未驗證,完成可獲20積分喲！

重發(fā)郵箱修改郵箱

請驗證您的郵箱

立即驗證

完善賬號信息

您的賬號已經綁定，現在您可以設置密碼以方便用郵箱登錄

立即設置 以后再說