0
本文作者: 鄭佳美 | 2025-02-27 14:22 |
2025 年 1 月 20 日 Kimi k1.5 正式發(fā)布,伴隨著技術(shù)報(bào)告的公布,有網(wǎng)友表示:“這應(yīng)該是全球范圍內(nèi),除 OpenAI 之外的公司首次實(shí)現(xiàn) o1 正式版的多模態(tài)推理性能了吧!”
一時(shí)間,Kimi k1.5 成了話題王者。
但在一個(gè)月后的 2 月 24 日,X 上出現(xiàn)了一篇關(guān)于 Kimi k1.5 的技術(shù)爆料帖,博主直言 k1.5 所用到的強(qiáng)化學(xué)習(xí)算法,其實(shí)是借鑒了自己在 24 年 5 月提出的一種名為 SPPO 的技術(shù)。
消息一出,瞬間吸引了數(shù)萬人關(guān)注。
在這則爆料中,博主 Yue Wu 先是對(duì) SPPO 進(jìn)行了簡(jiǎn)單解釋,并且附上了相關(guān)論文(https://arxiv.org/abs/2405.00675),簡(jiǎn)單來說,SPPO是一種自博弈算法,最初的動(dòng)機(jī)來源于刻畫廣泛意義上的人類偏好,并且使用了如下圖所示的平方損失函數(shù):
值得一提的是,點(diǎn)開論文鏈接,你會(huì)發(fā)現(xiàn)原來 Yue Wu 和 Zhiqing Sun 同為這篇文章的第一作者。
緊接著,他開始對(duì) SPPO 技術(shù)進(jìn)行解析:
通過迭代求解上式中的 theta_t,我們可以得到一個(gè)與人類偏好對(duì)齊良好的語言模型。SPPO 使用勝率(紅色部分)作為獎(jiǎng)勵(lì),并用常數(shù)近似基線(藍(lán)色部分)。
讓我們感興趣的是,我們發(fā)現(xiàn)它與 RLHF 目標(biāo)的策略梯度有著深層的聯(lián)系:如果我們直接用普通的策略梯度優(yōu)化 RLHF (人類反饋強(qiáng)化學(xué)習(xí))目標(biāo)會(huì)怎樣?根據(jù)策略梯度定理,策略梯度實(shí)際上也具有平方損失形式(藍(lán)色項(xiàng)是策略梯度中的基線):
從數(shù)學(xué)上,我們證明了 SPPO 的平方損失等價(jià)于普通策略梯度的一種半在線變體:
SPPO 中的勝率充當(dāng)獎(jiǎng)勵(lì)函數(shù)(紅色部分)。
分區(qū)函數(shù)項(xiàng)自然地成為(軟)值函數(shù)(藍(lán)色部分)。
那么這到底意味著什么呢?
標(biāo)準(zhǔn)策略梯度(PPO、GRPO、REINFORCE)在每一步都收集遵循當(dāng)前策略的樣本。
SPPO 在每次迭代開始時(shí)只采樣一次,然后通過平方損失進(jìn)行優(yōu)化。
這使得 SPPO 成為一種輕量級(jí)的 RLHF 方法——無需即時(shí)生成!
上述分析揭示了大型語言模型(LLM)后訓(xùn)練階段一個(gè)有趣的發(fā)展趨勢(shì):
離線 DPO(IPO、KTO 等)取代 RLHF(獎(jiǎng)勵(lì)模型 + 強(qiáng)化學(xué)習(xí))
迭代 DPO、SPPO 等方法將離線方法轉(zhuǎn)化為在線對(duì)齊方法
更加精細(xì)的迭代 → 回歸到在線強(qiáng)化學(xué)習(xí)
鑒于 GRPO(Deepseek-R1)和平方損失(Kimi k1.5)的成功,端到端強(qiáng)化學(xué)習(xí)的強(qiáng)大作用愈發(fā)凸顯,或許在大型語言模型(LLM)后訓(xùn)練階段無需額外技巧——價(jià)值函數(shù)、廣義優(yōu)勢(shì)估計(jì)(GAE),甚至梯度裁剪都無需使用。
另一個(gè)簡(jiǎn)單但有趣的發(fā)現(xiàn)是,他們發(fā)現(xiàn) SPPO 暗中在詞匯級(jí)別優(yōu)化最優(yōu)最大熵策略。其平方損失隱含地最小化了學(xué)習(xí)到的策略與最優(yōu)詞匯級(jí)別策略之間的 KL 散度。
在我們后續(xù)的研究 GPO 中,我們直接最小化相對(duì)獎(jiǎng)勵(lì)與對(duì)數(shù)比率之間的平方損失。這兩項(xiàng)工作中的平方損失等價(jià)于策略梯度,但它是以迭代的方式進(jìn)行的。
除了提出助力 Kimi k1.5 大獲成功的 SPPO 技術(shù)外,Wu Yue 也是一個(gè)學(xué)術(shù)背景很強(qiáng)的科研大牛。他本科期間師從北京大學(xué)的王立威教授,博士期間師從加利福尼亞大學(xué)洛杉磯分校的顧全全教授,目前以博士后研究員的身份在普林斯頓大學(xué)人工智能實(shí)驗(yàn)室繼續(xù)著自己的科研之路。
除此之外,2023 年至今他一共參與發(fā)布了 9 篇 Paper,其中 3 篇均為第一作者。
強(qiáng)大的學(xué)術(shù)背景之外,Wu Yue 的實(shí)習(xí)經(jīng)歷也非常加分。2022 年至 2024 年,他分別在 NEC 美研院、字節(jié)美國(guó) AI lab和 Meta 工作實(shí)習(xí)。在 NEC 美研院期間,Wu Yue 從事個(gè)性化聯(lián)邦學(xué)習(xí)研究,并開發(fā)了一種基于混合模型的方法,該方法被 ICML 2023 接受發(fā)表;在字節(jié)美國(guó) AI lab 時(shí),他專注于藥物發(fā)現(xiàn)領(lǐng)域的多構(gòu)象生成,將分子動(dòng)力學(xué)的物理先驗(yàn)納入基于擴(kuò)散的生成模型,相關(guān)成果被 ICML 2024 接受;來到 Meta 后,Wu Yue 又致力于詞匯級(jí)別獎(jiǎng)勵(lì)建模和新架構(gòu)設(shè)計(jì),用于一般人類偏好和一般偏好優(yōu)化,為生成式人工智能的發(fā)展做出了貢獻(xiàn)。
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))還了解到,與他同為第一作者的 Zhiqing Sun ,目前已經(jīng)從 CMU 畢業(yè),并在今年 2 月加入 OpenAI。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。