月之暗面發(fā)布首款數(shù)學(xué)模型 k0-math，對(duì)標(biāo)o1

本文作者：張進(jìn)

2024-11-16 11:04

導(dǎo)語(yǔ)：楊植麟：Kimi目前最核心的任務(wù)是提升留存。

今天，在京東科技大廈，月之暗面創(chuàng)始人楊植麟宣布 Kimi 數(shù)學(xué)模型 k0-math 正式發(fā)布，其數(shù)學(xué)能力對(duì)標(biāo)OpenAI o1系列，還公布了截止2024年10月 Kimi 月活超過(guò) 3600萬(wàn)。

楊植麟稱未來(lái)會(huì)更關(guān)注基于強(qiáng)化學(xué)習(xí)的方法去scale，不僅僅是簡(jiǎn)單地預(yù)測(cè)下一個(gè)token是什么，因?yàn)檫@是基于靜態(tài)數(shù)據(jù)集，使得大模型不能完成更難的任務(wù)。在這個(gè)過(guò)程中，很重要的是讓AI具備思考的能力。

用Next—Token prediction是做不到的，而用強(qiáng)化學(xué)習(xí)的方法一定程度上可以學(xué)習(xí)到這種思考的方式。例如解一道數(shù)學(xué)題，想要知道它的解題思路是怎樣的，最后的結(jié)果是怎么一步步推導(dǎo)出來(lái)的，這就是一個(gè)深度思考的過(guò)程。

伽利略曾說(shuō)，數(shù)學(xué)是宇宙的語(yǔ)言，所以數(shù)學(xué)場(chǎng)景是一個(gè)很廣泛的應(yīng)用場(chǎng)景，是培養(yǎng) AI 具備思考能力的最佳場(chǎng)景。OpenAI的 o1 模型最初也是從數(shù)學(xué)場(chǎng)景出發(fā)，好處是不用跟外界進(jìn)行交互，可以自成一體。

k0—math正是從數(shù)學(xué)場(chǎng)景出發(fā)，再推理泛化到更多的任務(wù)上。

例如，問(wèn)它一個(gè)很難的競(jìng)賽題，k0—math 通過(guò)大量的嘗試，可能嘗試了八九中不同的做法，最后發(fā)現(xiàn)還沒能得到最終的答案，那么它可以把前面幾種不同的解法綜合一下，就能得到一個(gè)正確的答案。

月之暗面發(fā)布首款數(shù)學(xué)模型 k0-math，對(duì)標(biāo)o1

根據(jù)上圖，在多項(xiàng)基準(zhǔn)能力測(cè)試中，k0-math 的數(shù)學(xué)能力可對(duì)標(biāo)全球領(lǐng)先的 OpenAI o1 系列可公開使用的兩個(gè)模型：o1-mini和o1-preview。在中考、高考、考研以及包含入門競(jìng)賽題的MATH等 4 個(gè)數(shù)學(xué)基準(zhǔn)測(cè)試中，k0-math 初代模型成績(jī)超過(guò)o1-mini和o1-preview模型。在兩個(gè)難度更大的競(jìng)賽級(jí)別的數(shù)學(xué)題庫(kù) OMNI-MATH 和 AIME 基準(zhǔn)測(cè)試中，k0-math 初代模型的表現(xiàn)分別達(dá)到了 o1-mini 最高成績(jī)的 90% 和 83%。

未來(lái)的一到兩周時(shí)間內(nèi)，k0-math 強(qiáng)化模型將會(huì)放到 Kimi 探索版中，包含了意圖增強(qiáng)、信源分析、鏈?zhǔn)剿伎既齻€(gè)特點(diǎn)。

月之暗面發(fā)布首款數(shù)學(xué)模型 k0-math，對(duì)標(biāo)o1

其中，模型在深度思考的過(guò)程中，生成的學(xué)習(xí)數(shù)據(jù)是否都有用以及是否正確，這是強(qiáng)化學(xué)習(xí)中的一個(gè)核心問(wèn)題，以前做Next—Token prediction，處理的是靜態(tài)數(shù)據(jù)，可以做靜態(tài)過(guò)濾、打分篩選，而在強(qiáng)化學(xué)習(xí)中則對(duì)獎(jiǎng)勵(lì)模型的效果提出挑戰(zhàn)，核心是是怎么更好的訓(xùn)練獎(jiǎng)勵(lì)模型，設(shè)置獎(jiǎng)勵(lì)的機(jī)制，以此來(lái)讓模型盡可能地減少學(xué)習(xí)錯(cuò)誤的數(shù)據(jù)。

k0-math在思考的過(guò)程中會(huì)出現(xiàn)「過(guò)度思考」，例如問(wèn)它1+1等于多少，正常人是不需要思考的，而k0-math 就會(huì)給出一整套它的思考推理過(guò)程，最后才得出1+1等于2。

對(duì)于這個(gè)問(wèn)題，楊植麟稱是因?yàn)楠?jiǎng)勵(lì)上沒有對(duì)它的長(zhǎng)度做任何的限制，讓它自由地思考，也可以通過(guò)改變獎(jiǎng)勵(lì)模型的結(jié)構(gòu)，一定程度能抑制過(guò)度思考。

同時(shí)，楊植麟稱，該包含了k0-math 強(qiáng)化模型的 Kimi 探索版大概率會(huì)讓用戶自己選擇使用，早期通過(guò)這種方式可以更好地分配、滿足用戶的預(yù)期，這里面包含了一個(gè)技術(shù)問(wèn)題，一是能夠動(dòng)態(tài)地分配最優(yōu)的算力，如果模型足夠聰明就應(yīng)該知道什么樣的問(wèn)題不需要想很久，就跟人一樣1+1等于幾不用想；第二個(gè)點(diǎn)是成本不斷下降的過(guò)程。

未來(lái)，k0-math 還將從數(shù)學(xué)問(wèn)題上的推理泛化到更多任務(wù)上，例如物理學(xué)、化學(xué)、生物醫(yī)學(xué)等等。

去年今天，是Kimi Chat 面向全社會(huì)開放服務(wù)的日子，今年10月推出AI搜索功能，再到今天推出數(shù)學(xué)模型 k0-math，三個(gè)動(dòng)作月之暗面整整走了一年。

可以看到，在一眾大模型公司中，月之暗面的產(chǎn)品策略更克制。

楊植麟稱，是他們主動(dòng)做了業(yè)務(wù)的減法，聚焦去做離 AGI 上限最高的事情，然后做好；始終保持卡和人的比例最高。去年整個(gè)大模型行業(yè)經(jīng)歷了大擴(kuò)張，而到目前為止，月之暗面人數(shù)是所有大模型公司中最少的，不超過(guò)200人。

「我們不希望把團(tuán)隊(duì)擴(kuò)那么大，擴(kuò)太大對(duì)創(chuàng)新會(huì)有致命性的傷害。如果你想把團(tuán)隊(duì)保持在一定的規(guī)模，那最好的方式是在業(yè)務(wù)上做一些減法?！箺钪谗敕Q，一開始月之暗面也嘗試過(guò)幾個(gè)產(chǎn)品一起做，這在一定時(shí)期內(nèi)有可能有效，到后來(lái)發(fā)現(xiàn)還是要聚焦，把一個(gè)產(chǎn)品做到極致是最重要的，如果幾個(gè)業(yè)務(wù)一起做，把自己活生生變成大廠，創(chuàng)業(yè)公司的優(yōu)勢(shì)就丟掉了。

楊植麟認(rèn)為Kimi目前最核心的任務(wù)是提升留存。

對(duì)于當(dāng)下愈演愈烈、有關(guān)于Scaling Laws「撞墻」的爭(zhēng)辯，楊植麟認(rèn)為「預(yù)訓(xùn)練還有空間」，這個(gè)空間會(huì)在明年釋放出來(lái)，明年領(lǐng)先的模型會(huì)把預(yù)訓(xùn)練做到極致。

他判斷，接下來(lái)最重要的是強(qiáng)化學(xué)習(xí)帶來(lái)的技術(shù)范式上改變，但它依然還是scale。至于Scaling Laws是否到上限，核心在于原來(lái)用的是靜態(tài)數(shù)據(jù)集，這屬于簡(jiǎn)單粗暴的使用方式，現(xiàn)在用強(qiáng)化學(xué)習(xí)的方式——很多情況下有人參與標(biāo)注數(shù)據(jù)的過(guò)程，比如人標(biāo)注 100條數(shù)據(jù)，就能產(chǎn)生非常大的作用，剩下的讓AI自己思考。AI 加上人的杠桿，上限是很高的。「雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))」

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

張進(jìn)

主筆

發(fā)私信

當(dāng)月熱門文章