丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給張進
發(fā)送

0

月之暗面發(fā)布首款數(shù)學模型 k0-math,對標o1

本文作者: 張進   2024-11-16 11:04
導語:楊植麟:Kimi目前最核心的任務是提升留存。

今天,在京東科技大廈,月之暗面創(chuàng)始人楊植麟宣布 Kimi 數(shù)學模型 k0-math 正式發(fā)布,其數(shù)學能力對標OpenAI o1系列,還公布了截止2024年10月 Kimi  月活超過 3600萬。

楊植麟稱未來會更關注基于強化學習的方法去scale,不僅僅是簡單地預測下一個token是什么,因為這是基于靜態(tài)數(shù)據(jù)集,使得大模型不能完成更難的任務。在這個過程中,很重要的是讓AI具備思考的能力。

用Next—Token prediction是做不到的,而用強化學習的方法一定程度上可以學習到這種思考的方式。例如解一道數(shù)學題,想要知道它的解題思路是怎樣的,最后的結(jié)果是怎么一步步推導出來的,這就是一個深度思考的過程。

伽利略曾說,數(shù)學是宇宙的語言,所以數(shù)學場景是一個很廣泛的應用場景,是培養(yǎng) AI 具備思考能力的最佳場景。OpenAI的 o1 模型最初也是從數(shù)學場景出發(fā),好處是不用跟外界進行交互,可以自成一體。

k0—math正是從數(shù)學場景出發(fā),再推理泛化到更多的任務上。

例如,問它一個很難的競賽題,k0—math 通過大量的嘗試,可能嘗試了八九中不同的做法,最后發(fā)現(xiàn)還沒能得到最終的答案,那么它可以把前面幾種不同的解法綜合一下,就能得到一個正確的答案。

月之暗面發(fā)布首款數(shù)學模型 k0-math,對標o1

根據(jù)上圖,在多項基準能力測試中,k0-math 的數(shù)學能力可對標全球領先的 OpenAI o1 系列可公開使用的兩個模型:o1-mini和o1-preview。在中考、高考、考研以及包含入門競賽題的MATH等 4 個數(shù)學基準測試中,k0-math 初代模型成績超過o1-mini和o1-preview模型。在兩個難度更大的競賽級別的數(shù)學題庫 OMNI-MATH 和 AIME 基準測試中,k0-math 初代模型的表現(xiàn)分別達到了 o1-mini 最高成績的 90% 和 83%。

未來的一到兩周時間內(nèi),k0-math 強化模型將會放到 Kimi 探索版中,包含了意圖增強、信源分析、鏈式思考三個特點。

月之暗面發(fā)布首款數(shù)學模型 k0-math,對標o1

其中,模型在深度思考的過程中,生成的學習數(shù)據(jù)是否都有用以及是否正確,這是強化學習中的一個核心問題,以前做Next—Token  prediction,處理的是靜態(tài)數(shù)據(jù),可以做靜態(tài)過濾、打分篩選,而在強化學習中則對獎勵模型的效果提出挑戰(zhàn),核心是是怎么更好的訓練獎勵模型,設置獎勵的機制,以此來讓模型盡可能地減少學習錯誤的數(shù)據(jù)。

k0-math在思考的過程中會出現(xiàn)「過度思考」,例如問它1+1等于多少,正常人是不需要思考的,而k0-math 就會給出一整套它的思考推理過程,最后才得出1+1等于2。

對于這個問題,楊植麟稱是因為獎勵上沒有對它的長度做任何的限制,讓它自由地思考,也可以通過改變獎勵模型的結(jié)構,一定程度能抑制過度思考。

同時,楊植麟稱,該包含了k0-math 強化模型的 Kimi 探索版大概率會讓用戶自己選擇使用,早期通過這種方式可以更好地分配、滿足用戶的預期,這里面包含了一個技術問題,一是能夠動態(tài)地分配最優(yōu)的算力,如果模型足夠聰明就應該知道什么樣的問題不需要想很久,就跟人一樣1+1等于幾不用想;第二個點是成本不斷下降的過程。

未來,k0-math 還將從數(shù)學問題上的推理泛化到更多任務上,例如物理學、化學、生物醫(yī)學等等。

去年今天,是Kimi Chat 面向全社會開放服務的日子,今年10月推出AI搜索功能,再到今天推出數(shù)學模型 k0-math,三個動作月之暗面整整走了一年。

可以看到,在一眾大模型公司中,月之暗面的產(chǎn)品策略更克制。

楊植麟稱,是他們主動做了業(yè)務的減法,聚焦去做離 AGI 上限最高的事情,然后做好;始終保持卡和人的比例最高。去年整個大模型行業(yè)經(jīng)歷了大擴張,而到目前為止,月之暗面人數(shù)是所有大模型公司中最少的,不超過200人。

「我們不希望把團隊擴那么大,擴太大對創(chuàng)新會有致命性的傷害。如果你想把團隊保持在一定的規(guī)模,那最好的方式是在業(yè)務上做一些減法?!箺钪谗敕Q,一開始月之暗面也嘗試過幾個產(chǎn)品一起做,這在一定時期內(nèi)有可能有效,到后來發(fā)現(xiàn)還是要聚焦,把一個產(chǎn)品做到極致是最重要的,如果幾個業(yè)務一起做,把自己活生生變成大廠,創(chuàng)業(yè)公司的優(yōu)勢就丟掉了。

楊植麟認為Kimi目前最核心的任務是提升留存。

對于當下愈演愈烈、有關于Scaling Laws「撞墻」的爭辯,楊植麟認為「預訓練還有空間」,這個空間會在明年釋放出來,明年領先的模型會把預訓練做到極致。

他判斷,接下來最重要的是強化學習帶來的技術范式上改變,但它依然還是scale。至于Scaling Laws是否到上限,核心在于原來用的是靜態(tài)數(shù)據(jù)集,這屬于簡單粗暴的使用方式,現(xiàn)在用強化學習的方式——很多情況下有人參與標注數(shù)據(jù)的過程,比如人標注 100條數(shù)據(jù),就能產(chǎn)生非常大的作用,剩下的讓AI自己思考。AI 加上人的杠桿,上限是很高的?!咐追寰W(wǎng)(公眾號:雷峰網(wǎng))


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

月之暗面發(fā)布首款數(shù)學模型 k0-math,對標o1

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說