丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給朱可軒
發(fā)送

0

大模型隱藏玩家上桌:DeepSeek 向左,面壁向右

本文作者: 朱可軒   2025-01-16 17:14
導(dǎo)語(yǔ):他們正在打樣「榨干」有限算力的極致解法。

作者丨朱可軒

編輯丨陳彩嫻

大模型賽跑兩年后,玩家已逐步分化為三種趨勢(shì):一類玩家仍追隨 OpenAI 的腳步卷大參數(shù)基座模型,另外一類燒不起錢的玩家轉(zhuǎn)頭擁抱應(yīng)用端,而第三類則自始至終都在摸索如何更高效打造出性能更優(yōu)的模型。

目前,第一類卷向大參數(shù)的玩家也都在尋找高效解決方案,連 OpenAI 此前發(fā)布 GPT-4o mini 切入小模型市場(chǎng),Meta Llama 3.1-8B、微軟 Phi-3-vision 和 Phi-4 14B 、谷歌 Gemma 2 以及阿里 Qwen 2.5 等一系列小模型也都是頭部玩家在做的布局。

算力存在上限已是不爭(zhēng)的事實(shí),而且也并非參數(shù)越大就意味著效果一定能達(dá)到預(yù)期,更何況,如若如果每增長(zhǎng)一倍參數(shù)規(guī)模,效果能力卻并未呈一倍增長(zhǎng),大模型發(fā)展起來會(huì)很慢:

OpenAI 能用百千億達(dá)到 GPT-4 的水平,其他家則可能需要投入更多資源,如此一來要追趕 GPT-5 會(huì)更難,因?yàn)樵?OpenAI 的基礎(chǔ)上再加碼更多算力、參數(shù)的可能性不大,這對(duì)于大多數(shù)無法如同 OpenAI 一般大把燒錢的玩家而言并非理智選擇。

所以可以看到,現(xiàn)如今已有不少玩家選擇投身應(yīng)用端,不再執(zhí)著于基座大模型。而繼續(xù)堅(jiān)持的玩家們,則在思考如何基于有限的資源,將每個(gè)參數(shù)的作用發(fā)揮到極致,這才是多數(shù)人一致看好的大模型訓(xùn)練最終方向。不過,現(xiàn)階段,模型參數(shù)的能力上限還遠(yuǎn)未完全探索到。

沿著這一思路,國(guó)內(nèi)創(chuàng)業(yè)隊(duì)伍中,面壁和 DeepSeek 憑借高效且開源的模型迅速引發(fā)廣泛關(guān)注,并在海外社區(qū)得到高度評(píng)價(jià),經(jīng)濟(jì)學(xué)人也曾將他們并稱為中國(guó)最具創(chuàng)新能力的大模型公司。

當(dāng)前,在國(guó)內(nèi)大模型創(chuàng)業(yè)玩家隊(duì)伍里,除了受到熱捧的六小龍外,面壁和 DeepSeek 這兩只潛力股也已先后加入戰(zhàn)局,大模型明顯呈現(xiàn)出“6+2”格局。

國(guó)內(nèi)每有創(chuàng)新定會(huì)在海外先掀起風(fēng)浪:DeepSeek 在去年發(fā)布 DeepSeek-V2 模型因“白菜價(jià)”一舉成名后,其近期新發(fā)布的 V3 模型則收到了硅谷大佬的一致驚嘆,而面壁此前則曾因 MiniCPM-Llama3-V 2.5 模型被硅谷團(tuán)隊(duì)套殼抄襲一事引發(fā)熱議,后續(xù)其也因另辟蹊徑聚焦端側(cè)而得到業(yè)內(nèi)密切關(guān)注。

海內(nèi)外科技圈對(duì)二者技術(shù)實(shí)力的認(rèn)可能夠可見一斑,值得一提的是,他們背后的團(tuán)隊(duì)也均來自清北高校,面壁的核心成員大多來自清華 NLP 實(shí)驗(yàn)室,DeepSeek 也偏愛吸納年輕的清北應(yīng)屆人才。

不過,除前所述,雙方的差異也客觀存在:首先,在稀疏方面,DeepSeek 選擇了從頭訓(xùn)練 MoE 模型,面向云端,MoE 確為較優(yōu)方案,但端側(cè)則并不適合 MoE,面壁也找到了更適配的方案,其不僅在 MiniCPM-S 系列引入了自研稀疏化方案,還提出了新型類腦高效稀疏 Configurable Foundation Model 架構(gòu);

其次,DeepSeek 的高效是高度定制的技術(shù)體系,MoE 和 MLA 強(qiáng)綁定,并且主要面向大集群訓(xùn)練、部署服務(wù),用云提供用戶服務(wù)的極致優(yōu)化,面壁則是面向邊端算力場(chǎng)景進(jìn)行極致優(yōu)化,更看重單設(shè)備服務(wù)的高效性;

再次,DeepSeek 在高效訓(xùn)練層面小有所成,而面壁在高效推理方面則更為得心應(yīng)手。值得一提的是,高效性實(shí)際上也是模型部署在端側(cè)需要攻克的難點(diǎn)問題,而這也是面壁早早開始切入的賽道。


「高效」問題何解?

近日,被稱為“大模型屆拼多多”的 DeepSeek 發(fā)布了 DeepSeek-V3 模型,在多項(xiàng)評(píng)測(cè)成績(jī)上,超越了 Qwen2.5-72B 和 Llama 3.1 405B 等其他開源模型,并且實(shí)現(xiàn)這一點(diǎn),僅用了 2048 塊 H800,作為對(duì)比,Llama 3 405B 此前共使用了 16384 塊 H100 訓(xùn)練。

DeepSeek 此番也再度點(diǎn)燃了業(yè)內(nèi)對(duì)于高效訓(xùn)練大模型的熱議,無盡燒錢并非長(zhǎng)久之計(jì)。據(jù)悉,DeepSeek-V3 模型的總訓(xùn)練成本僅為 557.6 萬(wàn)美元,訓(xùn)練時(shí)長(zhǎng)在 280 萬(wàn) GPU 小時(shí)。對(duì)比來看,GPT-4o 的訓(xùn)練成本約為 1 億美元,Llama 3 405B 訓(xùn)練時(shí)長(zhǎng)則為 3080 萬(wàn) GPU 小時(shí)。

大模型隱藏玩家上桌:DeepSeek 向左,面壁向右

論文鏈接:https://arxiv.org/abs/2412.19437

眾所周知,基座模型最關(guān)鍵的便是解決效率問題,而效率是多樣的,稀疏化包括混合專家(Mixture of Experts,簡(jiǎn)稱MoE)可以在增大模型參數(shù)規(guī)模的同時(shí),保持計(jì)算成本遠(yuǎn)低于相同參數(shù)規(guī)模的稠密模型,這也是國(guó)內(nèi)算力普遍有限境況下的必然選擇。

DeepSeek 所選擇的路徑是從頭訓(xùn)練 MoE,這種方式訓(xùn)起來相對(duì)困難,但也能緩解一些問題。例如,基于拷貝復(fù)制得到的 MoE 模型的潛在問題,因?yàn)榛诳截惖脑挘?專家之間會(huì)有很多知識(shí)的重疊,權(quán)重是冗余的,參數(shù)的冗余對(duì)各專家的支持是重疊的。

同時(shí),從頭訓(xùn)練的自由度也較高,可以避免老模型的問題,爭(zhēng)取達(dá)到 MoE 模型上限。面向云端,MoE 確為當(dāng)前最優(yōu)解,但就端側(cè)而言,MoE 則不一定為正解,所以,面壁也給出了新的稀疏化方案來解決端側(cè)模型問題:

去年,面壁在 MiniCPM-S 系列引入了自研稀疏化方案,通過將激活函數(shù)替換為 ReLU 及通過帶漸進(jìn)約束的稀疏感知訓(xùn)練來提升大模型的稀疏性,能將 Llama、MiniCPM 稀疏度提升至接近 90%。并且也能夠在保持模型原有水平的基礎(chǔ)上,有效降低模型推理的開銷,與之相比的 MoE 方案則會(huì)顯著影響模型效果。

去年底,清華&面壁團(tuán)隊(duì)還提出了一種新型類腦高效稀疏 Configurable Foundation Model 架構(gòu)。較之于 MoE,CFM 能更本質(zhì)和宏觀地覆蓋從預(yù)訓(xùn)練到后訓(xùn)練的模塊化全過程,從結(jié)果上,對(duì)于大模型“知識(shí)密度”極致提升、對(duì)于端側(cè)模型極速低能耗推理能產(chǎn)生更顯著作用。

據(jù)面壁官方介紹,這一架構(gòu)證實(shí)了大模型本身就具有高效稀疏模塊化特性——大模型神經(jīng)元與人腦類似,在預(yù)訓(xùn)練過程中自發(fā)地產(chǎn)生了功能分化與分區(qū)的性質(zhì),各自負(fù)責(zé)語(yǔ)言、數(shù)學(xué)、代碼等能力,且每次計(jì)算過程中大模型僅有這些分區(qū)的神經(jīng)元被激活。

因此,CFM 將大模型拆分為預(yù)訓(xùn)練階段產(chǎn)生的涌現(xiàn)模塊(Emergent Brick)與后訓(xùn)練階段產(chǎn)生的定制模塊(Customized Brick),使得訓(xùn)練大模型可以像搭積木一樣,通過模塊的檢索、組合、更新、增長(zhǎng),實(shí)現(xiàn)復(fù)雜能力的組合。

大模型隱藏玩家上桌:DeepSeek 向左,面壁向右

值得一提的是,面壁其實(shí)也是國(guó)內(nèi)最早把稀疏激活這塊做起來的團(tuán)隊(duì)。

早在 2021 年 6 月,面壁智能創(chuàng)始人劉知遠(yuǎn)牽頭的“悟道·文源”就發(fā)布了千億 MoE 大模型 CPM-2 ,參與成員中也包括了面壁的初始團(tuán)隊(duì)。

同年,面壁團(tuán)隊(duì)發(fā)布題為《MoEfication:Transformer Feed-forward layers are Mixtures of Experts》的論文,提出將一個(gè)稠密的模型轉(zhuǎn)化為等參數(shù)量的 MoE 模型,同樣能實(shí)現(xiàn)大幅度推理加速,也證明了只使用顯貴神經(jīng)網(wǎng)絡(luò) 10% 到 30% 的參數(shù)就可以保留 95% 的性能。

大模型隱藏玩家上桌:DeepSeek 向左,面壁向右

論文鏈接:https://arxiv.org/abs/2110.01786

劉知遠(yuǎn)告訴 AI 科技評(píng)論,其創(chuàng)立面壁的初衷就是希望更多人能低成本使用大模型,所以那時(shí)他們也做了一套平臺(tái)模型的訓(xùn)練微調(diào),盡可能降低壓縮、微調(diào)等環(huán)節(jié)的成本。

此后,面壁也一直在沿著降本、高效這條路徑不斷探索解決方案。其曾用 MiniCPM 2.4B 的小模型實(shí)現(xiàn)了性能對(duì)標(biāo) Llama 2 13B,而前者具體數(shù)據(jù)的配比、參數(shù)配置都是用十分之一甚至更小的模型訓(xùn)練、預(yù)測(cè)出的。這種以小見大的路徑證明了當(dāng)參數(shù)潛力被激發(fā),小模型完全能使用更高效的訓(xùn)練方式實(shí)現(xiàn)更好的性能,找到 20B、50B 甚至更大參數(shù)模型的最優(yōu)解也同樣可能。

再回到 DeepSeek 和面壁選擇路徑的差異繼續(xù)探討,DeekSeek 在云端超大規(guī)模模型的訓(xùn)練過程中引入了 MoE 和多頭潛在注意力(MLA)技術(shù),使模型能以更大的 batch size 運(yùn)行,減少單個(gè)請(qǐng)求實(shí)際的運(yùn)算量,同時(shí)也降低模型在云端 API 上的推理成本。

也有大模型從業(yè)者向 AI 科技評(píng)論分析稱,“DeepSeek 的高效是高度定制的技術(shù)體系,MoE 和 MLA 強(qiáng)綁定,去掉 MoE 以后 MLA 會(huì)比較廢,且其 MoE 也和流水線 Infra 并行強(qiáng)綁定。整體而言,DeepSeek 是面向大集群訓(xùn)練、大集群部署服務(wù),用云提供用戶服務(wù)的極致優(yōu)化?!?/p>

面壁所選擇的路徑則是面向邊端算力場(chǎng)景進(jìn)行極致優(yōu)化,其更看重單設(shè)備服務(wù)的高效性,MiniCPM 在模型訓(xùn)練技術(shù)上優(yōu)化使得模型知識(shí)密度更高,繼而以小參數(shù)戰(zhàn)勝大參數(shù)模型,MiniCPM 系列端側(cè)模型也能夠直接在各種端側(cè)設(shè)備上本地化運(yùn)行,提供和云端 API 相當(dāng)?shù)闹悄苣芰?,針?duì)面壁所專注的端側(cè)場(chǎng)景,DeepSeek 則還沒有提供解決方案。

值得一提的是,Scaling Law 持續(xù)面臨著數(shù)據(jù)和算力資源的上限難題,去年底也曾被業(yè)內(nèi)質(zhì)疑或?qū)⑹?。此前,面壁也一直追求在同時(shí)間、同參數(shù)下能實(shí)現(xiàn)更優(yōu)的 Scaling Law,如今正在探索其他規(guī)律。

據(jù)劉知遠(yuǎn)介紹,他發(fā)現(xiàn)大模型行業(yè)也有著和摩爾定律相似的規(guī)律——隨著數(shù)據(jù)、算力、算法的協(xié)同發(fā)展,2020 年發(fā)布的 GPT-3 用 1750 億參數(shù)達(dá)到的能力,到 2024 年 2 月只需要 24 億參數(shù)即可達(dá)到,大模型的能力“密度”正在提升,這正意味能用更少的參數(shù)實(shí)現(xiàn)相同的智能水平。

據(jù)此,前段時(shí)日,劉知遠(yuǎn)和團(tuán)隊(duì)也提出了大模型密度定律(Densing Law)—— 模型能力密度隨時(shí)間呈指數(shù)級(jí)增長(zhǎng)。據(jù)面壁方面介紹,“能力密度”(Capability Density)為給定 LLM 的有效參數(shù)大小與實(shí)際參數(shù)大小的比率。比如一個(gè) 3B 的模型能達(dá)到 6B 參考模型的性能,那么這個(gè) 3B 模型的能力密度就是 2(6B/3B)。

而根據(jù)密度定律,面壁得出的推論主要有七點(diǎn):實(shí)現(xiàn)相同能力的模型參數(shù)每 3.3 個(gè)月(約100天)下降一半;模型推理開銷隨時(shí)間指數(shù)級(jí)下降;模型訓(xùn)練開銷隨時(shí)間迅速下降;大模型能力密度呈加速增強(qiáng)趨勢(shì);模型小型化揭示端側(cè)智能巨大潛力;無法通過模型壓縮增強(qiáng)模型能力密度;密度倍增周期決定模型存在“有效期”。

大模型隱藏玩家上桌:DeepSeek 向左,面壁向右


端側(cè)如何勝云側(cè)?

這套高效優(yōu)化把模型做小的邏輯,實(shí)際上也能順理成章解決模型部署到端側(cè)的問題。

從世界范圍的算力分布上來看,OpenAI、Google、Meta 部署了很多大的云端平臺(tái),但如果算上 80 億手機(jī)上的芯片,這是非常重要的長(zhǎng)尾。事實(shí)上,在手機(jī)中刷視頻的 APP 里并非所有需求都需要在云側(cè)解決,有相當(dāng)一部分計(jì)算是發(fā)生在本地的。

劉知遠(yuǎn)告訴 AI 科技評(píng)論,“明明一個(gè) 13B 模型的能力可以用一個(gè) 2B 的模型去做,且可以在端側(cè)跑得非常快,沒必要去實(shí)測(cè)、發(fā)請(qǐng)求。大模型是計(jì)算稠密的任務(wù),從可持續(xù)發(fā)展、實(shí)際落地的角度講,顯然端側(cè)的算力完全沒有被釋放,因此 MiniCPM 的效果極有可能就是未來方向。而且不是所有需求都得用GPT-4,有時(shí) GPT-3 也可以滿足?!?/span>

自 MiniCPM-V 系列開始,面壁便一直聚焦解決端側(cè)模型多模態(tài)問題,此次,AI 科技評(píng)論注意到,其又推出了 MiniCPM-o 2.6 新模型,體驗(yàn)鏈接如下:

https://huggingface.co/openbmb/MiniCPM-o-2_6

https://github.com/OpenBMB/MiniCPM-o

據(jù)面壁官方介紹,MiniCPM-o 2.6 僅 8B 個(gè)參數(shù)。與 MiniCPM-V 2.6 相比,MiniCPM-o 2.6 不僅在視覺能力上進(jìn)行了提升,如強(qiáng)大的 OCR 能力、可信行為、多語(yǔ)言支持和視頻理解,也引入了實(shí)時(shí)語(yǔ)音對(duì)話和多模式直播的新功能,支持雙語(yǔ)實(shí)時(shí)語(yǔ)音對(duì)話,聲音可配置,還可實(shí)現(xiàn)情緒/語(yǔ)速/風(fēng)格控制、端到端語(yǔ)音克隆、角色扮演等趣味功能,并首次支持在 iPad 等端側(cè)設(shè)備上進(jìn)行多模態(tài)直播。

MiniCPM-o 2.6 此次也全面對(duì)標(biāo)了 GPT-4o 的“全模態(tài)實(shí)時(shí)流式視頻理解+高級(jí)語(yǔ)音對(duì)話”,不僅支持視頻、語(yǔ)音、文本輸入以及語(yǔ)音、文本輸出,還具備 GPT-4o 級(jí)別(人類級(jí)別)的低延遲實(shí)時(shí)交互。

不過,GPT-4o 并未部署在端側(cè),因此存在網(wǎng)絡(luò)延遲、服務(wù)器帶寬/高并發(fā)情況下使用可靠性等隱憂。

除此之外,和 GPT-4o 相比,MiniCPM-o 2.6 的優(yōu)勢(shì)體現(xiàn)在能聽到除人聲之外的背景音,比如撕紙、倒水、金屬碰撞等,值得一提的是,這一點(diǎn)目前市面上大多數(shù)部署在云端的大模型也都還無法達(dá)成。

大模型隱藏玩家上桌:DeepSeek 向左,面壁向右

此外,面壁這次也特別強(qiáng)調(diào)了“真正”的視頻大模型這一點(diǎn)。

AGI 本身其實(shí)不只是大模型,拆分其能力包括有推理、記憶、規(guī)劃以及與外界的交互,而交互則包含感知和對(duì)工具的使用,交互本質(zhì)上是多模態(tài),需要深刻理解圖片、視頻和聲音。

MiniCPM-o 2.6 能夠感知用戶提問之前的畫面和聲音,并持續(xù)對(duì)實(shí)時(shí)視頻和音頻流進(jìn)行建模,這種方式更貼近人眼的自然視覺交互。而目前市場(chǎng)上有些宣稱支持實(shí)時(shí)流式視頻理解的模型或產(chǎn)品,其實(shí)只能算作照片大模型,其僅在用戶提問后才開始對(duì)視頻進(jìn)行靜態(tài)圖片抽幀,無法捕捉用戶提問之前的畫面,缺乏對(duì)前文情境的感知。

AI 科技評(píng)論也從面壁方面了解到,能實(shí)現(xiàn)這些技術(shù)上的突破,MiniCPM-o 2.6 背后的技術(shù)路徑主要包括以下三個(gè)方面:

一是端到端全模態(tài)流式架構(gòu)。主要采用模塊化全模態(tài)能力建模架構(gòu),實(shí)現(xiàn)全模態(tài)能力的靈活高效構(gòu)建。其中核心語(yǔ)言基座為 MiniCPM 3.0 的 4B 模型,通過 ViT 等模型進(jìn)行視覺和語(yǔ)音編碼,語(yǔ)音生成通過自回歸語(yǔ)音解碼模塊實(shí)現(xiàn)。

整體模型以端到端方式,通過連續(xù)稠密表示連接,實(shí)現(xiàn)端到端的聯(lián)合學(xué)習(xí),從而支撐較高的模型能力上限。具體地,視覺及語(yǔ)音輸入中非自然語(yǔ)言可描述的模態(tài)信息,可通過端到端方式傳遞到語(yǔ)音生成內(nèi)容中,從而實(shí)現(xiàn)生成內(nèi)容的較高自然度和可控性。

二是低延遲模態(tài)并發(fā)技術(shù)。通過模態(tài)多路時(shí)分復(fù)用技術(shù),實(shí)現(xiàn)低延遲的模態(tài)并發(fā)。將時(shí)間域切分成為周期循環(huán)的時(shí)間切片,在每個(gè)時(shí)間切片中,分別對(duì)視覺和音頻輸入信號(hào)進(jìn)行流式編碼,并對(duì)主動(dòng)輸出語(yǔ)義時(shí)機(jī)進(jìn)行判斷。為最大程度降低響應(yīng)延遲,通過基座模型對(duì)用戶語(yǔ)音結(jié)束時(shí)機(jī)進(jìn)行高級(jí)語(yǔ)義判斷,從而避免語(yǔ)音活性檢測(cè)引入的長(zhǎng)時(shí)間等待。

三是端到端全模態(tài)流式學(xué)習(xí)。在視頻中學(xué)習(xí)觀察多模態(tài)環(huán)境,根據(jù)人物身份,進(jìn)行社會(huì)角色扮演。可以實(shí)現(xiàn)預(yù)訓(xùn)練級(jí)別的監(jiān)督微調(diào),以及“外部環(huán)境-社會(huì)意圖-語(yǔ)言語(yǔ)音行為”之間的對(duì)齊關(guān)系,從而獲得高級(jí)多模態(tài)語(yǔ)義知識(shí),有望實(shí)現(xiàn)更加高級(jí)的心智水平。這有望為全模態(tài)大模型驅(qū)動(dòng)具身機(jī)器人,參與人類社會(huì)活動(dòng)打下基礎(chǔ)。

面壁已經(jīng)將端側(cè)模型的技術(shù)迭代到了新高度,但值得注意的是,把模型做小解決高效性問題是其一,小模型并不完全等同于端側(cè)模型,模型要部署在端側(cè),硬件的發(fā)展也起到關(guān)鍵作用。

當(dāng)下,端側(cè)模型要運(yùn)行在終端,存在著內(nèi)存、功耗、算力三大硬件瓶頸。根據(jù) Apple 方面的說法,70 億半精度參數(shù)的語(yǔ)言模型要完全加載進(jìn)終端需要超過 14 GB的 DRAM 空間,Meta 也曾指出,一個(gè)約有 5000 焦耳滿電能量的 iPhone,僅支持 7B 模型在 10 tokens/秒的 AI 生成速率下對(duì)話不足 2 小時(shí)。

但行業(yè)發(fā)展近況也還算樂觀,“首先,芯片在高度發(fā)展,最新芯片已經(jīng)可以支持百億參數(shù)模型,其次,模型訓(xùn)練技術(shù)在提升,兩三百億的模型也能達(dá)到 GPT-3.5 水平,關(guān)鍵問題在于如何把芯片和模型訓(xùn)練接起來,這之中就需要優(yōu)化,不過這塊技術(shù)已不成問題,只需等待時(shí)機(jī)?!泵姹谥悄苁紫芯繂T韓旭告訴 AI 科技評(píng)論。


務(wù)實(shí)的理想主義者

當(dāng)前,許多團(tuán)隊(duì)把追求實(shí)現(xiàn) AGI 作為唯一賣點(diǎn)或奮斗目標(biāo),但如同造計(jì)算機(jī)一般,造出更強(qiáng)大的計(jì)算機(jī)很重要,將計(jì)算機(jī)造得低廉,能讓整個(gè)社會(huì)受益,則需要兼顧應(yīng)用層面,面壁所做的就是貢獻(xiàn)其中一部分。

面壁對(duì) AGI 的看法更像是務(wù)實(shí)的理想主義者:AI 最終還是要作為人的工具,從計(jì)算機(jī)的角度來看,AI 就是為了讓計(jì)算機(jī)更智能、有理解能力,如何讓 AI 更高效,把人從機(jī)械勞動(dòng)里解脫出來才是應(yīng)當(dāng)思考的問題。

在劉知遠(yuǎn)的觀點(diǎn)中,未來假如按照 OpenAI 的規(guī)劃,五年實(shí)現(xiàn)超級(jí)智能有太多關(guān)鍵問題要解決,scaling prediction 是其中之一,超級(jí)對(duì)齊也是關(guān)鍵問題,即當(dāng)大模型在某個(gè)任務(wù)上已經(jīng)超越人類,有無辦法能繼續(xù)提升也還需要探索解法。

而繼續(xù)追趕 GPT-4 也只是一個(gè)參考,跟隨 OpenAI 并不一定是最正確的選擇,面壁在未來不會(huì)只局限于 scaling prediction,更不會(huì)把某一問題當(dāng)做全部,換言之,實(shí)現(xiàn) AGI 必須要堅(jiān)持自身獨(dú)到路線。雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

大模型隱藏玩家上桌:DeepSeek 向左,面壁向右

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說