丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給陳彩嫻
發(fā)送

0

為什么中國(guó)只有一個(gè) DeepSeek?

本文作者: 陳彩嫻   2025-02-09 17:23
導(dǎo)語(yǔ):投機(jī)者能抓住短期機(jī)會(huì),但實(shí)力者才能抓住長(zhǎng)期機(jī)會(huì)。

DeepSeek 風(fēng)暴后,中國(guó)的大模型創(chuàng)業(yè)圈會(huì)發(fā)生什么樣的變化?

近日來(lái),筆者也與多位業(yè)內(nèi)人士進(jìn)行了探討,發(fā)現(xiàn)國(guó)產(chǎn)大模型圈目前出現(xiàn)了兩個(gè)極端:一個(gè)是極端的熱血沸騰,另一個(gè)則是極端的霜打茄子。

前者以積極擁抱 DeepSeek 生態(tài)的算力廠商與模型服務(wù)廠商、以及原先沒(méi)有能力參與大模型“軍備競(jìng)賽”的開源受益者為代表,后者則以其他中國(guó)大模型創(chuàng)業(yè)公司(俗稱“大模型六小虎”)與過(guò)去兩年投資了這些公司的 VC 們?yōu)橹?,形成了一個(gè)“冰火兩重天”的局面。

據(jù)了解,部分在過(guò)去兩年投了估值在第一梯隊(duì)的大模型公司的 VC 團(tuán)隊(duì)已經(jīng)開始準(zhǔn)備/正在接受內(nèi)部的“鞭尸”,主要被質(zhì)問(wèn)的角度無(wú)非是幾點(diǎn):

“為什么 DeepSeek 用這么低的成本就能訓(xùn)練出這么強(qiáng)大的模型,而我們投的大模型公司融資了幾十億美金卻做不出來(lái)?”雷峰網(wǎng)

“DeepSeek 這次能出圈本質(zhì)還是技術(shù)足夠創(chuàng)新、足夠牛。XXX 家連基本的大模型技術(shù)團(tuán)隊(duì)都沒(méi)有,為什么要投?”雷峰網(wǎng)

“XXX 也有非常強(qiáng)大的人才團(tuán)隊(duì),而且也有訓(xùn)練基座大模型的經(jīng)驗(yàn)與追求,為什么沒(méi)有成為 DeepSeek?他們靠什么支撐這么高的估值?”

“DeepSeek 出來(lái)后,誰(shuí)還會(huì)投大模型六小虎?還有哪幾個(gè)有上市希望?如果沒(méi)有,接下來(lái)我們是回購(gòu)還是退出?”

……

“為什么沒(méi)有成為 DeepSeek”,以及“為什么中國(guó)只有一個(gè) DeepSeek”,是幾乎所有大模型從業(yè)者與 VC 從春節(jié)就開始求索的問(wèn)題。這兩個(gè)問(wèn)題幾乎可以涵蓋了目前國(guó)內(nèi)所有關(guān)于大模型創(chuàng)新的焦慮,也只有嚴(yán)肅探討這兩個(gè)問(wèn)題,才能回答另一個(gè)更重要的問(wèn)題:如何成為 DeepSeek?

在春節(jié)期間的一篇文章《「DeepSeek 現(xiàn)象」只是中國(guó) AI 崛起的開始》中,我們已經(jīng)從中美 AI 創(chuàng)新對(duì)比的大角度試圖向行業(yè)傳遞一個(gè)信息:中國(guó) AI 需有民族自豪感;而在這一篇文章中,我們希望結(jié)合過(guò)去四年中國(guó)大模型的發(fā)展歷史,進(jìn)一步探討:

中國(guó)是否缺少像 DeepSeek 這樣的技術(shù)理想主義者?

如果中國(guó)不缺少,這樣的技術(shù)團(tuán)隊(duì)是否已被充分挖掘、并得到相應(yīng)的社會(huì)系統(tǒng)性支持?如沒(méi)有,原因出在哪里?雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

作為一個(gè)從 2020 年 GPT-3 爆發(fā)以來(lái)就跟進(jìn)大模型報(bào)道的行業(yè)號(hào),這篇文章無(wú)意于回答一個(gè)如此宏觀而深刻的問(wèn)題,只從第三方視角呈現(xiàn)一些或許與該話題相關(guān)的事實(shí)或觀點(diǎn)。


1、系統(tǒng)性錯(cuò)位

2023 年之前,中國(guó)只有 4 家大模型公司:智譜、面壁、深言與聆心(后被智譜收購(gòu)),且都來(lái)自清華;2023 年之后,大模型的創(chuàng)業(yè)公司增加到了十幾家,從技術(shù)上看直接原因是 Llama 開源,但最根本的原因其實(shí)是,那時(shí)候所有人都認(rèn)為:

大模型的技術(shù)門檻雖高、但并非不可模仿。尤其基于已有的開源大模型,技術(shù)難度進(jìn)一步降低,“技術(shù)無(wú)法構(gòu)成商業(yè)壁壘”的論調(diào)甚囂塵上。

在這種集體共識(shí)的“統(tǒng)治”下,我們復(fù)盤 2023 年 ChatGPT 爆火后中國(guó)大模型創(chuàng)業(yè)的幾個(gè)力量動(dòng)態(tài),就不難理解當(dāng)前中國(guó)大模型創(chuàng)業(yè)中場(chǎng)的畸形現(xiàn)象:

首先,由于整個(gè)市場(chǎng)對(duì)技術(shù)創(chuàng)新的敬畏之心變?nèi)酰?023 年 ChatGPT 大火后,中國(guó)的第一批大模型技術(shù)探路者中,只有智譜一家成為了資本的寵兒,最早突破 200 億人民幣估值大關(guān)、躋身大模型第一梯隊(duì)。(月之暗面是 2023 年后成立的,故不算在其中)

而由清華自然語(yǔ)言處理實(shí)驗(yàn)室(THUNLP)走出的其余兩家創(chuàng)業(yè)公司面壁、深言,在資本市場(chǎng)的呼聲遠(yuǎn)不如后來(lái)的新勢(shì)力。

尤其是面壁智能(因?yàn)樯钛赃x擇了聚焦產(chǎn)品),作為國(guó)內(nèi)最早提出要做“平民版大模型”、跟 DeepSeek 的技術(shù)愿景與創(chuàng)新方向最像、甚至比 DeepSeek 還早成立的一家公司,直到 2024 年年底完成一筆 3 億人民幣的融資后、估值也才不到 35 億人民幣,距離第一梯隊(duì)的 200 億門檻相差極遠(yuǎn)。

據(jù)雷峰網(wǎng) AI 科技評(píng)論過(guò)去兩年與超 50 位大模型投資人的交流所知,同是清華出身、同有技術(shù)先發(fā)優(yōu)勢(shì)、同有優(yōu)秀年輕技術(shù)人才的智譜與面壁之所以相差那么大,主要有幾方面原因:

一是清華學(xué)術(shù)派追基座模型的只押一家,因?yàn)椤皩?duì)教授創(chuàng)業(yè)持保留意見”;二是智譜的愿景更好理解,早期對(duì)外融資時(shí)說(shuō)“對(duì)標(biāo) OpenAI”、VC 立刻就懂,但面壁由于一開始就強(qiáng)調(diào)底層模型訓(xùn)練效率優(yōu)化,在熱錢最多的 2023 年一度被認(rèn)為是一家類似潞晨、硅基的“AI Infra”公司。

面壁智能在 2023 年沒(méi)拿到太多錢、無(wú)法投入基座大模型,通過(guò)類似 DeepSeek V3 這樣的基座大模型訓(xùn)練直觀反饋高效訓(xùn)練的重要性,2024 年就只有走端側(cè)小模型,而后者對(duì)“高效訓(xùn)練”的代言效果遠(yuǎn)沒(méi)有 DeepSeek V3 這樣的工作好。

2022 年、2023 年在融資時(shí),面壁就打出“高效訓(xùn)練”的旗號(hào)去融資,但幾乎在 VC 那吃遍了閉門羹。

其次,也是承接沒(méi)有對(duì)技術(shù)敬畏之心的大環(huán)境前提,2023 年大模型浪潮來(lái)臨后,中國(guó)的 AI 科技 VC 其實(shí)并沒(méi)有沉下心來(lái)研究 AGI 這項(xiàng)技術(shù),而是為了迅速上桌將錢投向了“曾打過(guò)勝仗的連續(xù)成功創(chuàng)業(yè)者”,哪怕這些團(tuán)隊(duì)此前壓根沒(méi)有過(guò)任何大模型研發(fā)經(jīng)歷。

這當(dāng)中,最典型的代表是王慧文的光年之外與王小川的百川智能。

當(dāng)前估值超過(guò) 200 億人民幣的大模型公司中,只有智譜唐杰、月之暗面楊植麟等人是從 2020 年大模型未出圈時(shí)就開始了對(duì)大模型的技術(shù)探索,百川智能、MiniMax與階躍星辰的團(tuán)隊(duì)大多都是在 2023 年之后才展開。

譬如,MiniMax 的創(chuàng)始人閆俊杰是計(jì)算機(jī)視覺(jué)出身,而大模型起初解決的是語(yǔ)言智能(多模態(tài)是另一篇章)。不過(guò) MiniMax 最早是靠產(chǎn)品 Glow 出圈、而非底層大模型技術(shù)獲得資本青睞的,所以這是另外一個(gè)維度,且靠近閆俊杰的人對(duì)他的評(píng)價(jià)都是“很有技術(shù)追求”。

DeepSeek 的研發(fā)團(tuán)隊(duì)同樣是從 0 開始學(xué)習(xí)大模型技術(shù),苦讀論文、死磕實(shí)驗(yàn),所以沒(méi)有任何跡象表明一個(gè)從前未曾訓(xùn)練過(guò)大模型的團(tuán)隊(duì)無(wú)法通過(guò)在 2023 年之后的努力學(xué)習(xí)來(lái)補(bǔ)足技術(shù)的短板,但從過(guò)去兩年的行業(yè)發(fā)展來(lái)看,百川智能在基座模型上的升級(jí)并不頻繁,重心轉(zhuǎn)向醫(yī)療行業(yè)大模型。

由于不訓(xùn)練視頻等大模型,百川的研發(fā)成本較其他公司更低,現(xiàn)金流充裕——但這只對(duì)百川有利,對(duì)整個(gè)大模型行業(yè)的發(fā)展是沒(méi)有貢獻(xiàn)的。

假設(shè)在資源有限的情況下,沒(méi)有技術(shù)能力的團(tuán)隊(duì)占據(jù)了大量的資本資源,反之有技術(shù)能力的團(tuán)隊(duì)卻只能得到極少的資本資源,錢、才的系統(tǒng)性錯(cuò)位注定產(chǎn)生的結(jié)果只有遺憾、沒(méi)有未來(lái)。

如若 AGI 大模型技術(shù)果真已沒(méi)有上升的空間、各家的技術(shù)壁壘已經(jīng)逐漸拉平,那么互聯(lián)網(wǎng)時(shí)代拼資源、拼資本的打法或許也能分到最后一杯羹。但對(duì)技術(shù)有敬畏之心的創(chuàng)業(yè)者始終保持清醒的頭腦,依然能看到現(xiàn)有大模型底層算法與架構(gòu)等在訓(xùn)練與推理中所存在的不足,知道 AGI 仍有許多具體且高難度的問(wèn)題要解決。

也就是說(shuō),底層技術(shù)的持續(xù)創(chuàng)新能力仍是大模型公司的護(hù)城河,純拼資源的互聯(lián)網(wǎng)方法論暫不適用當(dāng)前中國(guó)的大模型發(fā)展?!@些話大概率不會(huì)得到大部分中國(guó)科技 VC 的認(rèn)可,因?yàn)?2023、2024 年的大模型投資甚至還有“Club Deal”這樣的玩法……

在過(guò)去兩年的大模型發(fā)展中,一個(gè)不愿意學(xué)習(xí)技術(shù)的 VC,比一個(gè)不愿意學(xué)習(xí)技術(shù)的研發(fā)所產(chǎn)生的殺傷力,可能還要更大。

泡沫期終將結(jié)束。潮水褪去后,誰(shuí)在裸泳也將一目了然。


2、AGI 軍團(tuán)可遇不可求

市場(chǎng)對(duì)技術(shù)缺乏敬畏之心的另一個(gè)影響是:為了迎合市場(chǎng),(當(dāng)然還有突破大廠圍剿的考慮),過(guò)去兩年中國(guó)大模型創(chuàng)業(yè)公司的目光也從長(zhǎng)期的 AGI 轉(zhuǎn)到短期的商收、產(chǎn)品打磨上。

這一打法的變化也是因?yàn)樯鲜鲂袠I(yè)的誤判,以為大模型再無(wú)創(chuàng)新之處。堅(jiān)定追求 AGI 的創(chuàng)業(yè)者必須同時(shí)兼顧商業(yè)與技術(shù),而對(duì) AGI 產(chǎn)生懷疑或徹底被市場(chǎng)聲音迷惑的團(tuán)隊(duì)則要么放棄預(yù)訓(xùn)練、全面轉(zhuǎn)向 C 端應(yīng)用或干脆只基于開源模型微調(diào)行業(yè)大模型。

從 GPT-3 到 ChatGPT 的出現(xiàn)經(jīng)歷了兩年半,但市場(chǎng)卻普遍呈現(xiàn)出一個(gè)“規(guī)律”:國(guó)內(nèi)的大模型從基座到商業(yè)化只要兩年。盡管一些大模型公司能同時(shí)堅(jiān)持“L2”與“L4”兩步走,但在人才與研究資源的投入上沒(méi)有一家公司能像 DeepSeek 一樣對(duì) AGI 這么純粹。

2023 年上半年融資戰(zhàn)剛開始時(shí),業(yè)內(nèi)的一個(gè)分析是:中國(guó)的 VC 經(jīng)過(guò)上一代 AI 公司的“洗禮”,對(duì)大模型公司的商業(yè)化耐心已經(jīng)從 5 年、8 年縮短到 3 年內(nèi)?!@或許是中國(guó)大模型公司的普遍困境。

眾所周知:DeepSeek 專注 AGI 研究,是依托梁文鋒個(gè)人與幻方量化的原有儲(chǔ)備資金,沒(méi)有向外融資?!白约河绣X,所以不需要聽外界的,自己想干什么就干什么。”——這也是眾多大模型公司對(duì) DeepSeek 羨慕的地方。

近日原先噴 AGI 的朱嘯虎又改口稱因?yàn)?DeepSeek 愿意投 AGI 公司,可以說(shuō)是 DeepSeek 用過(guò)硬的技術(shù)實(shí)力改變了 VC 的看法,但更殘酷的一個(gè)現(xiàn)實(shí)是:可能大批有過(guò)硬創(chuàng)新能力的團(tuán)隊(duì)因?yàn)槿诓坏藉X而倒在時(shí)代的前夜。

“商業(yè)化思維”不僅反映在部分科技 VC 的影子中,其實(shí)也反映在研發(fā)人才的選擇中。

根據(jù)獵頭的反饋,2024 年,中國(guó)對(duì)人才“氪金”力度最大的公司毫無(wú)疑問(wèn)是字節(jié)跳動(dòng)。大廠與創(chuàng)業(yè)團(tuán)隊(duì)的分野已經(jīng)形成,而大模型人才從創(chuàng)業(yè)團(tuán)隊(duì)流向大廠更是成為過(guò)去一年的普遍選擇。例如,據(jù) AI 科技評(píng)論所知,DeepSeek 為做 AGI 所物色的多位 NLP、多模態(tài)與強(qiáng)化學(xué)習(xí)方向的優(yōu)秀人才,就在 DeepSeek 與字節(jié)跳動(dòng)之間選擇了 字節(jié)跳動(dòng)。

據(jù)早期為 DeepSeek 服務(wù)的獵頭透露,DeepSeek 早期也希望從海外的谷歌、Meta、OpenAI 等團(tuán)隊(duì)挖頂尖人才,但進(jìn)展并不順利,所以只能退而求其次、自己培養(yǎng)。

AGI 的投入,除了要有錢,也要有人,而且是一群絕對(duì)的技術(shù)理想主義者,以及優(yōu)秀的組織文化。DeepSeek 的成功或許無(wú)法復(fù)制,但從 V2、V3 到 R1、R1-Zero,DeepSeek 的技術(shù)結(jié)果體現(xiàn)了其在資金、人才/理想與組織文化上的優(yōu)勢(shì)。

在 DeepSeek 之前,“北九坤、南幻方”就已經(jīng)在金融量化領(lǐng)域鼎鼎有名,而量化行業(yè)對(duì)技術(shù)人才的高要求也是眾所周知的,基本以 Top2 高校、信息學(xué)競(jìng)賽金牌選手為基準(zhǔn),團(tuán)隊(duì)規(guī)模往往不大,但能力超強(qiáng)。據(jù) AI 科技評(píng)論了解,2024 年上半年 DeepSeek 的團(tuán)隊(duì)規(guī)模也只有 40 多人,且大多數(shù)是原幻方 Top2 的技術(shù)高手。

延續(xù)原來(lái)幻方的風(fēng)格,DeepSeek 的招聘門檻一直非常高。比如,他們從 2024 年年中就開始物色多模態(tài)與強(qiáng)化學(xué)習(xí)方向的技術(shù)大牛,但招了大半年、相關(guān)崗位也依然空缺,對(duì)人才的招聘寧缺毋濫。R1 爆火后,投遞簡(jiǎn)歷雖然暴增,但據(jù)知情人士稱“合適的并不多”。

DeepSeek 內(nèi)部的組織文化也非常扁平。據(jù) AI 科技評(píng)論了解,無(wú)論是北京還是杭州,都只有一個(gè)老板:DeepSeek 創(chuàng)始人梁文鋒?!傲何匿h以下基本全是打工人?!?/p>

此外,梁文鋒的個(gè)人風(fēng)格也十分明顯:有極強(qiáng)的技術(shù)信仰,對(duì) AGI 有十足的好奇心與求知欲,并且十分刻苦。接近梁文鋒的知情人士形容,梁文鋒“說(shuō)話非常非常慢,每一句話都要思考很久很久才表達(dá)出來(lái),而且表達(dá)非常簡(jiǎn)潔。雖然簡(jiǎn)潔,但說(shuō)出來(lái)的話經(jīng)常一針見血?!?/p>

DeepSeek 的團(tuán)隊(duì)文化與宇樹、Momenta 這樣的公司很相似:一號(hào)位都是技術(shù)發(fā)燒友,對(duì)技術(shù)有天然的敬畏之心與好奇之心;同時(shí)在管理上集權(quán)風(fēng)格明顯,文化扁平,因而能在技術(shù)探索中遇到困難時(shí)能自上而下協(xié)調(diào)資源,快速達(dá)到上傳下達(dá)的效果。

同時(shí),宇樹與 DeepSeek 在招人時(shí)也有一套自己的標(biāo)準(zhǔn),與市面上千篇一律的面試套路很不同。有興趣的讀者可以去了解下。

DeepSeek 梁文鋒很早開始探索如何用更低的成本訓(xùn)練出更強(qiáng)的模型,彼時(shí)行業(yè)還普遍看不懂。同樣地,宇樹王興興也是在大家還看不懂機(jī)器狗時(shí)就開始做四足機(jī)器狗,Momenta 曹旭東也是在自動(dòng)駕駛行業(yè)還普遍沉醉于 L4 時(shí)同時(shí)開始做 L2 與 L4、兩條腿走路。

敢于與主流對(duì)著干的創(chuàng)業(yè)團(tuán)隊(duì)需要一種強(qiáng)大的叛逆精神。在 AI 科技評(píng)論與多位投資人的交流中,這種“叛逆”容易被輕易地歸類為“年輕人群體”,但在筆者看來(lái),叛逆的底氣終究來(lái)源于一個(gè)團(tuán)隊(duì)對(duì)自己所要解決的社會(huì)問(wèn)題的認(rèn)知、判斷與技術(shù)自信,即:堅(jiān)信自己的前進(jìn)方向是未來(lái)的,會(huì)帶來(lái)巨大的價(jià)值。


3、創(chuàng)新的品味

V2 掀起價(jià)格戰(zhàn)后,梁文鋒在接受《暗涌》的訪談時(shí)對(duì)這個(gè)技術(shù)成果的評(píng)價(jià)是:“在美國(guó)每天發(fā)生的大量創(chuàng)新里,這是非常普通的一個(gè)?!?/p>

V3 與 R1 之后,梁文鋒暫時(shí)還沒(méi)有對(duì)外發(fā)過(guò)聲,但對(duì) DeepSeek 與梁文鋒來(lái)說(shuō),在完全實(shí)現(xiàn) AGI 之前,或許 V3 與 R1 的創(chuàng)新也只是“非常普通的一個(gè)”。——這并非否定后兩者的突破與可取之處,而是想突出高追求的團(tuán)隊(duì)往往會(huì)將 100 分的事情說(shuō)成 80 分,并永遠(yuǎn)追求附加分。

R1 發(fā)布,業(yè)內(nèi)的一位資深強(qiáng)化學(xué)習(xí)學(xué)者向 AI 科技評(píng)論分析時(shí)表示:“用純 RL 算法代替 RL+SFT 的范式后,我覺(jué)得 AGI 的實(shí)現(xiàn)最晚三年?!?/p>

Sam Altman 說(shuō) 2025 年 AI 就會(huì)超越人類,馬斯克也說(shuō) AGI 最晚在 2026 年就可以實(shí)現(xiàn)?!诟鞣N“AGI時(shí)間點(diǎn)”的預(yù)言上,雖然我們很難判斷具體會(huì)在什么時(shí)候發(fā)生,但可以感受到這樣的大趨勢(shì)正在發(fā)生。

趨勢(shì)已知,同時(shí) DeepSeek 的打板已經(jīng)讓大家意識(shí)到起碼兩個(gè)事實(shí):一是 AGI 的技術(shù)還沒(méi)到天花板,二是中國(guó)的科技團(tuán)隊(duì)有能力做出引領(lǐng)世界 AGI 的創(chuàng)新。相比沉浸于 DeepSeek 的勝利,接下來(lái)怎么推動(dòng)中國(guó) AGI 的發(fā)展,才是更重要的事情。

在過(guò)去的半個(gè)月,DeepSeek 的風(fēng)暴讓大廠、創(chuàng)業(yè)公司、算力廠商、投資人等對(duì) AGI 發(fā)展的認(rèn)知都產(chǎn)生了新的變化。一些過(guò)去被忽視的大象般的問(wèn)題重新得到重視,同時(shí)一些過(guò)去的陳舊看法也被顛覆。但一致的變化是:所有人都意識(shí)到,在現(xiàn)階段,AGI 的實(shí)現(xiàn)仍需要理想主義。

相比猜測(cè) OpenAI 或 DeepSeek 下一步會(huì)做什么,推斷 AGI 需要解決什么技術(shù)問(wèn)題更重要。換言之,創(chuàng)新比模仿更重要。

事實(shí)上,根據(jù)過(guò)去一年 AI 科技評(píng)論的訪談,除了 DeepSeek,國(guó)內(nèi)也有不少 AI 人才在不斷堅(jiān)持創(chuàng)新、不斷提出新的解法來(lái)解決懸而未決的難題。只列舉一二:

香港大學(xué)計(jì)算與數(shù)據(jù)科學(xué)研究院院長(zhǎng)馬毅教授在過(guò)去兩年一直強(qiáng)調(diào):當(dāng)前通過(guò)高算力推進(jìn)訓(xùn)練的大模型擁有的是知識(shí)、而非智能。區(qū)別于深度學(xué)習(xí)的黑盒特質(zhì),馬毅團(tuán)隊(duì)一直致力于研究可解釋、可控制的人工智能算法與框架(白盒理論)。(更多信息可以閱讀 AI 科技評(píng)論往期報(bào)道:《港大馬毅:現(xiàn)在大模型的「知識(shí)」,不等同于「智能」》)

CNCC 2024 上,智譜唐杰提到多模態(tài)技術(shù)的下一步發(fā)展。從 2021 年開始,智譜團(tuán)隊(duì)就開始探索多模態(tài)大模型。據(jù)智譜團(tuán)隊(duì)透露,在早期探索中,他們遇到過(guò)類似的問(wèn)題:文本、圖像、語(yǔ)音與視頻等多模態(tài)數(shù)據(jù)同時(shí)灌入訓(xùn)練大模型時(shí),一個(gè)模態(tài)的數(shù)據(jù)似乎會(huì)削弱另一個(gè)模態(tài)的知識(shí)/智能。多模態(tài)雖然趨勢(shì),但如何優(yōu)化跨模態(tài)的數(shù)據(jù)對(duì)齊、收集高質(zhì)量的數(shù)據(jù)、以及增強(qiáng)多模態(tài)模型的常識(shí)與推理能力等,也仍有很強(qiáng)的研究空間。(更多內(nèi)容可以閱讀雷峰網(wǎng)往期報(bào)道:《五道口大模型簡(jiǎn)史》)

而據(jù) 2024 年 3 月與面壁團(tuán)隊(duì)多位創(chuàng)始成員的交流,當(dāng)前主流的大模型架構(gòu)其實(shí)還無(wú)法很好地解決幾個(gè)關(guān)鍵問(wèn)題,由此難以靠近 AGI:如經(jīng)驗(yàn)學(xué)習(xí)與空間記憶。例如人可以通過(guò)多次學(xué)習(xí)一件事而更熟練,或者迅速熟悉新環(huán)境、并將另一個(gè)問(wèn)題的認(rèn)知有效遷移到新環(huán)境中。這些問(wèn)題是當(dāng)前 Transformer 不太好表達(dá)的。(更多內(nèi)容可以閱讀 AI 科技評(píng)論往期報(bào)道:《被低估的面壁:打造出不輸 OpenAI 的 Scaling Law 曲線》)

隨著具身智能的發(fā)展,接下來(lái) AGI 也天然分會(huì)分為云端 AGI 與端側(cè) AGI。端側(cè) AGI 指的是天然能感知環(huán)境與進(jìn)行做高階推理,并能基于高階推理做出復(fù)雜多步的決策的模型。熱門的具身大小腦就是沿著這一趨勢(shì)發(fā)展,而這一方向也仍有許多問(wèn)題要解決。要解決這些問(wèn)題,除了資源,還要有強(qiáng)烈的技術(shù)實(shí)力與技術(shù)愿景。

o1 發(fā)布后,大模型領(lǐng)域的許多研究開始往推理走,但據(jù)小道消息:谷歌的 Gemini 團(tuán)隊(duì)近日已完成了新一代的基礎(chǔ)模型,并對(duì)一小部分用戶開放了測(cè)試。

雖然 2023 年谷歌被 OpenAI 打得股價(jià)暴跌,但如果看 2020 年 6 月到 2022 年期間谷歌的大模型技術(shù),就可以發(fā)現(xiàn)谷歌的大模型打法是自下而上構(gòu)建從底層算力、架構(gòu)到上層算法的體系。這或許也是谷歌 Gemini 能后來(lái)發(fā)力的重要原因。

DeepSeek 的路徑也是如此。根據(jù) DeepSeek 的技術(shù)披露,其研究大模型的路徑也是從底層萬(wàn)卡集群、HAI 框架向上貫穿,構(gòu)建環(huán)環(huán)相扣的技術(shù)體系。

對(duì)權(quán)威保持警惕、永遠(yuǎn)從問(wèn)題的本質(zhì)倒推,堅(jiān)定創(chuàng)新,才能引領(lǐng)潮流。短期的快錢或許會(huì)流向幸運(yùn)的人,但長(zhǎng)期的資源應(yīng)該流向那些擅長(zhǎng)將資源應(yīng)用到最好的團(tuán)隊(duì)。

希望 2025 年,中國(guó)不再只有一個(gè) DeepSeek。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

為什么中國(guó)只有一個(gè) DeepSeek?

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)