丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給陳彩嫻
發(fā)送

0

硅谷巨頭要學(xué)會接受:「DeepSeek 現(xiàn)象」只是開始

本文作者: 陳彩嫻   2025-01-31 20:57
導(dǎo)語:AI 的星星之火已經(jīng)開始燎原,難以再被撲滅。

2025 年的春節(jié)無疑已被 DeepSeek 霸屏。

過去三年每年的春節(jié)都有一次重磅的 AI 討論:2023 年是 ChatGPT、2024 年是 Sora,這兩股風(fēng)潮都是由 OpenAI 掀起,而 2025 年則是 DeepSeek 的 V3 與 R1。

除夕當(dāng)天 1 月 28 日,DeepSeek 更是趁熱發(fā)布了文生圖模型 Janus-Pro,但后者沒有 V3 與 R1 吸引的關(guān)注大,原因在于其沒有像前者一樣動搖了過去基座大模型的「奇跡」來源:算力。

DeepSeek V3 的參數(shù)規(guī)模是 6710 億,訓(xùn)練成本不到 560 萬美元,訓(xùn)練時長在 280 萬 GPU 小時。相比之下,GPT-4o 的訓(xùn)練成本約為 1 億美元,Llama 3 405B 訓(xùn)練時長則為 3080 萬 GPU 小時。

Meta 的 Llama 3 是用 16000 張 H00 訓(xùn)練,此前還計劃在 2024 年囤卡 60 萬張英偉達 GPU 去做模型升級;馬斯克創(chuàng)立的 XAI 甚至囤卡 10 萬張 H100 建數(shù)據(jù)中心。

根據(jù)媒體報道,DeepSeek V3 與 R1 發(fā)布后,Meta 在內(nèi)的多家硅谷企業(yè)受到極大震撼,并開始質(zhì)疑以往 OpenAI「大力出奇跡」的成功方法論,引起硅谷多家科技巨頭的暴跌,比如英偉達一夜之間被干掉 4.3 萬億市值,相當(dāng)于騰訊與美團兩家中國互聯(lián)網(wǎng)巨頭加起來的市值。

對于 DeepSeek 帶來的震撼,業(yè)界不難聯(lián)想到「漂亮國將出臺一系列制裁政策」等等往日常規(guī)反應(yīng)。

值得注意的是,在 DeepSeek 給硅谷帶來地震的不久前,1 月 15 日,美國才剛將中國最早的大模型創(chuàng)業(yè)公司「智譜 AI」列入實體清單。AI 1.0 時代,商湯、曠視等企業(yè)也被美國列入實體清單。被列入實體清單的一大掣肘就是難以購買海外英偉達生產(chǎn)制造的 GPU,其在短期內(nèi)仍是基座大模型訓(xùn)練升級的一個重要條件。但 DeepSeek 的崛起證明了:

無論他們采取怎樣的「卡脖子」措施,都無法阻止中國 AI 技術(shù)的持續(xù)創(chuàng)新。

他們將智譜列入實體清單,但沒想到 DeepSeek 緊隨其后,并且采用了更低的訓(xùn)練成本去做模型更新與開源。同樣,哪怕他們再繼續(xù)將 DeepSeek 列入清單,致力于開源的中國模型廠商還有面壁、智譜、階躍等等團隊不斷推陳出新。

另一個值得注意的事實是:OpenAI 在 2024 年 9 月發(fā)布推理模型 o1,但 DeepSeek 在不到 4 個月后發(fā)布的 R1 就已經(jīng)能媲美 o1。這意味著,中國在大模型上的 AI 能力已經(jīng)與美國的時間差距越來越小,從 2023 年到 2024 年底,這個時間差從超過一年縮短為 4 個月。

加上多位 OpenAI 前員工作證 DeepSeek 的 R1 獨立發(fā)現(xiàn)并實現(xiàn)了 o1 的一些獨特思想,也意味著 2025 年中國大模型的創(chuàng)新會更加獨立、超前,不再是跟隨、而是獨創(chuàng)。

AI 的星星之火已經(jīng)開始燎原,難以再被撲滅。

燎原之勢

DeepSeek 在硅谷引起的震蕩,驗證了海外對中國 AI 技術(shù)創(chuàng)新的「始料未及」,同時也驗證了中國 AI 創(chuàng)新的可能性與巨大潛力。

此前在多數(shù)人包括國人的心中,中國的大模型沒有獨立創(chuàng)新能力,要跟隨海外頂尖團隊的步伐。也是因此,DeepSeek 帶來的震撼才會如此之大。設(shè)想一下,如果是 OpenAI、Anthropic 或谷歌等美國公司發(fā)布了相似的成果,2025 年春節(jié)還會這么熱鬧嗎?

正是因為競爭來自從前未曾意料到的對手,昔日的巨人才會被打得措手不及。

值得注意的是,在被忽視或吐槽的一年中,2024 年中國的大模型已經(jīng)跋涉千里,且不像海外,國內(nèi)多家創(chuàng)業(yè)公司的模型像 DeepSeek 一樣都是開源的。2023 年被稱為「百模大戰(zhàn)」,主要集中在單一的文本模態(tài),但 2024 年的模型更新實則更猛:不僅數(shù)量更多,模態(tài)、尺寸、性能覆蓋也更多。

海外團隊必須開始正視一個既定事實:昔日他們眼中的技術(shù)「矮子」已茁壯成長,并可能成為下一個「巨人」。

筆者粗略統(tǒng)計了一下,除去字節(jié)、阿里、百度等大廠,從 2024 年到 2025 年 1 月,單單是大模型創(chuàng)業(yè)公司就發(fā)布了超 50 個模型數(shù)量。

先看第一梯隊中兩個對標 OpenAI、角逐基座模型的廠商智譜與階躍:

2024 年,智譜一共發(fā)布與升級了超 10 款基座模型,包括文本、圖像、語音、視頻、代碼生成等多個領(lǐng)域,如基座語言大模型 GLM-4 與 GLM-4-Plus,垂類模型 CharacterGLM(6B 開源)、AutoWebGLM,視覺大模型 CogVLM2,文生圖模型 CogView-3-Plus、圖像/視頻理解模型GLM-4V-Plus、視頻生成模型 CogVideoX,端到端語音大模型 GLM-4-Voice,CogVideoX系列模型(2B、5B、5B-I2V)等等。

智譜還開源多款模型,包括 GLM-4-9B、CodeGeeX 第四代模型、Video版CogVLM2、CogVideoX-2B與5B、CogAgent-9B、CogVideoX v1.5-5B 與 CogVideo v1.5-5B-I2V 等等超 10 款模型。1 月被列入實體清單后,智譜更發(fā)布了端到端模型 GLM-Realtime,同步升級了 GLM-4-Air 和 GLM-4V-Plus 模型。

而階躍星辰在 2024 年發(fā)布了超 8 款模型,包括多模態(tài)大模型 Step-1V 與 Step-1.5V、圖像生成大模型 Step-1X、視頻理解模型 Step-1.5v-turbo、視頻生成模型 Step-Video、語音復(fù)刻和生成大模型 Step-tts-mini、語音識別大模型 Step-asr 與語音大模型 Step-1o Audio。2025 年 1 月,階躍又更新發(fā)布升級了 6 款模型,包括多模態(tài)理解模型 Step-1o vision、語音模型 Steo-1o Audio 升級、視頻生成模型 Step-Video 升級至 V2 版,發(fā)布了 Step 系列的首款推理模型 Step Reasoner mini,以及小模型 Step R-mini 和 Step-2 文學(xué)大師版。

即使是在外界看來專注 C 端產(chǎn)品應(yīng)用的月之暗面與 MiniMax,也發(fā)布了多款產(chǎn)品:

月之暗面發(fā)布了 K0-math、Moonshot-v1 系列文本與多模態(tài)模型。MiniMax 發(fā)布了同是 MoE 架構(gòu)的千億參數(shù)模型 abab6 與萬億參數(shù)模型 abab6.5,2025 年 1 月又發(fā)布了基礎(chǔ)語言大模型 MiniMax-Text-01、視覺多模態(tài)大模型 MiniMax-VL-01、視頻模型 S2V-01、語音模型T2A-01,并首度開源。

專注醫(yī)療與行業(yè)應(yīng)用的百川智能也發(fā)布了超千億參數(shù)模型 Baichuan 3、Baichuan 4 等模型,但沒有開源。

除智譜外,另一家一直與 DeepSeek 相提并論的是清華團隊面壁智能。此前,面壁小鋼炮模型被斯坦福團隊抄襲,在圈內(nèi)引起轟動,其與 DeepSeek 一樣押注模型的高效訓(xùn)練,一樣開拓了模型架構(gòu)的稀疏化創(chuàng)新路線,并通過端側(cè)小模型驗證了其所提出的「Densing Law」(即模型的能力每 3.3 個月翻一番),2024 年以來發(fā)布了 8 款基座模型、多模態(tài)模型,陸續(xù)把 GPT-4V、GPT-4o 等巨無霸標桿進行極致智能壓縮,放到了迷你尺寸的端側(cè)模型上。在芯片禁令下,這兩家因高效低成本技術(shù)探索,從去年就雙雙成為外媒重點關(guān)注對象。(想進一步了解的讀者可以閱讀《大模型隱藏玩家上桌:DeepSeek 向左,面壁向右》)

同樣,面壁智能的模型也對外開源,與 DeepSeek、通義千問在海外被統(tǒng)稱中國大模型的「開源三劍客」。DeepSeek 的崛起被認為不僅是中國大模型與美國大模型的對抗,也是開源模型與閉源模型的對抗——答案顯而易見,開源模型更勝一籌。

以 50 款基座模型的更新速度來計算,2024 年中國大模型圈平均每個月發(fā)布或升級 4-5 個 AI 模型,其中 1/3 在 GitHub 與 Hugging Face 上開源。綜合種種,不難推斷,美國想要通過管制人才、芯片等方式來遏制中國 AI 技術(shù)發(fā)展的時代已經(jīng)過去。

海外需要接受中國技術(shù)創(chuàng)新力量的崛起是既定事實,國人也要對國產(chǎn)創(chuàng)新有更大的信心。

黑馬賽出,競爭生變

雷峰網(wǎng)(公眾號:雷峰網(wǎng))創(chuàng)始人林軍在書寫中國科技史的過程中,通過觀察中國互聯(lián)網(wǎng)與移動互聯(lián)網(wǎng)的崛起,總結(jié)出一個規(guī)律,其認為:每個時代角逐到最后,往往只有四類企業(yè)各憑本事勝出,一類是靠資本/資源,一類靠商業(yè)模式,一類靠技術(shù)/產(chǎn)品的創(chuàng)新,以及永遠有一類是所有人都想不到的黑馬。

這個規(guī)律可以對應(yīng) PC 互聯(lián)網(wǎng)與移動互聯(lián)網(wǎng)時代的所有終局者,AI 時代也大約不會有太大的變化。大模型的競爭還未塵埃落定,最終贏家還未確定,但 DeepSeek 無疑已經(jīng)是業(yè)內(nèi)公認的一匹黑馬,其 V3 與 R1 帶來的影響甚至遠超 OpenAI 的 o1。

根據(jù)相關(guān)消息,DeepSeek 至今仍未計劃對外融資,其主要依托幻方與梁文鋒個人輸血,但對中國其他大模型公司的融資與戰(zhàn)略也將帶來不小的震撼。據(jù)筆者觀察,春節(jié)期間不僅硅谷動蕩,國內(nèi)其他幾家主流的大模型公司也在加班拆解 DeepSeek 的模型秘籍。

DeepSeek 的崛起,肉眼可見將從以下幾個角度影響中國大模型的競爭:

首先是技術(shù)創(chuàng)新的天花板被拉高。

DeepSeek 不是第一家提出「要在 OpenAI 以外創(chuàng)新」的大模型團隊,此前其他國產(chǎn)大模型團隊的創(chuàng)始人也提出過相似的觀點,但 DeepSeek 是第一家通過發(fā)布新技術(shù)、身體力行踐行了這一觀點的團隊。

V3 證明了訓(xùn)練千億基座大模型的成本可以進一步將下降,R1 的獨創(chuàng)(如完全用強化學(xué)習(xí)替代 SFT)證明了 OpenAI 并不是唯一能夠提出 AGI 解法的公司。盡管 GPT-5 遲遲未發(fā)布、大模型一度被認為已停滯不前,但 DeepSeek 在近兩個月的研究突破表明:大模型的潛在技術(shù)空間仍然是非常大的。

放棄預(yù)訓(xùn)練的團隊,或許是資源不足,也或許是技術(shù)創(chuàng)新力不夠。這也驗證了大模型的技術(shù)創(chuàng)新在短期內(nèi)存在高壁壘,應(yīng)心存敬畏。

其次是「高效訓(xùn)練」的概念將得到重視。

在當(dāng)前的第一梯隊大模型公司中,「高效訓(xùn)練」并不占主流觀點。例如,MiniMax 的大模型雖然也是采用 MoE 架構(gòu),但在其他高效訓(xùn)練的方法創(chuàng)新上不見明顯發(fā)力。反而是第二梯隊的面壁智能一度通過端側(cè)模型引起業(yè)內(nèi)關(guān)注。但在 DeepSeek 受追捧前,即使面壁智能、乃至一切企圖顛覆 Transformer 架構(gòu)的基座模型研究都不受重視。

此前大算力訓(xùn)練是基座模型廠商融資與構(gòu)建壁壘的競爭砝碼,但 DeepSeek V3 的參數(shù)規(guī)模為 6710 億、訓(xùn)練成本卻不足 560 萬美金,過去大算力出奇跡的粗放方式也受到了質(zhì)疑。接下來,高效模型不僅是 DeepSeek、面壁與通義等開源擁躉的追求,在其他模型團隊的優(yōu)先級上也會更加靠前。

高效訓(xùn)練的目標在于用更小的參數(shù)規(guī)模、更小的訓(xùn)練成本來實現(xiàn)更高的性能。以面壁小鋼炮系列為例:MiniCPM 3.0 只有 4B 參數(shù)就能帶來超越 GPT-3.5 的性能,量化后的內(nèi)存僅 2GB;MiniCPM-o 2.6 的參數(shù)規(guī)模僅 8B 就逼近了 GPT-4o,而且實現(xiàn)了實時流式的全模態(tài)看聽說,在“真視頻”等很多功能上達到了以端勝云的效果。

DeepSeek 有訓(xùn)練條件,此前傳出有一萬張卡,其做法是先做大再做小,而面壁智能由于融資與算力所限,并沒有采取先做大再做小的方法,而是直接做端側(cè)小模型。蒸餾后的小模型更擅長特定任務(wù),在部分任務(wù)上的表現(xiàn)或不如通用模型,但在個人移動設(shè)備的部署上已綽綽有余。未來或許可以結(jié)合定制化芯片開拓出新的市場。

此外,大模型技術(shù)與產(chǎn)品創(chuàng)新的分野會更明顯。

事實上,在 DeepSeek 火爆之前,大模型的應(yīng)用與技術(shù)競爭就已出現(xiàn)分流;DeepSeek 火爆后,分野會更加明顯,且由于 DeepSeek 的模型均是開源,交付模型的商業(yè)模式或?qū)a(chǎn)生新的變動。

在 2023 年到 2024 年上半年,由于基座模型的進展較慢,交付基座模型與行業(yè)模型的商業(yè)模式尚有利潤空間。雖然這一模式?jīng)]有打破 AI 1.0 的范式,但其對創(chuàng)業(yè)公司的迅速增收是十分有利的。但隨著 Llama 等開源模型的興起,加上 DeepSeek 的開源,模型中文任務(wù)能力的信息差也被打破,模型的商業(yè)價格在開源的免費價格前失去優(yōu)勢,商業(yè)模式也或不復(fù)存在。

如前所述,DeepSeek 的技術(shù)創(chuàng)新仍具有高壁壘,而技術(shù)的創(chuàng)新根源還是在人才。國內(nèi)最頂尖的計算機人才在清華,傳聞 DeepSeek 的研究團隊也主要以清北競賽人才為主,這意味著能夠繼續(xù)參與基座大模型競爭的團隊也將越來越精、同時越來越少。

國內(nèi)除了 DeepSeek,另外集結(jié)了較多清北畢業(yè)生的團隊只有智譜、面壁、月之暗面與階躍。這也意味著,2025 年,大模型創(chuàng)業(yè)公司的格局或許還會進一步生變。此外,2024 年字節(jié)跳動也重金挖了很多牛人,但字節(jié)本就財大氣粗,不作更多討論。

除了技術(shù)創(chuàng)新,產(chǎn)品想象力將成為 2025 年與之后參與大模型市場的主要條件。除了技術(shù)創(chuàng)新,通過攏資源、商業(yè)模式與產(chǎn)品創(chuàng)新來取勝,也是更多創(chuàng)業(yè)團隊的形勢所驅(qū)。

舉例來說,MiniMax 雖然沒有在技術(shù)上取得頭籌、但其仍受到業(yè)界追捧的一個重要原因,就是在于產(chǎn)品與商業(yè)模式的創(chuàng)新,在 C 端與出海上都領(lǐng)先其他團隊。如外媒報道屬實,MiniMax 在 2024 年的營收超過 7000 萬美金,將是國內(nèi)營收最高的大模型創(chuàng)業(yè)公司。

加上 DeepSeek 強大基座模型的開源,AI 產(chǎn)品的創(chuàng)新動力也會更大。卷不起基座模型的創(chuàng)業(yè)團隊將更多的精力放在卷產(chǎn)品與應(yīng)用上,也不失為市場的幸運。

當(dāng)前業(yè)內(nèi)心照不宣的觀點是:靠產(chǎn)品與商業(yè)模式取勝的前景遠比技術(shù)創(chuàng)新取勝更大。

以 AI 1.0 時代的一家獨角獸為例,其上市前估值 2000 億港幣、開盤后 800 多億,最低跌到 200 多億,如今只有 500 多億。如果單靠技術(shù)創(chuàng)新與傳統(tǒng)的商業(yè)模式來盈利,多位 VC 認為技術(shù)驅(qū)動的大模型公司也無法打破上一代獨角獸的天花板。雷峰網(wǎng)

對于大模型企業(yè)來說,可參考的發(fā)展對象是上一代 AI 獨角獸。因此,當(dāng)前哪怕是智譜、階躍等被視為技術(shù)主導(dǎo)的大模型公司在商業(yè)模式上也不斷求新,并謀求突破 C 端的應(yīng)用與收入。

最后,是中美 AI 的較量會得到重新思考。

隨著 DeepSeek 與面壁等團隊在高效訓(xùn)練上的成功實踐,被 GPU 卡脖子的危機也將降低,國產(chǎn)模型與應(yīng)用的更新自主性也會加大。

如前所述,此前國產(chǎn)大模型在訓(xùn)練上受到 GPU 數(shù)量與規(guī)模的限制,大家在思考破局之路時也是首先從芯片端入手,但無奈國產(chǎn)芯片的進展遲遲無法替代英偉達。但 DeepSeek 的 V3 發(fā)布后,大家開始注意到:算法架構(gòu)的創(chuàng)新同樣可以實現(xiàn)大模型訓(xùn)練與部署的成本下降。雷峰網(wǎng)

例如,DeepSeek 的 R1 采用了混合專家模型(MoE)、多頭潛注意力(MLA)、多令牌預(yù)測(MTP)、長鏈式推理(CoT)、DualPipe 算法等設(shè)計,并進行了只采用 RL 而不作 SFT 的訓(xùn)練嘗試,但在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上性能比肩 OpenAI o1 正式版。

R1 的訓(xùn)練成本暫未披露,但不難推測其遠遠低于 o1 的訓(xùn)練成本。此前爆料 DeepSeek 的 GPU 卡規(guī)模是一萬,這個數(shù)字比國內(nèi)的許多大模型公司都多,可跟硅谷的多家巨頭比是「小巫見大巫」,但也未見 Meta 等團隊率先發(fā)布能夠媲美 o1 的模型。

同樣,先不論 DeepSeek,此前面壁也曾用一個 2.4B 的小模型 MiniCPM 實現(xiàn)了對標 Llama 2 13B 的性能,而前者具體數(shù)據(jù)的配比、參數(shù)配置是用十分之一甚至更小的模型訓(xùn)練、預(yù)測出的。這種以小見大的路徑證明了:當(dāng)參數(shù)潛力被激發(fā),小模型完全能使用更高效的訓(xùn)練方式實現(xiàn)更好的性能。

屆時,無論是 OpenAI、Anthropic 是否堅持閉源,或漂亮國堅持芯片出口的管制,在 DeepSeek、面壁這類團隊的研發(fā)創(chuàng)新下,用更小的算力成本來獨立開拓更強的 AI 模型都不再是天方夜譚,反而潛力與日俱增。

再加上國內(nèi) AI 人才培養(yǎng)較之十年前已是另一番模樣,且 AI 應(yīng)用爆發(fā)后,擅長推理的國產(chǎn)芯片呼之欲出,國產(chǎn) AI 的獨立創(chuàng)新、快速落地實則早已孕育胎中。身處局中的我們,要學(xué)會的第一件事,或許就是:AI 技術(shù)的民族自豪感。雷峰網(wǎng)


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

硅谷巨頭要學(xué)會接受:「DeepSeek 現(xiàn)象」只是開始

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說