硅基向左，潞晨向右

本文作者：朱可軒

2024-08-23 09:50

導(dǎo)語：它們都在努力打破市場的認(rèn)知天花板。

如果將大模型應(yīng)用開發(fā)比做“淘金”，那么構(gòu)建大模型基座所必需的算力和工具體系，則是不可或缺的“鏟子”。

俗話說，淘金先富賣鏟人，誰都想在這場 AI 浪潮中“分一杯羹”，不光巨頭在爭當(dāng)“賣鏟人”，也有不少創(chuàng)業(yè)公司從中發(fā)現(xiàn)了新的機(jī)遇。

其中，在加速計算賽道，袁進(jìn)輝帶領(lǐng)的硅基流動與尤洋創(chuàng)辦的潞晨科技可謂典型代表，在他們之外，國內(nèi)早期能做出分布式系統(tǒng)的團(tuán)隊并不多。

然而，雖然賽道相同，二者卻屢屢選擇不同的分岔路口——

從時間線上來看，2017 年開啟創(chuàng)業(yè)之旅的袁進(jìn)輝選擇了打破壟斷、挑戰(zhàn)巨頭 Meta，其所帶領(lǐng)的 OneFlow 也以 Pytorch“挑戰(zhàn)者”的姿態(tài)登場，從頭自研訓(xùn)練框架。

而 2021年正式入局的尤洋，則選擇了一種更為審慎而高效的方式——在PyTorch這一成熟框架的基礎(chǔ)上，進(jìn)行分布式計算的創(chuàng)新與開發(fā)。

這也是早期在聚焦訓(xùn)練時，二者最明顯的區(qū)別所在。如今，大模型“卷”入下半場，重視推理已成為業(yè)內(nèi)共識。

值此之際，二者在打法上又出現(xiàn)了些許差異。延續(xù)團(tuán)隊早期的思路，硅基流動的推理框架 SiliconLLM 仍是獨立于主流框架 vLLM 和 TensorRT-LLM 外的第三套系統(tǒng)，潞晨科技則專注基于 Colossal-AI 框架進(jìn)行優(yōu)化。

值得一提的是，為推進(jìn)商業(yè)化進(jìn)程，潞晨科技進(jìn)一步拓展了產(chǎn)品版圖，正式推出了文生視頻大模型 Open-Sora。對比而言，硅基流動則并未公開過大模型。

而在云平臺業(yè)務(wù)的開展上，硅基流動無需租用云資源并下載模型，潞晨科技則選擇了開展算力租賃業(yè)務(wù)，在此基礎(chǔ)上輔助模型訓(xùn)練、微調(diào)、推理加速。

二者做出不同選擇的原因為何？分別又是如何在下半場繼續(xù)扮演好“賣鏟人”角色的呢？

站在前人的肩膀上

在分布式深度學(xué)習(xí)框架的創(chuàng)業(yè)領(lǐng)域，真正能夠?qū)崿F(xiàn)突破的團(tuán)隊寥寥無幾，袁進(jìn)輝和尤洋可以說是最早出發(fā)的那一批人。

2016年，尤洋開始涉足分布式計算領(lǐng)域，當(dāng)時，業(yè)界主流還集中在異步計算的分布式技術(shù)上。

同在這一年，袁進(jìn)輝也在與圈內(nèi)人討論時提到，當(dāng)深度學(xué)習(xí)模型的參數(shù)變得越來越大后，模型的訓(xùn)練就不是TensorFlow、MXNet 或 Caffe 等框架能駕馭的。

但那時的 AI 領(lǐng)域還沒有出現(xiàn)參數(shù)量極大的深度學(xué)習(xí)模型，所以也有許多人認(rèn)為這個觀點不成立。

2017 年 1 月，袁進(jìn)輝帶著團(tuán)隊正式啟程創(chuàng)業(yè)，他親自命名并在北京創(chuàng)辦了 OneFlow。

彼時的 OneFlow 重新定義了分布式計算的實現(xiàn)方式，實現(xiàn)了讓多卡分布式系統(tǒng)編程變得像單卡一樣直觀和便捷。

OneFlow 所做的底層框架，雖然 API 與 PyTorch 相同，但底層的算子實現(xiàn)與框架從上到下的每一份代碼都是袁進(jìn)輝帶領(lǐng)團(tuán)隊自己寫的。

甚至后來在 2022 年，PyTorch 的 DiscreteTensor 在分布式上也借鑒了 OneFlow 的 GlobalTensor。

硅基向左，潞晨向右 2022 年P(guān)ytorch創(chuàng)始人之一 Soumith Chintala 的推文

時間回到 2020 年6 月，當(dāng)時，OpenAI 發(fā)布了全球規(guī)模最大的預(yù)訓(xùn)練語言模型 GPT-3，驗證了袁進(jìn)輝早期觀點的正確性。

也就是在這年，尤洋帶來了潞晨科技的新故事，彼時研究高性能計算的他剛剛從美國加利福尼亞大學(xué)伯克利分校畢業(yè)并獲得博士學(xué)位。

而面對 GPT-3 的出世，尤洋也有一種預(yù)判——未來大模型很重要，限制大模型在各行業(yè)落地的難點肯定是計算成本。他也因此萌生了開展大模型相關(guān)創(chuàng)業(yè)的想法。

直到 2021 年，尤洋的這一想法才正式落地。7 月，他創(chuàng)辦了潞晨科技，并帶領(lǐng)團(tuán)隊進(jìn)一步推動了分布式計算的邊界。

不同于袁進(jìn)輝從頭自研框架的思路，同樣瞄準(zhǔn)加速計算賽道，尤洋帶領(lǐng)的潞晨科技則選擇了直接基于 PyTorch 打造大模型訓(xùn)練推理加速系統(tǒng) Colossal-AI。

分布底層的 API 調(diào)用也是 PyTorch，尤洋及其團(tuán)隊所做的主要是將上層的算子重寫并優(yōu)化通信效率及顯存占用，讓分布式計算更加高效和易于使用。

基于此，Colossal-AI 系統(tǒng)提供統(tǒng)一的并行訓(xùn)練推理系統(tǒng)，以幫助開發(fā)者實現(xiàn)數(shù)據(jù)并行、管道并行、張量并行和序列并行等多種并行技術(shù)的無縫集成。

相當(dāng)于站在前人肩膀上，潞晨科技在 PyTorch 基礎(chǔ)上重新實現(xiàn)了分布式，所做的內(nèi)容也更貼近開源社區(qū)。

對于其中緣由，尤洋曾經(jīng)向 AI 科技評論解釋稱，“一方面，把開源社區(qū)做好，確實創(chuàng)造了更大的價值，即使免費也有很多人用；另一方面，公司最終肯定是想上市的，本質(zhì)上 AI 在 To B 方面最核心的競爭力是要和用戶建立強(qiáng)信任綁定關(guān)系。”

而 PyTorch 的大眾化程度，也使得潞晨科技更易于被接受，與之相比，OneFlow 則較為小眾，吸引開發(fā)者的難度相對較高，就此形成了二者早期的差異。

最終，OneFlow 在取代 PyTorch 的“擂臺賽”中，還是“輸”在了生態(tài)上。

“有亮點但不足以扭轉(zhuǎn)局面?！痹M(jìn)輝曾這樣評價，“ PyTorch 生態(tài)和上下游完備，綜合來說，肯定是基于 PyTorch 去做事情，更有利于產(chǎn)品的推廣。”

除此之外，也有業(yè)內(nèi)人士告訴 AI 科技評論，“OneFlow 不依賴開源社區(qū)，很多基座都是自己做的，所以很多公司如果模型是用 PyTorch 寫的，就不太可能會用 OneFlow，除非 OneFlow 跟這家公司或者其他大廠合作?！?。

盡管如此，袁進(jìn)輝仍舊十分樂觀：“雖然工業(yè)標(biāo)準(zhǔn)沒有弄成 PyTorch 的標(biāo)準(zhǔn)地位，但還是把技術(shù)的一個無人區(qū)、沒人探索的東西提前好幾年做了，后面也變成真正流行開來。”

歸根到底，技術(shù)是“敲門磚”，二者的技術(shù)實力都毋庸置疑。

但是，有技術(shù)遠(yuǎn)遠(yuǎn)不夠，如何盈利同樣關(guān)鍵，而這也是 AI 賽道一眾創(chuàng)業(yè)公司最難解的“題”。

2020年，在 OneFlow 時期，袁進(jìn)輝帶領(lǐng)團(tuán)隊做過很多嘗試——推出過大規(guī)模模型訓(xùn)練開源工具箱 Libai（李白）等產(chǎn)品，做過面向領(lǐng)域的加速方案，也有如 AI 開發(fā)平臺 OneBrain 等產(chǎn)品。

此后，好不容易找到突破口，卻因缺少條件或錯過時間點，使得推廣困難、商業(yè)化步伐緩慢。最終，OneFlow 還是沒能形成收入。

時間來到 2021 年，這一年，是 AI Infra 和開源投資的熱潮期，高瓴資本也在這時投資了 OneFlow，袁進(jìn)輝卻并未多拿錢，他還是希望先精進(jìn)好技術(shù)后再融資。

但是，機(jī)會不等人，待到次年技術(shù)足夠耀眼時，資本卻先一步冷靜下來了。實力之上，袁進(jìn)輝終究缺了點運氣。

2023 年，隨著 ChatGPT 的橫空出世，“百模大戰(zhàn)”打響第一槍。而由于大模型有一定門檻，袁進(jìn)輝在綜合考慮資金、資源整合和商業(yè)化問題后，選擇了和王慧文合作，OneFlow 并入光年之外。

他們二人并肩作戰(zhàn)的時日也并不長，同年，光年之外被美團(tuán)收購，堅定創(chuàng)業(yè)理想的袁進(jìn)輝則選擇了出走另起爐灶。

談及其中緣由，袁進(jìn)輝曾反思道，“技術(shù)上的好奇心在 OneFlow 時期已滿足，還未滿足的、未完成的愿望追求主要是商業(yè)層面。作為一個創(chuàng)業(yè)公司，本質(zhì)上最終要看商業(yè)成功，還是要讓客戶用真金白銀來投票?！?/p>

于是，他帶著商業(yè)理想再出發(fā)，今年初，硅基流動（SilliconFlow）正式成立。

同樣是在 2023 年，潞晨科技的商業(yè)化情況卻比 OneFlow 要理想許多。

“Colossal-AI 訓(xùn)練大模型的路線已經(jīng)在掙錢，”尤洋此前向 AI 科技評論透露，“現(xiàn)在我們已經(jīng)有很多世界 500 強(qiáng)、2000 強(qiáng)的客戶，包括國內(nèi)這幾家創(chuàng)業(yè)公司都是我們的潛在客戶，像阿里通義千問、百度文心一言、MiniMax 可能都用過 Colossal-AI 了?！?/p>

潞晨科技此前為什么能盈利？原因有兩點?！耙皇锹撼康膬r格比其他公司便宜，二是潞晨不單單提供大模型的構(gòu)建能力，還提供底層 AI Infra 的訓(xùn)練能力?！敝槿耸肯?AI 科技評論分析。

下半場的發(fā)展機(jī)遇

發(fā)展至今，“百模大戰(zhàn)”已然步入下半場，但軟件在中國的商業(yè)化依舊是行業(yè)待解的“難題”。

不過，袁進(jìn)輝始終抱著樂觀的心態(tài)：國內(nèi)軟件商業(yè)化的道路并非不存在，只是現(xiàn)在還沒有人摸索出來一條清晰可行的路徑。

目前，從行業(yè)共識上來看，基于軟件做產(chǎn)品和商業(yè)模式上的探索，需要將軟件和用戶不得不付費的東西結(jié)合在一起才可行。

基于此，訓(xùn)推一體機(jī)和將軟件與云、算力綁定兩種方式，成為了硅基和潞晨不約而同的選擇。

一體機(jī)的路線已經(jīng)被驗證過，是行得通的。

就當(dāng)下情況來看，在國內(nèi)如若只賣“鏟子”，很多廠商不會買賬，最好的解法便是將訓(xùn)練與推理做成一整套工具箱，再配合大模型去賣。

國內(nèi)客戶偏好為軟硬一體付費，沿著這條路徑比單賣軟件情況會好一些，雖然從整體毛利來看，硬件占比居多，但對軟件的售賣是有益的。

這也同潞晨科技的轉(zhuǎn)型思路不謀而合——僅靠單一的訓(xùn)練工具提供，就算性能再強(qiáng)大也不足以站穩(wěn)腳跟，去年底，潞晨也嘗試推出了訓(xùn)推大模型一體機(jī)，為客戶提供整體的大模型訓(xùn)推方案。

值得一提的是，乘著 Sora 的“東風(fēng)”，潞晨科技進(jìn)一步拓展了業(yè)務(wù)版圖，正式入局了文生視頻大模型。

今年3月，潞晨科技宣布推出開源類 Sora 架構(gòu)多模態(tài)視頻模型——Open-Sora，一經(jīng)推出便得到業(yè)內(nèi)諸多關(guān)注，搶占大波市場熱度。

據(jù)其稱，Open-Sora 能夠降低 46% 復(fù)現(xiàn)成本，并將模型訓(xùn)練輸入序列長度擴(kuò)充至 819K patches。

7 月，Open-Sora 最新開源的 1.2 版本已經(jīng)可以單鏡頭生成最長 16s 的 720p 視頻。

為了與 Open-Sora 實現(xiàn)交互，潞晨科技還提供了可以自行一鍵部署的 Gradio 應(yīng)用。Gradio 作為一個 Python 包，允許開發(fā)者通過定義模型的輸入和輸出，自動生成一個網(wǎng)頁界面。

硅基向左，潞晨向右

潞晨科技推出的 Open-Sora

英雄所見略同，硅基流動也入局了一體機(jī)。

不過，在方式上還是和潞晨科技存在些許差異。硅基流動在大方向上的選擇相對容易——直接和他人合作做一體機(jī)，主打在服務(wù)器廠商做一體機(jī)時，將產(chǎn)品集成進(jìn)去再讓廠商付費。

同時，硅基流動本身也還未公開推出過大模型。

袁進(jìn)輝曾向 AI 科技評論分析，“現(xiàn)在模型逐漸收斂，其實大家的模型結(jié)構(gòu)幾乎一樣了，所以我們的新業(yè)務(wù)不追求非常通用的模型，重點就是支持經(jīng)濟(jì)價值、商業(yè)價值最大的模型?！?/p>

在大模型 API 云服務(wù)平臺 SiliconCloud 上，其文生視頻所采用的是智譜的開源 AI 視頻生成模型 CogVideoX-2B。文本對話、文生圖、圖生圖等其他多種功能，也均采用包括Llama3.1、 Qwen2、GLM4、DeepSeek、Flux.1、SDXL、PhotoMaker 等在內(nèi)的主流模型。

硅基向左，潞晨向右 SiliconCloud 文生視頻功能頁

這也是硅基流動基于云實現(xiàn)盈利的一套思路——推出大模型 API 按需付費的模式，無需租用云資源并下載模型而直接使用 SIliconCloud API，助力開發(fā)者加速開發(fā)生成式 AI 應(yīng)用。

目前，海外各個 AI Infra 公司都能夠通過云來盈利，照觀國內(nèi)，這條路徑也存在一定可行性。

無論是在公有云還是私有云上，一切都與算力掛鉤，所有做產(chǎn)品或應(yīng)用的客戶都要為 GPU、算力、云付費，因此可以把軟件和云或算力打包，以服務(wù)費用的形式盈利。

沿著這條路徑走，潞晨科技旗下的云平臺——潞晨云（https://cloud.luchentech.com），則選擇了開展算力租賃業(yè)務(wù)，在此基礎(chǔ)上輔助模型訓(xùn)練、微調(diào)、推理加速。

硅基向左，潞晨向右潞晨云所提供的服務(wù)

止于此不難發(fā)現(xiàn)，前述解法的核心均是推理引擎。

當(dāng)前，訓(xùn)練的“天花板”在整個行業(yè)的推動下已經(jīng)明確，而推理的實際水平與理論水平間仍存有較大差距。

舉例來講，大模型訓(xùn)練的算力利用率MFU理論上最多為 60% 左右，而當(dāng)前英偉達(dá)等企業(yè)通過聯(lián)合優(yōu)化，能實現(xiàn) 40%~50%，可提升空間僅剩下 10%~20% ，但推理的提升空間至少是十倍。

從成本方面考慮，訓(xùn)練大模型在資金、GPU 等方面的高門檻，讓對口的公司屈指可數(shù)，并且客戶集中、議價能力很強(qiáng)，創(chuàng)業(yè)公司的商業(yè)化并不好做。與之相比，有龐大的算力不是進(jìn)入推理Infra領(lǐng)域的前提條件。

此外，訓(xùn)練有階段性限制，數(shù)據(jù)集較為固定，而推理具有持續(xù)性，服務(wù)上線后數(shù)據(jù)是無止境的，只要用戶使用便不會停止。以 OpenAI 為例，在推理階段，其一天能生成 1-2 萬億 tokens，一周生成的數(shù)據(jù)量就能超過訓(xùn)練的數(shù)據(jù)量。

最關(guān)鍵的一點在于，想用大模型不一定要訓(xùn)練，但都要推理，這意味著推理的市場更分散、更大。

而在推理需求逐步上升的當(dāng)下，縱觀全球，較為主流的推理引擎包括英偉達(dá)的 TensorRT-LLM 和伯克利大學(xué)開源的 vLLM 兩種，海外許多 AI Infra 公司都在二者的基礎(chǔ)上進(jìn)行優(yōu)化。

潞晨科技堅持早期聚焦訓(xùn)練時期的創(chuàng)新思路，選擇了基于 Colossal-AI 框架進(jìn)行研發(fā)迭代。今年 5 月，其開源了針對最新 LLaMA-3 模型的推理加速方案，對比主流 vLLM 框架吞吐量可以提高 40% 以上。

除文本生成模型外，Colossal-AI 的推理框架還支持了包括Stable Diffusion3在內(nèi)的多種圖像生成模型的優(yōu)化。硅基流動則在挑戰(zhàn)框架大廠方面“野心”尚存。

區(qū)別于 OneFlow 時期以通用訓(xùn)練框架為主，服務(wù)深度模型的生產(chǎn)，硅基流動將重心放置在推理層，服務(wù)大模型應(yīng)用。其所推出的推理框架 SiliconLLM 作為從頭搭建的第三套系統(tǒng)，完全獨立于 vLLM 和 TensorRT-LLM 兩個主流框架之外。

硅基向左，潞晨向右硅基流動官網(wǎng) SiliconLLM 與 vLLM 和 TensorRT-LLM 的性能比較

對此，袁進(jìn)輝曾經(jīng)在采訪中坦言，“推理框架是兵家必爭之地，大家都有掌控它的愿望。在做硅基流動之前，我們的競爭對手就是這些搞框架的大廠。”

而現(xiàn)階段，如若要搶占推理市場，先在海外打響名堂則是硅基流動綜合判斷后的第一選擇。

對比 OneFlow 最初便開源，硅基流動在開源版之外，推出了付費版本以實現(xiàn)收費方面的突破。

早期，硅基流動主要推廣大模型推理引擎，由于海外的付費習(xí)慣、商業(yè)模式都較為成熟，推廣也相對更容易。

在海外，已經(jīng)有了一套為訂閱軟件付費的成熟方法：用戶通過信用卡每個月繳費后，后臺系統(tǒng)就會自動發(fā)送軟件，告知如何進(jìn)行后續(xù)操作下載安裝。在國內(nèi)與客戶合作卻只能走不可持續(xù)的項目制。

而國內(nèi)的付費習(xí)慣則受到會計體系的影響，企業(yè)很難給無實體的軟件定價——國內(nèi)財務(wù)做預(yù)算制，會采購固定資產(chǎn)，而軟件通常作為服務(wù)而非固定資產(chǎn)。

同時，國內(nèi)即便是市場化的企業(yè)，也更傾向于提前定價，偏好一次性買斷。海外則不習(xí)慣預(yù)付，更偏向于“用一付一”。

此外，國內(nèi)由渠道決定銷售，僅做出引擎還不夠，得是產(chǎn)品形態(tài)，所以在國內(nèi)需要消耗產(chǎn)品商業(yè)化探索的資源。而海外優(yōu)先考慮產(chǎn)品力，做出全球有競爭力的產(chǎn)品在海外就能賣。

對于硅基流動而言，初期形成商業(yè)閉環(huán)，見效比較快的也是海外，過去已經(jīng)把模式走通了。

“現(xiàn)在幾乎每天都有老外的郵件過來洽談，網(wǎng)站解釋了是怎么收費的，但還是有其他問題需要洽談，他們也會問愿不愿意用其他方式，總之合作挺多?！痹M(jìn)輝曾對 AI 科技評論介紹。

但是，開拓海外市場也意味著要有比在國內(nèi)更強(qiáng)的競爭力，是機(jī)遇，也是挑戰(zhàn)——美國在 AI Infra 的每個細(xì)分賽道都有非常強(qiáng)勢的公司，移動端部署有 AutoML、云端推理服務(wù)有 TogetherAI、FireworksAI、編譯器有 ModularML 和 TVM、硬件加速有各種不同的 MPO 公司。

單就推理框架方向來看，也需要與包括陳天奇的 OctoAI 、賈揚清的 Lepton AI 等在內(nèi)的一眾創(chuàng)業(yè)公司展開競爭。

近期，在海外跑出名堂后，硅基流動也優(yōu)先在國內(nèi)上線了 SiliConCloud（https://siliconflow.cn/siliconcloud），并且收獲了較為不錯的增長勢頭，日Token生成量達(dá)上百億，目前已在海外“登陸”。

而對于潞晨科技而言，一直以來都主要采取對海內(nèi)外業(yè)務(wù)場景因地制宜、同步發(fā)展的戰(zhàn)略，在國內(nèi)外積累核心客戶案例和用戶口碑。

首先，基于開源社區(qū)被動獲客的性質(zhì)，潞晨科技在海外不太需要主動拓展市場，當(dāng)前在中國、歐美、中東以及東南亞都有客戶。

從國內(nèi)來看，潞晨科技目前以傳統(tǒng)行業(yè)客戶為主。在尤洋看來，傳統(tǒng)的車廠、藥廠、石油公司、金融機(jī)構(gòu)是有長期付費意愿的。最終，AI 要實現(xiàn)落地，傳統(tǒng)行業(yè)是不可或缺的應(yīng)用場景。

去年底開始，潞晨科技也與華為達(dá)成了合作。

今年 2 月，二者正式合力推出?體化的 AI 開發(fā)和部署平臺——ColossalAI Platform 以及潞晨昇騰訓(xùn)推一體機(jī)，以賦能傳統(tǒng)企業(yè)在本地通過私有數(shù)據(jù)訓(xùn)練、微調(diào)私有垂類大模型。

根據(jù)潞晨官方測試，ColossalAI Platform 能輔助大模型預(yù)訓(xùn)練成本降低 50%，基礎(chǔ)設(shè)施成本降低10倍，硬件需求成本降低10倍，項目上線時間縮短10倍。雷峰網(wǎng)雷峰網(wǎng)(公眾號：雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

朱可軒

編輯

發(fā)私信

當(dāng)月熱門文章