0
如果將大模型應用開發(fā)比做“淘金”,那么構建大模型基座所必需的算力和工具體系,則是不可或缺的“鏟子”。
俗話說,淘金先富賣鏟人,誰都想在這場 AI 浪潮中“分一杯羹”,不光巨頭在爭當“賣鏟人”,也有不少創(chuàng)業(yè)公司從中發(fā)現(xiàn)了新的機遇。
其中,在加速計算賽道,袁進輝帶領的硅基流動與尤洋創(chuàng)辦的潞晨科技可謂典型代表,在他們之外,國內早期能做出分布式系統(tǒng)的團隊并不多。
然而,雖然賽道相同,二者卻屢屢選擇不同的分岔路口——
從時間線上來看,2017 年開啟創(chuàng)業(yè)之旅的袁進輝選擇了打破壟斷、挑戰(zhàn)巨頭 Meta,其所帶領的 OneFlow 也以 Pytorch“挑戰(zhàn)者”的姿態(tài)登場,從頭自研訓練框架。
而 2021年正式入局的尤洋,則選擇了一種更為審慎而高效的方式——在PyTorch這一成熟框架的基礎上,進行分布式計算的創(chuàng)新與開發(fā)。
這也是早期在聚焦訓練時,二者最明顯的區(qū)別所在。如今,大模型“卷”入下半場,重視推理已成為業(yè)內共識。
值此之際,二者在打法上又出現(xiàn)了些許差異。延續(xù)團隊早期的思路,硅基流動的推理框架 SiliconLLM 仍是獨立于主流框架 vLLM 和 TensorRT-LLM 外的第三套系統(tǒng),潞晨科技則專注基于 Colossal-AI 框架進行優(yōu)化。
值得一提的是,為推進商業(yè)化進程,潞晨科技進一步拓展了產品版圖,正式推出了文生視頻大模型 Open-Sora。對比而言,硅基流動則并未公開過大模型。
而在云平臺業(yè)務的開展上,硅基流動無需租用云資源并下載模型,潞晨科技則選擇了開展算力租賃業(yè)務,在此基礎上輔助模型訓練、微調、推理加速。
二者做出不同選擇的原因為何?分別又是如何在下半場繼續(xù)扮演好“賣鏟人”角色的呢?
站在前人的肩膀上
在分布式深度學習框架的創(chuàng)業(yè)領域,真正能夠實現(xiàn)突破的團隊寥寥無幾,袁進輝和尤洋可以說是最早出發(fā)的那一批人。
2016年,尤洋開始涉足分布式計算領域,當時,業(yè)界主流還集中在異步計算的分布式技術上。
同在這一年,袁進輝也在與圈內人討論時提到,當深度學習模型的參數變得越來越大后,模型的訓練就不是TensorFlow、MXNet 或 Caffe 等框架能駕馭的。
但那時的 AI 領域還沒有出現(xiàn)參數量極大的深度學習模型,所以也有許多人認為這個觀點不成立。
2017 年 1 月,袁進輝帶著團隊正式啟程創(chuàng)業(yè),他親自命名并在北京創(chuàng)辦了 OneFlow。
彼時的 OneFlow 重新定義了分布式計算的實現(xiàn)方式,實現(xiàn)了讓多卡分布式系統(tǒng)編程變得像單卡一樣直觀和便捷。
OneFlow 所做的底層框架,雖然 API 與 PyTorch 相同,但底層的算子實現(xiàn)與框架從上到下的每一份代碼都是袁進輝帶領團隊自己寫的。
甚至后來在 2022 年,PyTorch 的 DiscreteTensor 在分布式上也借鑒了 OneFlow 的 GlobalTensor。
2022 年Pytorch創(chuàng)始人之一 Soumith Chintala 的推文
時間回到 2020 年6 月,當時,OpenAI 發(fā)布了全球規(guī)模最大的預訓練語言模型 GPT-3,驗證了袁進輝早期觀點的正確性。
也就是在這年,尤洋帶來了潞晨科技的新故事,彼時研究高性能計算的他剛剛從美國加利福尼亞大學伯克利分校畢業(yè)并獲得博士學位。
而面對 GPT-3 的出世,尤洋也有一種預判——未來大模型很重要,限制大模型在各行業(yè)落地的難點肯定是計算成本。他也因此萌生了開展大模型相關創(chuàng)業(yè)的想法。
直到 2021 年,尤洋的這一想法才正式落地。7 月,他創(chuàng)辦了潞晨科技,并帶領團隊進一步推動了分布式計算的邊界。
不同于袁進輝從頭自研框架的思路,同樣瞄準加速計算賽道,尤洋帶領的潞晨科技則選擇了直接基于 PyTorch 打造大模型訓練推理加速系統(tǒng) Colossal-AI。
分布底層的 API 調用也是 PyTorch,尤洋及其團隊所做的主要是將上層的算子重寫并優(yōu)化通信效率及顯存占用,讓分布式計算更加高效和易于使用。
基于此,Colossal-AI 系統(tǒng)提供統(tǒng)一的并行訓練推理系統(tǒng),以幫助開發(fā)者實現(xiàn)數據并行、管道并行、張量并行和序列并行等多種并行技術的無縫集成。
相當于站在前人肩膀上,潞晨科技在 PyTorch 基礎上重新實現(xiàn)了分布式,所做的內容也更貼近開源社區(qū)。
對于其中緣由,尤洋曾經向 AI 科技評論解釋稱,“一方面,把開源社區(qū)做好,確實創(chuàng)造了更大的價值,即使免費也有很多人用;另一方面,公司最終肯定是想上市的,本質上 AI 在 To B 方面最核心的競爭力是要和用戶建立強信任綁定關系?!?/p>
而 PyTorch 的大眾化程度,也使得潞晨科技更易于被接受,與之相比,OneFlow 則較為小眾,吸引開發(fā)者的難度相對較高,就此形成了二者早期的差異。
最終,OneFlow 在取代 PyTorch 的“擂臺賽”中,還是“輸”在了生態(tài)上。
“有亮點但不足以扭轉局面。”袁進輝曾這樣評價,“ PyTorch 生態(tài)和上下游完備,綜合來說,肯定是基于 PyTorch 去做事情,更有利于產品的推廣。”
除此之外,也有業(yè)內人士告訴 AI 科技評論,“OneFlow 不依賴開源社區(qū),很多基座都是自己做的,所以很多公司如果模型是用 PyTorch 寫的,就不太可能會用 OneFlow,除非 OneFlow 跟這家公司或者其他大廠合作?!?。
盡管如此,袁進輝仍舊十分樂觀:“雖然工業(yè)標準沒有弄成 PyTorch 的標準地位,但還是把技術的一個無人區(qū)、沒人探索的東西提前好幾年做了,后面也變成真正流行開來?!?/p>
歸根到底,技術是“敲門磚”,二者的技術實力都毋庸置疑。
但是,有技術遠遠不夠,如何盈利同樣關鍵,而這也是 AI 賽道一眾創(chuàng)業(yè)公司最難解的“題”。
2020年,在 OneFlow 時期,袁進輝帶領團隊做過很多嘗試——推出過大規(guī)模模型訓練開源工具箱 Libai(李白)等產品,做過面向領域的加速方案,也有如 AI 開發(fā)平臺 OneBrain 等產品。
此后,好不容易找到突破口,卻因缺少條件或錯過時間點,使得推廣困難、商業(yè)化步伐緩慢。最終,OneFlow 還是沒能形成收入。
時間來到 2021 年,這一年, 是 AI Infra 和開源投資的熱潮期,高瓴資本也在這時投資了 OneFlow,袁進輝卻并未多拿錢,他還是希望先精進好技術后再融資。
但是,機會不等人,待到次年技術足夠耀眼時,資本卻先一步冷靜下來了。實力之上,袁進輝終究缺了點運氣。
2023 年,隨著 ChatGPT 的橫空出世,“百模大戰(zhàn)”打響第一槍。而由于大模型有一定門檻,袁進輝在綜合考慮資金、資源整合和商業(yè)化問題后,選擇了和王慧文合作,OneFlow 并入光年之外。
他們二人并肩作戰(zhàn)的時日也并不長,同年,光年之外被美團收購,堅定創(chuàng)業(yè)理想的袁進輝則選擇了出走另起爐灶。
談及其中緣由,袁進輝曾反思道,“技術上的好奇心在 OneFlow 時期已滿足,還未滿足的、未完成的愿望追求主要是商業(yè)層面。作為一個創(chuàng)業(yè)公司,本質上最終要看商業(yè)成功,還是要讓客戶用真金白銀來投票?!?/p>
于是,他帶著商業(yè)理想再出發(fā),今年初,硅基流動(SilliconFlow)正式成立。
同樣是在 2023 年,潞晨科技的商業(yè)化情況卻比 OneFlow 要理想許多。
“Colossal-AI 訓練大模型的路線已經在掙錢,”尤洋此前向 AI 科技評論透露,“現(xiàn)在我們已經有很多世界 500 強、2000 強的客戶,包括國內這幾家創(chuàng)業(yè)公司都是我們的潛在客戶,像阿里通義千問、百度文心一言、MiniMax 可能都用過 Colossal-AI 了?!?/p>
潞晨科技此前為什么能盈利?原因有兩點?!耙皇锹撼康膬r格比其他公司便宜,二是潞晨不單單提供大模型的構建能力,還提供底層 AI Infra 的訓練能力。”知情人士向 AI 科技評論分析。
下半場的發(fā)展機遇
發(fā)展至今,“百模大戰(zhàn)”已然步入下半場,但軟件在中國的商業(yè)化依舊是行業(yè)待解的“難題”。
不過,袁進輝始終抱著樂觀的心態(tài):國內軟件商業(yè)化的道路并非不存在,只是現(xiàn)在還沒有人摸索出來一條清晰可行的路徑。
目前,從行業(yè)共識上來看,基于軟件做產品和商業(yè)模式上的探索,需要將軟件和用戶不得不付費的東西結合在一起才可行。
基于此,訓推一體機和將軟件與云、算力綁定兩種方式,成為了硅基和潞晨不約而同的選擇。
一體機的路線已經被驗證過,是行得通的。
就當下情況來看,在國內如若只賣“鏟子”,很多廠商不會買賬,最好的解法便是將訓練與推理做成一整套工具箱,再配合大模型去賣。
國內客戶偏好為軟硬一體付費,沿著這條路徑比單賣軟件情況會好一些,雖然從整體毛利來看,硬件占比居多,但對軟件的售賣是有益的。
這也同潞晨科技的轉型思路不謀而合——僅靠單一的訓練工具提供,就算性能再強大也不足以站穩(wěn)腳跟,去年底,潞晨也嘗試推出了訓推大模型一體機,為客戶提供整體的大模型訓推方案。
值得一提的是,乘著 Sora 的“東風”,潞晨科技進一步拓展了業(yè)務版圖,正式入局了文生視頻大模型。
今年3月,潞晨科技宣布推出開源類 Sora 架構多模態(tài)視頻模型——Open-Sora,一經推出便得到業(yè)內諸多關注,搶占大波市場熱度。
據其稱,Open-Sora 能夠降低 46% 復現(xiàn)成本,并將模型訓練輸入序列長度擴充至 819K patches。
7 月,Open-Sora 最新開源的 1.2 版本已經可以單鏡頭生成最長 16s 的 720p 視頻。
為了與 Open-Sora 實現(xiàn)交互,潞晨科技還提供了可以自行一鍵部署的 Gradio 應用。Gradio 作為一個 Python 包,允許開發(fā)者通過定義模型的輸入和輸出,自動生成一個網頁界面。
潞晨科技推出的 Open-Sora
英雄所見略同,硅基流動也入局了一體機。
不過,在方式上還是和潞晨科技存在些許差異。硅基流動在大方向上的選擇相對容易——直接和他人合作做一體機,主打在服務器廠商做一體機時,將產品集成進去再讓廠商付費。
同時,硅基流動本身也還未公開推出過大模型。
袁進輝曾向 AI 科技評論分析,“現(xiàn)在模型逐漸收斂,其實大家的模型結構幾乎一樣了,所以我們的新業(yè)務不追求非常通用的模型,重點就是支持經濟價值、商業(yè)價值最大的模型?!?/p>
在大模型 API 云服務平臺 SiliconCloud 上,其文生視頻所采用的是智譜的開源 AI 視頻生成模型 CogVideoX-2B。文本對話、文生圖、圖生圖等其他多種功能,也均采用包括Llama3.1、 Qwen2、GLM4、DeepSeek、Flux.1、SDXL、PhotoMaker 等在內的主流模型。
SiliconCloud 文生視頻功能頁
這也是硅基流動基于云實現(xiàn)盈利的一套思路——推出大模型 API 按需付費的模式,無需租用云資源并下載模型而直接使用 SIliconCloud API,助力開發(fā)者加速開發(fā)生成式 AI 應用。
目前,海外各個 AI Infra 公司都能夠通過云來盈利,照觀國內,這條路徑也存在一定可行性。
無論是在公有云還是私有云上,一切都與算力掛鉤,所有做產品或應用的客戶都要為 GPU、算力、云付費,因此可以把軟件和云或算力打包,以服務費用的形式盈利。
沿著這條路徑走,潞晨科技旗下的云平臺——潞晨云(https://cloud.luchentech.com),則選擇了開展算力租賃業(yè)務,在此基礎上輔助模型訓練、微調、推理加速。
潞晨云所提供的服務
止于此不難發(fā)現(xiàn),前述解法的核心均是推理引擎。
當前,訓練的“天花板”在整個行業(yè)的推動下已經明確,而推理的實際水平與理論水平間仍存有較大差距。
舉例來講,大模型訓練的算力利用率MFU理論上最多為 60% 左右,而當前英偉達等企業(yè)通過聯(lián)合優(yōu)化,能實現(xiàn) 40%~50%,可提升空間僅剩下 10%~20% ,但推理的提升空間至少是十倍。
從成本方面考慮,訓練大模型在資金、GPU 等方面的高門檻,讓對口的公司屈指可數,并且客戶集中、議價能力很強,創(chuàng)業(yè)公司的商業(yè)化并不好做。與之相比,有龐大的算力不是進入推理Infra領域的前提條件。
此外,訓練有階段性限制,數據集較為固定,而推理具有持續(xù)性,服務上線后數據是無止境的,只要用戶使用便不會停止。以 OpenAI 為例,在推理階段,其一天能生成 1-2 萬億 tokens,一周生成的數據量就能超過訓練的數據量。
最關鍵的一點在于,想用大模型不一定要訓練,但都要推理,這意味著推理的市場更分散、更大。
而在推理需求逐步上升的當下,縱觀全球,較為主流的推理引擎包括英偉達的 TensorRT-LLM 和伯克利大學開源的 vLLM 兩種,海外許多 AI Infra 公司都在二者的基礎上進行優(yōu)化。
潞晨科技堅持早期聚焦訓練時期的創(chuàng)新思路,選擇了基于 Colossal-AI 框架進行研發(fā)迭代。今年 5 月,其開源了針對最新 LLaMA-3 模型的推理加速方案,對比主流 vLLM 框架吞吐量可以提高 40% 以上。
除文本生成模型外,Colossal-AI 的推理框架還支持了包括Stable Diffusion3在內的多種圖像生成模型的優(yōu)化。硅基流動則在挑戰(zhàn)框架大廠方面“野心”尚存。
區(qū)別于 OneFlow 時期以通用訓練框架為主,服務深度模型的生產,硅基流動將重心放置在推理層,服務大模型應用。其所推出的推理框架 SiliconLLM 作為從頭搭建的第三套系統(tǒng),完全獨立于 vLLM 和 TensorRT-LLM 兩個主流框架之外。
硅基流動官網 SiliconLLM 與 vLLM 和 TensorRT-LLM 的性能比較
對此,袁進輝曾經在采訪中坦言,“推理框架是兵家必爭之地,大家都有掌控它的愿望。在做硅基流動之前,我們的競爭對手就是這些搞框架的大廠?!?/p>
而現(xiàn)階段,如若要搶占推理市場,先在海外打響名堂則是硅基流動綜合判斷后的第一選擇。
對比 OneFlow 最初便開源,硅基流動在開源版之外,推出了付費版本以實現(xiàn)收費方面的突破。
早期,硅基流動主要推廣大模型推理引擎,由于海外的付費習慣、商業(yè)模式都較為成熟,推廣也相對更容易。
在海外,已經有了一套為訂閱軟件付費的成熟方法:用戶通過信用卡每個月繳費后,后臺系統(tǒng)就會自動發(fā)送軟件,告知如何進行后續(xù)操作下載安裝。在國內與客戶合作卻只能走不可持續(xù)的項目制。
而國內的付費習慣則受到會計體系的影響,企業(yè)很難給無實體的軟件定價——國內財務做預算制,會采購固定資產,而軟件通常作為服務而非固定資產。
同時,國內即便是市場化的企業(yè),也更傾向于提前定價,偏好一次性買斷。海外則不習慣預付,更偏向于“用一付一”。
此外,國內由渠道決定銷售,僅做出引擎還不夠,得是產品形態(tài),所以在國內需要消耗產品商業(yè)化探索的資源。而海外優(yōu)先考慮產品力,做出全球有競爭力的產品在海外就能賣。
對于硅基流動而言,初期形成商業(yè)閉環(huán),見效比較快的也是海外,過去已經把模式走通了。
“現(xiàn)在幾乎每天都有老外的郵件過來洽談,網站解釋了是怎么收費的,但還是有其他問題需要洽談,他們也會問愿不愿意用其他方式,總之合作挺多?!痹M輝曾對 AI 科技評論介紹。
但是,開拓海外市場也意味著要有比在國內更強的競爭力,是機遇,也是挑戰(zhàn)——美國在 AI Infra 的每個細分賽道都有非常強勢的公司,移動端部署有 AutoML、云端推理服務有 TogetherAI、FireworksAI、編譯器有 ModularML 和 TVM、硬件加速有各種不同的 MPO 公司。
單就推理框架方向來看,也需要與包括陳天奇的 OctoAI 、賈揚清的 Lepton AI 等在內的一眾創(chuàng)業(yè)公司展開競爭。
近期,在海外跑出名堂后,硅基流動也優(yōu)先在國內上線了 SiliConCloud(https://siliconflow.cn/siliconcloud),并且收獲了較為不錯的增長勢頭,日Token生成量達上百億,目前已在海外“登陸”。
而對于潞晨科技而言,一直以來都主要采取對海內外業(yè)務場景因地制宜、同步發(fā)展的戰(zhàn)略,在國內外積累核心客戶案例和用戶口碑。
首先,基于開源社區(qū)被動獲客的性質,潞晨科技在海外不太需要主動拓展市場,當前在中國、歐美、中東以及東南亞都有客戶。
從國內來看,潞晨科技目前以傳統(tǒng)行業(yè)客戶為主。在尤洋看來,傳統(tǒng)的車廠、藥廠、石油公司、金融機構是有長期付費意愿的。最終,AI 要實現(xiàn)落地,傳統(tǒng)行業(yè)是不可或缺的應用場景。
去年底開始,潞晨科技也與華為達成了合作。
今年 2 月,二者正式合力推出?體化的 AI 開發(fā)和部署平臺——ColossalAI Platform 以及潞晨昇騰訓推一體機,以賦能傳統(tǒng)企業(yè)在本地通過私有數據訓練、微調私有垂類大模型。
根據潞晨官方測試,ColossalAI Platform 能輔助大模型預訓練成本降低 50%,基礎設施成本降低10倍,硬件需求成本降低10倍,項目上線時間縮短10倍。雷峰網雷峰網(公眾號:雷峰網)
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。