0
本文作者: 何思思 | 2023-07-11 10:16 |
作者丨何思思
編輯丨林覺民
2021年北京中關村多了一家科技公司——潞晨科技。
作為一家創(chuàng)業(yè)公司,潞晨科技這個名字可能還不被大家所熟知,但是其創(chuàng)始人尤洋卻憑借“ACM SIGHPC杰出博士論文獎、NUS校長青年教授、亞洲福布斯30歲以下精英榜”等多個頭銜,被業(yè)界熟知。
談到最近火出圈的大模型,其實尤洋早在2018年就參與了谷歌BERT的訓練,并把訓練時間從3天降到了76分鐘。據(jù)尤洋介紹,至今仍有企業(yè)在使用當時訓練BERT時設計的方法。
而潞晨科技的創(chuàng)立要從2020年說起,彼時的尤洋剛剛從美國加利福尼亞大學伯克利分校畢業(yè)并獲得博士學位,這一年 OpenAI 發(fā)布了當時全球規(guī)模最大的預訓練語言模型 GPT-3,正是在這時尤洋有了做大模型的想法。
尤洋告訴雷峰網(wǎng): GPT-3出來時并沒有出圈,但當時我就預判到大模型一定是未來的一大發(fā)展趨勢,因為疫情影響,所以一直在等一個機會。
直到2021年這個想法才真正落地了,同年7月尤洋只身一人創(chuàng)辦了潞晨科技,同時這件事情也受到了資本的青睞,成立近一年半的時間潞晨科技已經(jīng)完成了3輪融資。其中包括了創(chuàng)新工場、真格基金兩家VC機構的超千萬元投資。
值得注意的是,創(chuàng)立之初潞晨科技就選擇了一條和其他廠商不同的路線,即不做通用大模型,圍繞降本增效做文章,本質上是為了降低大模型的訓練成本,提高大模型的訓練速度。
緣何這么做?
尤洋曾公開表示過,過去六年大模型參數(shù)量每18個月增長了40倍,過去三年每18月增長了340倍,而硬件的增長速度大概每18個月增長1.7倍,完全跟不上節(jié)奏。訓練成本高、周期長,是當前大模型企業(yè)最需要克服的難題。
同時,他還表示,我的本職專長是研究高性能計算,用很樸實的話說,就是想辦法讓大模型訓練的越快,越省錢。
可以說,尤洋選擇的路線是驗證其研究成果最有效的途徑。
雷峰網(wǎng)了解到,目前潞晨科技的研發(fā)主要分為三部分:一是做大模型訓練系統(tǒng)——Colossal-AI;二是訓練100億到200億參數(shù)的行業(yè)模型;三是做PaaS(Platform as a Service)平臺。其中Colossal-AI系統(tǒng)已經(jīng)有世界500強,2000強的客戶在使用。
“現(xiàn)階段的重點是Colossal-AI系統(tǒng)的開發(fā),未來不管是GPT、PaLM還是任何一家大模型都可以用Colossal-AI訓練,因為我們的系統(tǒng)就是幫他們省錢省時間的”尤洋補充道。
談到具體能降多少成本?尤洋這樣說:“假如用最基本的方案訓練GPT 大概要1000 萬美金,假如用業(yè)界最好的方案,能把成本降到300萬美金,我們的方案則可以降到140萬美金,也就是在最便宜的方案上再降一半,當然這些是絕對優(yōu)化,如果加上收斂性優(yōu)化可能降的會更多,但也會影響模型?!?br/>
成本只是一方面,與其他廠商不同的是,潞晨更注重“開源”二字,因為在尤洋看來,AI發(fā)展到現(xiàn)在正是因為它足夠開放,未來AI競爭的焦點是生態(tài),即有多少人在用你的軟件,有多少人在給你反饋,只有反饋多了你才能不斷迭代優(yōu)化,才能吸引更多用戶。
“一個好的AI生態(tài),應該有三四千個用戶或者三四千家企業(yè)去使用去貢獻,這樣整個生態(tài)的力量勢必會比大廠的實力要強。”
以下是雷峰網(wǎng)和尤洋的對話:
大學教授創(chuàng)辦AI公司,技術契合,想讓企業(yè)低成本獲得大模型
雷峰網(wǎng):作為一名大學老師,為什么想要創(chuàng)業(yè)?
尤洋:主要是技術比較契合,GPT是2020年出來的,當時GPT1、2的影響力還不是很大,后來GPT3也沒有出圈。但GPT3出來的時候我已經(jīng)在思考這件事情了,當時我就有一種預判,大模型肯定是未來的一大趨勢,但大模型在各行業(yè)落地的難點就是計算成本。
我本職的技術專長是研究高性能計算,用很樸實的話說,就是想辦法讓大模型訓練的越快,越省錢。比如之前我們和谷歌合作,訓練出了當時最好的模型BERT,訓練時間從3天降到了76分鐘,也產(chǎn)生了一些價值,現(xiàn)在也有很多人在用我們當時設計的方法。
其實2020年剛畢業(yè)時就在思考這件事,2021年年初我就覺得需要創(chuàng)業(yè)了,但趕上了疫情,其實一直在找機會。
雷峰網(wǎng):最初受誰影響做這件事的?
尤洋:2021年之前就有一些VC找過我,像李開復老師2021年四五月份就聯(lián)系到了我,7月份我來北京和他們見了一面,過了不到一周他們就給我發(fā)了投資意向書。
雷峰網(wǎng):所以是李開復讓你下定決心做這件事的?
尤洋:我覺得讓我下定決心的是我們對技術的判斷,其實在李開復老師之前,一些個人天使也有投資意向。
雷峰網(wǎng):18個月完成三輪融資,是誰先投的?
尤洋:創(chuàng)新工場最先給的投資意向書,真格基金知道創(chuàng)新工場給了,也迅速跟進了,所以我們2021年8月份就完成了融資,對外PR后藍馳聯(lián)系到了我們,9月份和他們老板見了一面,十一之前就給我發(fā)了投資意向書。只不過十一假期之后到元旦前我們一直在做公司的VIE結構,浪費了很多時間。
雷峰網(wǎng):資金有了具體怎么搭建團隊的?2020年就開始了?
尤洋:對,其實我們公司成立時只有我自己一個人,正好當時新加坡國立大學的一批學生畢業(yè)了,就把他們邀請過來了,然后又從社會上招募了幾個人。
雷峰網(wǎng):潞晨的融資一直很順利,您認為資方看中的是什么?
尤洋:和我之前訓練BERT的經(jīng)歷有關,我的那項技術創(chuàng)新工場內部的AI 工程院現(xiàn)在也在用,我覺得這是投我的一個原因,再加上我是美國博士,其實在業(yè)界還是有一定知名度的。
創(chuàng)新工場投我們的時候,我們什么也沒有,他們看的就是我個人的一些積累和之前做過的一些有用的東西,藍馳投我們的時候,我們剛想好要做開源社區(qū),他們可能對開源社區(qū)也比較看好,最近一輪紅杉資本投我們是已經(jīng)初見一些效果了,并且他們也比較相信開源。
三條線齊頭并進,被動獲客高于主動獲客
雷峰網(wǎng):潞晨給自己設定的大模型路線是什么樣的?
尤洋:主要分為三部分:一是做訓練大模型的系統(tǒng)—Colossal-AI;理論上不管GPT、LLaMA還是其他大模型都可以用Colossal-AI訓練,因為我們的系統(tǒng)就是幫他們省錢省時間的;二是訓練大模型,做100億到200億參數(shù)的面向行業(yè)的垂直模型;三是做PaaS平臺,把需要訓練大模型的人集成到我們的平臺上去,這樣三個飛輪就能形成一個正向的循環(huán)。
雷峰網(wǎng):現(xiàn)在做到哪一步了?
尤洋:三個團隊在同時做,主要精力還在Colossal-AI上面,當然第二部分也在做,主要幫助企業(yè)做大模型的私有化部署,第三部分未來的商業(yè)化可能會多一些。
雷峰網(wǎng):具體怎么給客戶提供服務?
尤洋:要么買我們的企業(yè)版軟件,要么用Colossal-AI訓練自己的大模型,然后我們給他的機器做優(yōu)化。
雷峰網(wǎng):Colossal-AI的效果如何了?
尤洋:其實我們自己測試了,肯定是能降低成本的,并且現(xiàn)在已經(jīng)有很多人在用了。
雷峰網(wǎng):所以說現(xiàn)在Colossal-AI已經(jīng)做得很成熟了?
尤洋:沒有絕對好的事情,我們的產(chǎn)品3到6個月會升級一次,要想變得更穩(wěn)定的話,還是需要一定時間去迭代的。
雷峰網(wǎng):具體點比如王小川或者其他家用Colossal-AI訓練的話,成本大概能降低到多少?
尤洋:我們做過計算,假如用最基本的方案,比如Python、DDP等沒有經(jīng)過優(yōu)化方法訓練GPT 大概要1000 萬美金。比如用業(yè)界最好的方案,能降到300萬美金,效果也不會打折扣,因為是矩陣張量優(yōu)化,不是收斂性優(yōu)化,收斂性優(yōu)化會影響模型精度。那我們的方案可以降到140萬美金,就是在最便宜的方案上再降一半,當然這些都是絕對優(yōu)化,如果加上收斂性優(yōu)化可能降的會更多,但也會影響模型。
雷峰網(wǎng):效果已經(jīng)這么好了,那豈不是其他企業(yè)想做都做不下去了?
尤洋:我不這么認為,我覺得AI行業(yè)沒有知識產(chǎn)權,也沒有IP,包括GPT也是在谷歌Transformer的架構上做的,如果技術長期閉源的話,其實是不可持續(xù)的。
我堅信AI能發(fā)展到今天就是因為它的開放性,沒有任何人能夠認為自己的生成式AI就是獨特的且有很高壁壘的,我覺得未來競爭的是生態(tài),就是說有多少人在用你的軟件,有多少人在給你反饋,因為只有給你提供的反饋多了,你才能不斷迭代優(yōu)化它,這樣才能吸引更多用戶。
我覺得一個好的AI生態(tài),應該有三四千個用戶或者三四千家企業(yè)去使用去貢獻,這樣整個生態(tài)的力量肯定比大廠的實力要強。
雷峰網(wǎng):目前商業(yè)化做得怎么樣?
尤洋:比較順利,雖然PaaS還沒有很成熟,但第一部分已經(jīng)在掙錢了,現(xiàn)在我們已經(jīng)有很多世界500強、2000強的客戶了,包括國內這幾家創(chuàng)業(yè)公司都是我們的潛在客戶,像阿里通義千問、百度文心一言、MiniMax可能都用過Colossal-AI了。
雷峰網(wǎng):PaaS層產(chǎn)品什么時候能發(fā)布出來?
尤洋:8月1號之前會發(fā)布出來。
雷峰網(wǎng):了解到潞晨現(xiàn)在的客戶國外偏多國內偏少?
尤洋:兩方面原因:第一我們公司成立的時間比較短,成立的前一個月主要在搭建團隊,需要一定的時間過渡,第二其實我們也有很多國內客戶,比如某些AI企業(yè)已經(jīng)成立專門的團隊在研究Colossal-AI了,當然我們現(xiàn)在也有很多目標客戶,像傳統(tǒng)的車廠、藥廠、石油公司、金融機構等。
雷峰網(wǎng):為什么把傳統(tǒng)行業(yè)作為目標客戶?
尤洋:因為傳統(tǒng)企業(yè)是有長期付費意愿的,普惠AI時代是傳統(tǒng)行業(yè)內部的一次AI升級,最終AI有多普及還是要看傳統(tǒng)行業(yè),現(xiàn)在有好幾家汽車企業(yè)在自己訓練,因為他們覺得這是一項核心技術,也沒有絕對壁壘。包括一些頭部證券公司對原創(chuàng)技術也是非常渴望的。
雷峰網(wǎng):未來重點放在國外還是國內?
尤洋:其實無所謂,畢竟我們是一家小公司,沒必要把自己限制的太死。再就是我們做的是開源社區(qū),是一個被動獲客的過程,不太需要主動BD,所以現(xiàn)在美國、中東、新加坡以及東南亞的客戶都有。
雷峰網(wǎng):如果主動獲客的話,會選擇哪些區(qū)域?
尤洋:主動獲客的話,我覺得優(yōu)先級:中國市場第一,東南亞市場第二,中東市場第三。被動獲客的話肯定就沒有任何限制了。
AI沒有知識版權,只有開源才能走的更遠
雷峰網(wǎng):為什么覺得開源生態(tài)很重要?
尤洋:我覺得有兩方面原因:一方面,把開源社區(qū)做好確實能創(chuàng)造更大的價值。我們做的是風險投資,但是當很多人都在用時,就能產(chǎn)生了一定的社會價值,我們的錢也算沒打水漂。從投資人的角度來說,他們也能認可,因為投資人的錢也是從社會上募資而來的。
另一方面,畢竟創(chuàng)業(yè)做公司肯定想變現(xiàn)上市,我覺得本質上To B、AI最核心的競爭力是要和用戶建立一個強的信任綁定關系,所以我覺得開源很重要。
雷峰網(wǎng)(公眾號:雷峰網(wǎng)):所以在創(chuàng)立潞晨前就想好要做開源了?
尤洋:成立公司一個月內決定要做開源這件事兒。
雷峰網(wǎng):現(xiàn)在整個生態(tài)是什么樣的狀態(tài)?
尤洋:這個生態(tài)中目前主要有三類企業(yè):第一類是深度用戶,他們可以貢獻一些代碼,幫我們去優(yōu)化軟件;第二類是用了我們的軟件覺得很好的企業(yè),在這個過程中會形成依賴關系;第三類是給我們反饋問題的企業(yè)。這三類企業(yè)中大小公司都有。
雷峰網(wǎng):有多少人專門負責開源生態(tài)的運營工作?
尤洋:我們安排了兩三個人在引導,其實做生態(tài)的意義就是讓別人用,幫別人解決問題,然后別人發(fā)現(xiàn)問題了,我們再不斷完善,當然我們自己也會設定一些重要的發(fā)展方向。
雷峰網(wǎng):所以做開源生態(tài)不需要鋪太多的人?
尤洋:對,我覺得人數(shù)應該不會超過20人,不管這個開源社區(qū)有2萬人用還是100 人用。因為我覺得他需要一部分人去維護一個核心的內核,把內核維護好了,其他邊邊角角的,其實只要這個東西有很多人用,是有人會自發(fā)做貢獻的。
雷峰網(wǎng):和英偉達的合作其實也是為了生態(tài)?
尤洋:對,目前我們在英偉達的生態(tài)里,在他們的生態(tài)里其實我們有望拿到一些低價的算力,英偉達也給我們開源社區(qū)貢獻了一些新功能,也都會優(yōu)先適配Colossal-AI。
國內大模型都有機會,誰率先跑出來,需年底見分曉
雷峰網(wǎng):國內大模型會呈現(xiàn)怎樣的發(fā)展局面?
尤洋:主要分為兩個方向。國外內市場最多有兩三家能走出來,大概今年年底能看出來。
最終國內通用大模型市場最多能容下兩三個,大廠肯定會占據(jù)一半,剩下的一個名額可能是創(chuàng)業(yè)公司。這就迫使其他創(chuàng)業(yè)公司必須轉型做行業(yè)模型,行業(yè)模型其實沒有通用大模型值錢,所以大部分創(chuàng)業(yè)公司的最終估值會下降很多。
雷峰網(wǎng):您看好哪家的大模型?
尤洋:最領先的要么是大廠,要么是 MiniMax 和智譜。這幾家肯定已經(jīng)訓練出了大模型,其他幾家有的只是一個雛形,還在微調階段甚至還沒到訓練階段。其實到火山云上看一下卡的使用量也可以看出來,MiniMax 和智譜已經(jīng)使用了 1000 張 GPU 卡了,其他幾家都是 200 張。
平心而論,我覺得百度可能還真是最領先的。
雷峰網(wǎng):那創(chuàng)業(yè)公司呢?
尤洋:我覺得是智譜。
有幾個原因,第一,中國和美國的國情不一樣,中國AI項目的論文一般都出自大學,而美國是Google、Facebook、OpenAI等,也就是說中國的技術源泉源自大學,最優(yōu)秀的 AI人才也在大學;第二,我覺得大模型一旦做大,面臨的是政治問題,美元基金最終會受限,所以像智譜這種純人民幣的反而有優(yōu)勢;第三,唐杰老師有豐富的學術、技術經(jīng)驗的積累,另外唐杰老師的清華背景對大模型的發(fā)展會有很大幫助。
雷峰網(wǎng):那您覺得國內大模型的決勝點是什么?
尤洋:數(shù)據(jù)、算力、算法。算力和數(shù)據(jù)應該是最重要的,如何把算力合理地用起來,也非常重要。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。