0
本文作者: 何思思 | 2023-07-11 10:16 |
作者丨何思思
編輯丨林覺(jué)民
2021年北京中關(guān)村多了一家科技公司——潞晨科技。
作為一家創(chuàng)業(yè)公司,潞晨科技這個(gè)名字可能還不被大家所熟知,但是其創(chuàng)始人尤洋卻憑借“ACM SIGHPC杰出博士論文獎(jiǎng)、NUS校長(zhǎng)青年教授、亞洲福布斯30歲以下精英榜”等多個(gè)頭銜,被業(yè)界熟知。
談到最近火出圈的大模型,其實(shí)尤洋早在2018年就參與了谷歌BERT的訓(xùn)練,并把訓(xùn)練時(shí)間從3天降到了76分鐘。據(jù)尤洋介紹,至今仍有企業(yè)在使用當(dāng)時(shí)訓(xùn)練BERT時(shí)設(shè)計(jì)的方法。
而潞晨科技的創(chuàng)立要從2020年說(shuō)起,彼時(shí)的尤洋剛剛從美國(guó)加利福尼亞大學(xué)伯克利分校畢業(yè)并獲得博士學(xué)位,這一年 OpenAI 發(fā)布了當(dāng)時(shí)全球規(guī)模最大的預(yù)訓(xùn)練語(yǔ)言模型 GPT-3,正是在這時(shí)尤洋有了做大模型的想法。
尤洋告訴雷峰網(wǎng): GPT-3出來(lái)時(shí)并沒(méi)有出圈,但當(dāng)時(shí)我就預(yù)判到大模型一定是未來(lái)的一大發(fā)展趨勢(shì),因?yàn)橐咔橛绊?,所以一直在等一個(gè)機(jī)會(huì)。
直到2021年這個(gè)想法才真正落地了,同年7月尤洋只身一人創(chuàng)辦了潞晨科技,同時(shí)這件事情也受到了資本的青睞,成立近一年半的時(shí)間潞晨科技已經(jīng)完成了3輪融資。其中包括了創(chuàng)新工場(chǎng)、真格基金兩家VC機(jī)構(gòu)的超千萬(wàn)元投資。
值得注意的是,創(chuàng)立之初潞晨科技就選擇了一條和其他廠商不同的路線,即不做通用大模型,圍繞降本增效做文章,本質(zhì)上是為了降低大模型的訓(xùn)練成本,提高大模型的訓(xùn)練速度。
緣何這么做?
尤洋曾公開(kāi)表示過(guò),過(guò)去六年大模型參數(shù)量每18個(gè)月增長(zhǎng)了40倍,過(guò)去三年每18月增長(zhǎng)了340倍,而硬件的增長(zhǎng)速度大概每18個(gè)月增長(zhǎng)1.7倍,完全跟不上節(jié)奏。訓(xùn)練成本高、周期長(zhǎng),是當(dāng)前大模型企業(yè)最需要克服的難題。
同時(shí),他還表示,我的本職專長(zhǎng)是研究高性能計(jì)算,用很樸實(shí)的話說(shuō),就是想辦法讓大模型訓(xùn)練的越快,越省錢。
可以說(shuō),尤洋選擇的路線是驗(yàn)證其研究成果最有效的途徑。
雷峰網(wǎng)了解到,目前潞晨科技的研發(fā)主要分為三部分:一是做大模型訓(xùn)練系統(tǒng)——Colossal-AI;二是訓(xùn)練100億到200億參數(shù)的行業(yè)模型;三是做PaaS(Platform as a Service)平臺(tái)。其中Colossal-AI系統(tǒng)已經(jīng)有世界500強(qiáng),2000強(qiáng)的客戶在使用。
“現(xiàn)階段的重點(diǎn)是Colossal-AI系統(tǒng)的開(kāi)發(fā),未來(lái)不管是GPT、PaLM還是任何一家大模型都可以用Colossal-AI訓(xùn)練,因?yàn)槲覀兊南到y(tǒng)就是幫他們省錢省時(shí)間的”尤洋補(bǔ)充道。
談到具體能降多少成本?尤洋這樣說(shuō):“假如用最基本的方案訓(xùn)練GPT 大概要1000 萬(wàn)美金,假如用業(yè)界最好的方案,能把成本降到300萬(wàn)美金,我們的方案則可以降到140萬(wàn)美金,也就是在最便宜的方案上再降一半,當(dāng)然這些是絕對(duì)優(yōu)化,如果加上收斂性優(yōu)化可能降的會(huì)更多,但也會(huì)影響模型?!?br/>
成本只是一方面,與其他廠商不同的是,潞晨更注重“開(kāi)源”二字,因?yàn)樵谟妊罂磥?lái),AI發(fā)展到現(xiàn)在正是因?yàn)樗銐蜷_(kāi)放,未來(lái)AI競(jìng)爭(zhēng)的焦點(diǎn)是生態(tài),即有多少人在用你的軟件,有多少人在給你反饋,只有反饋多了你才能不斷迭代優(yōu)化,才能吸引更多用戶。
“一個(gè)好的AI生態(tài),應(yīng)該有三四千個(gè)用戶或者三四千家企業(yè)去使用去貢獻(xiàn),這樣整個(gè)生態(tài)的力量勢(shì)必會(huì)比大廠的實(shí)力要強(qiáng)?!?br/>
以下是雷峰網(wǎng)和尤洋的對(duì)話:
大學(xué)教授創(chuàng)辦AI公司,技術(shù)契合,想讓企業(yè)低成本獲得大模型
雷峰網(wǎng):作為一名大學(xué)老師,為什么想要?jiǎng)?chuàng)業(yè)?
尤洋:主要是技術(shù)比較契合,GPT是2020年出來(lái)的,當(dāng)時(shí)GPT1、2的影響力還不是很大,后來(lái)GPT3也沒(méi)有出圈。但GPT3出來(lái)的時(shí)候我已經(jīng)在思考這件事情了,當(dāng)時(shí)我就有一種預(yù)判,大模型肯定是未來(lái)的一大趨勢(shì),但大模型在各行業(yè)落地的難點(diǎn)就是計(jì)算成本。
我本職的技術(shù)專長(zhǎng)是研究高性能計(jì)算,用很樸實(shí)的話說(shuō),就是想辦法讓大模型訓(xùn)練的越快,越省錢。比如之前我們和谷歌合作,訓(xùn)練出了當(dāng)時(shí)最好的模型BERT,訓(xùn)練時(shí)間從3天降到了76分鐘,也產(chǎn)生了一些價(jià)值,現(xiàn)在也有很多人在用我們當(dāng)時(shí)設(shè)計(jì)的方法。
其實(shí)2020年剛畢業(yè)時(shí)就在思考這件事,2021年年初我就覺(jué)得需要?jiǎng)?chuàng)業(yè)了,但趕上了疫情,其實(shí)一直在找機(jī)會(huì)。
雷峰網(wǎng):最初受誰(shuí)影響做這件事的?
尤洋:2021年之前就有一些VC找過(guò)我,像李開(kāi)復(fù)老師2021年四五月份就聯(lián)系到了我,7月份我來(lái)北京和他們見(jiàn)了一面,過(guò)了不到一周他們就給我發(fā)了投資意向書。
雷峰網(wǎng):所以是李開(kāi)復(fù)讓你下定決心做這件事的?
尤洋:我覺(jué)得讓我下定決心的是我們對(duì)技術(shù)的判斷,其實(shí)在李開(kāi)復(fù)老師之前,一些個(gè)人天使也有投資意向。
雷峰網(wǎng):18個(gè)月完成三輪融資,是誰(shuí)先投的?
尤洋:創(chuàng)新工場(chǎng)最先給的投資意向書,真格基金知道創(chuàng)新工場(chǎng)給了,也迅速跟進(jìn)了,所以我們2021年8月份就完成了融資,對(duì)外PR后藍(lán)馳聯(lián)系到了我們,9月份和他們老板見(jiàn)了一面,十一之前就給我發(fā)了投資意向書。只不過(guò)十一假期之后到元旦前我們一直在做公司的VIE結(jié)構(gòu),浪費(fèi)了很多時(shí)間。
雷峰網(wǎng):資金有了具體怎么搭建團(tuán)隊(duì)的?2020年就開(kāi)始了?
尤洋:對(duì),其實(shí)我們公司成立時(shí)只有我自己一個(gè)人,正好當(dāng)時(shí)新加坡國(guó)立大學(xué)的一批學(xué)生畢業(yè)了,就把他們邀請(qǐng)過(guò)來(lái)了,然后又從社會(huì)上招募了幾個(gè)人。
雷峰網(wǎng):潞晨的融資一直很順利,您認(rèn)為資方看中的是什么?
尤洋:和我之前訓(xùn)練BERT的經(jīng)歷有關(guān),我的那項(xiàng)技術(shù)創(chuàng)新工場(chǎng)內(nèi)部的AI 工程院現(xiàn)在也在用,我覺(jué)得這是投我的一個(gè)原因,再加上我是美國(guó)博士,其實(shí)在業(yè)界還是有一定知名度的。
創(chuàng)新工場(chǎng)投我們的時(shí)候,我們什么也沒(méi)有,他們看的就是我個(gè)人的一些積累和之前做過(guò)的一些有用的東西,藍(lán)馳投我們的時(shí)候,我們剛想好要做開(kāi)源社區(qū),他們可能對(duì)開(kāi)源社區(qū)也比較看好,最近一輪紅杉資本投我們是已經(jīng)初見(jiàn)一些效果了,并且他們也比較相信開(kāi)源。
三條線齊頭并進(jìn),被動(dòng)獲客高于主動(dòng)獲客
雷峰網(wǎng):潞晨給自己設(shè)定的大模型路線是什么樣的?
尤洋:主要分為三部分:一是做訓(xùn)練大模型的系統(tǒng)—Colossal-AI;理論上不管GPT、LLaMA還是其他大模型都可以用Colossal-AI訓(xùn)練,因?yàn)槲覀兊南到y(tǒng)就是幫他們省錢省時(shí)間的;二是訓(xùn)練大模型,做100億到200億參數(shù)的面向行業(yè)的垂直模型;三是做PaaS平臺(tái),把需要訓(xùn)練大模型的人集成到我們的平臺(tái)上去,這樣三個(gè)飛輪就能形成一個(gè)正向的循環(huán)。
雷峰網(wǎng):現(xiàn)在做到哪一步了?
尤洋:三個(gè)團(tuán)隊(duì)在同時(shí)做,主要精力還在Colossal-AI上面,當(dāng)然第二部分也在做,主要幫助企業(yè)做大模型的私有化部署,第三部分未來(lái)的商業(yè)化可能會(huì)多一些。
雷峰網(wǎng):具體怎么給客戶提供服務(wù)?
尤洋:要么買我們的企業(yè)版軟件,要么用Colossal-AI訓(xùn)練自己的大模型,然后我們給他的機(jī)器做優(yōu)化。
雷峰網(wǎng):Colossal-AI的效果如何了?
尤洋:其實(shí)我們自己測(cè)試了,肯定是能降低成本的,并且現(xiàn)在已經(jīng)有很多人在用了。
雷峰網(wǎng):所以說(shuō)現(xiàn)在Colossal-AI已經(jīng)做得很成熟了?
尤洋:沒(méi)有絕對(duì)好的事情,我們的產(chǎn)品3到6個(gè)月會(huì)升級(jí)一次,要想變得更穩(wěn)定的話,還是需要一定時(shí)間去迭代的。
雷峰網(wǎng):具體點(diǎn)比如王小川或者其他家用Colossal-AI訓(xùn)練的話,成本大概能降低到多少?
尤洋:我們做過(guò)計(jì)算,假如用最基本的方案,比如Python、DDP等沒(méi)有經(jīng)過(guò)優(yōu)化方法訓(xùn)練GPT 大概要1000 萬(wàn)美金。比如用業(yè)界最好的方案,能降到300萬(wàn)美金,效果也不會(huì)打折扣,因?yàn)槭蔷仃噺埩績(jī)?yōu)化,不是收斂性優(yōu)化,收斂性優(yōu)化會(huì)影響模型精度。那我們的方案可以降到140萬(wàn)美金,就是在最便宜的方案上再降一半,當(dāng)然這些都是絕對(duì)優(yōu)化,如果加上收斂性優(yōu)化可能降的會(huì)更多,但也會(huì)影響模型。
雷峰網(wǎng):效果已經(jīng)這么好了,那豈不是其他企業(yè)想做都做不下去了?
尤洋:我不這么認(rèn)為,我覺(jué)得AI行業(yè)沒(méi)有知識(shí)產(chǎn)權(quán),也沒(méi)有IP,包括GPT也是在谷歌Transformer的架構(gòu)上做的,如果技術(shù)長(zhǎng)期閉源的話,其實(shí)是不可持續(xù)的。
我堅(jiān)信AI能發(fā)展到今天就是因?yàn)樗拈_(kāi)放性,沒(méi)有任何人能夠認(rèn)為自己的生成式AI就是獨(dú)特的且有很高壁壘的,我覺(jué)得未來(lái)競(jìng)爭(zhēng)的是生態(tài),就是說(shuō)有多少人在用你的軟件,有多少人在給你反饋,因?yàn)橹挥薪o你提供的反饋多了,你才能不斷迭代優(yōu)化它,這樣才能吸引更多用戶。
我覺(jué)得一個(gè)好的AI生態(tài),應(yīng)該有三四千個(gè)用戶或者三四千家企業(yè)去使用去貢獻(xiàn),這樣整個(gè)生態(tài)的力量肯定比大廠的實(shí)力要強(qiáng)。
雷峰網(wǎng):目前商業(yè)化做得怎么樣?
尤洋:比較順利,雖然PaaS還沒(méi)有很成熟,但第一部分已經(jīng)在掙錢了,現(xiàn)在我們已經(jīng)有很多世界500強(qiáng)、2000強(qiáng)的客戶了,包括國(guó)內(nèi)這幾家創(chuàng)業(yè)公司都是我們的潛在客戶,像阿里通義千問(wèn)、百度文心一言、MiniMax可能都用過(guò)Colossal-AI了。
雷峰網(wǎng):PaaS層產(chǎn)品什么時(shí)候能發(fā)布出來(lái)?
尤洋:8月1號(hào)之前會(huì)發(fā)布出來(lái)。
雷峰網(wǎng):了解到潞晨現(xiàn)在的客戶國(guó)外偏多國(guó)內(nèi)偏少?
尤洋:兩方面原因:第一我們公司成立的時(shí)間比較短,成立的前一個(gè)月主要在搭建團(tuán)隊(duì),需要一定的時(shí)間過(guò)渡,第二其實(shí)我們也有很多國(guó)內(nèi)客戶,比如某些AI企業(yè)已經(jīng)成立專門的團(tuán)隊(duì)在研究Colossal-AI了,當(dāng)然我們現(xiàn)在也有很多目標(biāo)客戶,像傳統(tǒng)的車廠、藥廠、石油公司、金融機(jī)構(gòu)等。
雷峰網(wǎng):為什么把傳統(tǒng)行業(yè)作為目標(biāo)客戶?
尤洋:因?yàn)閭鹘y(tǒng)企業(yè)是有長(zhǎng)期付費(fèi)意愿的,普惠AI時(shí)代是傳統(tǒng)行業(yè)內(nèi)部的一次AI升級(jí),最終AI有多普及還是要看傳統(tǒng)行業(yè),現(xiàn)在有好幾家汽車企業(yè)在自己訓(xùn)練,因?yàn)樗麄冇X(jué)得這是一項(xiàng)核心技術(shù),也沒(méi)有絕對(duì)壁壘。包括一些頭部證券公司對(duì)原創(chuàng)技術(shù)也是非??释摹?br/>
雷峰網(wǎng):未來(lái)重點(diǎn)放在國(guó)外還是國(guó)內(nèi)?
尤洋:其實(shí)無(wú)所謂,畢竟我們是一家小公司,沒(méi)必要把自己限制的太死。再就是我們做的是開(kāi)源社區(qū),是一個(gè)被動(dòng)獲客的過(guò)程,不太需要主動(dòng)BD,所以現(xiàn)在美國(guó)、中東、新加坡以及東南亞的客戶都有。
雷峰網(wǎng):如果主動(dòng)獲客的話,會(huì)選擇哪些區(qū)域?
尤洋:主動(dòng)獲客的話,我覺(jué)得優(yōu)先級(jí):中國(guó)市場(chǎng)第一,東南亞市場(chǎng)第二,中東市場(chǎng)第三。被動(dòng)獲客的話肯定就沒(méi)有任何限制了。
AI沒(méi)有知識(shí)版權(quán),只有開(kāi)源才能走的更遠(yuǎn)
雷峰網(wǎng):為什么覺(jué)得開(kāi)源生態(tài)很重要?
尤洋:我覺(jué)得有兩方面原因:一方面,把開(kāi)源社區(qū)做好確實(shí)能創(chuàng)造更大的價(jià)值。我們做的是風(fēng)險(xiǎn)投資,但是當(dāng)很多人都在用時(shí),就能產(chǎn)生了一定的社會(huì)價(jià)值,我們的錢也算沒(méi)打水漂。從投資人的角度來(lái)說(shuō),他們也能認(rèn)可,因?yàn)橥顿Y人的錢也是從社會(huì)上募資而來(lái)的。
另一方面,畢竟創(chuàng)業(yè)做公司肯定想變現(xiàn)上市,我覺(jué)得本質(zhì)上To B、AI最核心的競(jìng)爭(zhēng)力是要和用戶建立一個(gè)強(qiáng)的信任綁定關(guān)系,所以我覺(jué)得開(kāi)源很重要。
雷峰網(wǎng):所以在創(chuàng)立潞晨前就想好要做開(kāi)源了?
尤洋:成立公司一個(gè)月內(nèi)決定要做開(kāi)源這件事兒。
雷峰網(wǎng):現(xiàn)在整個(gè)生態(tài)是什么樣的狀態(tài)?
尤洋:這個(gè)生態(tài)中目前主要有三類企業(yè):第一類是深度用戶,他們可以貢獻(xiàn)一些代碼,幫我們?nèi)?yōu)化軟件;第二類是用了我們的軟件覺(jué)得很好的企業(yè),在這個(gè)過(guò)程中會(huì)形成依賴關(guān)系;第三類是給我們反饋問(wèn)題的企業(yè)。這三類企業(yè)中大小公司都有。
雷峰網(wǎng):有多少人專門負(fù)責(zé)開(kāi)源生態(tài)的運(yùn)營(yíng)工作?
尤洋:我們安排了兩三個(gè)人在引導(dǎo),其實(shí)做生態(tài)的意義就是讓別人用,幫別人解決問(wèn)題,然后別人發(fā)現(xiàn)問(wèn)題了,我們?cè)俨粩嗤晟疲?dāng)然我們自己也會(huì)設(shè)定一些重要的發(fā)展方向。
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng)):所以做開(kāi)源生態(tài)不需要鋪太多的人?
尤洋:對(duì),我覺(jué)得人數(shù)應(yīng)該不會(huì)超過(guò)20人,不管這個(gè)開(kāi)源社區(qū)有2萬(wàn)人用還是100 人用。因?yàn)槲矣X(jué)得他需要一部分人去維護(hù)一個(gè)核心的內(nèi)核,把內(nèi)核維護(hù)好了,其他邊邊角角的,其實(shí)只要這個(gè)東西有很多人用,是有人會(huì)自發(fā)做貢獻(xiàn)的。
雷峰網(wǎng):和英偉達(dá)的合作其實(shí)也是為了生態(tài)?
尤洋:對(duì),目前我們?cè)谟ミ_(dá)的生態(tài)里,在他們的生態(tài)里其實(shí)我們有望拿到一些低價(jià)的算力,英偉達(dá)也給我們開(kāi)源社區(qū)貢獻(xiàn)了一些新功能,也都會(huì)優(yōu)先適配Colossal-AI。
國(guó)內(nèi)大模型都有機(jī)會(huì),誰(shuí)率先跑出來(lái),需年底見(jiàn)分曉
雷峰網(wǎng):國(guó)內(nèi)大模型會(huì)呈現(xiàn)怎樣的發(fā)展局面?
尤洋:主要分為兩個(gè)方向。國(guó)外內(nèi)市場(chǎng)最多有兩三家能走出來(lái),大概今年年底能看出來(lái)。
最終國(guó)內(nèi)通用大模型市場(chǎng)最多能容下兩三個(gè),大廠肯定會(huì)占據(jù)一半,剩下的一個(gè)名額可能是創(chuàng)業(yè)公司。這就迫使其他創(chuàng)業(yè)公司必須轉(zhuǎn)型做行業(yè)模型,行業(yè)模型其實(shí)沒(méi)有通用大模型值錢,所以大部分創(chuàng)業(yè)公司的最終估值會(huì)下降很多。
雷峰網(wǎng):您看好哪家的大模型?
尤洋:最領(lǐng)先的要么是大廠,要么是 MiniMax 和智譜。這幾家肯定已經(jīng)訓(xùn)練出了大模型,其他幾家有的只是一個(gè)雛形,還在微調(diào)階段甚至還沒(méi)到訓(xùn)練階段。其實(shí)到火山云上看一下卡的使用量也可以看出來(lái),MiniMax 和智譜已經(jīng)使用了 1000 張 GPU 卡了,其他幾家都是 200 張。
平心而論,我覺(jué)得百度可能還真是最領(lǐng)先的。
雷峰網(wǎng):那創(chuàng)業(yè)公司呢?
尤洋:我覺(jué)得是智譜。
有幾個(gè)原因,第一,中國(guó)和美國(guó)的國(guó)情不一樣,中國(guó)AI項(xiàng)目的論文一般都出自大學(xué),而美國(guó)是Google、Facebook、OpenAI等,也就是說(shuō)中國(guó)的技術(shù)源泉源自大學(xué),最優(yōu)秀的 AI人才也在大學(xué);第二,我覺(jué)得大模型一旦做大,面臨的是政治問(wèn)題,美元基金最終會(huì)受限,所以像智譜這種純?nèi)嗣駧诺姆炊袃?yōu)勢(shì);第三,唐杰老師有豐富的學(xué)術(shù)、技術(shù)經(jīng)驗(yàn)的積累,另外唐杰老師的清華背景對(duì)大模型的發(fā)展會(huì)有很大幫助。
雷峰網(wǎng):那您覺(jué)得國(guó)內(nèi)大模型的決勝點(diǎn)是什么?
尤洋:數(shù)據(jù)、算力、算法。算力和數(shù)據(jù)應(yīng)該是最重要的,如何把算力合理地用起來(lái),也非常重要。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。