0
本文作者: 何思思 | 2023-06-21 09:07 |
作者丨何思思
編輯丨林覺(jué)民
2015年從微軟離職的簡(jiǎn)仁賢,創(chuàng)辦了竹間智能,從成立之初,竹間智能就專(zhuān)注于AI技術(shù)的研發(fā),并在NLP(自然語(yǔ)言處理)領(lǐng)域下足了功夫。
但值得注意的是,彼時(shí)國(guó)內(nèi)對(duì)NLP的研發(fā)還處于空白,也沒(méi)有一款成熟的NLP產(chǎn)品出現(xiàn)。竹間智能作為一家初創(chuàng)企業(yè)為何選擇去填補(bǔ)這塊空白?
其實(shí)從簡(jiǎn)仁賢以往的履歷中就能得到答案“2006年加入微軟負(fù)責(zé)Bing核心產(chǎn)品的研發(fā)、2012年擔(dān)任微軟亞洲互聯(lián)網(wǎng)工程院副院長(zhǎng),負(fù)責(zé)微軟亞太地區(qū)的搜索及AI產(chǎn)品的技術(shù)研發(fā),并主導(dǎo)開(kāi)發(fā)微軟小娜(Cortana)......”
可以說(shuō),這些寶貴的經(jīng)驗(yàn)是竹間智能研究NLP的彈藥,但這并不意味著其N(xiāo)LP的研發(fā)之路是一帆風(fēng)順的。創(chuàng)辦初期,簡(jiǎn)仁賢帶領(lǐng)團(tuán)隊(duì)專(zhuān)心搞研發(fā),2017年開(kāi)始嘗試做商業(yè)化探索,2020年形成規(guī)?;l(fā)展。目前竹間智能已經(jīng)為600多家客戶(hù)做了NLP的落地。
轉(zhuǎn)眼到2023年,在人們還在談?wù)摯竽P驮趺醋龅臅r(shí)候,竹間智能就推出了大模型工廠(LLM Factory)。很多人認(rèn)為,這是其長(zhǎng)期深耕NLP技術(shù),厚積薄發(fā)的結(jié)果,簡(jiǎn)仁賢也并不否認(rèn)這一點(diǎn)。
同時(shí),雷峰網(wǎng)還了解到,早在2021年GPT 2剛出來(lái)時(shí)竹間智能就開(kāi)始研究,并逐漸把機(jī)器學(xué)習(xí)平臺(tái)往大模型上遷移。因?yàn)樵诤?jiǎn)仁賢看來(lái),等大模型火了之后再做就來(lái)不及了,很多東西等所有人看明白后再去做就是紅海了。
反觀國(guó)內(nèi)大模型的發(fā)展,確實(shí)如此。從大模型的概念火出圈后,國(guó)內(nèi)出現(xiàn)了多家大模型產(chǎn)品,諸如百度的文心一言、阿里商務(wù)千義通問(wèn)、訊飛星火認(rèn)知、商湯日日新...比比皆是,有關(guān)大模型的討論也都是“參數(shù)是多少、做到什么程度了等等。”
簡(jiǎn)仁賢坦言,現(xiàn)在人們更愿意每天在媒體上面看谷歌怎么樣了,Meta怎么樣了,OpenAI怎么樣了,誰(shuí)誰(shuí)誰(shuí)怎么樣了,這些都是趨勢(shì),不能反映企業(yè)內(nèi)部的問(wèn)題,這時(shí)大模型廠商真正要做的是,在企業(yè)預(yù)算資源有限的情況下,幫助企業(yè)把大模型融入到業(yè)務(wù)系統(tǒng)中,做增強(qiáng),做賦能。
“竹間智能不會(huì)開(kāi)發(fā)布會(huì)嘩眾取寵,也不會(huì)向別人吹噓自己的技術(shù)有多牛,而是讓每個(gè)人都用到這項(xiàng)新技術(shù),創(chuàng)造出能給用戶(hù)帶來(lái)價(jià)值的大模型產(chǎn)品?!?/span>
對(duì)此,簡(jiǎn)仁賢還特別舉例道:“如果你和家里人說(shuō)我有個(gè)大模型,他們可能無(wú)法理解你在說(shuō)什么,但如果你說(shuō)有個(gè)APP,你只需跟它說(shuō)幾句話,它就能幫你寫(xiě)信,他們反而能迅速理解并接受,他們才不會(huì)關(guān)心你背后是大模型還是什么?!?/span>
以下是雷峰網(wǎng)和簡(jiǎn)仁賢的對(duì)話:
像特斯拉Model一樣,做量化,讓大模型更平民化
雷峰網(wǎng):從什么時(shí)候開(kāi)始關(guān)注大模型的?
簡(jiǎn)仁賢:實(shí)際上我們已經(jīng)在大模型的研究領(lǐng)域耕耘超過(guò)兩年的時(shí)間。自2021年GPT2問(wèn)世,我們就開(kāi)始關(guān)注了,并將機(jī)器學(xué)習(xí)平臺(tái)向大模型開(kāi)發(fā)方向遷移。
雷峰網(wǎng):大模型工廠(LLM Factory)是大模型火了之后開(kāi)始做的嗎?
簡(jiǎn)仁賢:不是,從2021年起,盡管大模型當(dāng)時(shí)并未大熱,竹間就開(kāi)始關(guān)注大模型了,2022年中開(kāi)始研究,現(xiàn)在我們已在內(nèi)部進(jìn)行應(yīng)用實(shí)踐。
雷峰網(wǎng):為什么開(kāi)始的這么早?
簡(jiǎn)仁賢:大模型火了之后,后期投入的企業(yè)面臨逐漸飽和的市場(chǎng),也就是紅海。越早開(kāi)始,積累的經(jīng)驗(yàn)就越豐富,而后期投入則不可避免地要面對(duì)各種問(wèn)題,這些問(wèn)題我們往往已經(jīng)解決過(guò),現(xiàn)在的道路已經(jīng)相對(duì)平坦。我們?cè)谧匀徽Z(yǔ)言處理(NLP)領(lǐng)域的深耕已有近8年,大語(yǔ)言模型也是NLP領(lǐng)域,最大的突破是生成式AI以及將大語(yǔ)言模型訓(xùn)練工程實(shí)現(xiàn),現(xiàn)在企業(yè)面對(duì)的挑戰(zhàn)是如何克服大模型的落地的種種挑戰(zhàn),將大語(yǔ)言模型應(yīng)用到業(yè)務(wù)場(chǎng)景中,達(dá)到業(yè)務(wù)的效果,而不是只有炫技。近8年來(lái),企業(yè)對(duì)我們的信任度高,我們也深入理解他們?cè)贜LP的需求,有助于企業(yè)將大語(yǔ)言模型落地。
雷峰網(wǎng):大模型工廠(LLM Factory)具體可以做什么?
簡(jiǎn)仁賢:大語(yǔ)言模型工廠(LLM Factory)的運(yùn)行機(jī)制非常復(fù)雜,整條模型訓(xùn)練微調(diào)的流水線從數(shù)據(jù)梳理清洗,人工標(biāo)注,到選擇預(yù)訓(xùn)練基礎(chǔ)模型,實(shí)驗(yàn)不同的微調(diào)方法,不同人物進(jìn)行多次微調(diào),并評(píng)估模型結(jié)果,再加入人工反饋強(qiáng)化學(xué)習(xí)機(jī)制,上下文學(xué)習(xí),等等,進(jìn)而自動(dòng)化地完成模型交付。如今,我們已經(jīng)拓展了原有積累多年的自動(dòng)化機(jī)器學(xué)習(xí)平臺(tái)和數(shù)據(jù)標(biāo)注運(yùn)營(yíng)平臺(tái),因此在這個(gè)系統(tǒng)上,我們可以訓(xùn)練微調(diào)出許多不同的大模型,依照企業(yè)的需求,實(shí)現(xiàn)專(zhuān)屬于企業(yè)的定制化行業(yè)大模型的落地。
各種模型都可以有不同大小的 size, 不同數(shù)量級(jí)的參數(shù),這就好比我們喜歡的衣服有S、M、L、XL、XXL各種尺碼,我們可以從以前的S尺碼模型做到現(xiàn)在的M、L,甚至是XL尺碼的模型。而且,我們所做的是能批量生產(chǎn)的模型,就像特斯拉的Model系列一樣,我們并非只做一款模型,而是要能生產(chǎn)出N款模型。
雷峰網(wǎng):竹間做這件事情,對(duì)企業(yè)最大的好處是什么?
簡(jiǎn)仁賢:對(duì)于絕大多數(shù)的企業(yè)客戶(hù)來(lái)說(shuō),他們無(wú)法投入數(shù)千萬(wàn)資金進(jìn)行從0開(kāi)始的基礎(chǔ)大模型的預(yù)訓(xùn)練,即使有資金也無(wú)法做得到,數(shù)據(jù),算力,know-how,維護(hù)等。那竹間提供的大模型工廠(LLM Factory)可以在短時(shí)間內(nèi),快速且低成本的,幫助企業(yè)構(gòu)建自己的大模型,將其部署到本地并與現(xiàn)有系統(tǒng)融合,從而協(xié)助企業(yè)進(jìn)行業(yè)務(wù)的升級(jí)??蛻?hù)將可以直接看到效果,竹間提供從準(zhǔn)備數(shù)據(jù),模型微調(diào),最有效的微調(diào)方法,將微調(diào)訓(xùn)練的know-how開(kāi)發(fā)到EmotiBrain的模型工廠中,而且成本相對(duì)較低,無(wú)需自備GPU資源,既可以享有定制化的大模型。
雷峰網(wǎng):所以讓客戶(hù)低成本的享受大模型的能力,也是我們重點(diǎn)要做的?
簡(jiǎn)仁賢:我們的目標(biāo)就是將人工智能平民化,讓所有的企業(yè)都有自己的大模型,都能負(fù)擔(dān)得起的大模型,甚至我們?cè)O(shè)定一個(gè)目標(biāo):成立99萬(wàn)大模型試驗(yàn)室,讓企業(yè)在99萬(wàn)的預(yù)算內(nèi)即可打造一個(gè)企業(yè)自有的大模型,讓大模型變得更為平民化。此外,我認(rèn)為企業(yè)所需的并非僅僅是一個(gè)大模型,而是多個(gè)大模型,使用 EmotiBrain Model Factory,能高效訓(xùn)練微調(diào)大模型,更能進(jìn)一步降低成本。
雷峰網(wǎng):和以前相比,客戶(hù)的態(tài)度有轉(zhuǎn)變嗎?
簡(jiǎn)仁賢:我們之前也推廣過(guò)大模型,花費(fèi)了大量時(shí)間去教育市場(chǎng)和客戶(hù),但是由于門(mén)檻比較高,客戶(hù)也需要購(gòu)買(mǎi)GPU,當(dāng)時(shí)很多客戶(hù)并沒(méi)有充足的預(yù)算,也無(wú)法理解大模型能帶來(lái)的實(shí)際效果,所以推廣效果并不明顯。
隨著今年大模型的爆發(fā),現(xiàn)在大多數(shù)客戶(hù)都明白了大模型能夠給企業(yè)帶來(lái)什么樣的價(jià)值。目前,我們正在與數(shù)十個(gè)客戶(hù)進(jìn)行商談,他們對(duì)大模型還是比較接受的。
大模型自研與否不重要,關(guān)鍵要走最后一公里路
雷峰網(wǎng):您怎么定義竹間在大模型方面的服務(wù)模式?
簡(jiǎn)仁賢:我們提供Model-as-a-Service,模型即服務(wù),這意味著我們的產(chǎn)品和工具平臺(tái)可以快速幫助客戶(hù)構(gòu)建模型,而且這個(gè)模型可以迅速地與企業(yè)的業(yè)務(wù)系統(tǒng)進(jìn)行連接。這就避免了客戶(hù)需要購(gòu)買(mǎi)大量的GPU,或是糾結(jié)于如何選擇合適的模型,或者是走進(jìn)大筆經(jīng)費(fèi)的無(wú)效投入。我們會(huì)根據(jù)客戶(hù)的需求幫他們定制適合的模型,無(wú)論是70億參數(shù),130億參數(shù),還是650億參數(shù)的大模型,都在我們大模型工廠(LLM Factory)的服務(wù)范圍內(nèi)。
雷峰網(wǎng):具體怎么幫企業(yè)選擇合適的模型?
簡(jiǎn)仁賢:EmotiBrain 有大模型商店,里面有預(yù)訓(xùn)練好的行業(yè)大模型,不同任務(wù)的專(zhuān)有模型,我們還擁有一套實(shí)際的Benchmark系統(tǒng),可同時(shí)訓(xùn)練,評(píng)估,及比較多個(gè)大模型。比如,設(shè)定三種模型,三種不同的微調(diào)訓(xùn)練方法,以及三種不同的訓(xùn)練數(shù)據(jù),就可以訓(xùn)練出27種不同的模型。完成訓(xùn)練后,我們的Benchmark 系統(tǒng)可以對(duì)訓(xùn)練結(jié)果進(jìn)行比較,然后根據(jù)客戶(hù)的不同業(yè)務(wù)場(chǎng)景與目標(biāo),為他們選擇最合適的模型,企業(yè)不再需要花大錢(qián)組建模型訓(xùn)練團(tuán)隊(duì)。
雷峰網(wǎng):竹間的大模型是自研的還是?
簡(jiǎn)仁賢:我們的大模型開(kāi)發(fā)有兩種方式:一是自主研發(fā),二是基于其他預(yù)訓(xùn)練的大模型進(jìn)行開(kāi)發(fā)。
種方式我們都采用,快速在企業(yè)場(chǎng)景中,落地應(yīng)用,快速驗(yàn)證可商用化。如果堅(jiān)持所有事情都從零開(kāi)始,在企業(yè)落地階段,可能并不現(xiàn)實(shí)。
雷峰網(wǎng):所以您認(rèn)為,大模型是不是自研已經(jīng)不重要了?
簡(jiǎn)仁賢:坦率來(lái)說(shuō),目前絕大多數(shù)的生成式AI都是基于谷歌開(kāi)發(fā)的 Transformer 開(kāi)發(fā)出來(lái)的模型, 如果谷歌沒(méi)有開(kāi)源Transformer,OpenAI就沒(méi)法開(kāi)發(fā)出ChatGPT,也就不會(huì)有GPT 4;之后谷歌的PaLM 2也用了 GPT-4 來(lái)生成訓(xùn)練數(shù)據(jù)。此外,最流行的開(kāi)源大模型是基于Meta開(kāi)源的LLaMA模型(參數(shù)權(quán)重需要商用許可),大多數(shù)2023年發(fā)布的大模型也都是機(jī)遇開(kāi)源的基礎(chǔ)模型框架來(lái)訓(xùn)練的,或者是基于不同模型用不同數(shù)據(jù)與不同訓(xùn)練方法開(kāi)發(fā)出來(lái)的,未來(lái)的軟件世界,實(shí)用的,可商用化的,都不會(huì)是原始的基礎(chǔ)模型。
雷峰網(wǎng):那什么才是最重要的?
簡(jiǎn)仁賢:真正重要的是,最后用大模型驅(qū)動(dòng)做出的產(chǎn)品是否有實(shí)際應(yīng)用價(jià)值。就像我剛才舉的例子,Transformer是谷歌開(kāi)源的,但是在谷歌的PaLM 2中使用的訓(xùn)練數(shù)據(jù)是從GPT 4產(chǎn)生的語(yǔ)料中獲取的。那么GPT 4的訓(xùn)練語(yǔ)料是誰(shuí)做的呢?并不一定是GPT 4,可能是收集其他軟件的人類(lèi)使用數(shù)據(jù),如 Twitter, Reddit, 等。因此,未來(lái)軟件的新范式應(yīng)該是:誰(shuí)能夠做出讓用戶(hù)享受到成果的產(chǎn)品,誰(shuí)能夠把最后一公里打通,就是最有價(jià)值的,當(dāng)然要能保障數(shù)據(jù)安全,模型安全,并與人類(lèi)對(duì)齊。
雷峰網(wǎng):這樣一來(lái),微軟谷歌做的事情豈不是都沒(méi)有價(jià)值了?
簡(jiǎn)仁賢:實(shí)際上,OpenAI并不僅僅是做底層的工作,他們也在進(jìn)行應(yīng)用開(kāi)發(fā)。微軟也同樣如此,他們使用GPT 4為Office全家桶和Bing等產(chǎn)品做了升級(jí),他們所做的就是“最后一公里”的工作。谷歌也是一樣,與OpenAI一樣開(kāi)發(fā)AGI,并且在為自己的產(chǎn)品以大模型的能力升級(jí),谷歌和微軟的大模型都還是閉源的。
大模型+知識(shí)+應(yīng)用,才是未來(lái)軟件的范式
雷峰網(wǎng):業(yè)界有人說(shuō)以前的軟件范式是信息+連接,未來(lái)是知識(shí)+陪伴,您認(rèn)為未來(lái)軟件的新范式是什么樣的?
簡(jiǎn)仁賢:我認(rèn)為未來(lái)軟件的范式是“大模型+知識(shí)+應(yīng)用?!?/span>
雷峰網(wǎng):多了一個(gè)“應(yīng)用,”這個(gè)邏輯是怎么推論出來(lái)的?
簡(jiǎn)仁賢:我始終堅(jiān)信,能夠觸及用戶(hù)的產(chǎn)品才是最具價(jià)值的。比如,在我們今天談?wù)摽萍紩r(shí),全球近80億的人口中,大部分人對(duì)大模型這些高科技概念并不了解,他們碰不到、摸不到、看不到。目前要把大模型用好,需要很好的提示詞,這個(gè)99%以上的人是不會(huì)的,絕大多數(shù)的人他們只關(guān)心自己所使用的產(chǎn)品的性能能不能給他們帶來(lái)價(jià)值,所以應(yīng)用最重要。
我在之前幾次演講中也提到過(guò),模型與用戶(hù)之間存在著一道巨大的鴻溝。那么,如何架設(shè)一座橋梁跨越這個(gè)鴻溝呢?這座橋就是應(yīng)用,就是產(chǎn)品。因此,我認(rèn)為未來(lái)的軟件范式是“模型+知識(shí)+應(yīng)用”。如果只有模型和知識(shí),卻沒(méi)有應(yīng)用,那么它就無(wú)法被人們所接受。
模型是否有價(jià)值?我舉個(gè)例子,如果你回家跟家里的老人和孩子說(shuō):我有一個(gè)大模型,他們可能無(wú)法理解你在說(shuō)什么。但如果你說(shuō):我有一個(gè)應(yīng)用程序,你只需對(duì)它說(shuō)幾句話,它就能幫你寫(xiě)信。這樣他們就能迅速理解并接受,他們不會(huì)關(guān)心這個(gè)應(yīng)用程序背后是否有大模型。
因此,企業(yè)的目標(biāo)應(yīng)該是讓每個(gè)人都能使用到技術(shù),而不是向外界夸耀自己的技術(shù)有多么強(qiáng)大。我們的愿景是讓每個(gè)人都能擁有一個(gè)機(jī)器人。
雷峰網(wǎng):機(jī)器人的概念怎么理解?
簡(jiǎn)仁賢:機(jī)器人的中樞就是大模型,但這個(gè)機(jī)器人是一個(gè)應(yīng)用,它可以幫助人們完成任務(wù)。這就是我們的價(jià)值觀——只有模型是沒(méi)有用的,正如OpenAI一樣,盡管它的很多論文很難懂,但是它創(chuàng)造出了ChatGPT這個(gè)應(yīng)用,給大模型一個(gè)與人類(lèi)溝通的一個(gè)界面,將大模型到應(yīng)用的全過(guò)程實(shí)現(xiàn)了,讓全世界都能在一個(gè)界面上利用大模型完成各種任務(wù),因此它才能如此成功。
雷峰網(wǎng):那竹間應(yīng)用層的產(chǎn)品接入大模型的能力了嗎?
簡(jiǎn)仁賢:我們?cè)械?個(gè)產(chǎn)品都已經(jīng)具備大模型的能力,并且已開(kāi)發(fā)的四種應(yīng)用也是基于大模型的原生產(chǎn)品,我們的SaaS 產(chǎn)品也已經(jīng)接入大模型了,也已經(jīng)開(kāi)放給許多客戶(hù)試用了。
做好數(shù)據(jù)梳理,幫企業(yè)落地模型才是王道
雷峰網(wǎng):與通用大模型相比,竹間做大模型的意義是什么?
簡(jiǎn)仁賢:通用人工智能,AGI,并不能真正解決企業(yè)的業(yè)務(wù)問(wèn)題,絕大多數(shù)的公司都不能把自己的私有數(shù)據(jù)上傳出去。因此,每一家企業(yè)都會(huì)想要建立自己的大模型,這為我們帶來(lái)了萬(wàn)億級(jí)別的商機(jī),即如何幫助企業(yè)快速建立大模型。發(fā)布會(huì)所看到的大模型并不一定具備可商用化的質(zhì)量,我們重視的是如何將模型打造成可商用化的大模型,務(wù)實(shí)地幫助企業(yè)實(shí)現(xiàn)大模型的落地。
雷峰網(wǎng):具體怎么幫企業(yè)做落地?
簡(jiǎn)仁賢:我們提供的服務(wù)相當(dāng)于預(yù)先訓(xùn)練好基礎(chǔ)模型,將該模型部署到我們的大模型工廠(LLM Factory))上,再將其部署到客戶(hù)端,允許客戶(hù)使用自己的數(shù)據(jù)來(lái)訓(xùn)練自己的模型,并自動(dòng)集成到企業(yè)的應(yīng)用中。
雷峰網(wǎng):這是我們和其他廠商相比,最具優(yōu)勢(shì)的地方嗎?
簡(jiǎn)仁賢:對(duì)。像Open AI的GPT-4,由于模型參數(shù)龐大,需要的訓(xùn)練數(shù)據(jù)與維護(hù)工作量龐大,尋要的GPU資源更高達(dá)24000張A100-80G的GPU,是不可能將GPT-4這樣的模型部署到客戶(hù)端去操作。更實(shí)際的,企業(yè)并不需要上千參數(shù)量的大模型,大部分的需求,用7B或13B都能完成。我們的通用大模型和模型工廠部署到客戶(hù)端,結(jié)合客戶(hù)的數(shù)據(jù)和行業(yè)know-how,再進(jìn)行參數(shù)調(diào)整,便能微調(diào)訓(xùn)練出一個(gè)7B-65B的大模型。這個(gè)模型留在客戶(hù)端,屬于客戶(hù)所有,而不是我們。我們更提供了終端的應(yīng)用,讓企業(yè)能快速享受到大模型帶來(lái)的業(yè)務(wù)價(jià)值。
雷峰網(wǎng):其實(shí)這也在一定程度上解決了數(shù)據(jù)安全的問(wèn)題?
簡(jiǎn)仁賢:我們的大模型服務(wù)強(qiáng)調(diào)的是數(shù)據(jù)安全和模型安全,事實(shí)上,模型安全更為重要,因?yàn)槠髽I(yè)的許多know-how都融入了模型中。如果一個(gè)企業(yè)創(chuàng)建了一個(gè)模型,然后將這個(gè)模型交給了他人,可能整個(gè)企業(yè)的機(jī)密就無(wú)法保障了。大模型是根據(jù)訓(xùn)練的數(shù)據(jù)來(lái)生成結(jié)果的。因此,模型安全至關(guān)重要,我們的模型工廠首先能保證數(shù)據(jù)安全,其次能保證模型安全,確保企業(yè)的所有數(shù)據(jù)都萬(wàn)無(wú)一失。
雷峰網(wǎng):安全問(wèn)題保證了,對(duì)于竹間來(lái)說(shuō)做大模型最難的是什么?
簡(jiǎn)仁賢:數(shù)據(jù)梳理。數(shù)據(jù)梳理和數(shù)據(jù)標(biāo)注是兩個(gè)概念。
其實(shí)對(duì)于我們來(lái)說(shuō),創(chuàng)建大模型不難的,因?yàn)槲覀冇衚now-how,真正的難點(diǎn)在于客戶(hù)需要整理數(shù)據(jù)。舉例來(lái)說(shuō),如果要整理過(guò)去10年雷峰網(wǎng)的所有文章,篩選出所有與人工智能相關(guān)的文章,你們公司有誰(shuí)可以完成這項(xiàng)任務(wù)?需要多長(zhǎng)時(shí)間?這是一項(xiàng)復(fù)雜的任務(wù),需要大量的人力。
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng)):所以說(shuō),這也是對(duì)客戶(hù)的挑戰(zhàn)?
簡(jiǎn)仁賢:對(duì)。在國(guó)內(nèi),高質(zhì)量,梳理過(guò)的數(shù)據(jù)短缺是一大問(wèn)題,特別是有效的中文數(shù)據(jù)更是稀缺,缺少能使用到模型訓(xùn)練微調(diào)的高質(zhì)量的數(shù)據(jù)。創(chuàng)建企業(yè)定制化的大模型主要取決于企業(yè)自身是否有數(shù)據(jù)積累。如果沒(méi)有,就很難進(jìn)行,需要從數(shù)據(jù)收集和準(zhǔn)備訓(xùn)練數(shù)據(jù)做起。只能使用通用大模型來(lái)解決通用問(wèn)題,例如撰寫(xiě)文章、修改文章等簡(jiǎn)單任務(wù)。當(dāng)然,很多國(guó)內(nèi)外的大企業(yè)或上市公司都擁有自己的數(shù)據(jù),但缺乏的是數(shù)據(jù)梳理方法——如何沉淀優(yōu)質(zhì)數(shù)據(jù),然后去訓(xùn)練模型?這是最大的挑戰(zhàn)。
雷峰網(wǎng):怎么幫客戶(hù)解決這個(gè)問(wèn)題?
簡(jiǎn)仁賢:在數(shù)據(jù)梳理的過(guò)程中,不存在所謂的“彎道超車(chē)”,必須積累行業(yè)經(jīng)驗(yàn)和know-how。作為B端的服務(wù)提供者,我們?cè)诮鹑?、能源、制造、消費(fèi)、傳媒等領(lǐng)域已經(jīng)積累了豐富的經(jīng)驗(yàn)。我們具有能為企業(yè)整理數(shù)據(jù)的know-how和工具,如果只提供大模型而不協(xié)助整理數(shù)據(jù),不能微調(diào)大模型,那么客戶(hù)將無(wú)法有效使用大模型。
不做C端,瞄準(zhǔn)B端,堅(jiān)持做企業(yè)級(jí)大模型產(chǎn)品
雷峰網(wǎng):和前幾個(gè)月相比,您對(duì)大模型的發(fā)展有改觀嗎?
簡(jiǎn)仁賢:近期大模型的發(fā)展和我?guī)讉€(gè)月前的預(yù)測(cè)存在一些出入。谷歌并未開(kāi)源其模型,目前仍保持閉源狀態(tài)。Meta目前是開(kāi)源領(lǐng)域中最大的企業(yè),也是大模型的主要貢獻(xiàn)者。與谷歌和微軟保持閉源策略不同,Meta的LLaMA是開(kāi)源的(參數(shù)權(quán)重除外),其在整個(gè)開(kāi)源世界的影響力遠(yuǎn)超谷歌和。
目前,大模型呈現(xiàn)兩大發(fā)展趨勢(shì):一是保持閉源并走向超大型模型;另一是堅(jiān)持開(kāi)源并走向中大型模型。有些創(chuàng)業(yè)公司或大廠在做的大模型都同質(zhì)性太高,沒(méi)有差異化,其結(jié)果大同小異。但我認(rèn)為,未來(lái)有價(jià)值的工作會(huì)是在訓(xùn)練微調(diào)的技術(shù)上精進(jìn),并將微調(diào)工作規(guī)模化,為企業(yè)大模型落地走完最后一公里路,而不是處在于做同質(zhì)性的大模型。
雷峰網(wǎng):閉源大模型和開(kāi)源大模型爭(zhēng)奪市場(chǎng)有什么不同?
簡(jiǎn)仁賢:閉源大模型爭(zhēng)奪的是C端市場(chǎng),而開(kāi)源大模型爭(zhēng)奪的是B端市場(chǎng)。
雷峰網(wǎng):為什么谷歌、微軟不開(kāi)源?
簡(jiǎn)仁賢:簡(jiǎn)單來(lái)說(shuō),他們需要通過(guò)這些模型來(lái)提高他們主營(yíng)業(yè)務(wù)的獲利,以提高他們的競(jìng)爭(zhēng)力,對(duì)業(yè)務(wù)有價(jià)值的核心技術(shù),誰(shuí)會(huì)開(kāi)源?
雷峰網(wǎng):聽(tīng)下來(lái)發(fā)現(xiàn),竹間更傾向于做B端,那會(huì)不會(huì)像谷歌微軟一樣做超級(jí)巨大模型?
簡(jiǎn)仁賢:我們的目標(biāo)并非是直接為三、四億用戶(hù)服務(wù)的超大模型,這是大企業(yè)的工作。我們的目標(biāo)是為數(shù)萬(wàn)家有大模型需求的企業(yè)提供大模型支持與解決方案落地。另一個(gè)現(xiàn)實(shí)是:目前沒(méi)有任何非AI企業(yè)有足夠的計(jì)算資源和預(yù)算來(lái)開(kāi)發(fā)通用大模型。1萬(wàn)個(gè)GPU的費(fèi)用超過(guò)2億美元,我們的客戶(hù),絕大多數(shù)現(xiàn)階段都無(wú)法投入這么大的資金去開(kāi)發(fā)超大模型,尤其是當(dāng)這么大的模型并不是直接解決業(yè)務(wù)問(wèn)題的。
我們?cè)谂c客戶(hù)交流的過(guò)程中發(fā)現(xiàn),他們的需求不是高考,獲取律師資格、取得MBA,他們需要的是解決自己的業(yè)務(wù)問(wèn)題,而中大型模型就足以滿(mǎn)足這一需求。
雷峰網(wǎng):您認(rèn)為大模型廠商應(yīng)該把重點(diǎn)放在哪些方面?
簡(jiǎn)仁賢:我們應(yīng)該思考的是如何使企業(yè)在有限的預(yù)算下能夠負(fù)擔(dān)起新的AI技術(shù),幫助他們實(shí)現(xiàn)內(nèi)部增強(qiáng)。這才是大模型發(fā)展的重點(diǎn),科技的進(jìn)展日新月異,如何把握住最新技術(shù),了解客戶(hù)的需求,將合適的技術(shù)與產(chǎn)品落地到企業(yè)業(yè)務(wù)中才是我們最關(guān)注的重點(diǎn)。企業(yè)無(wú)法直接引入像ChatGPT這樣的模型。實(shí)際上,由于不可控的因素,數(shù)據(jù)安全的隱憂(yōu),許多國(guó)家和企業(yè)已經(jīng)開(kāi)始限制使用ChatGPT。在這種情況下,企業(yè)如果想要享受大模型的能力,對(duì)我們來(lái)說(shuō)就意味著巨大的商業(yè)機(jī)會(huì)。
在有限的預(yù)算內(nèi),幫助企業(yè)將大模型融入業(yè)務(wù)系統(tǒng),才是真正值得我們關(guān)心的大模型發(fā)展趨勢(shì)。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。