0
本文作者: 何思思 | 2023-08-04 10:53 |
作者丨何思思
編輯丨林覺(jué)民
“公司在用最高戰(zhàn)略的方式做這件事,”談到大模型時(shí)云從科技副總裁姜迅如是說(shuō)。
2015年成立之時(shí),云從科技就定調(diào)自己是一家AI平臺(tái)公司, 雖然云從科技是“四小龍”中成立最晚的一家,但是其在AI方面的表現(xiàn)并不遜色。
自成立之初,云從科技就將發(fā)展方向定位在人機(jī)協(xié)同操作系統(tǒng),一方面,包括根據(jù)不同應(yīng)用場(chǎng)景客戶需求提供的多種人機(jī)協(xié)同應(yīng)用產(chǎn)品和整體操作系統(tǒng),服務(wù)于客戶單點(diǎn)業(yè)務(wù)效能提升和整體業(yè)務(wù)升級(jí);另一方面也包括通用服務(wù)平臺(tái)“輕舟平臺(tái)”,能開(kāi)放引入生態(tài)伙伴共同開(kāi)發(fā)AI應(yīng)用及配套SaaS服務(wù)。
此外,在人工智能基礎(chǔ)上,云從科技還增加了對(duì)機(jī)器人、物聯(lián)網(wǎng)等技術(shù)研究投入,試圖構(gòu)建更為標(biāo)準(zhǔn)化的AI產(chǎn)品。借助底層操作系統(tǒng)這一統(tǒng)一入口,提供人機(jī)協(xié)同相關(guān)算力、算法、數(shù)據(jù)管理能力和應(yīng)用接口,從而構(gòu)建自己的生態(tài)閉環(huán)。
如今,人機(jī)協(xié)同操作系統(tǒng)的定位也一直延續(xù)到了大模型時(shí)代。姜迅表示,雖然公司內(nèi)部沒(méi)有明確的‘最高戰(zhàn)略’的提法,但對(duì)這件事情的重視度已經(jīng)非常高了,我們不用‘最’這個(gè)詞,用優(yōu)先級(jí)來(lái)說(shuō),它確實(shí)是一個(gè)非常高的優(yōu)先級(jí)。
反觀國(guó)內(nèi)大模型的發(fā)展,大部分企業(yè)仍停留在追熱點(diǎn)階段,并沒(méi)有實(shí)質(zhì)性進(jìn)展。那云從是否也在追熱點(diǎn)?姜迅給出了否定的答案。他表示,我們還在研究我們的人機(jī)協(xié)同操作系統(tǒng),在GPT技術(shù)之上,人機(jī)協(xié)同操作系統(tǒng)的智商會(huì)越來(lái)越高,它不僅會(huì)增加其上限,還能降低成本,這能在很大程度上讓該系統(tǒng)更好地服務(wù)客戶,競(jìng)爭(zhēng)優(yōu)勢(shì)也會(huì)增加。
雷峰網(wǎng)了解到,云從科技日前已經(jīng)推出了自研“從容”大模型。據(jù)姜迅介紹,除自研模型外,云從已經(jīng)聯(lián)合不同領(lǐng)域的不同企業(yè)推出了7款行業(yè)大模型,諸如游戲行業(yè)、金融行業(yè)、交通行業(yè)、醫(yī)療行業(yè)等。
并且他還坦言,C端、B端、G端都會(huì)做,我們肯定會(huì)結(jié)合自身的行業(yè)優(yōu)勢(shì),選擇最值得深耕的一些特定的行業(yè),而不是全行業(yè)的拓展,一定是要有重點(diǎn)的。
以下是雷峰網(wǎng)和姜迅的對(duì)話:
關(guān)注的不是BERT或GPT,而是整個(gè)大模型技術(shù)的演進(jìn)
雷峰網(wǎng):什么時(shí)候開(kāi)始關(guān)注大模型的?
姜迅:其實(shí)關(guān)注很長(zhǎng)時(shí)間了,2022年Google的LaMDA出來(lái)后,他們的研究員被強(qiáng)制休假了,那時(shí)就已經(jīng)意識(shí)到這個(gè)事情要發(fā)生了。要說(shuō)關(guān)注因?yàn)橐鋈藱C(jī)協(xié)同操作系統(tǒng),我們有個(gè)產(chǎn)品叫知識(shí)服務(wù)—knowledge as service,這個(gè)應(yīng)該更早一點(diǎn),對(duì)自然語(yǔ)言處理的技術(shù)進(jìn)展一直是和行業(yè)前沿保持同步的。
從產(chǎn)品邏輯上,2019年底2020年初就提出了五大模塊,包括AI數(shù)據(jù)湖、智能業(yè)務(wù)流、算法工廠、人機(jī)交互和知識(shí)服務(wù),只是GPT出來(lái)后,從系統(tǒng)架構(gòu)的視角看,知識(shí)服務(wù)從傳統(tǒng)的NLP以及知識(shí)圖譜等技術(shù)升級(jí)為大模型這個(gè)能力更強(qiáng)的引擎。但我們的整體系統(tǒng)架構(gòu)一直穩(wěn)定的,只是說(shuō)我們現(xiàn)在在用一種更新的技術(shù)來(lái)解決問(wèn)題,所以不是突然之間,是很早就在做了。
雷峰網(wǎng):為什么很早就提出了五大模塊?
姜迅:是這樣的,周曦老師一直強(qiáng)調(diào)要有更好的系統(tǒng)架構(gòu)設(shè)計(jì)官,所以設(shè)計(jì)出了五大模塊。他一直強(qiáng)調(diào)要把大的系統(tǒng)模塊設(shè)置好,要定義好模塊之間的交互的語(yǔ)言,那在這個(gè)過(guò)程中模塊之間的技術(shù)是不斷迭代更新的。比如之前用機(jī)器學(xué)習(xí),后來(lái)用深度學(xué)習(xí),再到現(xiàn)在的大模型,可能再過(guò)一兩年又有新的技術(shù)了,就是在系統(tǒng)的大模塊保持架構(gòu)穩(wěn)定,單點(diǎn)技術(shù)的進(jìn)步會(huì)增強(qiáng)各自模塊的能力,這樣在保證系統(tǒng)的完整性的同時(shí),可以穩(wěn)定的增強(qiáng)系統(tǒng)的競(jìng)爭(zhēng)力。
雷峰網(wǎng):與之前技術(shù)棧相比,大模型帶來(lái)了哪些變化?
姜迅:大模型帶來(lái)的是范式的變化,過(guò)去每一個(gè)任務(wù)都需要做單獨(dú)訓(xùn)練,盡管能看到各行各業(yè)對(duì)于AI技術(shù)旺盛的需求,有時(shí)候會(huì)有一些非常細(xì)碎的場(chǎng)景,比如檢驗(yàn)螺絲釘有沒(méi)有裂紋等等,由于這些場(chǎng)景對(duì)于單個(gè)用戶在前期階段很難覆蓋研發(fā)成本,這導(dǎo)致這些場(chǎng)景想要建立正向的商業(yè)循環(huán)是比較困難的。有些同行的朋友比喻為“為了喝一口水,挖了一口井”。
預(yù)訓(xùn)練大模型其實(shí)很好地解決了這個(gè)問(wèn)題,預(yù)訓(xùn)練模型在大規(guī)模無(wú)標(biāo)簽數(shù)據(jù)上進(jìn)行一次訓(xùn)練后,可以在多個(gè)具體任務(wù)上進(jìn)行指令微調(diào)。這使得預(yù)訓(xùn)練模型能夠在不同領(lǐng)域和任務(wù)中實(shí)現(xiàn)迅速的遷移和泛化,減少了在小樣本數(shù)據(jù)下過(guò)擬合的風(fēng)險(xiǎn)。
我們確定了基礎(chǔ)模型以后,只需要在這個(gè)基礎(chǔ)上加入新的知識(shí),原有投入訓(xùn)練成本得到了保護(hù),對(duì)于整個(gè)社會(huì)的算力資源也是一種保護(hù)。
雷峰網(wǎng):保護(hù)投資的意思是,這次訓(xùn)練的算力下次還能用?
姜迅:我們是把一些通識(shí)能力放到大模型中然后再不斷累加,也就是說(shuō)在現(xiàn)有能力之上,通過(guò)追加新的數(shù)據(jù)增強(qiáng)模型的能力,這樣就可以把模型的智商從 80 提到 90、100 ,隨著更多的數(shù)據(jù)和知識(shí)通過(guò)預(yù)訓(xùn)練的方式加入模型,模型的智商會(huì)越來(lái)越高。
其實(shí)我們可以把預(yù)訓(xùn)基礎(chǔ)模型比作一個(gè)人,它現(xiàn)在相當(dāng)于一個(gè)高中生,學(xué)會(huì)了基礎(chǔ)加減乘除等基礎(chǔ)的運(yùn)算邏輯,然后再不斷提升它的智商。這個(gè)過(guò)程不需要重新開(kāi)始,而是在上一個(gè)能力的基礎(chǔ)上做疊加,這就是對(duì)投資的保護(hù),之后的訓(xùn)練工作量變少了,但是能力卻變的更強(qiáng)了。
當(dāng)一個(gè)新技術(shù)出來(lái)后,你要做得是先去了解他,然后去擁抱他。
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng)):目前云從對(duì)大模型的定位是什么樣的?是在追熱點(diǎn)嗎?
姜迅:我們是在用最高戰(zhàn)略的方式做這件事情,而不是追熱點(diǎn)。因?yàn)榇竽P图夹g(shù)已經(jīng)相對(duì)成熟了,它不僅會(huì)增加人機(jī)協(xié)同操作系統(tǒng)的上限,還能降低成本,這能在很大程度上讓我們的人機(jī)協(xié)同操作系統(tǒng)更好地服務(wù)客戶,競(jìng)爭(zhēng)優(yōu)勢(shì)也會(huì)增加。
這是我們對(duì)這個(gè)事情的認(rèn)知,不是說(shuō)我們要去蹭這個(gè)熱點(diǎn),我們還在研發(fā)人機(jī)協(xié)同操作系統(tǒng)。
雷峰網(wǎng):也就是說(shuō)最終交付的還是人機(jī)協(xié)同操作系統(tǒng)?
姜迅:對(duì),只是依托GPT這個(gè)引擎,人機(jī)協(xié)同操作系統(tǒng)的智商更高了。原來(lái)我們用傳統(tǒng)機(jī)器學(xué)習(xí)、知識(shí)圖譜的方式,它也是一個(gè)有智商的智能體系,只是它的智商相對(duì)低,處理的任務(wù)也相對(duì)有限。
雷峰網(wǎng):大模型具體怎么和人機(jī)協(xié)同操作系統(tǒng)結(jié)合?
姜迅:大家首先感知到的是交互方式的變化,從原來(lái)的點(diǎn)擊鼠標(biāo)變成人機(jī)交互,其次就是它一定會(huì)對(duì)每個(gè)行業(yè)的行業(yè)知識(shí)有更深刻的理解。
降本增效是必然,還會(huì)帶來(lái)洞察業(yè)務(wù)的價(jià)值
雷峰網(wǎng):訓(xùn)練出一個(gè)相對(duì)成熟的大模型要多久?
姜迅:我們做這件事情有兩個(gè)步驟:第一步先完成高中教育,這個(gè)過(guò)程我們對(duì)它沒(méi)有盈利的目標(biāo)。就是先做技術(shù)項(xiàng)目,這也是基礎(chǔ)模型要做的事情。
第二步把行業(yè)知識(shí)灌給他,這樣就可以培養(yǎng)出不同領(lǐng)域的專(zhuān)家,然后給不同領(lǐng)域的客戶服務(wù)。但前提是我要有一個(gè)智商比較高的基礎(chǔ)模型,這樣才能保證他能做你要求他做的事情。
雷峰網(wǎng):現(xiàn)在有沒(méi)有具體的場(chǎng)景應(yīng)用案例了?
姜迅:比如用大模型做數(shù)據(jù)分析,一是人力開(kāi)發(fā)會(huì)被大大降低,原來(lái)的模式可能需要五六個(gè)研發(fā),現(xiàn)在不需要了,開(kāi)發(fā)人數(shù)減少也意味著效率會(huì)增加;二是時(shí)間變短了,原來(lái)可能需要一到兩周甚至一到兩個(gè)月的時(shí)間,現(xiàn)在可能一兩分鐘就解決了,這兩點(diǎn)是效率提升上的價(jià)值的。
除此之外,還有一個(gè)非常重要的影響是,大模型通過(guò)讓業(yè)務(wù)人員直接操作數(shù)據(jù),和系統(tǒng)、數(shù)據(jù)的距離更近了。還是上面數(shù)據(jù)分析的例子,銷(xiāo)售主管想要分析最近的銷(xiāo)售趨勢(shì),從匯總的數(shù)字上看,銷(xiāo)售的數(shù)據(jù)沒(méi)有明顯的波動(dòng)和變化。技術(shù)人員在開(kāi)發(fā)功能的時(shí)候,可能看到了在A區(qū)域有明顯的上漲,在B區(qū)域有明顯的下跌,技術(shù)人員如果沒(méi)有業(yè)務(wù)敏感性的話,這些異常的數(shù)據(jù)波動(dòng)被當(dāng)做數(shù)據(jù)噪音處理掉了,最終的報(bào)表體現(xiàn)為沒(méi)有波動(dòng);這種距離的拉近,不僅僅是節(jié)省了幾個(gè)開(kāi)發(fā)人員,還有可能帶來(lái)業(yè)務(wù)的數(shù)據(jù)洞察,從而帶來(lái)巨大的商業(yè)價(jià)值。
雷峰網(wǎng):其實(shí)除了降本增效外,還要解決胡說(shuō)八道的問(wèn)題?
姜迅:有時(shí)候胡說(shuō)八道并不是一件壞事,比如文娛行業(yè),有時(shí)候可以利用它胡說(shuō)八道的特性來(lái)設(shè)計(jì)一些比較搞笑的場(chǎng)景,做一些開(kāi)放性的回答也是有價(jià)值的。
那在比較嚴(yán)肅的行業(yè)里,確實(shí)不能胡說(shuō)八道,針對(duì)這個(gè)問(wèn)題我們有幾種不同的方式解決或者緩解這個(gè)問(wèn)題。比較通用的方法是用embedding的方式解決,對(duì)此我們有一個(gè)專(zhuān)門(mén)的產(chǎn)品——書(shū)語(yǔ),你給我一個(gè)企業(yè)的知識(shí),可以是操作手冊(cè),用戶的文檔,用戶回答問(wèn)題的數(shù)據(jù),只要你給我一個(gè)行業(yè)里的可信的數(shù)據(jù)源就可以,基于這些數(shù)據(jù)我們可以約束生成的答案,這個(gè)過(guò)程我們不用大模型生成答案,而是讓他在你給定的文檔范圍內(nèi)生成答案。
我們的產(chǎn)品可以做多文檔輸出,不局限于單個(gè)文檔,就是可以對(duì)多個(gè)文檔的內(nèi)容理解后給出你想要的答案,甚至可以理解文檔中圖片的內(nèi)容再做輸出。其實(shí)new bing也是類(lèi)似的邏輯,他不是讓GPT直接生成答案,而是先從可信的信源內(nèi)搜索答案,然后大模型把這幾個(gè)文檔的內(nèi)容理解了,再輸出結(jié)果。這時(shí)問(wèn)題的答案才更全面、更可靠。
書(shū)語(yǔ)的邏輯就是讓這本書(shū)會(huì)說(shuō)話,那這本書(shū)是個(gè)泛化的書(shū),它可以是一本書(shū),也可以是一個(gè)手冊(cè)、一個(gè)規(guī)章制度、一個(gè)法律條文等,從另外一個(gè)角度,比如在文娛行業(yè),它相當(dāng)于一個(gè)可以和人溝通的智能體,這個(gè)產(chǎn)品的設(shè)計(jì)思想就是幫助行業(yè)解決落地問(wèn)題。
雷峰網(wǎng):未來(lái)有沒(méi)有側(cè)重點(diǎn),比如聚焦哪些行業(yè)?
姜迅:C端、B端、G端都在做,我們發(fā)布的模型中大概有7個(gè)行業(yè)大模型,這些都是我們重點(diǎn)拓展的領(lǐng)域,我們肯定會(huì)結(jié)合自身的行業(yè)優(yōu)勢(shì),選擇我們最值得深耕的一些特定的行業(yè),而不是做全行業(yè)的拓展,一定要有重點(diǎn)。
未來(lái)大模型可能是人類(lèi)命運(yùn)共同體的鑰匙
雷峰網(wǎng):您怎么看待國(guó)內(nèi)大模型的發(fā)展?
姜迅:國(guó)內(nèi)大模型發(fā)展的速度還是很快的,現(xiàn)在OpenAI已經(jīng)告訴你了,沿著這個(gè)路線走一定能看到創(chuàng)新,目前國(guó)內(nèi)的大模型肯定是沒(méi)辦法上線的,但業(yè)內(nèi)從業(yè)人員對(duì)這件事情的認(rèn)知被高度統(tǒng)一了,這是特別重要的一個(gè)點(diǎn)。
之前大家的狀態(tài)是:你有你的方法,我有我的方法,可能在這個(gè)任務(wù)上你的領(lǐng)先一點(diǎn),在那個(gè)任務(wù)上他的領(lǐng)先一點(diǎn)。但ChatGPT出來(lái)后大家對(duì)這件事情的認(rèn)知空前統(tǒng)一,已經(jīng)變成了全行業(yè)統(tǒng)一要做的事情。
關(guān)于大模型,我有一個(gè)越來(lái)越強(qiáng)烈的感覺(jué),它會(huì)超越公司與公司之間,國(guó)家與國(guó)家的競(jìng)爭(zhēng),可能會(huì)是人類(lèi)命運(yùn)共同的鑰匙。手持這把鑰匙,我們可能正在跨越人類(lèi)歷史上最重要的一個(gè)門(mén)檻,進(jìn)入AGI(通用人工智能)。
現(xiàn)在大家都認(rèn)為GPT的迭代遠(yuǎn)超過(guò)之前任何一項(xiàng)技術(shù),所以不管是付費(fèi)的、開(kāi)源的還是免費(fèi)的都不重要,都愿意加入進(jìn)去,參與到全球化的競(jìng)爭(zhēng)中去,為這場(chǎng)技術(shù)競(jìng)爭(zhēng)貢獻(xiàn)自己的力量,這樣就形成了一個(gè)合力,這是發(fā)展快的一個(gè)非常重要的原因。
雷峰網(wǎng):您認(rèn)為國(guó)內(nèi)和國(guó)外的大模型的差距還有多大?
姜迅:之前大家說(shuō)差2年甚至更久,但從現(xiàn)在的發(fā)展來(lái)看,追趕速度非???,遠(yuǎn)比預(yù)期快。
第一,業(yè)內(nèi)從業(yè)者對(duì)這個(gè)事情的認(rèn)知被統(tǒng)一了,形成了合力,全社會(huì)的力量總比一個(gè)單獨(dú)的商用公司往前走的力量大,所以趕超速度是非常驚人的;現(xiàn)在國(guó)內(nèi)很多模型已經(jīng)能夠在某些任務(wù)上追上3.5的水平了,這是一個(gè)非常明確的趨勢(shì);
第二,OpenAI處在一個(gè)開(kāi)放性的工作環(huán)境中,他已經(jīng)告訴你這個(gè)路徑是正確的,這時(shí)我再去追趕遠(yuǎn)比一個(gè)開(kāi)創(chuàng)者消耗的資源要少。其實(shí)做研究最怕前面的路是黑的,我不知道什么時(shí)候往前走,往前走一步兩步還是三步,是繼續(xù)沿著這個(gè)方向走,還是換個(gè)方向走,這是非常迷茫的,消耗的資源也是最大的。一旦有人告訴你朝著前面的燈走就可以,你就不會(huì)猶豫了。
第三,對(duì)算力的需求已經(jīng)沒(méi)有大家想象的那么高的,OpenAI 原來(lái)的論文提到訓(xùn)練GPT3一次要1200萬(wàn)美金,現(xiàn)在隨著算法和數(shù)據(jù)質(zhì)量的不斷提升,訓(xùn)練GPT4一次的成本已經(jīng)從6300萬(wàn)美金被快速降低到2500萬(wàn)美金,后續(xù)這個(gè)趨勢(shì)應(yīng)該還會(huì)更加加速。
實(shí)際上數(shù)據(jù)質(zhì)量對(duì)訓(xùn)練的效率有很大的影響,越臟的數(shù)據(jù)訓(xùn)練的時(shí)間越長(zhǎng),甚至?xí)涯P陀?xùn)歪掉。相反高質(zhì)量的數(shù)據(jù),不僅能加速訓(xùn)練時(shí)間還能降低對(duì)算力的要求。包括OpenAI的論文提到原始數(shù)據(jù)是40T,最后應(yīng)用到訓(xùn)練的數(shù)據(jù)大概有個(gè)570G,99%的數(shù)據(jù)被清洗了,所以高質(zhì)量的數(shù)據(jù)對(duì)大模型的訓(xùn)練至關(guān)重要。
雷峰網(wǎng):所以美國(guó)的算力封鎖對(duì)中國(guó)也造不成很大的影響?
姜迅:對(duì),訓(xùn)練一次也就一兩千張卡,三四個(gè)月的時(shí)間。最關(guān)鍵是的整個(gè)過(guò)程它對(duì)資源是保護(hù)的,就是當(dāng)我訓(xùn)完一次之后,后面再做增量訓(xùn)練不用重新開(kāi)始,只需要在原有的投資上做二次訓(xùn)練就可以了,所以真的沒(méi)有大家想象的那么高,至少在推理方面已經(jīng)不需要A100了,用 T4 的卡就能做推理,很快大量的國(guó)產(chǎn)硬件也都能做推理了。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。