0
本文作者: 劉路遙 | 2023-06-29 14:20 |
以ChatGPT為代表的大模型再一次帶火了人工智能。
基于目標(biāo)人群、用途和適用場(chǎng)景的不同,大模型市場(chǎng)可分為通用大模型和垂直大模型兩大類。
通用大模型,聚焦基礎(chǔ)層,以技術(shù)攻關(guān)為目的。他們對(duì)標(biāo)ChatGPT做通用大模型,百度的文心一言,阿里的通義千問(wèn)、科大訊飛的星火大模型等都?xì)w屬這一類。
垂直大模型,聚焦解決垂直領(lǐng)域問(wèn)題,以產(chǎn)品開(kāi)發(fā)為目的。他們?cè)谕ㄓ么竽P突A(chǔ)上訓(xùn)練行業(yè)專用模型,應(yīng)用到金融、醫(yī)療、教育、養(yǎng)老、交通等垂直行業(yè)。
通用大模型的長(zhǎng)處聚焦于一個(gè)“廣”字,面向人群以及場(chǎng)景適用范圍十分廣泛。
但對(duì)于特定場(chǎng)景而言,企業(yè)并不需要通用大模型的“全能”能力,更多需要的是模型的精度和質(zhì)量。
垂直大模型以此為切入點(diǎn),選擇了另一條路徑。他們以具備的行業(yè)知識(shí)為基礎(chǔ),通過(guò)與通用大模型企業(yè)合作的方式,訓(xùn)練行業(yè)專用模型。
“站在客戶角度,行業(yè)客戶最為看重的是定制化的需求,以及AI企業(yè)的工程化落地能力?!北姅?shù)信科CEO吳炳坤對(duì)雷峰網(wǎng)說(shuō)。
作為垂直大模型的一員,眾數(shù)信科成立于2021年初,由云從科技、廈門火炬創(chuàng)投、民生電商發(fā)起成立。
眾數(shù)信科定位AIGC領(lǐng)域的“知識(shí)智能化”,即將數(shù)字城市領(lǐng)域沉淀的行業(yè)數(shù)據(jù)、專家經(jīng)驗(yàn),通過(guò)AI 技術(shù)進(jìn)行工程化。
簡(jiǎn)單理解,眾數(shù)信科只做一件事,即將AI 大模型微調(diào)為行業(yè)專用模型,幫助行業(yè)提升效率。
在吳炳坤看來(lái),做行業(yè)的垂直大模型,同樣存在巨大的商業(yè)價(jià)值。
過(guò)去幾年,商業(yè)化一直是困擾整個(gè)人工智能行業(yè)的難題,大模型的出現(xiàn)讓AI商業(yè)化看到了新機(jī)會(huì)。
吳炳坤將AI比作工業(yè)時(shí)代的石油鉆機(jī):“沒(méi)有鉆井機(jī),石油就無(wú)法成為工業(yè)時(shí)代的黑色血液;數(shù)據(jù)要素時(shí)代,沒(méi)有AI,數(shù)據(jù)的價(jià)值也就得不到充分挖掘?,F(xiàn)在大模型帶來(lái)了無(wú)限的想象和發(fā)展機(jī)會(huì)?!?/p>
兩年前,在數(shù)字城市領(lǐng)域,AI更多基于小模型,比如算法只做人臉識(shí)別,或只做車牌識(shí)別,產(chǎn)品受限很大,研發(fā)成本很高,可以擴(kuò)展的空間不多。
現(xiàn)在,隨著 AI 大模型這一關(guān)鍵技術(shù)的突破,數(shù)據(jù)和AI的結(jié)合度更加緊密,上述問(wèn)題都得以突破。
大模型將對(duì)全行業(yè)都產(chǎn)生顛覆性地重構(gòu),已經(jīng)是業(yè)界共識(shí)。百度李彥宏、阿里張勇等不少業(yè)界大佬都在不同場(chǎng)合,不斷重復(fù)同樣一句話:AI 大模型時(shí)代,每個(gè)行業(yè)的應(yīng)用都值得重新做一遍。
從目前國(guó)內(nèi)扎堆發(fā)布的大模型來(lái)看,基礎(chǔ)大模型的技術(shù)創(chuàng)新,更多是大公司的角斗場(chǎng)。
阿里巴巴張勇曾指出,超萬(wàn)億參數(shù)的大模型研發(fā)是一場(chǎng)“AI+云計(jì)算”的全方位競(jìng)爭(zhēng),囊括了算法、底層龐大算力、網(wǎng)絡(luò)、大數(shù)據(jù)、機(jī)器學(xué)習(xí)等諸多領(lǐng)域,是一項(xiàng)復(fù)雜的系統(tǒng)性工程。
一方面,通用大模型需要大量有效的數(shù)據(jù)與計(jì)算資源,這離不開(kāi)超大規(guī)模的AI基礎(chǔ)設(shè)施的支撐;另一方面,長(zhǎng)時(shí)間的訓(xùn)練、推理背后,也往往意味著高昂的成本。
正因此,當(dāng)下大模型市場(chǎng)的主角大都是來(lái)自于移動(dòng)互聯(lián)網(wǎng)時(shí)代的大巨頭,如百度“文心一言”、阿里“通義千問(wèn)”、騰訊“混元”等。
大公司們瞄準(zhǔn)廣泛適用的人群,齊齊布局 NLP、CV、跨模態(tài)等多種模型,動(dòng)用同樣海量的數(shù)據(jù)參數(shù)進(jìn)行預(yù)訓(xùn)練,動(dòng)作整齊劃一。
這種“你有,我也有”既是實(shí)力的展現(xiàn),同時(shí)也存在同質(zhì)化問(wèn)題,會(huì)逐漸消弭彼此之間的辨識(shí)度,難以在市場(chǎng)中發(fā)揮優(yōu)勢(shì)。
并且,大模型“海納百川”的魅力縱然令人著迷,但其終歸是一項(xiàng)技術(shù),技術(shù)只有與具體應(yīng)用結(jié)合變成產(chǎn)品,帶來(lái)實(shí)際的使用體驗(yàn)和轉(zhuǎn)化成效,才真正具有價(jià)值。
換句話說(shuō),通用大模型的“大”和“通用”看著誘人,但對(duì)于B端行業(yè)客戶來(lái)說(shuō),并不能滿足需求。
行業(yè)客戶使用大模型的最終目的,是讓業(yè)務(wù)發(fā)展走上新的臺(tái)階。因而,他們需要的不是綜合技術(shù)上的碾壓,而是能在具體需求上追求極致,可以實(shí)現(xiàn)功能最大化的產(chǎn)品。
換言之,行業(yè)客戶愿意為合理開(kāi)發(fā)利用的功能買單,但不會(huì)為自己用不到的功能買單。
在此背景下,中小初創(chuàng)型企業(yè)們,看到了機(jī)會(huì)。
他們受限于資金和技術(shù),難以走上通用大模型的角斗場(chǎng),但由于本身具備一定的行業(yè)領(lǐng)域知識(shí),反而在垂直大模型的探索上具備天然優(yōu)勢(shì)。
在人工智能時(shí)代的浪潮中,聚焦少數(shù)細(xì)分賽道,在通用大模型的底座能力之上,圍繞“如何用好大模型”這一接地氣的主題,已經(jīng)成為小公司們安身立命的根本。
當(dāng)下,很多主流的AI大模型,并沒(méi)有對(duì)外開(kāi)放模型的訓(xùn)練和微調(diào)。較為普遍的做法是,將模型開(kāi)發(fā)好以后,給用戶提供一個(gè)接口調(diào)用。
在吳炳坤看來(lái)“很多 AI 大廠現(xiàn)在不會(huì)將大模型微調(diào)為行業(yè)專用模型的能力開(kāi)放出來(lái)。”
首先,AI大模型的打造是一個(gè)從算力,到整個(gè)框架,到模型再到應(yīng)用的遞進(jìn)過(guò)程,當(dāng)下AI大廠更多處在夯實(shí)基礎(chǔ)能力的階段。
其次,AI產(chǎn)品進(jìn)入行業(yè),需要跟外部行業(yè)應(yīng)用做適配協(xié)同,目前國(guó)內(nèi)的AI大模型做得還不夠成熟,當(dāng)下這個(gè)時(shí)間點(diǎn),AI大廠還不太具備工程化落地的能力。
這一現(xiàn)實(shí)背景下,垂直大模型玩家要想在通用大模型的基礎(chǔ)上微調(diào)和推理,定制行業(yè)專用模型,并非易事。
基于和云從科技的關(guān)系,眾數(shù)信科不僅能夠參與進(jìn)云從大模型的開(kāi)發(fā)過(guò)程,還可以在云從大模型的基礎(chǔ)上訓(xùn)練和微調(diào)自有的專業(yè)模型。
“通過(guò)云從,眾數(shù)信科可以獲得更加便捷的接口,更加開(kāi)放的合作架構(gòu),定制化的銜接服務(wù)。現(xiàn)在市場(chǎng)上除了AI大廠,其他公司不具備這個(gè)能力,這是現(xiàn)階段眾數(shù)信科有別于其他創(chuàng)業(yè)公司的優(yōu)勢(shì)?!眳潜ふf(shuō)。
在吳炳坤看來(lái),大模型在業(yè)務(wù)落地過(guò)程中,需要不斷強(qiáng)化三個(gè)方面的要素:一是人工智能技術(shù)研發(fā),二是可觸達(dá)用戶的行業(yè)場(chǎng)景,三是高質(zhì)量的行業(yè)數(shù)據(jù)語(yǔ)料。
在技術(shù)和場(chǎng)景兩個(gè)要素上,眾數(shù)信科的三家股東優(yōu)勢(shì)互補(bǔ),形成了一個(gè)較為完整的閉環(huán)。
底層技術(shù)方面,有云從科技的算法、算力做背書(shū);在應(yīng)用場(chǎng)景上,有廈門火炬創(chuàng)投提供的制造業(yè)產(chǎn)業(yè)數(shù)字化實(shí)踐基地;在落地過(guò)程中,則有民生電商提供金融和產(chǎn)品商業(yè)化落地的資源支持。
三個(gè)要素中,最難的是行業(yè)數(shù)據(jù)的獲取。因?yàn)樾袠I(yè)數(shù)據(jù)會(huì)直接影響技術(shù)迭代速度和商業(yè)競(jìng)爭(zhēng)。
根據(jù)數(shù)據(jù)的變化性,行業(yè)數(shù)據(jù)可以分為靜態(tài)數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù)。
靜態(tài)數(shù)據(jù)相對(duì)穩(wěn)定,不會(huì)發(fā)生即時(shí)變化,獲取路徑較為清晰,比如廣泛存在于各級(jí)政府部門、國(guó)企、企業(yè)中的自有文檔,以及數(shù)據(jù)庫(kù)中的數(shù)據(jù)等。
動(dòng)態(tài)數(shù)據(jù)指不同行業(yè)場(chǎng)景中每時(shí)每刻產(chǎn)生的數(shù)據(jù),這部分?jǐn)?shù)據(jù)不斷更新、變化,不容易獲得,是與其他競(jìng)爭(zhēng)者拉開(kāi)距離的關(guān)鍵能力。
對(duì)動(dòng)態(tài)數(shù)據(jù)的實(shí)時(shí)獲取是眾數(shù)信科的核心優(yōu)勢(shì)之一。
過(guò)去兩年,眾數(shù)信科以“i城市生活服務(wù)平臺(tái)”為媒介,觸及了國(guó)內(nèi)6個(gè)省16個(gè)城市的3000萬(wàn)個(gè)人用戶和數(shù)十萬(wàn)企業(yè)用戶,積累了大量數(shù)據(jù)。
通過(guò)i城市服務(wù)平臺(tái),眾數(shù)信科積累了豐富的場(chǎng)景數(shù)據(jù),G/B/C端用戶需求和行業(yè)know-how,依托主流大模型技術(shù)底層能力,為客戶提供專業(yè)領(lǐng)域的知識(shí)智能工程化產(chǎn)品和KAAS服務(wù)。
此外,由于當(dāng)下通用大語(yǔ)言模型在專業(yè)領(lǐng)域里可訓(xùn)練的語(yǔ)料較為缺乏,因此語(yǔ)言模型落地細(xì)分領(lǐng)域過(guò)程中,知識(shí)局限、認(rèn)知偏見(jiàn)、記憶幻覺(jué)等問(wèn)題時(shí)有發(fā)生。
其中,知識(shí)局限、認(rèn)知偏見(jiàn)問(wèn)題,可以隨著數(shù)據(jù)的不斷積累、量變,得到解決,更大的難點(diǎn)來(lái)自于記憶幻覺(jué)。
本質(zhì)原因在于,語(yǔ)言模型并非傳統(tǒng)理解中的一個(gè)數(shù)據(jù)庫(kù),沒(méi)有真正的記憶能力,無(wú)法記住過(guò)去處理過(guò)的信息。而是通過(guò)訓(xùn)練數(shù)據(jù)學(xué)習(xí)文本序列的數(shù)據(jù)分布,然后再根據(jù)學(xué)習(xí)到的數(shù)據(jù)分布生成文本序列,最終生成內(nèi)容。
吳炳坤表示,“大模型并非一蹴而就,而是一個(gè)不斷動(dòng)態(tài)優(yōu)化的過(guò)程。眾數(shù)信科會(huì)根據(jù)特定行業(yè)場(chǎng)景,以及對(duì)知識(shí)庫(kù)上下文的學(xué)習(xí)等特定方法,在較大程度上規(guī)避生成內(nèi)容‘胡編亂造’的情況,同時(shí)不斷和客戶做基于人類反饋的強(qiáng)化學(xué)習(xí)?!?/p>
對(duì)比通用大模型,行業(yè)大模型需要更快的商業(yè)化來(lái)兜底。
“AI大模型在行業(yè)落地的賽馬,誰(shuí)跑得越快,誰(shuí)越有機(jī)會(huì)?!眳潜と绱丝偨Y(jié)。
眾數(shù)信科的商業(yè)化思路是:G端搭平臺(tái),B端積累經(jīng)驗(yàn),C端快速?gòu)?fù)制。
通過(guò) G 端切入,能夠快速覆蓋市場(chǎng),同時(shí)批量聚攏B端和C端資源,最終將B端行業(yè)客戶經(jīng)驗(yàn),快速?gòu)?fù)制到C端。
“只有C端才能形成快速?gòu)?fù)制的病毒效應(yīng),C端是現(xiàn)在以及下一個(gè)階段重點(diǎn)布局的領(lǐng)域?!?/p>
城市生活服務(wù)領(lǐng)域,教育、養(yǎng)老和文旅,是眾數(shù)信科找到的三大落地場(chǎng)景。
以教育行業(yè)為例,眾數(shù)信科依托云從的從容大模型,首先打造出了適用于學(xué)校、培訓(xùn)機(jī)構(gòu)的教育行業(yè)專用模型,并已在廈門部分地區(qū)試點(diǎn)使用。
具體落地過(guò)程,主要分三步進(jìn)行:
第一步,積累和標(biāo)注?;诙嗄暝跀?shù)字平臺(tái)建設(shè)和運(yùn)營(yíng)中積累的教師行業(yè)專業(yè)語(yǔ)料數(shù)據(jù),同時(shí)依托行業(yè)專家經(jīng)驗(yàn)對(duì)數(shù)據(jù)進(jìn)行標(biāo)注,形成專有領(lǐng)域的訓(xùn)練數(shù)據(jù)。
第二步,訓(xùn)練和微調(diào)。在前者的基礎(chǔ)上,依托云從的從容大模型,采用知識(shí)蒸餾、權(quán)值量化、剪枝等工程化手段,將通用、龐大的教師網(wǎng)絡(luò),訓(xùn)練成一個(gè)特定行業(yè)的學(xué)生網(wǎng)絡(luò)。
第三步,落地和反饋。進(jìn)入具體場(chǎng)景,并在此后運(yùn)營(yíng)過(guò)程中,不斷積累用戶的正負(fù)反饋,通過(guò)基于人類反饋的強(qiáng)化學(xué)習(xí),反向打磨教育行業(yè)模型。
上述三個(gè)步驟中,專家的數(shù)據(jù)標(biāo)注,以及基于人類反饋的強(qiáng)化學(xué)習(xí),是兩個(gè)必經(jīng)的難點(diǎn)。解決這兩個(gè)難點(diǎn),需要通過(guò)推廣行業(yè)應(yīng)用,加強(qiáng)知識(shí)積累,不斷自我迭代逐步解決。
與模型專業(yè)性的逐步進(jìn)步相對(duì)應(yīng),眾數(shù)信科選擇了從教師的“數(shù)字助理”到“數(shù)字分身”的漸進(jìn)路線。
現(xiàn)階段,眾數(shù)信科的行業(yè)專用模型還處在教師的“數(shù)字助理”階段。“數(shù)字助理”具備課件自動(dòng)生成、靈活生成考題、對(duì)學(xué)生進(jìn)行個(gè)性化評(píng)價(jià)等服務(wù),教師在生成內(nèi)容的基礎(chǔ)上做最后的審核把關(guān)即可。
一方面,“數(shù)字助理”通過(guò)輔助教學(xué)的方式,可以大大解放教師的精力,不斷提升教學(xué)效率;另一方面,在與教師共同工作過(guò)程中也可以不斷學(xué)習(xí),最終成長(zhǎng)為優(yōu)秀教師的“數(shù)字分身”,達(dá)到接近一位優(yōu)秀教師的程度。
目前,我國(guó)教育資源供給側(cè)明顯不足,先進(jìn)地區(qū)和落后地區(qū)的教育資源差距較大。打造教育行業(yè)模型的意義在于,可以借助AI,將先進(jìn)地區(qū)的先進(jìn)學(xué)校的先進(jìn)教師經(jīng)驗(yàn)傳承下來(lái),帶到部分教育資源供給不足的地區(qū)。
眾數(shù)信科采取了兩條腿走路的辦法,即分別在教育先進(jìn)地區(qū)和教育落后地區(qū)推廣“數(shù)字助理”和“數(shù)字分身”。
“將先進(jìn)地區(qū)教師知識(shí)的沉淀,放在同樣先進(jìn)的地區(qū),可能不能滿足需求,但在一些教育落后地區(qū),基本上能夠符合當(dāng)?shù)氐氖褂眯枨??!?/p>
換言之,發(fā)達(dá)地區(qū)沉淀的“數(shù)字助理”,在部分教育資源稀缺地區(qū),已經(jīng)相當(dāng)于教師的“數(shù)字分身”。
吳炳坤向雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))透露,今年下半年,眾數(shù)信科將在黑龍江教育資源比較欠缺的地區(qū),進(jìn)行“數(shù)字分身”的布局。
未來(lái),隨著教育行業(yè)的模型沉淀和知識(shí)積累,因人施教也是教育模型功能演化的重要方向。“數(shù)字分身”可以進(jìn)一步走入家庭,根據(jù)不同學(xué)生提供差異化教育方案,做到因人施教,為家庭教育減負(fù)。
當(dāng)下,無(wú)論通用大模型玩家,還是垂直大模型玩家,都在全力奔跑,尚未形成獨(dú)大格局。
但據(jù)吳炳坤判斷,“對(duì)于AI 大模型,如果推出爆款產(chǎn)品,大概率會(huì)形成通吃的局面?!?/p>
對(duì)眾數(shù)信科等中小初創(chuàng)企業(yè)來(lái)說(shuō),兩個(gè)明顯的壓力擺在眼前:
一方面,行業(yè)的快速發(fā)展,催促著企業(yè)要迅速產(chǎn)生爆款產(chǎn)品,同時(shí)形成快速迭代的能力。這對(duì)企業(yè)的人才儲(chǔ)備、產(chǎn)品和技術(shù)路線、戰(zhàn)略決斷能力、資金儲(chǔ)備等都提出了更高的要求。
另一方面,隨著來(lái)自不同背景的玩家相繼入局,競(jìng)爭(zhēng)格局也將隨之變化,比如教育領(lǐng)域,科大訊飛、猿輔導(dǎo)等都已悉數(shù)入場(chǎng)。
AI大模型在行業(yè)落地的賽馬,勢(shì)必是一場(chǎng)爭(zhēng)分奪秒的競(jìng)爭(zhēng)。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。