0
本文作者: 黃楠 | 2023-05-30 14:13 |
通過統(tǒng)一的自然語言指令調(diào)用大量知識(shí),ChatGPT 改變了人與 AI 交互的方式,并將進(jìn)一步改變更多軟件的交互模式和底層架構(gòu)。
例如,現(xiàn)實(shí)生活中,各行各業(yè)都與海量的數(shù)據(jù)處理有關(guān),比如把企業(yè)的季度營(yíng)收數(shù)據(jù)填進(jìn)報(bào)表中,記錄證券市場(chǎng)交易數(shù)據(jù)和市場(chǎng)趨勢(shì)波動(dòng),處理保單醫(yī)療圖文數(shù)據(jù)等等,但將數(shù)據(jù)從非結(jié)構(gòu)化的圖文信息中抽取、整理出用戶需要的信息,往往需要耗費(fèi)相當(dāng)?shù)娜肆蜁r(shí)間。
近日,《連線》雜志創(chuàng)始主編 Kevin Kelly 在接受媒體采訪時(shí)表示,他很認(rèn)同一個(gè)觀點(diǎn),就是:在未來,人們需要放大自己身上 10% 的技能,因?yàn)槭O碌?90% 將被 AI 取代。例如,在醫(yī)療領(lǐng)域中,AI 特別擅長(zhǎng)搜索和分析,可以協(xié)助人類醫(yī)生進(jìn)行診斷。
業(yè)界對(duì)大模型的需求呈井噴之勢(shì)?;A(chǔ)大模型的優(yōu)勢(shì)在于它的通用性,通過強(qiáng)大的圖文理解能力和交互方式,目標(biāo)在于追求最終的通用人工智能(AGI),但與此同時(shí),通用大模型在滿足階段性的、細(xì)分場(chǎng)景下的 B 端需求上也體現(xiàn)出“牛刀小用”的短板,在工程優(yōu)化、降低成本等方面有很大的提升空間。
對(duì)于這一問題,近日 AI 科技評(píng)論與深圳市圓代碼互聯(lián)網(wǎng)有限公司的 CEO 張朝明進(jìn)行了探討。
張朝明指出,今天的大模型有非常強(qiáng)的話語權(quán),甚至可以決定一個(gè)生態(tài)的生死;從資金、技術(shù)和人才等角度體系思考,創(chuàng)業(yè)公司入場(chǎng)的門檻正在降低。小公司要參與大模型的浪潮,張朝明認(rèn)為最大的機(jī)會(huì)還是在 To B 市場(chǎng)上。
“首先,不是去做一個(gè)跟 ChatGPT 對(duì)抗的大模型,而是聚焦私有化部署,做一個(gè)具備行業(yè) Know-How 的企業(yè)大模型;第二,ChatGPT 給出的結(jié)果是對(duì)是錯(cuò),需要交給專業(yè)的人用專業(yè)的知識(shí)去判斷?!?/p>
以下是 AI 科技評(píng)論和張朝明的對(duì)話:
大模型也需要專業(yè)知識(shí)參與
AI 科技評(píng)論:您怎么看小公司在大模型產(chǎn)業(yè)變革中的機(jī)會(huì)?
張朝明:今天大模型在任意領(lǐng)域的問答生成表現(xiàn)都非常好,但它在需要專業(yè)知識(shí)的領(lǐng)域問答上還是有不足之處的。專業(yè)知識(shí)的數(shù)據(jù)在網(wǎng)上不好獲取,訓(xùn)練也就不夠充分。
比如保險(xiǎn)行業(yè)中的核保,關(guān)于核保的規(guī)則往往很難在公開渠道中獲取,這屬于保險(xiǎn)公司的核心機(jī)密,我們只能通過在案例里去學(xué)習(xí),因此也就存在不夠精準(zhǔn)的問題。大模型在專業(yè)知識(shí)領(lǐng)域大概只能做到百分之六七十的準(zhǔn)確率,外行人看著可能覺得效果不錯(cuò),但在內(nèi)行人看來是無法使用的。
在行業(yè)里,95% 是一個(gè)生產(chǎn)標(biāo)準(zhǔn)。什么意思?也就是說做到 80% 也好、70% 也好,對(duì)生產(chǎn)環(huán)節(jié)而言沒有區(qū)別。行業(yè)的判斷標(biāo)準(zhǔn)之所以是 95%,是因?yàn)槿说臏?zhǔn)確率大概在 92% 到 98% 之間,95% 剛好是個(gè)中位數(shù),差額的幾個(gè)點(diǎn)默認(rèn)是人為也會(huì)出現(xiàn)的損失,這是一個(gè)容忍度的問題。而越在生產(chǎn)環(huán)節(jié),對(duì)模型效果準(zhǔn)確率的容忍度越低。
在 To C 的場(chǎng)景里,比如娛樂行業(yè)、泛娛樂場(chǎng)景,我們用 ChatGPT 聊天、寫文章、生成圖畫、寫文案,達(dá)到 60% 就覺得效果非常好、很滿意,但進(jìn)入金融行業(yè)或其他一些行業(yè),沒有 95% 準(zhǔn)確率,基本上可認(rèn)定為它沒有任何意義。因此在生產(chǎn)環(huán)節(jié)里,模型的生成是容忍度非常低、但精度效率要求非常高的一件事情。
我們能看到的一個(gè)趨勢(shì)是,大模型在 To C 方面很難超過 ChatGPT,這是由 To C 特殊的環(huán)境決定的,當(dāng)一家中國(guó)企業(yè)做出一個(gè) ChatGPT 后、美國(guó)人會(huì)不會(huì)使用,這是個(gè)很重要的問題,這也從語料、用戶數(shù)量等等方面決定了國(guó)內(nèi)廠商的模型很難達(dá)到 ChatGPT 的水準(zhǔn),但中國(guó)人自己使用是可以實(shí)現(xiàn)的。我認(rèn)為 ChatGPT 和以前的淘寶搜索等不一樣的地方在于,它是跨語言的。以前在淘寶上想使用英文搜索、或在谷歌上使用中文,都存在語言問題,但 ChatGPT 很好地處理了跨語言的問題。
因此,最大的機(jī)會(huì)還是在 To B 的市場(chǎng)上。
首先,不做一個(gè)跟 ChatGPT 對(duì)抗的大模型,我們看到的市場(chǎng)是在私有化部署上,具備行業(yè) Know-How 能提供專業(yè)知識(shí)結(jié)果的企業(yè)大模型。私有化部署解決的是兩個(gè)問題,一個(gè)是數(shù)據(jù)隱私的問題,這是私有化部署的核心,另一個(gè)則是專業(yè)性,所以這個(gè)大模型用戶要自己訓(xùn)練;ChatGPT 給出的結(jié)果是對(duì)是錯(cuò),需要通過人專業(yè)的知識(shí)去判斷,且無法矯正數(shù)據(jù)的準(zhǔn)確率,并不是將專業(yè)知識(shí)灌進(jìn)去,就可以得到專業(yè)的結(jié)果,因此,企業(yè)也需要訓(xùn)練自己的大模型。
AI 科技評(píng)論:用小模型來實(shí)現(xiàn) 95% 的生產(chǎn)標(biāo)準(zhǔn)和用大模型來做,思路差異是什么?
張朝明:它是兩個(gè)概念。小模型的優(yōu)勢(shì)是,它是在專業(yè)領(lǐng)域里一定是超過大模型的,知識(shí)圖譜對(duì)知識(shí)的提煉和數(shù)據(jù)的獲得,都屬于小模型的優(yōu)勢(shì),而大模型的優(yōu)勢(shì)在于它 60% 左右的通用性。比如說我想寫一篇調(diào)查報(bào)告,寫一個(gè)調(diào)查報(bào)告框架描述這件事、肯定是大模型寫的好,但里面數(shù)據(jù)的填入是小模型更專業(yè)。所以這件事情需要大模型配合小模型來完成。
AI 科技評(píng)論:大模型配合小模型來完成,這么做的核心邏輯是什么?
張朝明:在大模型還沒有起來之前,人們很難看到行業(yè)知識(shí)圖譜背后的價(jià)值,只看到了完成它所需要付出的巨額成本。直到大模型火爆后,知識(shí)圖譜成為了生成報(bào)告的數(shù)據(jù)內(nèi)容,可以為多輪問答提供支持等等,才展現(xiàn)出它的價(jià)值。
從商業(yè)邏輯上看,在僅用小樣本就能完成一個(gè)行業(yè)知識(shí)訓(xùn)練的情況下,使用幾個(gè)億、幾十個(gè)億的成本來訓(xùn)練行業(yè)知識(shí)的人、即便將這部分成本平攤到各個(gè)業(yè)務(wù)環(huán)節(jié)中,也肯定是賠錢的。核心的邏輯就在于,知識(shí)整理、儲(chǔ)備整理和這個(gè)成本是多少?而這件事情過去很少有人去做。
過往知識(shí)圖譜很多只能售賣一次,但好的商業(yè)模式應(yīng)該具備可持續(xù)的續(xù)費(fèi)能力。小模型的問題在于它構(gòu)建知識(shí)圖譜的成本太高。當(dāng)一個(gè)做小模型的公司,構(gòu)建知識(shí)圖譜需要花費(fèi)高達(dá)一兩個(gè)億,就又回到了不掙錢這件事。而大模型提供的能力是,寫文章的時(shí)候讓你怎么寫得更優(yōu)美、問答更通順,而核心的知識(shí)來源一直沒有解決。也就是說,無法使用大模型來指導(dǎo)工作,因?yàn)槌杀咎吡恕?/p>
為此,圓代碼之所以能夠極大地減少成本開支,是基于我們從小模型時(shí)代就基于自研技術(shù)、所提出的核心抽取模型。通過核心抽取模型所具備的復(fù)雜語義抽取能力,可實(shí)現(xiàn)用小樣本解決構(gòu)建知識(shí)圖譜的成本問題。
AI 時(shí)代需要新的“操作系統(tǒng)”
AI 科技評(píng)論:圓代碼所做的是提供基礎(chǔ)大模型,還是幫助客戶訓(xùn)練大模型?
張朝明:我們提供的是一套基礎(chǔ)的東西。前幾年零代碼特別火,但其大家都非常清楚它的價(jià)值有限。在我看來,它并不是一個(gè)跨時(shí)代、變革的產(chǎn)品,而只是在原有生態(tài)體系下減輕工作量的一個(gè)工具,難以使用它跨任何行業(yè)去做無代碼,但現(xiàn)在 AI 我們認(rèn)為它已經(jīng)是一個(gè)全新的生態(tài)。
PC 時(shí)代是操作系統(tǒng)為王,到互聯(lián)網(wǎng)時(shí)代瀏覽器成為了入口、入口為王,再到移動(dòng)互聯(lián)網(wǎng)時(shí)代又是操作系統(tǒng)(iOS 和安卓)為王,發(fā)展路徑十分清晰,非常簡(jiǎn)單的道理是、操作系統(tǒng)沒有強(qiáng)勢(shì)地位就會(huì)被剝削掉。
因此我們認(rèn)為,大模型跟零代碼的區(qū)別就在于,大模型一定是個(gè)基礎(chǔ)設(shè)施,有非常強(qiáng)的話語權(quán),甚至可以決定一個(gè)生態(tài)的生死。我們想做的就是一套操作系統(tǒng),任何玩家都可以用,我們把這套東西提供給企業(yè),企業(yè)的人不需要會(huì)編程,而是只要會(huì)業(yè)務(wù)、把他的業(yè)務(wù)數(shù)據(jù)放到這套東西上就可以使用,任何領(lǐng)域的人都能非常簡(jiǎn)單地完成相應(yīng)的工作,這是我們對(duì)這套“操作系統(tǒng)”的定義。
比如一個(gè)公司要做研報(bào)解析,需要派 100 個(gè)人完成這件事,現(xiàn)在交給了 AI 公司,但如果 AI 公司也需要用 80 或者 90 個(gè)模型工程師來完成這件事情時(shí),那么它所發(fā)生變化很小,賠錢的人從原來的公司變成了 AI 公司,這是一個(gè)核心的問題,只有解決了它,AI 公司才能夠是賺錢的。
解決問題的關(guān)鍵在于,怎么通過使用我們所提供的這套操作系統(tǒng),讓 AI 公司僅需要用 1 個(gè)模型工程師和算法就能把問題解決到 95% ,這才是有價(jià)值的。
AI 科技評(píng)論:圓代碼目前客戶群體主要是哪些行業(yè)?
張朝明:目前我們只聚焦教育和醫(yī)療保險(xiǎn)兩個(gè)行業(yè)。
以醫(yī)療為例,圓代碼做的主要對(duì)病例報(bào)告的解析,但我們不對(duì)影像報(bào)告的內(nèi)容做解讀,而是解析影像報(bào)告解讀出來的文字內(nèi)容。這部分需求放在醫(yī)療行業(yè)里,很難看到它的生態(tài),但保險(xiǎn)行業(yè)對(duì)這部分內(nèi)容的需求很大。用大模型做醫(yī)療的事情,把保險(xiǎn)行業(yè)的需求平移、解決保險(xiǎn)人員對(duì)報(bào)告數(shù)據(jù)的需求問題。
跟銀行不同,銀行大多數(shù)的數(shù)據(jù)都是結(jié)構(gòu)化的,因此在日常的運(yùn)轉(zhuǎn)過程中對(duì)數(shù)據(jù)解析的需求并不大。銀行在正常運(yùn)轉(zhuǎn)下,使用 IT 軟件就能處理 90% 左右的事情,剩下 10% 是由人在處理,例如貸款審核等等,因此報(bào)告解析在對(duì)應(yīng)的工作內(nèi)容體量中非常少。而保險(xiǎn)公司從一開始就是人為處理的事情居多,其業(yè)務(wù)內(nèi)容中人為占比達(dá)到 90% ,AI 只支持 10% 的信息存取、數(shù)據(jù)的流轉(zhuǎn),根本原因是,二者的數(shù)據(jù)源不一樣,一個(gè)就是結(jié)構(gòu)化的數(shù)據(jù),一個(gè)就是非結(jié)構(gòu)化的數(shù)據(jù)。
當(dāng) AI 巨大變革來臨,或許銀行在審核環(huán)節(jié)也會(huì)有變革,但其絕沒有 AI 對(duì)保險(xiǎn)行業(yè)的影響直接。
AI 科技評(píng)論:有了體檢報(bào)告和這個(gè)表格之后的話,圓代碼會(huì)對(duì)數(shù)據(jù)進(jìn)行解析,那是否會(huì)進(jìn)行下一步的分析處理?
張朝明:我們不進(jìn)行下一步的分析處理,因?yàn)槟芴幚磉@些數(shù)據(jù)的人全國(guó)能找出來不止 1 萬個(gè)。但是能將這些數(shù)據(jù)它進(jìn)行結(jié)構(gòu)化、給到這 1 萬個(gè)人的公司或機(jī)構(gòu)很少。
當(dāng)今天保險(xiǎn)行業(yè)需要處理醫(yī)療的數(shù)據(jù)內(nèi)容,通過人工來處理報(bào)告的數(shù)據(jù)輸入、往往需要花費(fèi)一天時(shí)間,結(jié)構(gòu)化成本非常高;而借助我們的模型和平臺(tái)、可以實(shí)現(xiàn)秒級(jí)速度迅速完成資料的結(jié)構(gòu)化,這就是我們的技術(shù)實(shí)力。
AI 科技評(píng)論:數(shù)據(jù)樣本的問題怎么解決?
張朝明:舉個(gè)簡(jiǎn)單的例子,醫(yī)療行業(yè)的體驗(yàn)報(bào)告樣式各不相同,當(dāng)使用 AI 模型對(duì)體檢報(bào)告進(jìn)行結(jié)構(gòu)化處理,幾萬篇同一模板格式的報(bào)告數(shù)據(jù)、對(duì)圓代碼的技術(shù)研究作用不大。當(dāng)體檢報(bào)告樣式有十幾萬種,要將這十幾萬種報(bào)告都找齊、再進(jìn)行模型識(shí)別訓(xùn)練,這件事也并不現(xiàn)實(shí)。此外,如保險(xiǎn)等此類隱私數(shù)據(jù),我們也很難通過網(wǎng)絡(luò)途徑獲取,隱私數(shù)據(jù)禁止買賣,上述均是十分現(xiàn)實(shí)的情況,如果問題無法解決,很難進(jìn)行后面的訓(xùn)練。
對(duì)此,圓代碼的思路是,在找不到一千份、一萬份前提下,我們能否找到二十份小樣本數(shù)據(jù),基于二十份數(shù)據(jù)加上我們的技術(shù),將適用于整個(gè)行業(yè)的模型訓(xùn)練出來,把圖文信息轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),走自研底層技術(shù)、用更少的數(shù)據(jù)達(dá)到更好效果的模式。
小公司創(chuàng)業(yè)能做、但難度很高
AI 科技評(píng)論:小公司想做大模型創(chuàng)業(yè),今天還有機(jī)會(huì)嗎?
張朝明:有機(jī)會(huì),但也很難,看的就是誰先能跑出來。
今天小公司想做大模型創(chuàng)業(yè),我覺得其創(chuàng)業(yè)門檻相比小模型時(shí)代已經(jīng)極大地降低了,但同時(shí)我們也要看到它最終能做成功的難度非常高。非常難的原因在于,首先一定需要有極強(qiáng)的科研能力,這對(duì)創(chuàng)業(yè)公司來說要在技術(shù)和人才上迅速拉平需要非常大的成本,這是第一點(diǎn)。
第二點(diǎn),在現(xiàn)在這個(gè)情況下,不管做大模型也好、做小模型也好,一個(gè)公司手里如果沒有四五十塊顯卡,連模型都跑不起來。顯卡的投入輕易在幾百萬、上千萬,這也意味著,一筆投資兩三百萬的種子輪融資,難以支撐一家企業(yè)購(gòu)買硬件設(shè)備的錢。
可以說,上述兩個(gè)問題就已經(jīng)把絕大部分的創(chuàng)業(yè)公司都?xì)⒌袅?,所以我認(rèn)為,當(dāng)前創(chuàng)業(yè)公司已經(jīng)很難能夠跑出來,在這個(gè)純技術(shù)的賽道上,窗口已經(jīng)關(guān)閉了。
AI 科技評(píng)論:AI 公司和 “AI+”公司的區(qū)別在哪里?
張朝明:區(qū)別在于 AI 為二者的服務(wù)、業(yè)務(wù)提供了哪些方面的能力。很多 AI 大模型的創(chuàng)業(yè)公司會(huì)使用開源模型,在開源模型上建模,但我們要看它建的是哪種模。
舉個(gè)例子,做 AI 的公司把證券公司需要的數(shù)據(jù)給到證券公司,使用了它在 AI 上的能力來解決證券公司的人的需求,這叫做 AI 公司;而使用 AI 能力解決證券問題,體現(xiàn)的是公司在證券方面的建模和分析能力,這種我們稱之為 AI +證券公司。大多數(shù)做 AI 公司會(huì)采用開源的解法來解決一個(gè)行業(yè)的具體問題,但它的核心能力是在金融建模上的能力,而并非 AI 建模上。
AI 科技評(píng)論:做什么模型跟細(xì)分行業(yè)的相關(guān)性大么?
張朝明:在大模型之前,我們做的是行業(yè)通用小模型,即對(duì)任何文本都可以進(jìn)行非常結(jié)構(gòu)化的處理。比如律師怎么看合同、想從哪些層面來使用數(shù)據(jù)等等,這些問題都可以完成。再比如醫(yī)院的體檢報(bào)告,通過我們的模型,可以把所有的數(shù)據(jù)都提供給客戶去做任意的篩選分析,也可以向企業(yè)提供定向化數(shù)據(jù)。
AI 科技評(píng)論:它跟行業(yè)垂類大模型的區(qū)別在哪里?
張朝明:垂類大模型并不是針對(duì)具體某一個(gè)細(xì)分領(lǐng)域,它解決的也是行業(yè)性的問題。以醫(yī)療病例和體驗(yàn)報(bào)告的結(jié)構(gòu)化問題為例,假設(shè)一家做糖尿病垂類大模型的公司,我可以輸入糖尿病病人的病情數(shù)據(jù)、借助糖尿病垂類大模型解決相關(guān)的問題,也可以基于通用大模型基礎(chǔ)上、就任意一個(gè)疾病種類,用同一套技術(shù)去解決新的病情。
這是商業(yè)模式的設(shè)計(jì),而非技術(shù)的設(shè)計(jì)。也就是說,當(dāng)你解決了數(shù)據(jù)源的問題,其實(shí)并沒有解決別的問題。但在我們看來,大模型應(yīng)該是一種基礎(chǔ)技術(shù),并不是說數(shù)據(jù)加模型的服務(wù),就能夠成為一個(gè)大模型。圓代碼用大模型提供了一種數(shù)據(jù)處理的方式,最終也并不參與解決具體的行業(yè)問題。
正如前面提到的例子,保險(xiǎn)行業(yè)需要處理好的、結(jié)構(gòu)化的醫(yī)療數(shù)據(jù),同時(shí)他們也擁有大量的優(yōu)秀的核保人員和理賠人員,這種高級(jí)人才在中國(guó)并不稀缺,我們做的事情是,把這些結(jié)構(gòu)化數(shù)據(jù)給到這些專業(yè)的人、擅長(zhǎng)的人去分析,而不是去做分析的事情。
(雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。