丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給黃楠
發(fā)送

0

對話圓代碼 CEO 張朝明:做不跟 ChatGPT 對抗的企業(yè)大模型,用更少的數(shù)據(jù)達到更好的效果

本文作者: 黃楠 2023-05-30 14:13
導語:小型知識圖譜配合大模型,是做私有化部署的新思路。

對話圓代碼 CEO 張朝明:做不跟 ChatGPT 對抗的企業(yè)大模型,用更少的數(shù)據(jù)達到更好的效果

通過統(tǒng)一的自然語言指令調(diào)用大量知識,ChatGPT 改變了人與 AI 交互的方式,并將進一步改變更多軟件的交互模式和底層架構(gòu)。

例如,現(xiàn)實生活中,各行各業(yè)都與海量的數(shù)據(jù)處理有關(guān),比如把企業(yè)的季度營收數(shù)據(jù)填進報表中,記錄證券市場交易數(shù)據(jù)和市場趨勢波動,處理保單醫(yī)療圖文數(shù)據(jù)等等,但將數(shù)據(jù)從非結(jié)構(gòu)化的圖文信息中抽取、整理出用戶需要的信息,往往需要耗費相當?shù)娜肆蜁r間。

近日,《連線》雜志創(chuàng)始主編 Kevin Kelly 在接受媒體采訪時表示,他很認同一個觀點,就是:在未來,人們需要放大自己身上 10% 的技能,因為剩下的 90% 將被 AI 取代。例如,在醫(yī)療領(lǐng)域中,AI 特別擅長搜索和分析,可以協(xié)助人類醫(yī)生進行診斷。

業(yè)界對大模型的需求呈井噴之勢?;A(chǔ)大模型的優(yōu)勢在于它的通用性,通過強大的圖文理解能力和交互方式,目標在于追求最終的通用人工智能(AGI),但與此同時,通用大模型在滿足階段性的、細分場景下的 B 端需求上也體現(xiàn)出“牛刀小用”的短板,在工程優(yōu)化、降低成本等方面有很大的提升空間。

對于這一問題,近日 AI 科技評論與深圳市圓代碼互聯(lián)網(wǎng)有限公司的 CEO 張朝明進行了探討。

張朝明指出,今天的大模型有非常強的話語權(quán),甚至可以決定一個生態(tài)的生死;從資金、技術(shù)和人才等角度體系思考,創(chuàng)業(yè)公司入場的門檻正在降低。小公司要參與大模型的浪潮,張朝明認為最大的機會還是在 To B 市場上。

“首先,不是去做一個跟 ChatGPT 對抗的大模型,而是聚焦私有化部署,做一個具備行業(yè) Know-How 的企業(yè)大模型;第二,ChatGPT 給出的結(jié)果是對是錯,需要交給專業(yè)的人用專業(yè)的知識去判斷。”

以下是 AI 科技評論和張朝明的對話:


大模型也需要專業(yè)知識參與

AI 科技評論:您怎么看小公司在大模型產(chǎn)業(yè)變革中的機會?

張朝明:今天大模型在任意領(lǐng)域的問答生成表現(xiàn)都非常好,但它在需要專業(yè)知識的領(lǐng)域問答上還是有不足之處的。專業(yè)知識的數(shù)據(jù)在網(wǎng)上不好獲取,訓練也就不夠充分。

比如保險行業(yè)中的核保,關(guān)于核保的規(guī)則往往很難在公開渠道中獲取,這屬于保險公司的核心機密,我們只能通過在案例里去學習,因此也就存在不夠精準的問題。大模型在專業(yè)知識領(lǐng)域大概只能做到百分之六七十的準確率,外行人看著可能覺得效果不錯,但在內(nèi)行人看來是無法使用的。

在行業(yè)里,95% 是一個生產(chǎn)標準。什么意思?也就是說做到 80% 也好、70% 也好,對生產(chǎn)環(huán)節(jié)而言沒有區(qū)別。行業(yè)的判斷標準之所以是 95%,是因為人的準確率大概在 92% 到 98% 之間,95% 剛好是個中位數(shù),差額的幾個點默認是人為也會出現(xiàn)的損失,這是一個容忍度的問題。而越在生產(chǎn)環(huán)節(jié),對模型效果準確率的容忍度越低。

在 To C 的場景里,比如娛樂行業(yè)、泛娛樂場景,我們用 ChatGPT 聊天、寫文章、生成圖畫、寫文案,達到 60% 就覺得效果非常好、很滿意,但進入金融行業(yè)或其他一些行業(yè),沒有 95% 準確率,基本上可認定為它沒有任何意義。因此在生產(chǎn)環(huán)節(jié)里,模型的生成是容忍度非常低、但精度效率要求非常高的一件事情。

我們能看到的一個趨勢是,大模型在 To C 方面很難超過 ChatGPT,這是由 To C 特殊的環(huán)境決定的,當一家中國企業(yè)做出一個 ChatGPT 后、美國人會不會使用,這是個很重要的問題,這也從語料、用戶數(shù)量等等方面決定了國內(nèi)廠商的模型很難達到 ChatGPT 的水準,但中國人自己使用是可以實現(xiàn)的。我認為 ChatGPT 和以前的淘寶搜索等不一樣的地方在于,它是跨語言的。以前在淘寶上想使用英文搜索、或在谷歌上使用中文,都存在語言問題,但 ChatGPT 很好地處理了跨語言的問題。

因此,最大的機會還是在 To B 的市場上。

首先,不做一個跟 ChatGPT 對抗的大模型,我們看到的市場是在私有化部署上,具備行業(yè) Know-How 能提供專業(yè)知識結(jié)果的企業(yè)大模型。私有化部署解決的是兩個問題,一個是數(shù)據(jù)隱私的問題,這是私有化部署的核心,另一個則是專業(yè)性,所以這個大模型用戶要自己訓練;ChatGPT 給出的結(jié)果是對是錯,需要通過人專業(yè)的知識去判斷,且無法矯正數(shù)據(jù)的準確率,并不是將專業(yè)知識灌進去,就可以得到專業(yè)的結(jié)果,因此,企業(yè)也需要訓練自己的大模型。

AI 科技評論:用小模型來實現(xiàn) 95% 的生產(chǎn)標準和用大模型來做,思路差異是什么?

張朝明:它是兩個概念。小模型的優(yōu)勢是,它是在專業(yè)領(lǐng)域里一定是超過大模型的,知識圖譜對知識的提煉和數(shù)據(jù)的獲得,都屬于小模型的優(yōu)勢,而大模型的優(yōu)勢在于它 60% 左右的通用性。比如說我想寫一篇調(diào)查報告,寫一個調(diào)查報告框架描述這件事、肯定是大模型寫的好,但里面數(shù)據(jù)的填入是小模型更專業(yè)。所以這件事情需要大模型配合小模型來完成。

AI 科技評論:大模型配合小模型來完成,這么做的核心邏輯是什么?

張朝明:在大模型還沒有起來之前,人們很難看到行業(yè)知識圖譜背后的價值,只看到了完成它所需要付出的巨額成本。直到大模型火爆后,知識圖譜成為了生成報告的數(shù)據(jù)內(nèi)容,可以為多輪問答提供支持等等,才展現(xiàn)出它的價值。

從商業(yè)邏輯上看,在僅用小樣本就能完成一個行業(yè)知識訓練的情況下,使用幾個億、幾十個億的成本來訓練行業(yè)知識的人、即便將這部分成本平攤到各個業(yè)務環(huán)節(jié)中,也肯定是賠錢的。核心的邏輯就在于,知識整理、儲備整理和這個成本是多少?而這件事情過去很少有人去做。

過往知識圖譜很多只能售賣一次,但好的商業(yè)模式應該具備可持續(xù)的續(xù)費能力。小模型的問題在于它構(gòu)建知識圖譜的成本太高。當一個做小模型的公司,構(gòu)建知識圖譜需要花費高達一兩個億,就又回到了不掙錢這件事。而大模型提供的能力是,寫文章的時候讓你怎么寫得更優(yōu)美、問答更通順,而核心的知識來源一直沒有解決。也就是說,無法使用大模型來指導工作,因為成本太高了。

為此,圓代碼之所以能夠極大地減少成本開支,是基于我們從小模型時代就基于自研技術(shù)、所提出的核心抽取模型。通過核心抽取模型所具備的復雜語義抽取能力,可實現(xiàn)用小樣本解決構(gòu)建知識圖譜的成本問題。


AI 時代需要新的“操作系統(tǒng)”

AI 科技評論:圓代碼所做的是提供基礎(chǔ)大模型,還是幫助客戶訓練大模型?

張朝明:我們提供的是一套基礎(chǔ)的東西。前幾年零代碼特別火,但其大家都非常清楚它的價值有限。在我看來,它并不是一個跨時代、變革的產(chǎn)品,而只是在原有生態(tài)體系下減輕工作量的一個工具,難以使用它跨任何行業(yè)去做無代碼,但現(xiàn)在 AI 我們認為它已經(jīng)是一個全新的生態(tài)。

PC 時代是操作系統(tǒng)為王,到互聯(lián)網(wǎng)時代瀏覽器成為了入口、入口為王,再到移動互聯(lián)網(wǎng)時代又是操作系統(tǒng)(iOS 和安卓)為王,發(fā)展路徑十分清晰,非常簡單的道理是、操作系統(tǒng)沒有強勢地位就會被剝削掉。

因此我們認為,大模型跟零代碼的區(qū)別就在于,大模型一定是個基礎(chǔ)設(shè)施,有非常強的話語權(quán),甚至可以決定一個生態(tài)的生死。我們想做的就是一套操作系統(tǒng),任何玩家都可以用,我們把這套東西提供給企業(yè),企業(yè)的人不需要會編程,而是只要會業(yè)務、把他的業(yè)務數(shù)據(jù)放到這套東西上就可以使用,任何領(lǐng)域的人都能非常簡單地完成相應的工作,這是我們對這套“操作系統(tǒng)”的定義。

比如一個公司要做研報解析,需要派 100 個人完成這件事,現(xiàn)在交給了 AI 公司,但如果 AI 公司也需要用 80 或者 90 個模型工程師來完成這件事情時,那么它所發(fā)生變化很小,賠錢的人從原來的公司變成了 AI 公司,這是一個核心的問題,只有解決了它,AI 公司才能夠是賺錢的。

解決問題的關(guān)鍵在于,怎么通過使用我們所提供的這套操作系統(tǒng),讓 AI 公司僅需要用 1 個模型工程師和算法就能把問題解決到 95% ,這才是有價值的。

AI 科技評論:圓代碼目前客戶群體主要是哪些行業(yè)?

張朝明:目前我們只聚焦教育和醫(yī)療保險兩個行業(yè)。

以醫(yī)療為例,圓代碼做的主要對病例報告的解析,但我們不對影像報告的內(nèi)容做解讀,而是解析影像報告解讀出來的文字內(nèi)容。這部分需求放在醫(yī)療行業(yè)里,很難看到它的生態(tài),但保險行業(yè)對這部分內(nèi)容的需求很大。用大模型做醫(yī)療的事情,把保險行業(yè)的需求平移、解決保險人員對報告數(shù)據(jù)的需求問題。

跟銀行不同,銀行大多數(shù)的數(shù)據(jù)都是結(jié)構(gòu)化的,因此在日常的運轉(zhuǎn)過程中對數(shù)據(jù)解析的需求并不大。銀行在正常運轉(zhuǎn)下,使用 IT 軟件就能處理 90% 左右的事情,剩下 10% 是由人在處理,例如貸款審核等等,因此報告解析在對應的工作內(nèi)容體量中非常少。而保險公司從一開始就是人為處理的事情居多,其業(yè)務內(nèi)容中人為占比達到 90% ,AI 只支持 10% 的信息存取、數(shù)據(jù)的流轉(zhuǎn),根本原因是,二者的數(shù)據(jù)源不一樣,一個就是結(jié)構(gòu)化的數(shù)據(jù),一個就是非結(jié)構(gòu)化的數(shù)據(jù)。

當 AI 巨大變革來臨,或許銀行在審核環(huán)節(jié)也會有變革,但其絕沒有 AI 對保險行業(yè)的影響直接。

AI 科技評論:有了體檢報告和這個表格之后的話,圓代碼會對數(shù)據(jù)進行解析,那是否會進行下一步的分析處理?

張朝明:我們不進行下一步的分析處理,因為能處理這些數(shù)據(jù)的人全國能找出來不止 1 萬個。但是能將這些數(shù)據(jù)它進行結(jié)構(gòu)化、給到這 1 萬個人的公司或機構(gòu)很少。

當今天保險行業(yè)需要處理醫(yī)療的數(shù)據(jù)內(nèi)容,通過人工來處理報告的數(shù)據(jù)輸入、往往需要花費一天時間,結(jié)構(gòu)化成本非常高;而借助我們的模型和平臺、可以實現(xiàn)秒級速度迅速完成資料的結(jié)構(gòu)化,這就是我們的技術(shù)實力。

AI 科技評論:數(shù)據(jù)樣本的問題怎么解決?

張朝明:舉個簡單的例子,醫(yī)療行業(yè)的體驗報告樣式各不相同,當使用 AI 模型對體檢報告進行結(jié)構(gòu)化處理,幾萬篇同一模板格式的報告數(shù)據(jù)、對圓代碼的技術(shù)研究作用不大。當體檢報告樣式有十幾萬種,要將這十幾萬種報告都找齊、再進行模型識別訓練,這件事也并不現(xiàn)實。此外,如保險等此類隱私數(shù)據(jù),我們也很難通過網(wǎng)絡(luò)途徑獲取,隱私數(shù)據(jù)禁止買賣,上述均是十分現(xiàn)實的情況,如果問題無法解決,很難進行后面的訓練。

對此,圓代碼的思路是,在找不到一千份、一萬份前提下,我們能否找到二十份小樣本數(shù)據(jù),基于二十份數(shù)據(jù)加上我們的技術(shù),將適用于整個行業(yè)的模型訓練出來,把圖文信息轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),走自研底層技術(shù)、用更少的數(shù)據(jù)達到更好效果的模式。


小公司創(chuàng)業(yè)能做、但難度很高

AI 科技評論:小公司想做大模型創(chuàng)業(yè),今天還有機會嗎?

張朝明:有機會,但也很難,看的就是誰先能跑出來。

今天小公司想做大模型創(chuàng)業(yè),我覺得其創(chuàng)業(yè)門檻相比小模型時代已經(jīng)極大地降低了,但同時我們也要看到它最終能做成功的難度非常高。非常難的原因在于,首先一定需要有極強的科研能力,這對創(chuàng)業(yè)公司來說要在技術(shù)和人才上迅速拉平需要非常大的成本,這是第一點。

第二點,在現(xiàn)在這個情況下,不管做大模型也好、做小模型也好,一個公司手里如果沒有四五十塊顯卡,連模型都跑不起來。顯卡的投入輕易在幾百萬、上千萬,這也意味著,一筆投資兩三百萬的種子輪融資,難以支撐一家企業(yè)購買硬件設(shè)備的錢。

可以說,上述兩個問題就已經(jīng)把絕大部分的創(chuàng)業(yè)公司都殺掉了,所以我認為,當前創(chuàng)業(yè)公司已經(jīng)很難能夠跑出來,在這個純技術(shù)的賽道上,窗口已經(jīng)關(guān)閉了。

AI 科技評論:AI 公司和 “AI+”公司的區(qū)別在哪里?

張朝明:區(qū)別在于 AI 為二者的服務、業(yè)務提供了哪些方面的能力。很多 AI 大模型的創(chuàng)業(yè)公司會使用開源模型,在開源模型上建模,但我們要看它建的是哪種模。

舉個例子,做 AI 的公司把證券公司需要的數(shù)據(jù)給到證券公司,使用了它在 AI 上的能力來解決證券公司的人的需求,這叫做 AI 公司;而使用 AI 能力解決證券問題,體現(xiàn)的是公司在證券方面的建模和分析能力,這種我們稱之為 AI +證券公司。大多數(shù)做 AI 公司會采用開源的解法來解決一個行業(yè)的具體問題,但它的核心能力是在金融建模上的能力,而并非 AI 建模上。

AI 科技評論:做什么模型跟細分行業(yè)的相關(guān)性大么?

張朝明:在大模型之前,我們做的是行業(yè)通用小模型,即對任何文本都可以進行非常結(jié)構(gòu)化的處理。比如律師怎么看合同、想從哪些層面來使用數(shù)據(jù)等等,這些問題都可以完成。再比如醫(yī)院的體檢報告,通過我們的模型,可以把所有的數(shù)據(jù)都提供給客戶去做任意的篩選分析,也可以向企業(yè)提供定向化數(shù)據(jù)。

AI 科技評論:它跟行業(yè)垂類大模型的區(qū)別在哪里?

張朝明:垂類大模型并不是針對具體某一個細分領(lǐng)域,它解決的也是行業(yè)性的問題。以醫(yī)療病例和體驗報告的結(jié)構(gòu)化問題為例,假設(shè)一家做糖尿病垂類大模型的公司,我可以輸入糖尿病病人的病情數(shù)據(jù)、借助糖尿病垂類大模型解決相關(guān)的問題,也可以基于通用大模型基礎(chǔ)上、就任意一個疾病種類,用同一套技術(shù)去解決新的病情。

這是商業(yè)模式的設(shè)計,而非技術(shù)的設(shè)計。也就是說,當你解決了數(shù)據(jù)源的問題,其實并沒有解決別的問題。但在我們看來,大模型應該是一種基礎(chǔ)技術(shù),并不是說數(shù)據(jù)加模型的服務,就能夠成為一個大模型。圓代碼用大模型提供了一種數(shù)據(jù)處理的方式,最終也并不參與解決具體的行業(yè)問題。

正如前面提到的例子,保險行業(yè)需要處理好的、結(jié)構(gòu)化的醫(yī)療數(shù)據(jù),同時他們也擁有大量的優(yōu)秀的核保人員和理賠人員,這種高級人才在中國并不稀缺,我們做的事情是,把這些結(jié)構(gòu)化數(shù)據(jù)給到這些專業(yè)的人、擅長的人去分析,而不是去做分析的事情。

(雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

對話圓代碼 CEO 張朝明:做不跟 ChatGPT 對抗的企業(yè)大模型,用更少的數(shù)據(jù)達到更好的效果

分享:
相關(guān)文章

主筆

傾聽科技和商業(yè)的故事,關(guān)注AI人物、技術(shù)變革。 | 微信:finfl26est
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說