丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
AI+ 正文
發(fā)私信給王悅
發(fā)送

0

對(duì)話丨ChatLaw 團(tuán)隊(duì)袁粒:做普通人也能用的法律大模型

本文作者: 王悅 2023-07-31 12:32
導(dǎo)語:“只有被應(yīng)用到實(shí)際生活里,科學(xué)技術(shù)才能產(chǎn)生價(jià)值。”

作者丨王悅

編輯丨董子博

大模型賽道的競(jìng)逐進(jìn)行到6月,AI 行業(yè)的共識(shí)正發(fā)生著迅速而激烈的變化。

從開始對(duì)泛用大模型的追求,到對(duì)更具落地能力的行業(yè)模型,越來越多的從業(yè)者開始發(fā)現(xiàn),如果無法實(shí)打?qū)嵉爻蔀樯a(chǎn)力,那么無論是“大模型”還是“AGI”,都不過只是一個(gè)被炒熱炒紅的概念。

“只有被應(yīng)用到實(shí)際生活里,科學(xué)技術(shù)才能產(chǎn)生價(jià)值。”如此堅(jiān)信著,北京大學(xué)信息工程學(xué)院助理教授、博士生導(dǎo)師袁粒一門心思,撲在了大模型的應(yīng)用層開發(fā)上。

今年早些時(shí)候,袁粒便帶領(lǐng)團(tuán)隊(duì)開發(fā)了一款名為“ChatExcel”的產(chǎn)品,意圖利用大模型技術(shù),來幫助用戶更高效地完成圖表工作,一時(shí)間獲得了不少好評(píng)。

而今天,袁粒和團(tuán)隊(duì)又推出了一個(gè)新的項(xiàng)目——“ChatLaw”。應(yīng)用大模型技術(shù),ChatLaw 可以幫助對(duì)法律知之甚少的普通人,讓他們能夠獲得一些初步的法律建議,并且還能夠進(jìn)一步地幫助他們,完成分析證據(jù)、起草訴狀、尋找法律援助中心等工作。

“ChatLaw 可以讓老百姓獲得專業(yè)法律幫助之前,完成律師30-40%的工作?!痹?duì) AI 科技評(píng)論表示道。

作為國內(nèi)首個(gè)法律場(chǎng)景下的落地大語言模型產(chǎn)品,袁粒帶領(lǐng)課題組和北京大學(xué)-兔展AIGC聯(lián)合實(shí)驗(yàn)室,完成了不少工作。

一方面,袁粒和團(tuán)隊(duì)收集了大量的公開數(shù)據(jù)——如法律法條、判例、司法解釋等,又通過北京大學(xué)的平臺(tái),在北大國際法學(xué)院和相關(guān)的律所收集到了不少私有數(shù)據(jù),以及一個(gè)比較完備的知識(shí)圖譜,形成了一套專業(yè)的數(shù)據(jù)庫,讓 ChatLaw 在法律領(lǐng)域,具有對(duì)場(chǎng)景的更好理解能力;

另一方面,大模型常常會(huì)“一本正經(jīng)地胡說八道”,尤其是在專業(yè)領(lǐng)域,常常給出失之毫厘,差之千里的結(jié)果。為了最大程度上解決困擾大模型的“幻覺”問題,讓 AI 能在法律領(lǐng)域保證輸出的正確性,ChatLaw 并不是單個(gè)大模型“一人成軍”,而是由四個(gè)分管不同能力的大模型“強(qiáng)強(qiáng)聯(lián)合”,針對(duì)不同的專業(yè)法律領(lǐng)域,完成更高質(zhì)量的生成輸出。

在 ChatLaw 的實(shí)際測(cè)試中,袁粒說,單看法條輸出的正確率,已經(jīng)可以達(dá)到80%-90%,偶有錯(cuò)漏;而就給出的法律建議而言,也能達(dá)到60%以上的滿意度——相較其他大模型產(chǎn)品高出不少。

ChatLaw 在今日已經(jīng)開啟了邀請(qǐng)制的內(nèi)測(cè),乘這個(gè)機(jī)會(huì),AI 科技評(píng)論和袁粒進(jìn)行了一場(chǎng)對(duì)談,對(duì)有關(guān) ChatLaw 和當(dāng)下大模型產(chǎn)品的技術(shù)判斷,討論了許多先進(jìn)的認(rèn)知。

以下是 AI 科技評(píng)論與袁粒的對(duì)談實(shí)錄,雷峰網(wǎng)在不改變?cè)獾那闆r下做了編輯和調(diào)整:


專業(yè)數(shù)據(jù)+知識(shí)圖譜

讓 ChatLaw 變成最專業(yè)的法律大模型


AI科技評(píng)論:專業(yè)數(shù)據(jù)對(duì)于大模型的垂直領(lǐng)域場(chǎng)景理解至關(guān)重要,ChatLaw 在數(shù)據(jù)收集的角度,做了哪些努力?

袁粒:法律領(lǐng)域相較其他比較特殊——很多最高質(zhì)量的數(shù)據(jù),都是公開數(shù)據(jù)。這其中就包括法律法規(guī)、判例文書、司法解釋等等。我們的數(shù)據(jù)處理,主要就是基于這些公開的數(shù)據(jù)。

同時(shí),我們也獲得了一部分比較有價(jià)值的私有數(shù)據(jù)。這部分?jǐn)?shù)據(jù),主要是北大國際法學(xué)院,以及這個(gè)部分的行業(yè)律師事務(wù)所,提供給我們的私有數(shù)據(jù)。不僅如此,他們也對(duì)我們的數(shù)據(jù)集進(jìn)行了一個(gè)專業(yè)的加持——具體而言,就是把這些數(shù)據(jù)集中,再將不行的部分刪去。

但總體上,我們最大規(guī)模的數(shù)據(jù)集還是以法律法規(guī)為基礎(chǔ)的公開數(shù)據(jù)。

AI 科技評(píng)論:具體而言,法律場(chǎng)景會(huì)用到的數(shù)據(jù)有什么特殊性?

袁粒:首先,我們認(rèn)為法律法條其實(shí)是個(gè)有限子集,因?yàn)闂l文是有限的。而事實(shí)情況,則可能是會(huì)多種多樣的。

在這樣的情況下,用事實(shí)來帶入法條,這些處理都是有跡可循的。所以,我們是以案例去構(gòu)建了整個(gè)數(shù)據(jù)的核心,而不是單純以法條或事件。

除了案例之外,我們還有幾套支柱。對(duì)于每個(gè)案例,我們基于同案同判的原則,對(duì)每一種具體的 case 都會(huì)有一個(gè)律師的標(biāo)注。

這也是我們數(shù)據(jù)集非常重要的一個(gè)環(huán)節(jié),因?yàn)樗巳说膶I(yè)性在里面,在事實(shí)判例和法律之間完成了一個(gè)連接。

通過這個(gè)圖譜,我們可以去對(duì)各種各樣的法律的案例進(jìn)行回答;并且也能讓模型知道,什么是對(duì)的回答,這個(gè)非常重要。


“四合一”的架構(gòu)

讓“幻覺”更少出現(xiàn)

AI 科技評(píng)論:法律作為一個(gè)相當(dāng)嚴(yán)肅的場(chǎng)景,和醫(yī)療、金融區(qū)別在哪里?

袁粒:法律這個(gè)行業(yè),跟金融、醫(yī)療場(chǎng)景有一個(gè)比較大的區(qū)別——它的流程是非常程序化和標(biāo)準(zhǔn)化的。實(shí)際上 ChatLaw 去模擬的,就是一個(gè)法院、或者說律師,通過理解用戶的事實(shí),然后對(duì)他的事實(shí)提出對(duì)應(yīng)的法條,然后最終做出整套的判斷。

實(shí)際上在這套流程中有三個(gè)步驟:

歸納事實(shí);

從事實(shí)推理到法條;

依據(jù)上面的結(jié)果,發(fā)現(xiàn)爭(zhēng)議焦點(diǎn),進(jìn)行完整的推理,給出法律建議。

我們的 ChatLaw 雖然是大模型產(chǎn)品,但實(shí)際上包了四個(gè)模型,但其中放在 GitHub 上開源的只有一個(gè)模型。

AI 科技評(píng)論:這四個(gè)模型分別有什么功能?他們之間是如何協(xié)作的?

袁粒:四個(gè)模型中,第一個(gè)模型是調(diào)動(dòng)模型,負(fù)責(zé)理解用戶的這個(gè)語義,再來依據(jù)事實(shí),來調(diào)度特定的子模型。

余下的三個(gè)模型,主要功能是從事實(shí)歸納出法律,或者說,法律加爭(zhēng)議交鋒點(diǎn)去做推理。

對(duì)這三個(gè)模型,我們?cè)谟?xùn)練的過程中,關(guān)鍵是在訓(xùn)練階段將對(duì)應(yīng)這個(gè)模型專有和特定的知識(shí),在模型里面去大量地輸入,再去做特殊處理和強(qiáng)化學(xué)習(xí)。

那么這樣,我們確保模型在一個(gè)單獨(dú)的場(chǎng)景下,它具有非常高的推理能力,這三個(gè)模型就能針對(duì)專有的問題,完成高質(zhì)量的輸出。

AI 科技評(píng)論:1+3的這個(gè)模式相當(dāng)新穎,并且聽起來也更能應(yīng)對(duì)專業(yè)領(lǐng)域的問題。這個(gè)模式,會(huì)成為以后行業(yè)大模型的新趨勢(shì)嗎?

袁粒:這里面有兩個(gè)問題。

第一個(gè)問題,就是法律場(chǎng)景有它的特殊性。法律是一個(gè)非常流程化的場(chǎng)景,但是如果遷移到一個(gè)別的領(lǐng)域——比如說教育——它可能就不是這樣了。

我認(rèn)為,可能只會(huì)有兩到三個(gè)特定領(lǐng)域的場(chǎng)景,它會(huì)可以使用這種方法,其他的場(chǎng)景應(yīng)用起來,提升效果可能不會(huì)這么大。

第二個(gè)問題,是它的投入產(chǎn)出比可能會(huì)比較小,因?yàn)?ChatLaw 的模式,相當(dāng)于為一個(gè)產(chǎn)品訓(xùn)練了三個(gè)模型。

AI 科技評(píng)論:在 ChatLaw 研發(fā)的階段,最大的難點(diǎn)在哪里?

袁粒:其實(shí)我們現(xiàn)在是有一個(gè)瓶頸,它就是我們的調(diào)度模型。

因?yàn)閰?shù)量的問題,我們認(rèn)為其實(shí)百億級(jí)的調(diào)度模型,它的效果可能并不那么令人滿意,我們之后會(huì)把它替換成別的算法。


千模大戰(zhàn)下

袁粒的技術(shù)判斷

AI科技評(píng)論:在團(tuán)隊(duì)建設(shè)上,我們的團(tuán)隊(duì)平均年齡有多大?

袁粒:我們的團(tuán)隊(duì)不少都是00后,當(dāng)下有些還正在讀研。其中幾個(gè)比較優(yōu)秀的同學(xué),比如伯華,負(fù)責(zé)頂層設(shè)計(jì)和產(chǎn)品化,是我們項(xiàng)目的主要推動(dòng)者;以及家熙,負(fù)責(zé)模型的訓(xùn)練,在科研上非常強(qiáng)。

AI 科技評(píng)論:在這樣一個(gè)年輕的團(tuán)隊(duì)里,您觀察到,大家對(duì) AI 和大模型有什么新的看法?

袁粒:這一屆年輕人都非常理性,從年初開始,團(tuán)隊(duì)就在講,這是這會(huì)是一波巨大的科技浪潮,但是團(tuán)隊(duì)也同時(shí)深知這個(gè)過程會(huì)比較慢,可能會(huì)持續(xù)很久。

在這樣一個(gè)比較慢的賽道,我們從一個(gè)商業(yè)的角度來說,更應(yīng)該是“以終為始”。

AI 科技評(píng)論:具有一種“終局思維”。

袁粒:是的,我們更關(guān)注這個(gè)局面下,哪些要素更重要?掌握哪些要素的人會(huì)贏?而我們現(xiàn)在做的,就是要去提前把這些成功要素給湊出來。

AI 科技評(píng)論:商業(yè)化一定是個(gè)很重要的要素。

袁粒:沒錯(cuò),但對(duì)于 ChatLaw,我們不會(huì)急于把它變成一個(gè)太商業(yè)化的項(xiàng)目。主要是,ChatLaw 的模式,可能并不適合大規(guī)模向 C 端收費(fèi)——畢竟法律幫助是一個(gè)低頻需求。

現(xiàn)階段,我認(rèn)為 ChatLaw 還只是個(gè)showcase,是在我們一個(gè)名為 ChatKnowledge 這樣一個(gè)計(jì)劃中的第一步。

在做這個(gè)項(xiàng)目的同時(shí),我們也積累了一整套的能力,包括我們剛才提到的模型調(diào)度能力,也包括外掛知識(shí)庫對(duì)生成內(nèi)容約束等等。

我們慢慢沉淀出來的 ChatKnowledge 這一整套打法,才是未來我們眼中的“終局”。未來我們也會(huì)走一些面向企業(yè)和政府的項(xiàng)目,來迎接大模型 AI 2.0 的潮流。

(未來,雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))會(huì)關(guān)注更多的大模型和 AIGC 賽道優(yōu)秀創(chuàng)業(yè)者,歡迎和本文作者:s1060788086,交流認(rèn)知,互通有無。)


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說