丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開發(fā)者 正文
發(fā)私信給楊鯉萍
發(fā)送

0

「中國(guó)法研杯」相似案例匹配競(jìng)賽結(jié)果出爐,冠軍方案關(guān)鍵點(diǎn)詳解

本文作者: 楊鯉萍 2019-10-25 19:03
導(dǎo)語(yǔ):數(shù)據(jù)挖掘、深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò),與法律!

雷鋒網(wǎng) AI 開發(fā)者按:2019 年 10 月 19 日,第十八屆中國(guó)計(jì)算語(yǔ)言學(xué)大會(huì)「中國(guó)法研杯」相似案例匹配評(píng)測(cè)研討會(huì)在云南昆明完美落幕。會(huì)上,清華大學(xué)劉知遠(yuǎn)副教授、中國(guó)科學(xué)院軟件研究所韓先培研究員、冪律智能科技有限公司 CEO 涂存超博士等均出席了該會(huì)議。

其中,基于大會(huì)開展的中國(guó)法研杯相似案例匹配評(píng)測(cè)競(jìng)賽,由來(lái)自支付寶的 AlphaCourt 團(tuán)隊(duì)摘得桂冠,這是一支致力于搭建屬于支付平臺(tái)的「互聯(lián)網(wǎng)法院」的隊(duì)伍。本次大賽中,他們充分運(yùn)用了數(shù)據(jù)挖掘、深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等方法,實(shí)現(xiàn)了對(duì)「多篇法律文書的相似度計(jì)算與判斷」等任務(wù)的多模型融合、優(yōu)化以及可視化探索,最終以 71.88 的優(yōu)績(jī),奪下了本次大賽冠軍!

在大賽中,我們也能看到京東、華宇元典、同濟(jì)大學(xué)等強(qiáng)勁對(duì)手的身影,但究竟 AlphaCourt 團(tuán)隊(duì)是在哪些技術(shù)與方法上略勝一籌,才從 711 支參賽隊(duì)伍中脫穎而出?雷鋒網(wǎng) AI 開發(fā)者有幸采訪到冠軍團(tuán)隊(duì),并將其冠軍方案解析如下,也許我們可以一起來(lái)找到答案。

「中國(guó)法研杯」相似案例匹配競(jìng)賽結(jié)果出爐,冠軍方案關(guān)鍵點(diǎn)詳解

劉知遠(yuǎn)副教授為一等獎(jiǎng)隊(duì)伍頒獎(jiǎng)

比賽任務(wù)簡(jiǎn)介

本屆法研杯司法人工智能挑戰(zhàn)賽主要圍繞「相似案例匹配評(píng)測(cè)」主題展開,比賽任務(wù)則涉及到類案的理解與判斷等問(wèn)題,其中最具代表性的則是:民間借貸相似案例。如果能通過(guò) AI 技術(shù)將大量類案進(jìn)行分類與判斷等,將大大減少重復(fù)性的人力成本等實(shí)際問(wèn)題。

因此,本次的任務(wù)第一步是針對(duì)多篇法律文書進(jìn)行相似度的計(jì)算和判斷;然后對(duì)于每份文書提供文書的標(biāo)題和事實(shí)描述,從兩篇候選集文書中找到與詢問(wèn)文書更為相似的一篇。其中,相似案例匹配的數(shù)據(jù)限于民間借貸一類文書。

「中國(guó)法研杯」相似案例匹配競(jìng)賽結(jié)果出爐,冠軍方案關(guān)鍵點(diǎn)詳解

民間借貸相似案例匹配舉例

在數(shù)據(jù)集方面,本任務(wù)所使用的數(shù)據(jù)集是來(lái)自「中國(guó)裁判文書網(wǎng)」公開的法律文書,每組數(shù)據(jù)由三篇法律文書組成。對(duì)于每篇法律文書,僅提供事實(shí)描述;對(duì)于每份數(shù)據(jù),用(A,B,C)來(lái)代表該組數(shù)據(jù);對(duì)于訓(xùn)練數(shù)據(jù),保證文書數(shù)據(jù) A 與 B 的相似度是大于 A 與 C 的相似度。

在這樣的賽題背景下,各個(gè)參賽團(tuán)隊(duì)開始運(yùn)用他們的技術(shù)方法不斷提高 AI 判斷的準(zhǔn)確度。

AlphaCourt 團(tuán)隊(duì)

本次冠軍團(tuán)隊(duì) AlphaCourt 來(lái)自支付寶安全實(shí)驗(yàn)室,參賽成員包括:

  • Kaggle Master 鮑晟霖

  • KDD 2019 冠軍得主易燦

  • 帝國(guó)理工博士劉星

  • 杜克大學(xué)碩士葉珩

  • 愛(ài)丁堡大學(xué)碩士林曉彤

「中國(guó)法研杯」相似案例匹配競(jìng)賽結(jié)果出爐,冠軍方案關(guān)鍵點(diǎn)詳解

這個(gè)小組的日常業(yè)務(wù)是根據(jù)用戶反饋的欺詐等風(fēng)險(xiǎn)信息,通過(guò) AI 算法分析處理從而更好地防控,保護(hù)用戶賬戶安全。這也正是他們隊(duì)名「AlphaCourt——智能法院」的來(lái)歷,因?yàn)樵谒麄儤I(yè)務(wù)范圍內(nèi),大家的職能與法院一樣,旨在分配正義,消除不公。

因此我們可以發(fā)現(xiàn),團(tuán)隊(duì)在本次競(jìng)賽上有兩大主要優(yōu)勢(shì):

  • 一是業(yè)務(wù)涉及豐富的文本,沉淀了很多文本相關(guān)的算法;

  • 二是團(tuán)隊(duì)曾搭建過(guò)詐騙案由的知識(shí)圖譜,這也更好的幫助他們輕車熟路地構(gòu)建業(yè)務(wù)抽象要素框架,并與文本模型結(jié)合,豐富了模型的學(xué)習(xí)維度。

盡管團(tuán)隊(duì)有著豐富、熟稔的經(jīng)驗(yàn)和技巧,但除了面臨法律案件中各種的難題,如:案件文本長(zhǎng)、案件復(fù)雜度高、案情靈活多變、案件分析數(shù)值繁多等之外,他們依舊還有需要克服的其它困難及挑戰(zhàn)。

挑戰(zhàn)一:數(shù)據(jù)構(gòu)建及句子相似度判定

在比賽過(guò)程中,團(tuán)隊(duì)首先面臨的是賽題數(shù)據(jù)構(gòu)建形式較少見這一大挑戰(zhàn)。隊(duì)長(zhǎng)表示,雖然日常工作中他們很熟悉文本分類問(wèn)題,但賽題是三段文本之間的對(duì)比,所以需要一定的轉(zhuǎn)換。

因此,一開始他們做了一個(gè)簡(jiǎn)單的假設(shè),把賽題轉(zhuǎn)化為了一個(gè)絕對(duì)相似的問(wèn)題。假定文書數(shù)據(jù) A 和文書數(shù)據(jù) B 之間是符合絕對(duì)的相似,同時(shí)文書數(shù)據(jù) A 和文書數(shù)據(jù) C 之間是符合絕對(duì)的不相似,即原先的三元組數(shù)據(jù)拆分成兩兩文書數(shù)據(jù)之間是否絕對(duì)相似的問(wèn)題,這樣就可以使用二分類模型來(lái)解決此類問(wèn)題。

但實(shí)際上在第二階段檢查數(shù)據(jù)時(shí),團(tuán)隊(duì)發(fā)現(xiàn)之前的絕對(duì)相似假設(shè)存在一定問(wèn)題。雖然數(shù)據(jù)(A,B,C)保證了文書數(shù)據(jù) A 與 B 的相似度是大于 A 與 C 的相似度,但是另一條數(shù)據(jù)中會(huì)出現(xiàn)(A,D,B)的情況;當(dāng)把這兩條三元組樣例同時(shí)拆分成兩兩對(duì)比相似的數(shù)據(jù)時(shí),會(huì)發(fā)現(xiàn)產(chǎn)生數(shù)據(jù)的標(biāo)簽存在沖突。

因此,團(tuán)隊(duì)在第一階段使用二分類模型思路的情況下,重新考慮了三元組的相對(duì)相似問(wèn)題。最終,他們采用了損失函數(shù)為 Triplet Loss 的 Rank 模型來(lái)解決三元組的相對(duì)相似的問(wèn)題,從兩兩文本間的相似距離來(lái)評(píng)估兩兩文本之間相似度。

兩種模型的思路框架如下圖所示。

「中國(guó)法研杯」相似案例匹配競(jìng)賽結(jié)果出爐,冠軍方案關(guān)鍵點(diǎn)詳解

解決相對(duì)相似問(wèn)題的模型

挑戰(zhàn)二:文本形式差異

隊(duì)長(zhǎng)告訴我們,他們?nèi)粘L幚淼氖怯脩糇杂商顚懙奈谋?,信息稀疏且沒(méi)有固定結(jié)構(gòu),而賽題則是半結(jié)構(gòu)化的法律文書,所以需要構(gòu)建賽題案由相關(guān)的業(yè)務(wù)抽象特征。

因此,他們主要參考了合同法、擔(dān)保法、婚姻法及相關(guān)司法解釋,總結(jié)出了原告/被告屬性、擔(dān)保類型(一般、連帶)、計(jì)息方式、約定借期利率、約定逾期利率、抵押物、借款合意憑據(jù)等七個(gè)特征。最終根據(jù)可行性以及數(shù)據(jù)表現(xiàn),選用了原告被告特征、擔(dān)保特征、利息特征等特征。

原告被告特征包括原告是否屬于公司、原告人數(shù)、被告是否屬于公司和被告人數(shù);

擔(dān)保特征包括文書中是否包含擔(dān)保人、擔(dān)保人個(gè)數(shù)、文書中是否包含抵押物和抵押物的個(gè)數(shù);

利息特征包括文書中是否包含利息和對(duì)利息金額的轉(zhuǎn)換。其他業(yè)務(wù)特征包括文書中被告間是否存在夫妻關(guān)系和被告的死亡情況;

具體提取的結(jié)構(gòu)化特征如下圖所示:

「中國(guó)法研杯」相似案例匹配競(jìng)賽結(jié)果出爐,冠軍方案關(guān)鍵點(diǎn)詳解

具體提取的結(jié)構(gòu)化特征

雖然這些工作與建模關(guān)系不大,但在結(jié)果上證明了這些業(yè)務(wù)抽象特征確實(shí)會(huì)帶來(lái)不錯(cuò)的增益;同時(shí),從參賽方案來(lái)看,這也是其他參賽對(duì)手沒(méi)有特別重視的細(xì)節(jié)之處。對(duì)于這一點(diǎn)的把控,不禁讓人感嘆:這確實(shí)是「細(xì)節(jié)決定成敗」最有力的說(shuō)明!

挑戰(zhàn)三:模型優(yōu)化

本次比賽有 711 支隊(duì)伍,共計(jì) 1003 位參賽者。激烈的競(jìng)爭(zhēng)是在所難免的,而且在比賽過(guò)程中前幾名之間的分?jǐn)?shù)差距基本都在 5 以內(nèi),互相你追我趕,頗有劍拔怒張之勢(shì)。因此,AlphaCourt 團(tuán)隊(duì)也在不斷對(duì)模型進(jìn)行優(yōu)化,其中主要使用了兩個(gè) Trick。

  • 模型融合

第一個(gè) Trick 是模型融合;團(tuán)隊(duì)嘗試將 Bert 模型作為 Baseline 模型,然后對(duì) Bert 模型進(jìn)行進(jìn)一步優(yōu)化。優(yōu)化方案包括:

對(duì) Bert 模型內(nèi)部的網(wǎng)絡(luò)層輸出進(jìn)行提取,通過(guò)提取最后二層或三層中每層的第一個(gè)狀態(tài)輸出向量,嘗試與原先的 Bert 模型的輸出進(jìn)行拼接,可以得到一個(gè)更加全面的特征向量,如下圖(2)(3)所示;

結(jié)合正則表達(dá)式提取的業(yè)務(wù)抽象特征和 TF-IDF 提取文本數(shù)據(jù)的詞頻統(tǒng)計(jì)等結(jié)構(gòu)化特征,與 Bert 模型的輸出進(jìn)行拼接,結(jié)合結(jié)構(gòu)化特征的特征合理性得到更加優(yōu)化的特征向量,如下圖(4)所示;

Bert 模型的除了輸出特征向量外還提供了模型的狀態(tài)信息,該模型狀態(tài)信息可連接更深層的網(wǎng)絡(luò)模型,如 Bi-LSTM 和 Bi-GRU 網(wǎng)絡(luò)模型。通過(guò)更深層的網(wǎng)絡(luò)模型可以提取文本的更高維度特征。通過(guò)池化和提取隱藏層狀態(tài)等操作聚合 Bi-GRU 網(wǎng)絡(luò)層的輸出特征和隱藏層狀態(tài)的特征,如下圖(5)所示。

「中國(guó)法研杯」相似案例匹配競(jìng)賽結(jié)果出爐,冠軍方案關(guān)鍵點(diǎn)詳解

五種網(wǎng)絡(luò)模型

通過(guò)以上構(gòu)造的五種網(wǎng)絡(luò)模型,進(jìn)行多模型離線的多模型融合可以進(jìn)一步提高相似匹配的準(zhǔn)確率,如下圖所示。

「中國(guó)法研杯」相似案例匹配競(jìng)賽結(jié)果出爐,冠軍方案關(guān)鍵點(diǎn)詳解

多模型離線的多模型融合

  • Triple Loss 過(guò)擬合

另一個(gè) Trick 是 Triple Loss 過(guò)擬合的解決;由于樣本按照三元組形式輸入,即默認(rèn)詢問(wèn)文書數(shù)據(jù) A 與文書數(shù)據(jù) B 的相似度大于詢問(wèn)文書數(shù)據(jù) A 與文書數(shù)據(jù) C 的相似度。此時(shí)在訓(xùn)練過(guò)程中可能會(huì)出現(xiàn)一種極端的情況,即模型結(jié)果無(wú)腦輸出 B,就會(huì)出現(xiàn)過(guò)擬合問(wèn)題。

AlphaCourt 團(tuán)隊(duì)在這里使用的解決方案是部分修改文本數(shù)據(jù) B 和文本數(shù)據(jù) C 的順序,使一半的數(shù)據(jù)變成(A,C,B)形式的三元組數(shù)據(jù),即可以同時(shí)存在 B 和 C 的標(biāo)簽。具體的操作流程如下所示。

「中國(guó)法研杯」相似案例匹配競(jìng)賽結(jié)果出爐,冠軍方案關(guān)鍵點(diǎn)詳解

解決 Triple Loss 過(guò)擬合方案

在構(gòu)建訓(xùn)練和驗(yàn)證數(shù)據(jù)集 Datasets 時(shí),在第奇數(shù)個(gè)三元組樣本附帶一個(gè)變量 op,值為 1。將第偶數(shù)個(gè)三元組樣本的文書數(shù)據(jù) B 和文書數(shù)據(jù) C 進(jìn)行交換,并附帶一個(gè)變量 op,值為-1。構(gòu)建的數(shù)據(jù)集經(jīng)過(guò)數(shù)據(jù)加載器 Data Loader 會(huì)默認(rèn)將數(shù)據(jù)集進(jìn)行打亂,因此不會(huì)學(xué)習(xí)到數(shù)據(jù)的標(biāo)簽規(guī)律。

最后學(xué)習(xí)到特征向量經(jīng)過(guò) Triplet Loss 計(jì)算時(shí),只要計(jì)算過(guò)程中附帶了變量 op,調(diào)整兩者歐式距離的正負(fù)結(jié)果,就可以保證 Triplet Loss 的計(jì)算結(jié)果保持正確。

以上則為本次冠軍方案最核心部分的解讀,除此之外,關(guān)于編碼層、特征交互層、數(shù)據(jù)增廣、模型預(yù)訓(xùn)練等細(xì)節(jié)內(nèi)容詳情,可參考——

GitHub 開源代碼:

https://github.com/GuidoPaul/CAIL2019 

「中國(guó)法研杯」相似案例匹配競(jìng)賽結(jié)果出爐,冠軍方案關(guān)鍵點(diǎn)詳解

AI 更廣泛的應(yīng)用

從這個(gè)大賽我們可以看到,曾經(jīng)局限于互聯(lián)網(wǎng)領(lǐng)域的 AI 技術(shù),現(xiàn)在也在金融、法律甚至是礦工等領(lǐng)域開始漸漸發(fā)光發(fā)熱,起到實(shí)際作用。而且這也并非唯一一個(gè)舉辦法律 AI 大賽的會(huì)議,像這樣的比賽還有很多,比如:

Artificial Intelligence for Legal Assistance (AILA)

詳情查看:https://sites.google.com/view/fire-2019-aila/ 

Competition on Legal Information Extraction/Entailment

詳情查看:https://sites.ualberta.ca/~rabelo/COLIEE2019/ 

這些比賽都是聚焦于通過(guò) AI 技術(shù)來(lái)解決法律案由中數(shù)據(jù)量大、數(shù)據(jù)繁雜、檢索力誤差等實(shí)際問(wèn)題,我們也通過(guò)比賽得到了很多實(shí)用的優(yōu)秀算法,幫助我們的生活變得更便利與幸福。

之前,我們很容易在互聯(lián)網(wǎng)、大數(shù)據(jù)等領(lǐng)域看到 AI 的身影;而現(xiàn)在,諸如法律、金融、醫(yī)療、交通、教育、零售以及文娛等各行各業(yè)中,也注入了強(qiáng)勁有力的 AI 實(shí)力。這或許也印證到,我們離全民 AI 又更近了一步。

「中國(guó)法研杯」相似案例匹配競(jìng)賽結(jié)果出爐,冠軍方案關(guān)鍵點(diǎn)詳解

雷鋒網(wǎng) AI 開發(fā)者

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

「中國(guó)法研杯」相似案例匹配競(jìng)賽結(jié)果出爐,冠軍方案關(guān)鍵點(diǎn)詳解

分享:
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)