0
本文作者: 奕欣 | 2017-09-06 11:51 |
雷鋒網(wǎng) AI 科技評論消息,近日第十三屆 NTCIR 評測比賽正式公布了短文本對話任務(wù)(STC2)的賽果。搜狗搜索聯(lián)合清華大學(xué)計算機系組成的 SG01 戰(zhàn)隊首度參戰(zhàn),在 NTCIR13-STC2 評測比賽中以絕對優(yōu)勢排名第一。
NTCIR Workshop是一個針對信息訪問(IA)技術(shù)(包括信息檢索、問題回答、文本摘要、提取等)的評估比賽。最早由日本學(xué)術(shù)振興會(JSPS)和國立情報學(xué)研究所(NACSIS)聯(lián)合贊助,并于1998年開始籌備,并最終在1999年成功舉辦首屆workshop。
經(jīng)過發(fā)展,NTCIR逐漸發(fā)展成為一項國際重要賽事,通過設(shè)置一系列基于中文、英文、日文三種語料的評測任務(wù),目前NTCIR評測比賽已經(jīng)舉辦至第十三屆。
雷鋒網(wǎng) AI 科技評論根據(jù)資料了解到,在 2016 年,第十二屆 NTCIR 中首次設(shè)置了基于中文、日文兩種語料的評測新任務(wù),即短文本對話任務(wù)(STC),這也是目前國際上唯一的“開放域”對話方面的評測比賽。
而其中的短文本對話任務(wù)NTCIR13-STC2,在繼檢索模型對話任務(wù)后,首次引入基于深度學(xué)習(xí)的生成模型對話的任務(wù)設(shè)置。雷鋒網(wǎng)AI科技評論了解到, 本次比賽的主要目的是想將IR、NLP與深度學(xué)習(xí)研究者聯(lián)合起來,一同解決自然語言對話,在分享最新研究成果的同時對相關(guān)議題進(jìn)行探討,共同規(guī)劃可能有的合作空間。
據(jù)雷鋒網(wǎng) AI 科技評論了解,本次賽事共分為兩個子任務(wù)。在檢索任務(wù)中,研究者需要基于微博作為中文語料(或 Twitter 作為日語語料),并針對給定的一條新微博,通過給定的以往評論知識庫檢索到對應(yīng)的連貫且有效的評論。
每個團(tuán)隊都會提前拿到知識庫,此外:
1)在訓(xùn)練階段,參賽團(tuán)隊可以根據(jù) IR 技術(shù)構(gòu)建自己的會話系統(tǒng),使用給定的評論作為訓(xùn)練數(shù)據(jù)。
2)在測試階段,每個團(tuán)隊都有100個測試查詢(帖子),這些帖子并不在原有的知識庫中。每個團(tuán)隊需要為每個查詢提供十個結(jié)果(評論)的列表。這些評論必須源于知識庫。
3)在評估階段,所有參賽的結(jié)果匯總會以 0(不適當(dāng)),1(適用于某些情況),2(適合)進(jìn)行評分。 此外,評委也會結(jié)合IR測試的標(biāo)準(zhǔn)(例如nG@1,nERR@10 和 P+)進(jìn)行評估。
而在生成任務(wù)中,則是希望參賽團(tuán)隊能根據(jù)給定帖子生成流暢、連貫且有意義的評論。根據(jù)規(guī)定,這一任務(wù)采用與第一個任務(wù)相同的知識庫。生成器可通過使用統(tǒng)計機器翻譯(SMT)模型或基于 RNN 的神經(jīng)模型進(jìn)行建模,當(dāng)然,參賽團(tuán)隊也可以使用其它 NLG 方法。
1)在訓(xùn)練階段,參與者可以通過評論知識庫作為訓(xùn)練數(shù)據(jù),建立自己的生成式對話系統(tǒng)。
2)在測試階段,每個團(tuán)隊都有100個測試查詢(帖子),這些帖子并不在原有的知識庫中。每個團(tuán)隊被要求為每個查詢提供十個生成結(jié)果(評論)的列表。評論不一定要源于知識庫。
3)在評估階段,所有參賽的結(jié)果匯總會以 0(不適當(dāng)),1(適用于某些情況),2(適合)進(jìn)行評分。 此外,評委也會結(jié)合IR測試的標(biāo)準(zhǔn)(例如nG@1,nERR@10 和 P+)進(jìn)行評估。
本次賽事共吸引了包括 BAT 等企業(yè),以及北京大學(xué)、中國人民大學(xué)等多所知名高校參與,國內(nèi)共有 11 家企業(yè)、29 所大學(xué)和研究所參加。最終,搜狗搜索聯(lián)合清華大學(xué)計算機系組成的 SG01 戰(zhàn)隊,在 STC2 任務(wù)中官方指定的檢索、生成兩種方法上均位列第一名,且與第二名拉開顯著差距。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。