搜狗搜索聯(lián)合清華首戰(zhàn)NTCIR13-STC2，以絕對優(yōu)勢排名第一

本文作者：奕欣

2017-09-06 11:51

導語：搜狗搜索聯(lián)合清華大學計算機系組成的SG01戰(zhàn)隊，第一次參加這一開放領(lǐng)域?qū)υ挿矫娴闹卮髧H賽事便首戰(zhàn)告捷。

雷鋒網(wǎng) AI 科技評論消息，近日第十三屆 NTCIR 評測比賽正式公布了短文本對話任務（STC2）的賽果。搜狗搜索聯(lián)合清華大學計算機系組成的 SG01 戰(zhàn)隊首度參戰(zhàn)，在 NTCIR13-STC2 評測比賽中以絕對優(yōu)勢排名第一。

NTCIR Workshop是一個針對信息訪問（IA）技術(shù)（包括信息檢索、問題回答、文本摘要、提取等）的評估比賽。最早由日本學術(shù)振興會（JSPS）和國立情報學研究所（NACSIS）聯(lián)合贊助，并于1998年開始籌備，并最終在1999年成功舉辦首屆workshop。

經(jīng)過發(fā)展，NTCIR逐漸發(fā)展成為一項國際重要賽事，通過設置一系列基于中文、英文、日文三種語料的評測任務，目前NTCIR評測比賽已經(jīng)舉辦至第十三屆。

雷鋒網(wǎng) AI 科技評論根據(jù)資料了解到，在 2016 年，第十二屆 NTCIR 中首次設置了基于中文、日文兩種語料的評測新任務，即短文本對話任務（STC），這也是目前國際上唯一的“開放域”對話方面的評測比賽。

而其中的短文本對話任務NTCIR13-STC2，在繼檢索模型對話任務后，首次引入基于深度學習的生成模型對話的任務設置。雷鋒網(wǎng)AI科技評論了解到，本次比賽的主要目的是想將IR、NLP與深度學習研究者聯(lián)合起來，一同解決自然語言對話，在分享最新研究成果的同時對相關(guān)議題進行探討，共同規(guī)劃可能有的合作空間。

據(jù)雷鋒網(wǎng) AI 科技評論了解，本次賽事共分為兩個子任務。在檢索任務中，研究者需要基于微博作為中文語料（或 Twitter 作為日語語料），并針對給定的一條新微博，通過給定的以往評論知識庫檢索到對應的連貫且有效的評論。

搜狗搜索聯(lián)合清華首戰(zhàn)NTCIR13-STC2，以絕對優(yōu)勢排名第一

每個團隊都會提前拿到知識庫，此外：

1）在訓練階段，參賽團隊可以根據(jù) IR 技術(shù)構(gòu)建自己的會話系統(tǒng)，使用給定的評論作為訓練數(shù)據(jù)。
2）在測試階段，每個團隊都有100個測試查詢（帖子），這些帖子并不在原有的知識庫中。每個團隊需要為每個查詢提供十個結(jié)果（評論）的列表。這些評論必須源于知識庫。
3）在評估階段，所有參賽的結(jié)果匯總會以 0（不適當），1（適用于某些情況），2（適合）進行評分。此外，評委也會結(jié)合IR測試的標準（例如nG@1，nERR@10 和 P+）進行評估。

而在生成任務中，則是希望參賽團隊能根據(jù)給定帖子生成流暢、連貫且有意義的評論。根據(jù)規(guī)定，這一任務采用與第一個任務相同的知識庫。生成器可通過使用統(tǒng)計機器翻譯（SMT）模型或基于 RNN 的神經(jīng)模型進行建模，當然，參賽團隊也可以使用其它 NLG 方法。

搜狗搜索聯(lián)合清華首戰(zhàn)NTCIR13-STC2，以絕對優(yōu)勢排名第一

1）在訓練階段，參與者可以通過評論知識庫作為訓練數(shù)據(jù)，建立自己的生成式對話系統(tǒng)。
2）在測試階段，每個團隊都有100個測試查詢（帖子），這些帖子并不在原有的知識庫中。每個團隊被要求為每個查詢提供十個生成結(jié)果（評論）的列表。評論不一定要源于知識庫。
3）在評估階段，所有參賽的結(jié)果匯總會以 0（不適當），1（適用于某些情況），2（適合）進行評分。此外，評委也會結(jié)合IR測試的標準（例如nG@1，nERR@10 和 P+）進行評估。

本次賽事共吸引了包括 BAT 等企業(yè)，以及北京大學、中國人民大學等多所知名高校參與，國內(nèi)共有 11 家企業(yè)、29 所大學和研究所參加。最終，搜狗搜索聯(lián)合清華大學計算機系組成的 SG01 戰(zhàn)隊，在 STC2 任務中官方指定的檢索、生成兩種方法上均位列第一名，且與第二名拉開顯著差距。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

奕欣

初心者

掃描關(guān)注作者微信

發(fā)私信

當月熱門文章