0
本文作者: 奕欣 | 2017-09-30 07:53 |
雷鋒網(wǎng) AI 科技評論:第十三屆 NTCIR 評測比賽于近日正式公布了短文本對話任務(wù)(STC2)的賽果。本次比賽吸引了國內(nèi)共有 11 家企業(yè)、29 所大學(xué)和研究所,包括 BAT 等企業(yè),以及北京大學(xué)、中國人民大學(xué)等多所知名高校參與。搜狗搜索聯(lián)合清華大學(xué)人工智能國家重點(diǎn)實(shí)驗(yàn)室組成的 SG01 戰(zhàn)隊(duì)首度參戰(zhàn),在 NTCIR13-STC2 評測比賽中以絕對優(yōu)勢排名第一。雷鋒網(wǎng) AI 科技評論第一時間聯(lián)系了冠軍團(tuán)隊(duì),了解本次比賽的個中細(xì)節(jié)。
往期報道:搜狗搜索聯(lián)合清華首戰(zhàn)NTCIR13-STC2,以絕對優(yōu)勢排名第一
據(jù)雷鋒網(wǎng) AI 科技評論了解,SG01 的團(tuán)隊(duì)成員共 5 人,包括搜狗搜索研發(fā)部研究員趙海舟,杜毅,黎航宇,以及清華人工智能所的研究生錢橋和周昊。搜狗搜索總經(jīng)理許靜芳和清華大學(xué)朱小燕、黃民烈教授都對該團(tuán)隊(duì)進(jìn)行了充分指導(dǎo)。
在分工上,清華人工智能所與搜狗合作進(jìn)行生成模型的設(shè)計與驗(yàn)證,另外搜狗還負(fù)責(zé)檢索模型研發(fā)、系統(tǒng)搭建以及評測的工作?!杆压吩谒阉黝I(lǐng)域有著十分深厚的技術(shù)基礎(chǔ),而清華人工智能所在生成式對話領(lǐng)域也有著豐富的研究基礎(chǔ),二者剛好互補(bǔ),」錢橋向雷鋒網(wǎng) AI 科技評論表示。
NTCIR Workshop 是一個針對信息訪問(IA)技術(shù)(包括信息檢索、問題回答、文本摘要、提取等)的評估比賽,經(jīng)過十余年的發(fā)展,現(xiàn)在已經(jīng)成為一項(xiàng)國際重要賽事。
在 2016 年,第十二屆 NTCIR 中首次設(shè)置了基于中文、日文兩種語料的評測新任務(wù),即短文本對話任務(wù)(STC),這也是目前國際上唯一的開放域?qū)υ挿矫娴脑u測比賽。
從語料上講,一個對話系統(tǒng)可以分為兩種,即任務(wù)域語料以及開放域語料。任務(wù)域是指其對話內(nèi)容可以被某一任務(wù)領(lǐng)域的語料所涵蓋,比如訂餐,天氣查詢等等,其對話意圖以及語言的復(fù)雜性比較可控;開放域是指其對話內(nèi)容沒有限制,可以是生活中的任意對話場景,其對話意圖十分廣泛,可以說涵蓋所有對話意圖,語言復(fù)雜性也很高。
雷鋒網(wǎng) AI 科技評論從官網(wǎng)獲悉,本次賽事共分為兩個子任務(wù),即檢索任務(wù)和生成任務(wù)。在檢索任務(wù)中,研究者需要基于微博作為中文語料(或 Twitter 作為日語語料),并針對給定的一條新微博,通過給定的以往評論知識庫檢索到對應(yīng)的連貫且有效的評論;而在生成任務(wù)中,則是希望參賽團(tuán)隊(duì)能根據(jù)給定帖子生成流暢、連貫且有意義的評論。根據(jù)規(guī)定,這一任務(wù)采用與第一個任務(wù)相同的知識庫。生成器可通過使用統(tǒng)計機(jī)器翻譯(SMT)模型或基于 RNN 的神經(jīng)模型進(jìn)行建模,當(dāng)然,參賽團(tuán)隊(duì)也可以使用其它 NLG 方法。
對于團(tuán)隊(duì)而言,檢索任務(wù)和生成任務(wù)可以看作是完全不同的兩個任務(wù)?!笝z索任務(wù)像是選擇題,核心問題是語義相似度的計算。生成任務(wù)更漫無邊際一些,要做自然語言的生成,并且還要保證與問題的邏輯相關(guān)性?!瑰X橋向雷鋒網(wǎng) AI 科技評論表示,在問題層面,生成模型產(chǎn)出的結(jié)果可以通過檢索模型進(jìn)行重排序。在模型層面,二者都用到了深度學(xué)習(xí)模型,相互的借鑒是很有必要的。
錢橋告訴雷鋒網(wǎng) AI 科技評論,本次比賽所采用的所有模型都是基于 Seq2Seq 模型的,「它可以看作一個帶有 Attention 的 RNN-Encoder-Decoder,此外我們還使用了 VAE 等模型。比賽中我們還使用了基于檢索以及基于學(xué)習(xí)的方法對 Beam-Search 生成的結(jié)果進(jìn)行重排序,從而挑選出更為合理的回復(fù)?!?/p>
在基于檢索的方法中,搜狗團(tuán)隊(duì)告訴雷鋒網(wǎng) AI 科技評論,檢索式的對話系統(tǒng)主要使用了 deep match 和 learning to rank 的技術(shù),除此之外還加入了生成式的 seq2seq 模型的生成概率作為 feature 進(jìn)行排序。
由于這次比賽在過程中并沒有組織公開的評測,而是在比賽結(jié)束后統(tǒng)一評測,錢橋表示,這使得 SG01 團(tuán)隊(duì)在比賽過程中只能跟自己比較,自己就是自己最強(qiáng)勁的對手?!冈诮M長的安排下,我們每周都會組織一次評測工作,評測標(biāo)準(zhǔn)與大賽一致且都是人工評測。這個評測結(jié)果驅(qū)動著我們挑戰(zhàn)現(xiàn)有的最好模型,從而創(chuàng)造更好的模型。」
而在評審階段,團(tuán)隊(duì)認(rèn)為一條評論是否「合適」(符合評分標(biāo)準(zhǔn))主要從兩個方面入手,一是語法性和通順性,第二是評論與原貼的邏輯關(guān)系的合適程度。
除此之外,主辦方還有更加詳細(xì)的指標(biāo),如信息量和場景依賴等,但 SG01 團(tuán)隊(duì)表示,通過他們所進(jìn)行的測試看來,前兩點(diǎn)還是起了更加重要的作用?!讣夹g(shù)上我們通過多個模型的集成學(xué)習(xí)來增加多樣的評論候選列表,并且通過重排序模型進(jìn)行后處理選出最合適的評論?!?/p>
而在與錢橋交流的過程中,他認(rèn)為生成式模型會是未來對話系統(tǒng)的主流?!笝z索式方法最大的問題就是不能根據(jù)特定的問題產(chǎn)生定制的回復(fù),而且其數(shù)據(jù)庫也很難涵蓋所有的開放域的對話內(nèi)容。從這兩點(diǎn)來看,生成式的方法可以根據(jù)有限的語料學(xué)習(xí)到人類對話的模式,根據(jù)特定問題產(chǎn)生定制的回復(fù),從技術(shù)上來講有成為未來的主流對話系統(tǒng)的可能性?!?/p>
比賽雖然已經(jīng)告一段落,但 SG01 團(tuán)隊(duì)依然在為年底的 NTCIR-13 會議做準(zhǔn)備。而從對話系統(tǒng)研究的角度來講,團(tuán)隊(duì)正在嘗試解決多輪對話系統(tǒng)中的一些問題,比如上下文一致性,話題相關(guān)性等,雷鋒網(wǎng) AI 科技評論也將持續(xù)關(guān)注,希望搜狗和清華人工智能所團(tuán)隊(duì)能繼續(xù)針對這一領(lǐng)域給我們帶來更多的驚喜。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。