0
本文作者: 岑大師 | 2017-08-02 06:36 |
近日,在斯坦福大學(xué)發(fā)起的SQuAD(Stanford Question Answering)數(shù)據(jù)集測(cè)試榜單中,科大訊飛與哈工大聯(lián)合實(shí)驗(yàn)室(HFL)提交的系統(tǒng)模型奪得第一,這也是中國(guó)本土研究機(jī)構(gòu)首次取得該比賽的冠軍。在加拿大溫哥華舉辦的ACL大會(huì)現(xiàn)場(chǎng),雷鋒網(wǎng)對(duì)正在參加大會(huì)的科大訊飛研究院副院長(zhǎng)王士進(jìn)進(jìn)行了專(zhuān)訪(fǎng),王士進(jìn)不僅向雷鋒網(wǎng)介紹了訊飛取得良好成績(jī)的關(guān)鍵因素,還對(duì)在機(jī)器閱讀理解領(lǐng)域的未來(lái)研發(fā)方向及產(chǎn)業(yè)化狀況做了解答。王士進(jìn)認(rèn)為,機(jī)器閱讀理解具有廣闊的應(yīng)用場(chǎng)景,目前的成績(jī)只是萬(wàn)里長(zhǎng)征的第一步,訊飛也會(huì)繼續(xù)探索機(jī)器閱讀理解技術(shù)落地應(yīng)用的場(chǎng)景。
王士進(jìn):博士,科大訊飛北京研究院院長(zhǎng),兼科大訊飛研究院副院長(zhǎng)。2003年本科畢業(yè)于中國(guó)科技大學(xué),2008年博士畢業(yè)于中科院自動(dòng)化所,長(zhǎng)期從事語(yǔ)音、語(yǔ)言、人工智能方向研究,主持的語(yǔ)音評(píng)測(cè)技術(shù)國(guó)內(nèi)首次應(yīng)用大規(guī)模英語(yǔ)口語(yǔ)考試,主持的機(jī)器翻譯曾兩次獲國(guó)際比賽第一名。作為主要負(fù)責(zé)人參加了863計(jì)劃重點(diǎn)項(xiàng)目、工信部電子信息產(chǎn)業(yè)發(fā)展基金項(xiàng)目等項(xiàng)目,在相關(guān)國(guó)際會(huì)議和期刊上有多篇學(xué)術(shù)論文,擁有十幾項(xiàng)專(zhuān)利和軟件著作權(quán)。
以下是采訪(fǎng)實(shí)錄,雷鋒網(wǎng)就全文進(jìn)行了不改原意的刪減:
Q:在SQuAD之前還有哪些類(lèi)似的數(shù)據(jù)集?相比SQuAD有什么不足?
A:之前像Facebook、Google和微軟都有一些類(lèi)似的測(cè)試和數(shù)據(jù)集,但都沒(méi)能起到像SQuAD這樣的影響。
像Facebook,他的特點(diǎn)是用機(jī)器去自動(dòng)生成一些問(wèn)題,這樣會(huì)有兩個(gè)缺點(diǎn):第一,機(jī)器生成的問(wèn)題集合不大;第二,用機(jī)器生成問(wèn)題,再用機(jī)器去學(xué)習(xí),這樣比較容易學(xué)到機(jī)器的Model;
Google Deepmind做過(guò)一個(gè)測(cè)試集,主要是在新聞?lì)I(lǐng)域上,主要是在新聞?lì)I(lǐng)域上,就是一個(gè)新聞前面有一個(gè)摘要,這個(gè)摘要和正文內(nèi)容相近但又不完全一樣,把這里面的一部分實(shí)體摳掉,然后就可以形成問(wèn)題。缺點(diǎn)是有摘要的新聞數(shù)據(jù)不多;
還有微軟,之前還做了一個(gè)比較小的數(shù)據(jù)集叫MCTest,它和斯坦福的SQuAD比較接近,主要問(wèn)題是數(shù)據(jù)集比較小,只有一百多篇文章,兩千來(lái)個(gè)問(wèn)題。
所以大家為什么認(rèn)為SQuAD是閱讀理解的ImageNet?第一,它是通過(guò)眾包采用人工做出來(lái)的問(wèn)題,第二,這個(gè)數(shù)據(jù)集特別大,所以很多單位都在圍繞著SQuAD做一些研究工作。
Q:閱讀理解是NLP領(lǐng)域里一個(gè)比較關(guān)鍵的問(wèn)題嗎?
A:對(duì),這是公認(rèn)的一個(gè)難題,也是大家認(rèn)為的一個(gè)非常重要的趨勢(shì)。它隱含的首先是精準(zhǔn)的問(wèn)答,這其實(shí)是NLP里面一個(gè)比較經(jīng)典的問(wèn)題。我們知道的IBM Watson在“危險(xiǎn)邊緣”和人類(lèi)選手的PK,它其實(shí)更多的是知識(shí)的記憶,相對(duì)于機(jī)器,人很難記憶這么多的知識(shí)點(diǎn),但反而在對(duì)一篇簡(jiǎn)單的文章的理解上機(jī)器還有著差距。
我們說(shuō)一篇文章,它也可能有其他的形式,像在產(chǎn)品上就是一本說(shuō)明書(shū),在司法領(lǐng)域可能是一個(gè)電子卷宗,在醫(yī)療領(lǐng)域可能是一個(gè)人的病歷?;谶@個(gè)東西去問(wèn)你一個(gè)問(wèn)題你要給出一個(gè)答案,這是一個(gè)非常有意義,也是非常難的事情。所以國(guó)際大部分主流研究團(tuán)隊(duì)也在做這方面的工作,包括微軟、Google、蘋(píng)果、Facebook、百度、訊飛等。
Q:目前對(duì)于這種精準(zhǔn)問(wèn)答的研究進(jìn)展到什么程度?
A:這方面大家也做了很多的工作,但從目前來(lái)看總體的效果還不是能讓所有人滿(mǎn)意。因?yàn)樵谡J(rèn)知推理方面,大家覺(jué)得現(xiàn)在機(jī)器還沒(méi)有達(dá)到人所具備的真實(shí)能力,像我們開(kāi)始定義這個(gè)問(wèn)題的時(shí)候,我們給這個(gè)項(xiàng)目起名叫“六齡童”,按我們?cè)u(píng)價(jià)效果來(lái)看,我們找了很多六歲也就是小學(xué)一年級(jí)的孩子來(lái)做對(duì)比評(píng)價(jià),基本我們比小學(xué)一年級(jí)的水平要高一點(diǎn)點(diǎn)。
Q:iMageNet競(jìng)賽已經(jīng)有八年歷史,而SQuAD近兩年才出來(lái),為什么會(huì)有這樣的差別?
A:這與閱讀理解技術(shù)的突破有關(guān)。早期在做“理解”的做法更多是基于模塊去做,分析篇章和問(wèn)題,然后拿分析的篇章和問(wèn)題去找對(duì)應(yīng)關(guān)系,這樣做整體錯(cuò)誤就會(huì)特別多,這也是這個(gè)領(lǐng)域整體技術(shù)進(jìn)展不大的原因。而近一兩年來(lái)隨著深度學(xué)習(xí)技術(shù)在自然語(yǔ)言領(lǐng)域的應(yīng)用,大家都用深度學(xué)習(xí)技術(shù)來(lái)訓(xùn)練、處理篇章和問(wèn)題,開(kāi)始取得了一些進(jìn)展,所以大家才開(kāi)始去做源頭的東西也就是數(shù)據(jù),斯坦福也是在這種潮流下推出的SQuAD。
Q:換言之,SQuAD的起點(diǎn)比ImageNet要高?
A:對(duì)。它主要是出來(lái)的時(shí)間晚一點(diǎn),現(xiàn)在SQuAD才到第二年,大家的模糊匹配結(jié)果(F1-Score)已經(jīng)普遍做到百分之八十多了,但大家認(rèn)為這個(gè)事情希望做到百分之九十甚至以上的時(shí)候才能夠接近人類(lèi)。我估計(jì)現(xiàn)在可能再有一年左右的時(shí)間,精確匹配(Exact Match)和模糊匹配(F1-Score)就能夠達(dá)到這樣的水平。
Q:再往后呢?比如說(shuō),95%或者99%?
A:像ImageNet一樣,它做到一定程度后可能就不會(huì)再做下去了。這有兩種類(lèi)型,一種是技術(shù)可能會(huì)基本解決現(xiàn)在的問(wèn)題,然后會(huì)繼續(xù)提出新的問(wèn)題;另一種是在解決問(wèn)題后會(huì)往產(chǎn)品化方向去做,例如我提到的電子卷宗和病歷的例子。
科大訊飛也在做一些產(chǎn)品化方面的嘗試。例如電子說(shuō)明書(shū),現(xiàn)在產(chǎn)品電子化程度越來(lái)越高,說(shuō)明書(shū)越來(lái)越復(fù)雜,很多人在遇到問(wèn)題的時(shí)候是不清楚的。我們也是把這塊技術(shù)和我們?cè)瓉?lái)的語(yǔ)音交互系統(tǒng)結(jié)合,你去問(wèn)一些問(wèn)題,可能是像天氣或者聽(tīng)音樂(lè)這樣的一些簡(jiǎn)單的問(wèn)題,但也有可能是更深入的一些服務(wù),例如醫(yī)學(xué)推薦等更精確的解決方案。
Q:這次訊飛取得了第一名的成績(jī),采用的方法和其他參賽者有什么不同嗎?
A:從大的方向看大家可能都差不多,主流的做法都是用深度學(xué)習(xí)。原來(lái)的做法是,它會(huì)給出一些訓(xùn)練集,包括包括篇章、問(wèn)題和對(duì)應(yīng)的答案,然后通過(guò)神經(jīng)網(wǎng)絡(luò)去學(xué)習(xí),自動(dòng)構(gòu)建找到問(wèn)題和答案的對(duì)應(yīng)關(guān)系的一個(gè)方式。但我們做法有兩點(diǎn)不一樣的地方,一個(gè)是我們的“基于交互式層疊注意力模型”,一開(kāi)始她可能先鎖定住一些片段,然后通過(guò)多輪迭代的方式進(jìn)行過(guò)濾,進(jìn)一步鎖定篩選出更精準(zhǔn)的一些內(nèi)容,去除整篇文章的干擾,最終得出問(wèn)題的答案。
第二,我們采用了模型融合的方式。對(duì)于問(wèn)題我們會(huì)提出不同的模型,然后對(duì)這些模型進(jìn)行一個(gè)融合(ensamble)。因?yàn)槲覀冎?,一般?lái)說(shuō)單一模型的性能并不是特別好,我們其實(shí)研究的是如何把多個(gè)不同機(jī)理的模型融合和在一起產(chǎn)生最好的效果。
我們?cè)赟QuAD這個(gè)數(shù)據(jù)集上面大概做了四個(gè)多月的時(shí)間。其他一些機(jī)構(gòu)做得更久一些,像微軟從這個(gè)數(shù)據(jù)集開(kāi)始設(shè)計(jì)的時(shí)候就參與了,做了一年多了吧。其他還有像Salesforce、國(guó)內(nèi)的浙大、復(fù)旦都有參加,成績(jī)刷新得很快,基本兩周或者一個(gè)月就會(huì)被刷新一次。
Q:所以現(xiàn)在可能就是在看,誰(shuí)能夠第一個(gè)突破一個(gè)比較重要的關(guān)口,比如說(shuō)90%?
A:對(duì)。我們認(rèn)為90%是一個(gè)比較重要的關(guān)口,再往后的話(huà)我們就看第二關(guān),就是誰(shuí)能夠最先落地去應(yīng)用。因?yàn)榫瓦@個(gè)數(shù)據(jù)集本身來(lái)說(shuō),到了90%以后意義可能并不是特別大,最關(guān)鍵的還是能夠在真實(shí)的業(yè)務(wù)場(chǎng)景里面把這個(gè)技術(shù)盡快落地?,F(xiàn)在的數(shù)據(jù)也很大,但相對(duì)于工業(yè)級(jí)的數(shù)據(jù)來(lái)說(shuō)還是偏小。
Q:工業(yè)級(jí)的大數(shù)據(jù)大概會(huì)是怎樣的一個(gè)量級(jí)?
A:像ImageNet這種數(shù)據(jù)量從科研角度來(lái)說(shuō)還是很大的。可是到了工業(yè)級(jí),比如說(shuō)我們語(yǔ)音,工業(yè)級(jí)的數(shù)據(jù)量可能是原來(lái)的上百倍甚至上千倍,而且更重要的是,這是真實(shí)的數(shù)據(jù),相對(duì)于科研上問(wèn)When、Where、Who的問(wèn)題,像How、Why這樣更復(fù)雜的問(wèn)題一定會(huì)更多,如何去解決這種真實(shí)的問(wèn)題,我覺(jué)得我們這真是萬(wàn)里長(zhǎng)征的第一步,拿現(xiàn)在的技術(shù)到工業(yè)應(yīng)用上基本是不能直接用的。
Q : 除了這些現(xiàn)實(shí)應(yīng)用的問(wèn)題,訊飛在做這方面的研究還有遇到一些怎樣的挑戰(zhàn),如何解決的?
A:從以單個(gè)詞為答案的閱讀理解到目前以文章片段(短語(yǔ)或句子)作為答案的閱讀理解最大的不同是要精準(zhǔn)的控制答案的邊界。機(jī)器選擇答案的邊界容易多一個(gè)詞或少一個(gè)詞,這就會(huì)造成答案不夠精準(zhǔn)。而人在做這類(lèi)閱讀理解題的時(shí)候就不會(huì)出現(xiàn)這種問(wèn)題,會(huì)去選擇語(yǔ)義單元較為完整的文章片段。 我們?cè)谘芯砍跗诮?jīng)常遇到這種問(wèn)題,當(dāng)時(shí)主要是通過(guò)對(duì)答案的邊界詞進(jìn)行一些懲罰,例如對(duì)邊界出現(xiàn)介詞的情況懲罰等等。但在后期隨著模型效果提升,此類(lèi)問(wèn)題得到逐步緩解,這種懲罰的收益就不那么明顯了。
Q:那么解決問(wèn)題的關(guān)鍵點(diǎn)是不是也是如何建模和調(diào)參數(shù)?訊飛在這方面有什么經(jīng)驗(yàn)?
A:對(duì),包含建模。我們雖然說(shuō)神經(jīng)網(wǎng)絡(luò)是一個(gè)黑盒子,但最關(guān)鍵的是,這里面的技術(shù)是怎么去組合的。我們?cè)诰W(wǎng)上也公開(kāi)了我們自己的模型結(jié)構(gòu),這里面包含兩個(gè)部分,第一是模型結(jié)構(gòu),決定了模型是否足夠優(yōu)秀來(lái)解決問(wèn)題;第二就是參數(shù)調(diào)整,參數(shù)調(diào)整上我們也有很多細(xì)節(jié),我們?cè)谶@里就不展開(kāi)了。
Q:訊飛已經(jīng)做出了最好的閱讀理解系統(tǒng),在未來(lái)還有怎樣的計(jì)劃?
A:哈工大訊飛聯(lián)合實(shí)驗(yàn)室曾先后在Google DeepMind閱讀理解公開(kāi)數(shù)據(jù)測(cè)試集、Facebook閱讀理解公開(kāi)數(shù)據(jù)測(cè)試集取得世界最好成績(jī),本次在SQuAD測(cè)試集再獲全球最佳,包攬了機(jī)器閱讀理解權(quán)威測(cè)試集的“大滿(mǎn)貫”。對(duì)訊飛來(lái)說(shuō),現(xiàn)在只是萬(wàn)里長(zhǎng)征的第一步,訊飛會(huì)繼續(xù)推進(jìn)在自然語(yǔ)言領(lǐng)域更深層次的歸納、總結(jié)、推理的研究工作,往后訊飛也會(huì)在不同領(lǐng)域繼續(xù)探索閱讀理解技術(shù)應(yīng)用落地的場(chǎng)景。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。