0
本文作者: NLP日月星辰 | 2016-09-07 18:35 |
真英雄,成名于少林寺武俠大會(huì);好算法,驗(yàn)證在斯坦福公開數(shù)據(jù)。
武俠小說中一個(gè)公平且有影響力的平臺(tái),可以讓俠之大者脫穎而出,科研也是,一個(gè)優(yōu)秀的公開數(shù)據(jù)集可以讓好算法脫穎而出,并同時(shí)讓那些靠吹的算法身敗名裂。本文將詳細(xì)敘述今年目前為止自然語(yǔ)言處理界最重量級(jí)的數(shù)據(jù)集 SQuad。
1. SQuAD是什么?
SQuAD 是斯坦福大學(xué)于2016年推出的數(shù)據(jù)集,一個(gè)閱讀理解數(shù)據(jù)集,給定一篇文章,準(zhǔn)備相應(yīng)問題,需要算法給出問題的答案。此數(shù)據(jù)集所有文章選自維基百科,數(shù)據(jù)集的量為當(dāng)今其他數(shù)據(jù)集(例如,WikiQA)的幾十倍之多。一共有107,785問題,以及配套的 536 篇文章。數(shù)據(jù)集的貢獻(xiàn)者為斯坦福Percy Liang等人,Percy Liang是自然語(yǔ)言處理界的一位全才,在Semantic Parsing, QA, Optimization等多個(gè)領(lǐng)域都有重要貢獻(xiàn)。
當(dāng)前的公開數(shù)據(jù)集對(duì)比如下,MCTest,Algebra和Science是現(xiàn)在的三個(gè)公開的閱讀理解數(shù)據(jù)集,我們可以看到Squad在數(shù)量上遠(yuǎn)遠(yuǎn)超過這三個(gè)數(shù)據(jù)集,這使得在這個(gè)數(shù)據(jù)集上訓(xùn)練大規(guī)模復(fù)雜算法成為可能。同時(shí),相比于WikiQA和TrecQA這兩個(gè)著名問答數(shù)據(jù)集,Squad也在數(shù)量上遠(yuǎn)遠(yuǎn)超過。而CNN Mail和CBT雖然大,但是這兩個(gè)數(shù)據(jù)集都是挖空猜詞的數(shù)據(jù)集,并不是真正意義上的問答。
2. 追趕ImageNet ,發(fā)力自動(dòng)問答領(lǐng)域
這個(gè)數(shù)據(jù)集文章展現(xiàn)了著斯坦福做一個(gè)自然語(yǔ)言處理的ImageNet的野心,他很可能成為自然語(yǔ)言學(xué)術(shù)界未來至少一年內(nèi)最流行的數(shù)據(jù)集。模型在這個(gè)數(shù)據(jù)集上做出好成績(jī),可以讓自己的文章加分不少,被頂會(huì)錄取的幾率大大增加。如果讀者想發(fā)頂會(huì),且目前沒有明確的研究方向,那么刷這個(gè)數(shù)據(jù)集是一條很好的道路。
于此同時(shí),這個(gè)數(shù)據(jù)集也會(huì)為工業(yè)界做出貢獻(xiàn)。之所以說會(huì)為工業(yè)界做出貢獻(xiàn),因?yàn)樽匀徽Z(yǔ)言處理的研究風(fēng)氣和圖像相比差一些,任務(wù)較多,且沒有在paper里面附帶代碼的行業(yè)規(guī)則,導(dǎo)致很多工作無(wú)法重現(xiàn),甚至有些人會(huì)連實(shí)驗(yàn)都不做,直接往圖和表里面填數(shù)造一篇文章。而這個(gè)數(shù)據(jù)集學(xué)習(xí)了Imagenet,不給測(cè)試集,這樣你就沒法作弊,把代碼交上來,我來給你跑,之后把測(cè)試集合上的水平評(píng)測(cè)出來,這樣大家都公平,誰(shuí)也別吹牛,誰(shuí)也別作弊。此種環(huán)境有利于真正大貢獻(xiàn)的工作得以浮現(xiàn),例如Residual Network在去年席卷圖像領(lǐng)域,在一個(gè)公平的環(huán)境下,以比其他對(duì)手好很多的效果呈現(xiàn)在了世人的面前。而SQuAD則是斯坦福在自然語(yǔ)言處理上,意圖構(gòu)建一個(gè)類似“ImageNet”的測(cè)試集合,分?jǐn)?shù)實(shí)時(shí)在leaderboard上顯示。
這就讓這個(gè)數(shù)據(jù)集有如下優(yōu)勢(shì):
測(cè)試出真正的好算法。尤其對(duì)于工業(yè)界,這個(gè)數(shù)據(jù)集是十分值得關(guān)注的,因?yàn)樗梢愿嬖V大家現(xiàn)在各個(gè)算法在“閱讀理解”或者說“自動(dòng)問答”這個(gè)任務(wù)上的排名。我們可以光看分?jǐn)?shù)排名,就知道世界上哪個(gè)算法最好,不會(huì)再懷疑是作者做假了還是實(shí)現(xiàn)的不對(duì)。
提供一個(gè)閱讀理解的大規(guī)模數(shù)據(jù)集。由于之前的閱讀理解數(shù)據(jù)集規(guī)模太小或者十分簡(jiǎn)單,用一個(gè)普通的深度學(xué)習(xí)算法就可以刷到90%度,所以并不能很好的體現(xiàn)不同算法優(yōu)劣。
縱使SQuAD不會(huì)像ImageNet有那么大的影響力,但絕對(duì)也會(huì)在接下來的幾年內(nèi)對(duì)自動(dòng)問答領(lǐng)域產(chǎn)生深遠(yuǎn)的影響,并且是各大巨頭在自動(dòng)問答這個(gè)領(lǐng)域上的兵家必爭(zhēng)之地(IBM已經(jīng)開始了)。
3. 如何構(gòu)建 SQuad數(shù)據(jù)集?
接下來,讓我們?cè)敿?xì)介紹這個(gè)數(shù)據(jù)集的構(gòu)建(此數(shù)據(jù)集已經(jīng)被EMNLP2016會(huì)議收錄 https://arxiv.org/pdf/1606.05250.pdf),我們先感受一下這個(gè)數(shù)據(jù)集精美的界面。
從圖中我們可以看到,在驗(yàn)證集合和測(cè)試集合的水平。其中測(cè)試集合需要你提交一個(gè)可以運(yùn)行的程序。最后一名和第一名分別是作者做的baseline以及人來回答能達(dá)到的水平,我們可以看到雖然只發(fā)布一個(gè)月,新加坡一些大學(xué)和IBM公司已經(jīng)在這個(gè)任務(wù)上進(jìn)行了嘗試。 下圖就是這個(gè)數(shù)據(jù)集的一個(gè)樣例,首先給定一篇文章,然后開始問問題,第一個(gè)問題“什么造成了降雨”答案是重力造成的。問題十分有難度,需要推理,不過答案仍然在文中出現(xiàn)過。
數(shù)據(jù)集的具體構(gòu)建如下
1. 文章是隨機(jī)sample的wiki百科,一共有536篇wiki被選中。而每篇wiki,會(huì)被切成段落,最終生成了23215個(gè)自然段。之后就對(duì)這23215個(gè)自然段進(jìn)行閱讀理解,或者說自動(dòng)問答。
2. 之后斯坦福,利用眾包的方式,進(jìn)行了給定文章,提問題并給答案的人工標(biāo)注。他們將這兩萬(wàn)多個(gè)段落給不同人,要求對(duì)每個(gè)段落提五個(gè)問題。
3. 讓另一些人對(duì)提的這個(gè)問題用文中最短的片段給予答案,如果不會(huì)或者答案沒有在文章中出現(xiàn)可以不給。之后經(jīng)過他們的驗(yàn)證,人們所提的問題在問題類型分布上足夠多樣,并且有很多需要推理的問題,也就意味著這個(gè)集合十分有難度。如下圖所示,作者列出了該數(shù)據(jù)集答案的類別分布,我們可以看到 日期,人名,地點(diǎn),數(shù)字等都被囊括,且比例相當(dāng)。
4. 這個(gè)數(shù)據(jù)集的評(píng)測(cè)標(biāo)準(zhǔn)有兩個(gè),第一:F1,第二:EM。EM是完全匹配的縮寫,必須機(jī)器給出的和人給出的一樣才算正確。哪怕有一個(gè)字母不一樣,也會(huì)算錯(cuò)。而F1是將答案的短語(yǔ)切成詞,和人的答案一起算recall,Precision和F1,即如果你match了一些詞但不全對(duì),仍然算分。
5. 為了這個(gè)數(shù)據(jù)集,他們還做了一個(gè)baseline,是通過提特征,用LR算法將特征組合,最終達(dá)到了40.4的em和51的f1。而現(xiàn)在IBM和新加坡管理大學(xué)利用深度學(xué)習(xí)模型,均突破了這個(gè)算法。可以想見,在不遠(yuǎn)的將來會(huì)有更多人對(duì)閱讀理解發(fā)起挑戰(zhàn),自然語(yǔ)言的英雄也必將誕生。甚至?xí)兴惴ǔ^人的準(zhǔn)確度。
自動(dòng)問答超越人類,你準(zhǔn)備好了?
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。