0
真英雄,成名于少林寺武俠大會;好算法,驗證在斯坦福公開數(shù)據(jù)。
武俠小說中一個公平且有影響力的平臺,可以讓俠之大者脫穎而出,科研也是,一個優(yōu)秀的公開數(shù)據(jù)集可以讓好算法脫穎而出,并同時讓那些靠吹的算法身敗名裂。本文將詳細敘述今年目前為止自然語言處理界最重量級的數(shù)據(jù)集 SQuad。
1. SQuAD是什么?
SQuAD 是斯坦福大學于2016年推出的數(shù)據(jù)集,一個閱讀理解數(shù)據(jù)集,給定一篇文章,準備相應問題,需要算法給出問題的答案。此數(shù)據(jù)集所有文章選自維基百科,數(shù)據(jù)集的量為當今其他數(shù)據(jù)集(例如,WikiQA)的幾十倍之多。一共有107,785問題,以及配套的 536 篇文章。數(shù)據(jù)集的貢獻者為斯坦福Percy Liang等人,Percy Liang是自然語言處理界的一位全才,在Semantic Parsing, QA, Optimization等多個領域都有重要貢獻。
當前的公開數(shù)據(jù)集對比如下,MCTest,Algebra和Science是現(xiàn)在的三個公開的閱讀理解數(shù)據(jù)集,我們可以看到Squad在數(shù)量上遠遠超過這三個數(shù)據(jù)集,這使得在這個數(shù)據(jù)集上訓練大規(guī)模復雜算法成為可能。同時,相比于WikiQA和TrecQA這兩個著名問答數(shù)據(jù)集,Squad也在數(shù)量上遠遠超過。而CNN Mail和CBT雖然大,但是這兩個數(shù)據(jù)集都是挖空猜詞的數(shù)據(jù)集,并不是真正意義上的問答。
2. 追趕ImageNet ,發(fā)力自動問答領域
這個數(shù)據(jù)集文章展現(xiàn)了著斯坦福做一個自然語言處理的ImageNet的野心,他很可能成為自然語言學術界未來至少一年內(nèi)最流行的數(shù)據(jù)集。模型在這個數(shù)據(jù)集上做出好成績,可以讓自己的文章加分不少,被頂會錄取的幾率大大增加。如果讀者想發(fā)頂會,且目前沒有明確的研究方向,那么刷這個數(shù)據(jù)集是一條很好的道路。
于此同時,這個數(shù)據(jù)集也會為工業(yè)界做出貢獻。之所以說會為工業(yè)界做出貢獻,因為自然語言處理的研究風氣和圖像相比差一些,任務較多,且沒有在paper里面附帶代碼的行業(yè)規(guī)則,導致很多工作無法重現(xiàn),甚至有些人會連實驗都不做,直接往圖和表里面填數(shù)造一篇文章。而這個數(shù)據(jù)集學習了Imagenet,不給測試集,這樣你就沒法作弊,把代碼交上來,我來給你跑,之后把測試集合上的水平評測出來,這樣大家都公平,誰也別吹牛,誰也別作弊。此種環(huán)境有利于真正大貢獻的工作得以浮現(xiàn),例如Residual Network在去年席卷圖像領域,在一個公平的環(huán)境下,以比其他對手好很多的效果呈現(xiàn)在了世人的面前。而SQuAD則是斯坦福在自然語言處理上,意圖構建一個類似“ImageNet”的測試集合,分數(shù)實時在leaderboard上顯示。
這就讓這個數(shù)據(jù)集有如下優(yōu)勢:
測試出真正的好算法。尤其對于工業(yè)界,這個數(shù)據(jù)集是十分值得關注的,因為他可以告訴大家現(xiàn)在各個算法在“閱讀理解”或者說“自動問答”這個任務上的排名。我們可以光看分數(shù)排名,就知道世界上哪個算法最好,不會再懷疑是作者做假了還是實現(xiàn)的不對。
提供一個閱讀理解的大規(guī)模數(shù)據(jù)集。由于之前的閱讀理解數(shù)據(jù)集規(guī)模太小或者十分簡單,用一個普通的深度學習算法就可以刷到90%度,所以并不能很好的體現(xiàn)不同算法優(yōu)劣。
縱使SQuAD不會像ImageNet有那么大的影響力,但絕對也會在接下來的幾年內(nèi)對自動問答領域產(chǎn)生深遠的影響,并且是各大巨頭在自動問答這個領域上的兵家必爭之地(IBM已經(jīng)開始了)。
3. 如何構建 SQuad數(shù)據(jù)集?
接下來,讓我們詳細介紹這個數(shù)據(jù)集的構建(此數(shù)據(jù)集已經(jīng)被EMNLP2016會議收錄 https://arxiv.org/pdf/1606.05250.pdf),我們先感受一下這個數(shù)據(jù)集精美的界面。
從圖中我們可以看到,在驗證集合和測試集合的水平。其中測試集合需要你提交一個可以運行的程序。最后一名和第一名分別是作者做的baseline以及人來回答能達到的水平,我們可以看到雖然只發(fā)布一個月,新加坡一些大學和IBM公司已經(jīng)在這個任務上進行了嘗試。 下圖就是這個數(shù)據(jù)集的一個樣例,首先給定一篇文章,然后開始問問題,第一個問題“什么造成了降雨”答案是重力造成的。問題十分有難度,需要推理,不過答案仍然在文中出現(xiàn)過。
數(shù)據(jù)集的具體構建如下
1. 文章是隨機sample的wiki百科,一共有536篇wiki被選中。而每篇wiki,會被切成段落,最終生成了23215個自然段。之后就對這23215個自然段進行閱讀理解,或者說自動問答。
2. 之后斯坦福,利用眾包的方式,進行了給定文章,提問題并給答案的人工標注。他們將這兩萬多個段落給不同人,要求對每個段落提五個問題。
3. 讓另一些人對提的這個問題用文中最短的片段給予答案,如果不會或者答案沒有在文章中出現(xiàn)可以不給。之后經(jīng)過他們的驗證,人們所提的問題在問題類型分布上足夠多樣,并且有很多需要推理的問題,也就意味著這個集合十分有難度。如下圖所示,作者列出了該數(shù)據(jù)集答案的類別分布,我們可以看到 日期,人名,地點,數(shù)字等都被囊括,且比例相當。
4. 這個數(shù)據(jù)集的評測標準有兩個,第一:F1,第二:EM。EM是完全匹配的縮寫,必須機器給出的和人給出的一樣才算正確。哪怕有一個字母不一樣,也會算錯。而F1是將答案的短語切成詞,和人的答案一起算recall,Precision和F1,即如果你match了一些詞但不全對,仍然算分。
5. 為了這個數(shù)據(jù)集,他們還做了一個baseline,是通過提特征,用LR算法將特征組合,最終達到了40.4的em和51的f1。而現(xiàn)在IBM和新加坡管理大學利用深度學習模型,均突破了這個算法??梢韵胍姡诓贿h的將來會有更多人對閱讀理解發(fā)起挑戰(zhàn),自然語言的英雄也必將誕生。甚至會有算法超過人的準確度。
自動問答超越人類,你準備好了?
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。