1
本文作者: 李秀琴 | 2017-07-31 18:21 |
雷鋒網7月31日消息 近日,在最近一場由斯坦福大學發(fā)起的SQuAD(Stanford Question Answering)挑戰(zhàn)賽中,科大訊飛與哈工大聯(lián)合實驗室(HFL)提交的系統(tǒng)模型奪得第一,打敗了包括微軟亞洲研究院、艾倫研究院、IBM、Salesforce、Facebook、谷歌以及卡內基·梅隆大學、斯坦福大學在內的全球學術界和產業(yè)界的研究團隊,這是中國本土研究機構首次取得該賽事的第一名。
科大訊飛在最新一次SQuAD(Stanford Question Answering)挑戰(zhàn)賽中奪得第一(圖/雷鋒網)
據(jù)雷鋒網了解,SQuAD挑戰(zhàn)賽被譽為“機器閱讀理解界的ImageNet”,來自全球產業(yè)界和學術界的頂尖團隊都有參與其中,如艾倫研究院、IBM、Salesforce、Facebook、Google、微軟研究院,以及CMU和斯坦福大學等。
SQuAD機器閱讀理解挑戰(zhàn)賽的具體運行過程是這樣的。該比賽通過眾包的方式構建了一個大規(guī)模的機器閱讀理解數(shù)據(jù)集(包含10萬個問題),可將一篇幾百詞左右的短文給人工標注者閱讀,讓標注人員提出最多5個基于文章內容的問題并提供正確答案;短文原文則來源于500多篇維基百科文章。參賽者提交的系統(tǒng)模型在閱讀完數(shù)據(jù)集中的一篇短文之后,再來回答若干個基于文章內容的問題,然后與人工標注的答案進行比對,得出精確匹配(Exact Match)和模糊匹配(F1-score)的結果。
科大訊飛向雷鋒網透露,這個比賽是一個持續(xù)性的挑戰(zhàn)賽,參賽者可以進行調優(yōu)提交。然后主辦方再定期更新成績。在該輪測試中,科大訊飛與哈工大聯(lián)合實驗室提交的系統(tǒng)模型——Interactive AoA Reader(基于交互式層疊注意力模型),精確匹配達77.845%,模糊匹配達85.297%,兩項成績均排名首位。
事實上,科大訊飛在機器閱讀理解的研究很早就開始。2015年5月,哈工大訊飛聯(lián)合實驗室開始啟動研究機器閱讀理解技術,是國內較早啟動該項研究的團隊。后來其又啟動內部項目 “六齡童閱讀理解”,以期機器在認知智能上能達到六歲兒童的智力。
據(jù)科大訊飛透露,對機器閱讀理解而言,其最大的難點在于:
“對機器來說,記憶海量知識并進行淺層推理,是一個相對較容易的工作,之前很多相關的工作證明了機器不比人類差,但精準的理解并實現(xiàn)推理,是一個相對更難的任務,為此目前全球最優(yōu)秀的AI團隊都在進行類似的研究?!?/span>
此前,機器閱讀理解在研究領域也經常遇到以下兩個難題:
1、數(shù)據(jù)問題:目前基于深度學習模型等統(tǒng)計方法的機器閱讀理解,在研究上離不開大量的被人工標注的數(shù)據(jù),但是固有的數(shù)據(jù)集則往往存在規(guī)模較小、質量不佳等問題。這種情況下,很難基于這些數(shù)據(jù)量做出優(yōu)秀、有效的模型。
2、算法問題:傳統(tǒng)的NLP在做閱讀理解或自動問答時,會采用分拆任務的方式將其分成問題分析、篇章分析、關鍵句抽取等一些步驟,但這種方法容易造成級聯(lián)誤差的積累,很難得到很好的效果。如,分目標的結果整合最后和終極目標不能完全吻合;局部優(yōu)化不當可能造成研究進展緩慢等。
所以,目前在機器閱讀理解領域中,則多采用完全端到端的神經網絡建模,消除了分步驟產生的級聯(lián)誤差。除此之外,采用神經網絡的方法能夠通過大量的訓練數(shù)據(jù)學習到泛化的知識表示,對篇章和問題從語義層面上高度抽象化。
據(jù)科大訊飛向雷鋒網介紹,其在這一問題上也同樣采用了端到端的神經網絡模型,但把精力更多的放在如何能夠模擬人類在做閱讀理解問題時的一些方法。此次在測試中奪得第一的“Interactive AoA Reader”,其主要是根據(jù)給定的問題對篇章進行多次的過濾,同時根據(jù)已經被過濾的文章進一步篩選出問題中的關鍵提問點。通過“交互式”地逐步精確答案的范圍,該模型從而可得到不錯的成績。
科大訊飛智能閱卷技術工作流程
科大訊飛向雷鋒網透露,AoA Reader模型是其去年提出并在arXiv上預先放出并最終被ACL 2017錄用為口頭發(fā)表的長文?!搬槍QUAD類型的任務,我們對該模型做了一定的改進,并稱之為Interactive AoA Reader模型”。
那么,該模型后續(xù)還有繼續(xù)優(yōu)化的空間嗎?科大訊飛方對此表示:
“雖然目前層出不窮的閱讀理解模型逐步接近該數(shù)據(jù)集上人類的答題效果,但目前的數(shù)據(jù)集中大多數(shù)問題仍然沒有達到需要“推理”的級別,對于機器閱讀理解的“能理解會思考”的終極目標來說,現(xiàn)在還只是萬里長征的開始。對自然語言的更深層次的歸納、總結、推理,一定是未來機器閱讀理解不可缺少的部分?!?br/>
在雷鋒網問及該模型預計什么時候被應用時,科大訊飛回應說:“機器閱讀理解技術擁有廣闊的應用場景,我們認為精準問答是一個重要的趨勢,例如在產品信息的精準問答、使用手冊的精準問答、基于司法電子卷宗的精準問答、病歷的精準問答等上都會起到有力的支撐作用。同時,此技術的進步也會推動NLP很多相關領域的進步,如知識的表示、上下文篇章理解、知識推理等。”
目前,科大訊飛和哈工大聯(lián)合實驗室的研發(fā)成果已被逐漸運用在教育領域,如通過機器給考卷的主觀題評分,從而達到輔助人工閱卷,減少人員投入,降低人工閱卷中疲勞、情緒等因素的影響,進一步提升人工閱卷評分的效率、準確性和公平性。
近幾年,科大訊飛在智能閱卷技術上也一直在全國各中小學頻設試點,并和一些教育機構牽手合作。如,2015年11月以前,科大訊飛就利用機器閱卷技術在安慶、合肥等地設立試點,經過對人機評分結果的分析,計算機在評分一致率、平均分差、相關度以及與仲裁分更接近的比例等指標方面都已達到或超過人工評分水平。而在今年的湖北省的中考中,襄陽市引進的智能評卷系統(tǒng)也來自科大訊飛的機器智能閱卷技術。
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。