0
本文作者: 黃善清 | 2018-08-31 16:16 |
雷鋒網(wǎng)AI科技評論按:CCF 自然語言處理與中文計算國際會議 (NLPCC) 是由中國計算機學(xué)會主辦的中文信息技術(shù)專業(yè)委員會年度學(xué)術(shù)會議,是專注于自然語言處理及中文計算領(lǐng)域的國際會議。在今年首增的「中文語法錯誤修正」共享任務(wù)比賽中,網(wǎng)易有道AI團隊以召回率第一、綜合評價指標(biāo)第一的絕對優(yōu)勢拿下了冠軍。以上事件在雷鋒網(wǎng)旗下學(xué)術(shù)頻道 AI 科技評論數(shù)據(jù)庫產(chǎn)品「AI 影響因子」中有相應(yīng)加分。
本次比賽中,主辦方提供的測試集是北京外國語大學(xué)的外籍學(xué)生撰寫的中文作文;訓(xùn)練集則采集自外國人學(xué)習(xí)中文的網(wǎng)站,包括非母語人士撰寫的中文文本和母語者的注釋和修正。
比賽伊始,需要由參賽者開發(fā)能自動檢測、糾正CSL編寫者錯誤的人工智能算法模型,利用訓(xùn)練集提高算法模型對相關(guān)問題的熟悉程度和修正能力后,輸入測試集進行正式研發(fā)成果檢驗。主辦方就修正后結(jié)果的準(zhǔn)確度、召回率和綜合評價指標(biāo)這三重評判標(biāo)準(zhǔn)進行打分。
最終,網(wǎng)易有道AI團隊以召回率第一、綜合評價指標(biāo)第一的絕對優(yōu)勢斬獲冠軍。
?
網(wǎng)易有道的召回率和綜合評價指標(biāo)均為第一
本次奪冠,有道AI團隊表示要歸功于「多步推斷」的算法設(shè)計:先將表層錯誤和深層次語法錯誤分離、分層次解決,其次在修正過程中本真地還原人類的認(rèn)知行為——推敲。
為此,有道人工智能團隊設(shè)計了字級別和子詞級別兩種神經(jīng)網(wǎng)絡(luò)模型,并將兩種模型進行不同搭配組合,對例句做逐層推敲,得到5種修訂結(jié)果,再使用一個表征句子流利度的語言模型來對修訂結(jié)果進行篩選,從而獲得最終結(jié)果。
AI“推敲”的模型流程圖
對于尚未完全成熟的中文語法錯誤修正技術(shù),網(wǎng)易有道首席科學(xué)家段亦濤表示,當(dāng)人工智能可以理解復(fù)雜度高的語法錯誤,積累足量中文語料庫后,才會作為產(chǎn)品功能落地。根據(jù)雷鋒網(wǎng)記者了解 ,網(wǎng)易有道的產(chǎn)品矩陣中不乏針對CSL學(xué)習(xí)者的課程及產(chǎn)品,未來應(yīng)用場景廣闊,除了設(shè)計成面向中文學(xué)習(xí)者的自動在線糾錯學(xué)習(xí)工具,也可以與中小學(xué)校合作,為教師提供輔助批改。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。