丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給叢末
發(fā)送

0

CMRC2018 評測任務(wù)冠軍隊(duì)伍分享: 如何從數(shù)據(jù)、模型和訓(xùn)練角度提升閱讀理解系統(tǒng)性能?

本文作者: 叢末 2018-11-09 10:20
導(dǎo)語:下周二,追一科技團(tuán)隊(duì)還將在雷鋒網(wǎng)公開課上為大家?guī)矸窒韣
活動(dòng)
企業(yè):追一科技
操作:技術(shù)分享
事項(xiàng):

雷鋒網(wǎng) AI 科技評論按:2018 年 10 月 19 日,第十七屆中國計(jì)算語言學(xué)大會(huì)(CCL2018)在長沙召開,追一科技團(tuán)隊(duì)作為中文機(jī)器閱讀理解(CMRC2018)評測任務(wù)的冠軍隊(duì)伍,在評測研討會(huì)上分享了本次參賽系統(tǒng)的報(bào)告。下文是該報(bào)告的講解文章,作者為追一科技的語義算法研究員巨穎,雷鋒網(wǎng) AI 科技評論經(jīng)授權(quán)轉(zhuǎn)載。

機(jī)器閱讀理解(Machine Reading Comprehension)指的是,讓機(jī)器像人一樣去讀懂一段文字,并回答相應(yīng)問題。常見的機(jī)器閱讀理解形式有完形填空式,選擇題式和知名度最廣的抽取式,從抽取文檔篇數(shù)又可細(xì)分為多文檔(如 MS MARCO)和單文檔(SQuAD)。

CMRC 比賽與最流行的英文數(shù)據(jù)集 SQuAD 形式類似,文檔來源于中文維基百科,問題由人工撰寫,根據(jù)給定的一篇文檔和一個(gè)問題,參賽者需要解決的是,如何建立并訓(xùn)練 model,使其能更好地理解 context 與 query,并找到相應(yīng)答案。下圖為實(shí)際比賽數(shù)據(jù)的一個(gè)示例。

數(shù)據(jù)

在數(shù)據(jù)方面,主要工作集中在數(shù)據(jù)的歸一化和去噪音。CMRC 比賽訓(xùn)練集包含大約一萬條數(shù)據(jù),總體數(shù)據(jù)量偏少,這種情況下數(shù)據(jù)的標(biāo)注一致性尤為重要。通過分析錯(cuò)誤樣例,參賽隊(duì)員發(fā)現(xiàn)了標(biāo)注的不一致問題,通過分析篩選最終對少量答案分布不一致的訓(xùn)練數(shù)據(jù)進(jìn)行了清洗。

(1963 年)

范廷頌是什么時(shí)候被任為主教的?

VS 

九廣鐵路小童儲(chǔ)值票是何時(shí)停止使用的?

(1990 年 9 月停止使用)

上面的數(shù)據(jù)樣例展示了這種標(biāo)注不一致問題,同樣為時(shí)間點(diǎn)的詢問,但是不同標(biāo)注有后綴區(qū)別,這種標(biāo)注不一致問題會(huì)使模型的最終預(yù)測 EM 指標(biāo)降低。

除了標(biāo)注不一致的噪音,參賽隊(duì)員還對文本進(jìn)行了歸一化,比如繁簡轉(zhuǎn)換,中英文標(biāo)點(diǎn)轉(zhuǎn)換等數(shù)據(jù)歸一化操作。

模型

在模型方面,追一此次參賽采用了經(jīng)典的端對端閱讀理解系統(tǒng),整體框架參考微軟的模型結(jié)構(gòu) R-Net,示意圖如下:

CMRC2018 評測任務(wù)冠軍隊(duì)伍分享: 如何從數(shù)據(jù)、模型和訓(xùn)練角度提升閱讀理解系統(tǒng)性能?

文本向量化表達(dá)

文本的向量化表達(dá)一直是深度學(xué)習(xí)系統(tǒng)效果的重中之重,本次參賽追一代表隊(duì)使用了預(yù)訓(xùn)練的中文 ELMo 代替?zhèn)鹘y(tǒng)的 word2vec,單此一項(xiàng),EM 提升了 1.8 個(gè)點(diǎn)。傳統(tǒng)的詞向量 word2vec 是上下文無關(guān)的,無法對一詞多義的情況進(jìn)行建模,比如常舉例的「我想吃【蘋果】」和「我的【蘋果】手機(jī)摔壞了」。近期 AllenAI 提出了 ELMo,即 Embeddings from Language Models,這種詞表征不再是固定的向量,而是以語言模型為基礎(chǔ)獲得的一個(gè)上下文相關(guān)的詞表征。

英文 ELMo 是基于字符級別的編碼,對中文并不適用。針對中文文本追一團(tuán)隊(duì)實(shí)驗(yàn)了兩套方案,第一版是采用詞級別進(jìn)行輸入,第二版是將詞改進(jìn)為筆劃級別的編碼,兩者都通過雙層 LSTM 變換來進(jìn)行語言模型預(yù)訓(xùn)練。經(jīng)過多次實(shí)驗(yàn),效果最好的詞級別與筆劃級別的 ELMo 效果相差不大,最后采用了基于維基百科與新浪新聞組合語料訓(xùn)練的 512 維詞向量 ELMo 模型作為下游任務(wù)的輸入。

除 ELMo 外,模型還加入了描述問題類型的 one hot 特征,即按提問方式將問題歸為 who, where, when 等八類,并轉(zhuǎn)換為 one-hot 向量。POS 信息與詞共現(xiàn)特征也作為額外的輸入傳入了模型。

編碼層

采用多層雙向 RNN 對文檔和問題分別進(jìn)行編碼

交互層

Attention 機(jī)制是融合文檔內(nèi)容和問題信息的主要方法,是眾多模型中比較通用的部分。在傳統(tǒng) attention 基礎(chǔ)上,我們對問題輸入添加了額外一個(gè)基于 gate 機(jī)制的過濾層,讓模型去傾向注意核心詞匯,忽略無關(guān)信息。改進(jìn)的 attention 將 EM/F1 分別提升了 0.6/0.3。

答案抽取層

和眾多參賽隊(duì)類似,追一的參賽隊(duì)員采用了 Pointer-network 來作為模型的輸出層。PointerNetwork 通過預(yù)測答案的起始與終止位置,得到最終輸出。

訓(xùn)練

由模型壓縮思想衍生出的自我蒸餾 (self-distill) 訓(xùn)練方法在此次比賽中起到了很好的效果,其思想來源于論文《Born-Again Neural Networks》。蒸餾通常用在模型壓縮方面,即采用預(yù)訓(xùn)練好的復(fù)雜模型(teacher model)輸出作為監(jiān)督信號(hào)去訓(xùn)練另一個(gè)簡單模型(student model),從而將 teacher 學(xué)習(xí)到的知識(shí)遷移到 student。自我蒸餾就是不改變模型大小,循環(huán)進(jìn)行 teacher-student 的訓(xùn)練,直到效果不再改進(jìn)。CMRC 比賽中,teacher model 是已經(jīng)訓(xùn)練好的一版模型,student 和 teacher 模型相同,僅重新初始化。訓(xùn)練 student 時(shí),模型要同時(shí)學(xué)習(xí)真實(shí) label 和 teacher 的輸出。self-distill 效果顯著,最終模型比初始 teacher 的 EM/F1 分別可以增長 0.88/0.94。

CMRC2018 評測任務(wù)冠軍隊(duì)伍分享: 如何從數(shù)據(jù)、模型和訓(xùn)練角度提升閱讀理解系統(tǒng)性能?

經(jīng)過數(shù)據(jù)清洗,模型優(yōu)化,多次訓(xùn)練,最終的系統(tǒng)在正式測試集上,EM 和 F1 分別達(dá)到了 74.178 和 88.145,僅靠單模型(single),在所有隊(duì)伍中排名第一。

下周二,追一科技語義算法研究員巨穎將在雷鋒網(wǎng)的公開課上分享閱讀理解進(jìn)階三部曲——關(guān)鍵知識(shí)、模型性能提升、產(chǎn)品化落地,歡迎大家準(zhǔn)時(shí)收看。雷鋒網(wǎng)雷鋒網(wǎng)

CMRC2018 評測任務(wù)冠軍隊(duì)伍分享: 如何從數(shù)據(jù)、模型和訓(xùn)練角度提升閱讀理解系統(tǒng)性能?

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

CMRC2018 評測任務(wù)冠軍隊(duì)伍分享: 如何從數(shù)據(jù)、模型和訓(xùn)練角度提升閱讀理解系統(tǒng)性能?

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說