0
本文作者: 我在思考中 | 2021-08-09 10:18 | 專題:ACL 2019 |
作者 | 王丹青
編輯 | 陳大鑫
在快節(jié)奏的生活中,人們往往沒有耐心閱讀長篇大論,而是希望能夠通過簡短的文字迅速掌握文章的重點(diǎn)信息,從而判斷是否有必要詳細(xì)閱讀。因此不管是在新聞推送還是在論文撰寫,為文章提取一個簡明扼要的摘要都是十分重要的。以往這項(xiàng)工作都是由文章作者或者專門的編輯進(jìn)行,而現(xiàn)在,人們可以通過 AI 模型自動為文章提供摘要,大大解救了為總結(jié)全文而絞盡腦汁的作者編輯們。
緊隨國際化的步伐,我們對于摘要生成的需求也不再局限于單種語言。對于我們熟悉的中文,閱讀摘要自然能夠節(jié)約部分時(shí)間,但是對于不熟悉的英法德等語言,我們更需要通過摘要來判斷是否有必要花費(fèi)大量精力對全文進(jìn)行翻譯閱讀。然而,為每一種不熟悉的語言建立一個模型實(shí)在是過于繁重,我們最希望的是有一個統(tǒng)一的模型,能夠同時(shí)對多種語言的文章進(jìn)行閱讀理解,同時(shí)生成對應(yīng)語言的摘要輸出,這就是多語言摘要的研究核心。
一個優(yōu)秀的模型除了精心的算法設(shè)計(jì),還離不開大量的數(shù)據(jù)。由于摘要本身撰寫難度,人們很難收集到大量高質(zhì)量的文章-摘要對數(shù)據(jù),這個現(xiàn)象在小眾的語言上尤為突出。因此,要解決多語言摘要問題,我們首先需要解決的是數(shù)據(jù)問題。有了數(shù)據(jù)之后,我們希望能夠讓模型取長補(bǔ)短,利用資源豐富的語言數(shù)據(jù)來扶貧資源稀缺的語言。
這里AI 科技評論為大家介紹一篇來自 ACL2021 Findings 的多語言摘要工作《Contrastive Aligned Joint Learning for Multilingual Summarization》。
該篇文章由字節(jié)跳動人工智能實(shí)驗(yàn)室和復(fù)旦大學(xué)合作完成,主要提供了一個囊括了12種語言,總數(shù)據(jù)量達(dá)到100萬的新多語言數(shù)據(jù)集 MLGSum。同時(shí),該篇工作設(shè)計(jì)了兩個任務(wù)來提取文章信息并在多種語言間進(jìn)行語義對齊,從而來同時(shí)提升模型在多種語言上的摘要性能。
多語言摘要數(shù)據(jù)集 MLGSum
機(jī)器學(xué)習(xí)模型,算法為主,但數(shù)據(jù)先行。沒有高質(zhì)量的大規(guī)模數(shù)據(jù)只能是巧婦難為無米之炊。然而,目前絕大多數(shù)摘要數(shù)據(jù)集均集中在英文上,最近提出的多語言數(shù)據(jù)集MLSUM[1]也只提供了5種語言。
因此,作者首先從多語言新聞網(wǎng)站上收集了大量的新聞數(shù)據(jù)并進(jìn)行篩選,保留包含人工摘要的部分?jǐn)?shù)據(jù),最終獲得了包括 12 種語言,總共文章-摘要對高達(dá)100萬的大規(guī)模數(shù)據(jù)集。具體語言和數(shù)據(jù)分布見圖 1,其中縱坐標(biāo)單位為萬。
通過柱狀圖可以看到,德語(De),英語(En),俄羅斯語(Ru),法語(Fr)和中文(Zh)的數(shù)據(jù)量較多,其余幾種語言的數(shù)據(jù)量較少。因而作者以此為劃分,前面5種作為高資源語種,后面7種作為低資源語種。
作者的目標(biāo)在于,在高資源語種上訓(xùn)練一個聯(lián)合模型,使得其能夠同時(shí)在5種語言上獲得優(yōu)于單語言模型的性能。與此同時(shí),該聯(lián)合模型能夠很好地遷移到低資源語種上。
圖1:MLGSum的各語言數(shù)據(jù)量
對比學(xué)習(xí)的多語言摘要模型 CALMS
針對摘要的任務(wù)特性,作者利用對比學(xué)習(xí)的思想,設(shè)計(jì)了兩個句子級別的輔助任務(wù)。
第一個叫對比句子排序 (Contrastive Sentence Ranking, CSR),其目的是幫助模型分辨出哪些信息更加重要。
具體做法是,首先從文章中隨機(jī)抽取出若干個句子作為摘要候選;其次將這些候選項(xiàng)和標(biāo)準(zhǔn)摘要進(jìn)行對比,相似度最高的作為正樣本,其余作為負(fù)樣本。在模型學(xué)習(xí)過程中,需要將正負(fù)樣本的表示距離不斷拉大,從而分辨出文章中哪些句子對摘要更加重要。
第二個叫對齊句替換 (Sentence Aligned Substitution, SAS),其目的是拉近不同語言間相似句子的距離。
具體來說,首先作者從語言A的文章中抽取出一些重要信息句(如前幾句),翻譯成另一種語言B并且進(jìn)行替換,模型需要根據(jù)替換后的混合文章將原始句子還原出來。這個任務(wù)希望能夠借助翻譯拉近語種間的語義表示。從一方面來說,還原的過程可以認(rèn)為是對重要信息句做B到A的翻譯;從另一個方面來說,可以將其視作利用A文章的剩余內(nèi)容來還原重要信息句?;谥匾畔⒕涞男畔⒘亢褪S嗨袃?nèi)容的信息量之和相似的假設(shè),可以將這個過程視作自監(jiān)督摘要。
圖2: CSR和SAS任務(wù)設(shè)計(jì)
性能一覽
作者利用 mBART 模型[2]作為多語言語言模型初始化,并且利用上述兩個任務(wù)進(jìn)行進(jìn)一步微調(diào),最終獲得了模型CALMS(Contrastive Aligned Joint Learning for Multilingual Summarization)。
首先在5種高資源語言上進(jìn)行了實(shí)驗(yàn),結(jié)果如下所示。其中Mono模型為每種語言一個的單語言模型,Multi模型為聯(lián)合的多語言模型??梢钥闯?,通過上述兩個方法的設(shè)計(jì),聯(lián)合模型在每種語言上都優(yōu)于單語言模型,并且通過針對每種語言的微調(diào)可以進(jìn)一步提升性能。
圖3: 各模型在De En Ru Fr Zh五種語言上的性能(以ROUGE-1為例)
此外,針對低資源語言,作者將上述在5種語言上聯(lián)合訓(xùn)練的模型 CALMS 作為初始化,遷移到低資源語言上。其中 Transformer 和 mBART 為直接在該低資源語言上訓(xùn)練的模型。
可以看到,針對上述5種語言較為相近的幾個語系,如Romance羅曼語(Fr Pt Es 法語 葡萄牙語 西班牙語)和Savic斯拉夫語(Ru Uk 俄語 烏克蘭語),CALMS明顯優(yōu)于直接訓(xùn)練的單語言模型,但是對于較遠(yuǎn)的幾個語系,效果有所下降。這是因?yàn)镃ALMS針對上述5個語種進(jìn)行針對性微調(diào)優(yōu)化,導(dǎo)致語義空間和其余語系更遠(yuǎn)。同時(shí)針對沒有被mBART覆蓋的Id印度尼西亞語,CALMS取得了優(yōu)于單語言模型的效果,這是因?yàn)镃ALMS對摘要任務(wù)本身提取重要信息的能力也進(jìn)行了加強(qiáng)。
圖4: CALMS遷移到低資源語言上的性能
總結(jié)
該篇文章為了解決多語言摘要問題,首先提出了一個包含 12 種語言的摘要數(shù)據(jù)集 MLGSum;其次針對多語言和摘要兩個特性設(shè)計(jì)了兩個輔助任務(wù),來加強(qiáng)模型提取重要信息和語言間對齊的能力。最終聯(lián)合模型CALMS在5種高資源語言上取得了優(yōu)于單語言模型的能力,并且證實(shí)了其在相似語系中有著良好的遷移能力。
數(shù)據(jù)集和代碼將會公開在 https://github.com/brxx122/CALMS
參考文獻(xiàn)
[1]Thomas Scialom, Paul-Alexis Dray, Sylvain Lamprier, Benjamin Piwowarski, and Jacopo Staiano. 2020. Mlsum: The multilingual summarization corpus. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 8051–8067.
[2] Yinhan Liu, Jiatao Gu, Naman Goyal, Xian Li, Sergey Edunov, Marjan Ghazvininejad, Mike Lewis, and Luke Zettlemoyer. 2020. Multilingual denoising pre-training for neural machine translation. Transactions of the Association for Computational Linguistics, 8:726–742.
贈書福利
AI科技評論本次聯(lián)合【圖靈教育】為大家?guī)?strong>10本《算法(第四版)》正版新書。
AI科技評論將一共選出 10名讀者,每人送出《算法(第四版)》一本。
在2021年8月8日二條文章(不是本文,僅限AI科技評論微信公眾號端)留言區(qū)留言,歡迎大家暢所欲言,談一談你對本書的看法和期待。在綜合留言質(zhì)量(留言是敷衍還是走心)和留言點(diǎn)贊最高(注:點(diǎn)贊最高的前10不意味著一定會中獎)的讀者中選出10位讀者獲得贈書。獲得贈書的讀者請聯(lián)系 AI 科技評論客服(aitechreview)。
留言內(nèi)容會有篩選,例如“選我上去”、“這書寫的很棒(僅僅幾個字)”等內(nèi)容將不會被篩選,亦不會中獎。
留言送書活動時(shí)間為2021年8月8日 - 2021年8月12日(23:00),活動推送時(shí)間內(nèi)僅允許贈書福利中獎一次。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。