0
本文作者: 我在思考中 | 2021-08-09 10:18 | 專題:ACL 2019 |
作者 | 王丹青
編輯 | 陳大鑫
在快節(jié)奏的生活中,人們往往沒有耐心閱讀長篇大論,而是希望能夠通過簡短的文字迅速掌握文章的重點信息,從而判斷是否有必要詳細閱讀。因此不管是在新聞推送還是在論文撰寫,為文章提取一個簡明扼要的摘要都是十分重要的。以往這項工作都是由文章作者或者專門的編輯進行,而現(xiàn)在,人們可以通過 AI 模型自動為文章提供摘要,大大解救了為總結(jié)全文而絞盡腦汁的作者編輯們。
緊隨國際化的步伐,我們對于摘要生成的需求也不再局限于單種語言。對于我們熟悉的中文,閱讀摘要自然能夠節(jié)約部分時間,但是對于不熟悉的英法德等語言,我們更需要通過摘要來判斷是否有必要花費大量精力對全文進行翻譯閱讀。然而,為每一種不熟悉的語言建立一個模型實在是過于繁重,我們最希望的是有一個統(tǒng)一的模型,能夠同時對多種語言的文章進行閱讀理解,同時生成對應語言的摘要輸出,這就是多語言摘要的研究核心。
一個優(yōu)秀的模型除了精心的算法設計,還離不開大量的數(shù)據(jù)。由于摘要本身撰寫難度,人們很難收集到大量高質(zhì)量的文章-摘要對數(shù)據(jù),這個現(xiàn)象在小眾的語言上尤為突出。因此,要解決多語言摘要問題,我們首先需要解決的是數(shù)據(jù)問題。有了數(shù)據(jù)之后,我們希望能夠讓模型取長補短,利用資源豐富的語言數(shù)據(jù)來扶貧資源稀缺的語言。
這里AI 科技評論為大家介紹一篇來自 ACL2021 Findings 的多語言摘要工作《Contrastive Aligned Joint Learning for Multilingual Summarization》。
該篇文章由字節(jié)跳動人工智能實驗室和復旦大學合作完成,主要提供了一個囊括了12種語言,總數(shù)據(jù)量達到100萬的新多語言數(shù)據(jù)集 MLGSum。同時,該篇工作設計了兩個任務來提取文章信息并在多種語言間進行語義對齊,從而來同時提升模型在多種語言上的摘要性能。
多語言摘要數(shù)據(jù)集 MLGSum
機器學習模型,算法為主,但數(shù)據(jù)先行。沒有高質(zhì)量的大規(guī)模數(shù)據(jù)只能是巧婦難為無米之炊。然而,目前絕大多數(shù)摘要數(shù)據(jù)集均集中在英文上,最近提出的多語言數(shù)據(jù)集MLSUM[1]也只提供了5種語言。
因此,作者首先從多語言新聞網(wǎng)站上收集了大量的新聞數(shù)據(jù)并進行篩選,保留包含人工摘要的部分數(shù)據(jù),最終獲得了包括 12 種語言,總共文章-摘要對高達100萬的大規(guī)模數(shù)據(jù)集。具體語言和數(shù)據(jù)分布見圖 1,其中縱坐標單位為萬。
通過柱狀圖可以看到,德語(De),英語(En),俄羅斯語(Ru),法語(Fr)和中文(Zh)的數(shù)據(jù)量較多,其余幾種語言的數(shù)據(jù)量較少。因而作者以此為劃分,前面5種作為高資源語種,后面7種作為低資源語種。
作者的目標在于,在高資源語種上訓練一個聯(lián)合模型,使得其能夠同時在5種語言上獲得優(yōu)于單語言模型的性能。與此同時,該聯(lián)合模型能夠很好地遷移到低資源語種上。
圖1:MLGSum的各語言數(shù)據(jù)量
對比學習的多語言摘要模型 CALMS
針對摘要的任務特性,作者利用對比學習的思想,設計了兩個句子級別的輔助任務。
第一個叫對比句子排序 (Contrastive Sentence Ranking, CSR),其目的是幫助模型分辨出哪些信息更加重要。
具體做法是,首先從文章中隨機抽取出若干個句子作為摘要候選;其次將這些候選項和標準摘要進行對比,相似度最高的作為正樣本,其余作為負樣本。在模型學習過程中,需要將正負樣本的表示距離不斷拉大,從而分辨出文章中哪些句子對摘要更加重要。
第二個叫對齊句替換 (Sentence Aligned Substitution, SAS),其目的是拉近不同語言間相似句子的距離。
具體來說,首先作者從語言A的文章中抽取出一些重要信息句(如前幾句),翻譯成另一種語言B并且進行替換,模型需要根據(jù)替換后的混合文章將原始句子還原出來。這個任務希望能夠借助翻譯拉近語種間的語義表示。從一方面來說,還原的過程可以認為是對重要信息句做B到A的翻譯;從另一個方面來說,可以將其視作利用A文章的剩余內(nèi)容來還原重要信息句?;谥匾畔⒕涞男畔⒘亢褪S嗨袃?nèi)容的信息量之和相似的假設,可以將這個過程視作自監(jiān)督摘要。
圖2: CSR和SAS任務設計
性能一覽
作者利用 mBART 模型[2]作為多語言語言模型初始化,并且利用上述兩個任務進行進一步微調(diào),最終獲得了模型CALMS(Contrastive Aligned Joint Learning for Multilingual Summarization)。
首先在5種高資源語言上進行了實驗,結(jié)果如下所示。其中Mono模型為每種語言一個的單語言模型,Multi模型為聯(lián)合的多語言模型。可以看出,通過上述兩個方法的設計,聯(lián)合模型在每種語言上都優(yōu)于單語言模型,并且通過針對每種語言的微調(diào)可以進一步提升性能。
圖3: 各模型在De En Ru Fr Zh五種語言上的性能(以ROUGE-1為例)
此外,針對低資源語言,作者將上述在5種語言上聯(lián)合訓練的模型 CALMS 作為初始化,遷移到低資源語言上。其中 Transformer 和 mBART 為直接在該低資源語言上訓練的模型。
可以看到,針對上述5種語言較為相近的幾個語系,如Romance羅曼語(Fr Pt Es 法語 葡萄牙語 西班牙語)和Savic斯拉夫語(Ru Uk 俄語 烏克蘭語),CALMS明顯優(yōu)于直接訓練的單語言模型,但是對于較遠的幾個語系,效果有所下降。這是因為CALMS針對上述5個語種進行針對性微調(diào)優(yōu)化,導致語義空間和其余語系更遠。同時針對沒有被mBART覆蓋的Id印度尼西亞語,CALMS取得了優(yōu)于單語言模型的效果,這是因為CALMS對摘要任務本身提取重要信息的能力也進行了加強。
圖4: CALMS遷移到低資源語言上的性能
總結(jié)
該篇文章為了解決多語言摘要問題,首先提出了一個包含 12 種語言的摘要數(shù)據(jù)集 MLGSum;其次針對多語言和摘要兩個特性設計了兩個輔助任務,來加強模型提取重要信息和語言間對齊的能力。最終聯(lián)合模型CALMS在5種高資源語言上取得了優(yōu)于單語言模型的能力,并且證實了其在相似語系中有著良好的遷移能力。
數(shù)據(jù)集和代碼將會公開在 https://github.com/brxx122/CALMS
參考文獻
[1]Thomas Scialom, Paul-Alexis Dray, Sylvain Lamprier, Benjamin Piwowarski, and Jacopo Staiano. 2020. Mlsum: The multilingual summarization corpus. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 8051–8067.
[2] Yinhan Liu, Jiatao Gu, Naman Goyal, Xian Li, Sergey Edunov, Marjan Ghazvininejad, Mike Lewis, and Luke Zettlemoyer. 2020. Multilingual denoising pre-training for neural machine translation. Transactions of the Association for Computational Linguistics, 8:726–742.
贈書福利
AI科技評論本次聯(lián)合【圖靈教育】為大家?guī)?strong>10本《算法(第四版)》正版新書。
AI科技評論將一共選出 10名讀者,每人送出《算法(第四版)》一本。
在2021年8月8日二條文章(不是本文,僅限AI科技評論微信公眾號端)留言區(qū)留言,歡迎大家暢所欲言,談一談你對本書的看法和期待。在綜合留言質(zhì)量(留言是敷衍還是走心)和留言點贊最高(注:點贊最高的前10不意味著一定會中獎)的讀者中選出10位讀者獲得贈書。獲得贈書的讀者請聯(lián)系 AI 科技評論客服(aitechreview)。
留言內(nèi)容會有篩選,例如“選我上去”、“這書寫的很棒(僅僅幾個字)”等內(nèi)容將不會被篩選,亦不會中獎。
留言送書活動時間為2021年8月8日 - 2021年8月12日(23:00),活動推送時間內(nèi)僅允許贈書福利中獎一次。
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)特約稿件,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。