丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

CALMS:多語(yǔ)言摘要中的信息抽取與共享 | ?ACL 2021 Findings

本文作者: 我在思考中 2021-08-09 10:18 專(zhuān)題:ACL 2019
導(dǎo)語(yǔ):AI 科技評(píng)論為大家介紹一篇來(lái)自 ACL2021 Findings 的多語(yǔ)言摘要工作。

CALMS:多語(yǔ)言摘要中的信息抽取與共享 | ?ACL 2021 Findings

作者 | 王丹青

編輯 | 陳大鑫

在快節(jié)奏的生活中,人們往往沒(méi)有耐心閱讀長(zhǎng)篇大論,而是希望能夠通過(guò)簡(jiǎn)短的文字迅速掌握文章的重點(diǎn)信息,從而判斷是否有必要詳細(xì)閱讀。因此不管是在新聞推送還是在論文撰寫(xiě),為文章提取一個(gè)簡(jiǎn)明扼要的摘要都是十分重要的。以往這項(xiàng)工作都是由文章作者或者專(zhuān)門(mén)的編輯進(jìn)行,而現(xiàn)在,人們可以通過(guò) AI 模型自動(dòng)為文章提供摘要,大大解救了為總結(jié)全文而絞盡腦汁的作者編輯們。

緊隨國(guó)際化的步伐,我們對(duì)于摘要生成的需求也不再局限于單種語(yǔ)言。對(duì)于我們熟悉的中文,閱讀摘要自然能夠節(jié)約部分時(shí)間,但是對(duì)于不熟悉的英法德等語(yǔ)言,我們更需要通過(guò)摘要來(lái)判斷是否有必要花費(fèi)大量精力對(duì)全文進(jìn)行翻譯閱讀。然而,為每一種不熟悉的語(yǔ)言建立一個(gè)模型實(shí)在是過(guò)于繁重,我們最希望的是有一個(gè)統(tǒng)一的模型,能夠同時(shí)對(duì)多種語(yǔ)言的文章進(jìn)行閱讀理解,同時(shí)生成對(duì)應(yīng)語(yǔ)言的摘要輸出,這就是多語(yǔ)言摘要的研究核心。

一個(gè)優(yōu)秀的模型除了精心的算法設(shè)計(jì),還離不開(kāi)大量的數(shù)據(jù)。由于摘要本身撰寫(xiě)難度,人們很難收集到大量高質(zhì)量的文章-摘要對(duì)數(shù)據(jù),這個(gè)現(xiàn)象在小眾的語(yǔ)言上尤為突出。因此,要解決多語(yǔ)言摘要問(wèn)題,我們首先需要解決的是數(shù)據(jù)問(wèn)題。有了數(shù)據(jù)之后,我們希望能夠讓模型取長(zhǎng)補(bǔ)短,利用資源豐富的語(yǔ)言數(shù)據(jù)來(lái)扶貧資源稀缺的語(yǔ)言。

這里AI 科技評(píng)論為大家介紹一篇來(lái)自 ACL2021 Findings 的多語(yǔ)言摘要工作《Contrastive Aligned Joint Learning for Multilingual Summarization》。

該篇文章由字節(jié)跳動(dòng)人工智能實(shí)驗(yàn)室和復(fù)旦大學(xué)合作完成,主要提供了一個(gè)囊括了12種語(yǔ)言,總數(shù)據(jù)量達(dá)到100萬(wàn)的新多語(yǔ)言數(shù)據(jù)集 MLGSum。同時(shí),該篇工作設(shè)計(jì)了兩個(gè)任務(wù)來(lái)提取文章信息并在多種語(yǔ)言間進(jìn)行語(yǔ)義對(duì)齊,從而來(lái)同時(shí)提升模型在多種語(yǔ)言上的摘要性能。

CALMS:多語(yǔ)言摘要中的信息抽取與共享 | ?ACL 2021 Findings


1

多語(yǔ)言摘要數(shù)據(jù)集 MLGSum

機(jī)器學(xué)習(xí)模型,算法為主,但數(shù)據(jù)先行。沒(méi)有高質(zhì)量的大規(guī)模數(shù)據(jù)只能是巧婦難為無(wú)米之炊。然而,目前絕大多數(shù)摘要數(shù)據(jù)集均集中在英文上,最近提出的多語(yǔ)言數(shù)據(jù)集MLSUM[1]也只提供了5種語(yǔ)言。

因此,作者首先從多語(yǔ)言新聞網(wǎng)站上收集了大量的新聞數(shù)據(jù)并進(jìn)行篩選,保留包含人工摘要的部分?jǐn)?shù)據(jù),最終獲得了包括 12 種語(yǔ)言,總共文章-摘要對(duì)高達(dá)100萬(wàn)的大規(guī)模數(shù)據(jù)集。具體語(yǔ)言和數(shù)據(jù)分布見(jiàn)圖 1,其中縱坐標(biāo)單位為萬(wàn)。

通過(guò)柱狀圖可以看到,德語(yǔ)(De),英語(yǔ)(En),俄羅斯語(yǔ)(Ru),法語(yǔ)(Fr)和中文(Zh)的數(shù)據(jù)量較多,其余幾種語(yǔ)言的數(shù)據(jù)量較少。因而作者以此為劃分,前面5種作為高資源語(yǔ)種,后面7種作為低資源語(yǔ)種。

作者的目標(biāo)在于,在高資源語(yǔ)種上訓(xùn)練一個(gè)聯(lián)合模型,使得其能夠同時(shí)在5種語(yǔ)言上獲得優(yōu)于單語(yǔ)言模型的性能。與此同時(shí),該聯(lián)合模型能夠很好地遷移到低資源語(yǔ)種上。

CALMS:多語(yǔ)言摘要中的信息抽取與共享 | ?ACL 2021 Findings圖1:MLGSum的各語(yǔ)言數(shù)據(jù)量


2

對(duì)比學(xué)習(xí)的多語(yǔ)言摘要模型 CALMS

針對(duì)摘要的任務(wù)特性,作者利用對(duì)比學(xué)習(xí)的思想,設(shè)計(jì)了兩個(gè)句子級(jí)別的輔助任務(wù)。

第一個(gè)叫對(duì)比句子排序 (Contrastive Sentence Ranking, CSR),其目的是幫助模型分辨出哪些信息更加重要。

具體做法是,首先從文章中隨機(jī)抽取出若干個(gè)句子作為摘要候選;其次將這些候選項(xiàng)和標(biāo)準(zhǔn)摘要進(jìn)行對(duì)比,相似度最高的作為正樣本,其余作為負(fù)樣本。在模型學(xué)習(xí)過(guò)程中,需要將正負(fù)樣本的表示距離不斷拉大,從而分辨出文章中哪些句子對(duì)摘要更加重要。

第二個(gè)叫對(duì)齊句替換 (Sentence Aligned Substitution, SAS),其目的是拉近不同語(yǔ)言間相似句子的距離。

具體來(lái)說(shuō),首先作者從語(yǔ)言A的文章中抽取出一些重要信息句(如前幾句),翻譯成另一種語(yǔ)言B并且進(jìn)行替換,模型需要根據(jù)替換后的混合文章將原始句子還原出來(lái)。這個(gè)任務(wù)希望能夠借助翻譯拉近語(yǔ)種間的語(yǔ)義表示。從一方面來(lái)說(shuō),還原的過(guò)程可以認(rèn)為是對(duì)重要信息句做B到A的翻譯;從另一個(gè)方面來(lái)說(shuō),可以將其視作利用A文章的剩余內(nèi)容來(lái)還原重要信息句。基于重要信息句的信息量和剩余所有內(nèi)容的信息量之和相似的假設(shè),可以將這個(gè)過(guò)程視作自監(jiān)督摘要。

CALMS:多語(yǔ)言摘要中的信息抽取與共享 | ?ACL 2021 Findings圖2: CSR和SAS任務(wù)設(shè)計(jì)


3

性能一覽

作者利用 mBART 模型[2]作為多語(yǔ)言語(yǔ)言模型初始化,并且利用上述兩個(gè)任務(wù)進(jìn)行進(jìn)一步微調(diào),最終獲得了模型CALMS(Contrastive Aligned Joint Learning for Multilingual Summarization)。

首先在5種高資源語(yǔ)言上進(jìn)行了實(shí)驗(yàn),結(jié)果如下所示。其中Mono模型為每種語(yǔ)言一個(gè)的單語(yǔ)言模型,Multi模型為聯(lián)合的多語(yǔ)言模型??梢钥闯觯ㄟ^(guò)上述兩個(gè)方法的設(shè)計(jì),聯(lián)合模型在每種語(yǔ)言上都優(yōu)于單語(yǔ)言模型,并且通過(guò)針對(duì)每種語(yǔ)言的微調(diào)可以進(jìn)一步提升性能。

CALMS:多語(yǔ)言摘要中的信息抽取與共享 | ?ACL 2021 Findings圖3: 各模型在De En Ru Fr Zh五種語(yǔ)言上的性能(以ROUGE-1為例)

此外,針對(duì)低資源語(yǔ)言,作者將上述在5種語(yǔ)言上聯(lián)合訓(xùn)練的模型 CALMS 作為初始化,遷移到低資源語(yǔ)言上。其中 Transformer 和 mBART 為直接在該低資源語(yǔ)言上訓(xùn)練的模型。

可以看到,針對(duì)上述5種語(yǔ)言較為相近的幾個(gè)語(yǔ)系,如Romance羅曼語(yǔ)(Fr Pt Es 法語(yǔ) 葡萄牙語(yǔ) 西班牙語(yǔ))和Savic斯拉夫語(yǔ)(Ru Uk 俄語(yǔ) 烏克蘭語(yǔ)),CALMS明顯優(yōu)于直接訓(xùn)練的單語(yǔ)言模型,但是對(duì)于較遠(yuǎn)的幾個(gè)語(yǔ)系,效果有所下降。這是因?yàn)镃ALMS針對(duì)上述5個(gè)語(yǔ)種進(jìn)行針對(duì)性微調(diào)優(yōu)化,導(dǎo)致語(yǔ)義空間和其余語(yǔ)系更遠(yuǎn)。同時(shí)針對(duì)沒(méi)有被mBART覆蓋的Id印度尼西亞語(yǔ),CALMS取得了優(yōu)于單語(yǔ)言模型的效果,這是因?yàn)镃ALMS對(duì)摘要任務(wù)本身提取重要信息的能力也進(jìn)行了加強(qiáng)。

CALMS:多語(yǔ)言摘要中的信息抽取與共享 | ?ACL 2021 Findings

圖4: CALMS遷移到低資源語(yǔ)言上的性能


4

總結(jié)

該篇文章為了解決多語(yǔ)言摘要問(wèn)題,首先提出了一個(gè)包含 12 種語(yǔ)言的摘要數(shù)據(jù)集 MLGSum;其次針對(duì)多語(yǔ)言和摘要兩個(gè)特性設(shè)計(jì)了兩個(gè)輔助任務(wù),來(lái)加強(qiáng)模型提取重要信息和語(yǔ)言間對(duì)齊的能力。最終聯(lián)合模型CALMS在5種高資源語(yǔ)言上取得了優(yōu)于單語(yǔ)言模型的能力,并且證實(shí)了其在相似語(yǔ)系中有著良好的遷移能力。

數(shù)據(jù)集和代碼將會(huì)公開(kāi)在 https://github.com/brxx122/CALMS

參考文獻(xiàn)

[1]Thomas Scialom, Paul-Alexis Dray, Sylvain Lamprier, Benjamin Piwowarski, and Jacopo Staiano. 2020. Mlsum: The multilingual summarization corpus. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 8051–8067.

[2] Yinhan Liu, Jiatao Gu, Naman Goyal, Xian Li, Sergey Edunov, Marjan Ghazvininejad, Mike Lewis, and Luke Zettlemoyer. 2020. Multilingual denoising pre-training for neural machine translation. Transactions of the Association for Computational Linguistics, 8:726–742.

贈(zèng)書(shū)福利 

AI科技評(píng)論本次聯(lián)合【圖靈教育】為大家?guī)?lái)10本《算法(第四版)》正版新書(shū)。

CALMS:多語(yǔ)言摘要中的信息抽取與共享 | ?ACL 2021 Findings

AI科技評(píng)論將一共選出 10名讀者,每人送出《算法(第四版)》一本。

在2021年8月8日二條文章(不是本文,僅限AI科技評(píng)論微信公眾號(hào)端)留言區(qū)留言,歡迎大家暢所欲言,談一談你對(duì)本書(shū)的看法和期待。在綜合留言質(zhì)量(留言是敷衍還是走心)和留言點(diǎn)贊最高(注:點(diǎn)贊最高的前10不意味著一定會(huì)中獎(jiǎng))的讀者中選出10位讀者獲得贈(zèng)書(shū)。獲得贈(zèng)書(shū)的讀者請(qǐng)聯(lián)系 AI 科技評(píng)論客服(aitechreview)。

  • 留言?xún)?nèi)容會(huì)有篩選,例如“選我上去”、“這書(shū)寫(xiě)的很棒(僅僅幾個(gè)字)”等內(nèi)容將不會(huì)被篩選,亦不會(huì)中獎(jiǎng)。

  • 留言送書(shū)活動(dòng)時(shí)間為2021年8月8日 - 2021年8月12日(23:00),活動(dòng)推送時(shí)間內(nèi)僅允許贈(zèng)書(shū)福利中獎(jiǎng)一次。

    雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)


雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

CALMS:多語(yǔ)言摘要中的信息抽取與共享 | ?ACL 2021 Findings

分享:

運(yùn)營(yíng)

當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)