丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給蔣寶尚
發(fā)送

0

官方解讀,谷歌“T5”模型,如何突破遷移學(xué)習(xí)局限,實(shí)現(xiàn)多基準(zhǔn)測(cè)試SOTA

本文作者: 蔣寶尚 2020-02-25 14:35
導(dǎo)語(yǔ):實(shí)現(xiàn)多基準(zhǔn)測(cè)試SOTA。

官方解讀,谷歌“T5”模型,如何突破遷移學(xué)習(xí)局限,實(shí)現(xiàn)多基準(zhǔn)測(cè)試SOTA

過去幾年間,遷移學(xué)習(xí)給 NLP 領(lǐng)域帶來了豐碩的成果,掀起了新一波的發(fā)展浪潮。而遷移學(xué)習(xí)之所以如此有效,得益于其利用自監(jiān)督任務(wù)(如語(yǔ)言建?;蛱畛淙笔г~)在大量可用的無標(biāo)注的文本數(shù)據(jù)上對(duì)模型進(jìn)行預(yù)訓(xùn)練;接著,又在更小的標(biāo)注數(shù)據(jù)集上對(duì)模型進(jìn)行微調(diào),從而讓模型實(shí)現(xiàn)比單單在標(biāo)注數(shù)據(jù)上訓(xùn)練更好得多的性能。

遷移學(xué)習(xí)在2018年出現(xiàn)的GPT、ULMFiT、ELMo以及 BERT等成果上初露鋒芒,之后又在2019年大顯身手,推動(dòng)了領(lǐng)域內(nèi)多種新方法的發(fā)展,其中就包括XLNet、RoBERTa、ALBERT、Reformer 和 MT-DNN 等等。隨著 NLP 領(lǐng)域的發(fā)展迅猛,評(píng)估其中的哪些發(fā)展成果最具有意義以及這些成果結(jié)合起來會(huì)發(fā)揮出怎樣的效果,已不是易事。

官方解讀,谷歌“T5”模型,如何突破遷移學(xué)習(xí)局限,實(shí)現(xiàn)多基準(zhǔn)測(cè)試SOTA

(雷鋒網(wǎng))論文地址:https://arxiv.org/abs/1910.10683

谷歌研究者在論文《使用統(tǒng)一的文本到文本的Transformer 來探索遷移學(xué)習(xí)的局限性》中,提出了一個(gè)大規(guī)模的實(shí)證評(píng)估,以確定哪些遷移學(xué)習(xí)技術(shù)效果最好,并大規(guī)模應(yīng)用這些遷移學(xué)習(xí)技術(shù)來創(chuàng)建一個(gè)新模型,作者將這個(gè)新模型稱之為文本到文本的遷移Transformer (Text-To-Text Transfer Transformer,T5)。

與此同時(shí),他們還引入了一個(gè)新的開源預(yù)訓(xùn)練數(shù)據(jù)集——Colossal Clean Crawled Corpus(C4)。作者在C4數(shù)據(jù)集上對(duì)T5 模型進(jìn)行預(yù)訓(xùn)練,讓模型在許多 NLP 基準(zhǔn)上都實(shí)現(xiàn)了最佳結(jié)果,與此同時(shí)還擁有足夠的靈活性,進(jìn)行微調(diào)后可應(yīng)用到多個(gè)重要的下游任務(wù)上。

一、共享的文本到文本框架

創(chuàng)建了T5模型后,作者將所有的 NLP 任務(wù)都重新構(gòu)建為統(tǒng)一的文本到文本格式,輸入和輸出都始終是文本字符串,與只能輸出類標(biāo)簽或者輸入范圍的 BERT 式的模型截然不同。該文本到文本的框架讓他們可以在任何 NLP 任務(wù)上都使用相同的模型、損失函數(shù)以及超參數(shù),包括機(jī)器翻譯、文檔摘要、問答和分類任務(wù)(如情感分析)等等。T5 模型甚至可以被應(yīng)用到回歸任務(wù)上,具體方式是訓(xùn)練 T5 模型來預(yù)測(cè)一個(gè)數(shù)字的字符串表示,而不是這個(gè)數(shù)字本身。

官方解讀,谷歌“T5”模型,如何突破遷移學(xué)習(xí)局限,實(shí)現(xiàn)多基準(zhǔn)測(cè)試SOTA

(雷鋒網(wǎng))

文本到文本框架圖。對(duì)于每個(gè)任務(wù),作者都考慮使用文本作為模型的輸入,并訓(xùn)練模型生成一些目標(biāo)文本。這讓他們能夠在多個(gè)任務(wù)上使用相同的模型、損失函數(shù)和超參數(shù),包括翻譯(綠色框)、語(yǔ)言可接受性(紅色框)、句子相似性(黃色框)和文檔摘要(藍(lán)色框)。它也為實(shí)證評(píng)估中所包含的方法提供了一個(gè)標(biāo)準(zhǔn)的試驗(yàn)臺(tái)。

二、大型預(yù)訓(xùn)練數(shù)據(jù)集(C4)

遷移學(xué)習(xí)的一個(gè)重要部分,便是用于模型預(yù)訓(xùn)練的未標(biāo)注的數(shù)據(jù)集。為了準(zhǔn)確地評(píng)估擴(kuò)大預(yù)訓(xùn)練規(guī)模的效果,我們需要一個(gè)不僅高質(zhì)量、多樣化而且規(guī)模龐大的數(shù)據(jù)集。

現(xiàn)有的預(yù)訓(xùn)練數(shù)據(jù)集無法滿足上述三點(diǎn)要求,例如來自維基百科的文本是高質(zhì)量的,并且格式統(tǒng)一,但是規(guī)模相對(duì)而言較小,而從Common Crawl 網(wǎng)站上爬取的文本雖然規(guī)模較大并且多樣化程度高,但是質(zhì)量相當(dāng)?shù)汀?/p>

為了滿足這三點(diǎn)要求,作者開發(fā)了一個(gè)Colossal Clean Crawled Corpus數(shù)據(jù)集 (C4),該數(shù)據(jù)集是比維基百科大兩個(gè)數(shù)量級(jí)的 Common Crawl  的清潔版本。他們的清潔處理過程涉及到刪除重復(fù)數(shù)據(jù)、去除不完整的句子以及消除冒犯性或有噪音的內(nèi)容。

這一過濾可以讓模型在下游任務(wù)上獲得更好的表現(xiàn),與此同時(shí)額外規(guī)模的數(shù)據(jù)集也讓模型在預(yù)訓(xùn)練期間不過擬合的情況下,增加其大小。

C4數(shù)據(jù)集地址:https://www.tensorflow.org/datasets/catalog/c4

三、遷移學(xué)習(xí)方法的系統(tǒng)研究

作者使用T5 文本到文本框架和新的預(yù)訓(xùn)練數(shù)據(jù)集C4,評(píng)估了在過去幾年間為NLP 遷移學(xué)習(xí)引入的大量思想和方法。

詳盡的評(píng)估細(xì)節(jié)可前往論文查看,其中包括以下實(shí)驗(yàn):模型架構(gòu)的實(shí)驗(yàn)中,他們發(fā)現(xiàn)編碼—解碼模型通常比“僅解碼”的語(yǔ)言模型,性能更優(yōu);預(yù)訓(xùn)練目標(biāo)的實(shí)驗(yàn)中,他們證實(shí)了填空式的去噪目標(biāo)(即訓(xùn)練模型來復(fù)原輸入中缺失的詞)的效果更好,并且其中最重要的因素是計(jì)算成本。

未標(biāo)注數(shù)據(jù)集的實(shí)驗(yàn)中,他們展示了在域內(nèi)數(shù)據(jù)集上訓(xùn)練模型是有益的,而在更小的數(shù)據(jù)集上對(duì)模型進(jìn)行預(yù)訓(xùn)練則會(huì)導(dǎo)致不利的過擬合;訓(xùn)練策略的實(shí)驗(yàn)中,他們發(fā)現(xiàn)多任務(wù)學(xué)習(xí)可以與“先預(yù)訓(xùn)練再微調(diào)”的方法相媲美,但是要求更細(xì)致地選擇模型在每個(gè)任務(wù)上訓(xùn)練的頻率。

模型規(guī)模的實(shí)驗(yàn)中,他們對(duì)比了不同大小的模型、訓(xùn)練時(shí)間以及集成模型的數(shù)量,以確定如何才能最好地利用固定的計(jì)算能力。

四、遷移方法+數(shù)據(jù)規(guī)模=性能最佳

為了探索NLP目前遷移學(xué)習(xí)的局限性,作者進(jìn)行了最后一組實(shí)驗(yàn),結(jié)合系統(tǒng)研究中的所有最佳方法,并利用Google Cloud TPU加速器進(jìn)行了優(yōu)化。其中最大規(guī)模的模型有110億個(gè)參數(shù),在GLUE、Superglue、Team和CNN/Daily Mail基準(zhǔn)測(cè)試中都能夠達(dá)到SOTA。另外,在SuperGLUE 自然語(yǔ)言理解的基準(zhǔn)測(cè)試中獲得了接近人類水平的分?jǐn)?shù)。

五、擴(kuò)展到其他任務(wù),表現(xiàn)也同樣可喜

T5非常靈活,可以非常容易的進(jìn)行修改,除了作者論文中的一些任務(wù),在其他任務(wù)中也能取得了巨大的成功。例如在下面兩個(gè)新任務(wù)中,模型表現(xiàn)也不錯(cuò)。

1、封閉數(shù)據(jù)問答

在閱讀理解問題中往往可以使用文本到文本的框架。給模型提供上下文信息以及一個(gè)問題,訓(xùn)練其在上下文信息中找到問題的答案,例如可以向模型提供維基百科文章中關(guān)于康尼颶風(fēng)的文本,并提問“康妮颶風(fēng)在哪天發(fā)生?”然后訓(xùn)練模型,讓其找到文章中的日期。

事實(shí)上,作者使用這種方法在斯坦福問答數(shù)據(jù)集(SQuAD)中取得了最先進(jìn)的結(jié)果。在作者的Colab demo和后續(xù)論文中,其訓(xùn)練了T5在一個(gè)更加困難的封閉的環(huán)境中回答瑣碎的問題,而且不需要接觸任何外部知識(shí)。換句話說,T在回答問題時(shí)只能用其在無監(jiān)督預(yù)訓(xùn)練期間訓(xùn)練出的參數(shù)和知識(shí)。

官方解讀,谷歌“T5”模型,如何突破遷移學(xué)習(xí)局限,實(shí)現(xiàn)多基準(zhǔn)測(cè)試SOTA

(雷鋒網(wǎng))

在預(yù)訓(xùn)練期間,T5學(xué)習(xí)如何從C4文檔中填充文本的丟失跨度。對(duì)模型進(jìn)行了微調(diào),在無需輸入任何信息或者上下文的情況下,將其應(yīng)用于已經(jīng)封閉式問答。T5非常擅長(zhǎng)這項(xiàng)任務(wù),其110億參數(shù)模型分別在TriviaQA、Web問題(WebQuestions)和自然問題(Natural Questions)對(duì)50.1%、37.4%和34.5%的答案進(jìn)行了精確生成。為了客觀看待此類問題,T5團(tuán)隊(duì)在酒吧瑣事挑戰(zhàn)(pub trivia challenge)與訓(xùn)練好的模型并肩作戰(zhàn),但不幸的是慘敗而歸。如下動(dòng)圖所示

官方解讀,谷歌“T5”模型,如何突破遷移學(xué)習(xí)局限,實(shí)現(xiàn)多基準(zhǔn)測(cè)試SOTA

2、完形填空第二個(gè)任務(wù)是完形填空。像GPT-2這種大型語(yǔ)言模型在文本生產(chǎn)方面非常擅長(zhǎng)。模型在經(jīng)過訓(xùn)練之后,能夠根據(jù)輸入預(yù)測(cè)出下一個(gè)單詞,如此將模型集成,便會(huì)產(chǎn)生非常創(chuàng)新性的應(yīng)用程序,例如基于文本的游戲“AI地下城”。

T5使用的預(yù)訓(xùn)練目標(biāo)與填空任務(wù)非常相似,在填空任務(wù)中,模型預(yù)測(cè)文本中缺少的單詞,但是此目標(biāo)是對(duì)“繼續(xù)任務(wù)”(continuation task)的概括,因?yàn)樘羁杖蝿?wù)中的空白有可能出現(xiàn)在文本的末尾。為了完成目標(biāo),創(chuàng)建了一個(gè)名為“填充空白”的新任務(wù),并要求模型用指定數(shù)量的單詞替換空白。例如給模型輸入:我喜歡吃花生醬和—4—三明治。大概會(huì)訓(xùn)練模型用4個(gè)單詞進(jìn)行填空。用C4對(duì)模型進(jìn)行了微調(diào),效果良好,尤其是模型對(duì)缺失文本的預(yù)測(cè)非常棒!例如下列對(duì)于輸入:“我喜歡花生醬和—N—三明治”,輸出結(jié)果如下所示:

官方解讀,谷歌“T5”模型,如何突破遷移學(xué)習(xí)局限,實(shí)現(xiàn)多基準(zhǔn)測(cè)試SOTA

預(yù)訓(xùn)練模型:

https://github.com/google-research/text-to-text-transfer-transformer#released-model-checkpoints

代碼:

https://github.com/google-research/text-to-text-transfer-transformerColab Notebookhttps://colab.research.google.com/github/google-research/text-to-text-transfer-transformer/blob/master/notebooks/t5-trivia.ipynb
via https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

官方解讀,谷歌“T5”模型,如何突破遷移學(xué)習(xí)局限,實(shí)現(xiàn)多基準(zhǔn)測(cè)試SOTA

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說