丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能學術 正文
發(fā)私信給我在思考中
發(fā)送

0

不可能三角:預訓練語言模型的下一步是什么?

本文作者: 我在思考中 2022-04-27 10:38
導語:PLM的不可能三角困境。
不可能三角:預訓練語言模型的下一步是什么?
PLM的不可能三角困境。

編譯 | 王玥

編輯 | 陳彩嫻

近年來,大規(guī)模預訓練語言模型(PLM)顯著提高了各種NLP任務的性能。由BERT和GPT-2開始,自監(jiān)督預訓練范式和監(jiān)督的微調(diào)范式取得了巨大的成功,并刷新了許多自然語言處理領域的最先進成果,如語義相似度、機器閱讀理解、常識推理和文本摘要等。此外,這些PLM的規(guī)模為中等(即大小低于1B參數(shù)),令模型可以做出廣泛且快速的微調(diào)與適應。

然而在許多真實的、特別是新穎的NLP場景中,由于預算或時間限制,用于有效微調(diào)的標記數(shù)據(jù)非常有限。這就刺激了零樣本和少樣本NLP模型的開發(fā)。

從GPT-3開始,超大規(guī)模 PLM (SL-PLM)在只給出任務描述和一些手工示例的情況下,在一般的NLP任務上表現(xiàn)出了優(yōu)越的性能。這種能力以前在中等規(guī)模的PLM中沒有觀察到。然而,這些SL-PLM前所未有的超大規(guī)模在很大程度上阻礙了其廣泛應用。人們甚至很難獲得足夠的計算資源來加載這樣的模型,更不用說有效的部署和微調(diào)了。因此我們認為,目前還沒有一種輕量級PLM在監(jiān)督學習和一般NLP任務的零/少樣本學習場景中都具有出色的性能。這導致了在實際場景中使用這些PLM時需要投入大量的額外工作。

對于PLM來說,似乎產(chǎn)生了中等規(guī)模,零/少樣本學習能力和微調(diào)能力三者不可同時出現(xiàn)的困境。日前,微軟認知服務研究小組研究員朱晨光(Chenguang Zhu)及 Michael Zeng在其新論文《Impossible Triangle: What’s Next for Pre-trained Language Models?》中將這種困境稱為“不可能三角”。

據(jù)悉,朱晨光本科畢業(yè)于清華姚班,后取得斯坦福大學計算機系博士學位,畢業(yè)后進入微軟公司,現(xiàn)為微軟公司自然語言處理高級研究員。此前,AI科技評論對朱晨光博士做過一次人物專訪,更多內(nèi)容可看:《朱晨光:一個從不通宵的AI研究員》。



1

不可能三角

不可能三角:預訓練語言模型的下一步是什么?

PLM的不可能三角包含了在實際場景中部署模型所需的三個屬性,分別是:

  • P1:模型規(guī)模適中,即參數(shù)小于10億

  • P2:SoTA少樣本學習能力

  • P3::SoTA微調(diào)能力

三角形圖源:https://commons.wikimedia.org/wiki/File:Penrose_triangle.svg

圖為描述當前PLM障礙的不可能三角形,這個三角形描繪了三個PLM關鍵屬性:P1,即模型規(guī)模適中,P2,即SoTA少樣本學習能力,以及P3,即SoTA監(jiān)督學習能力。這三個屬性對應于PLM實際應用中的三個要求:P1是使用合理數(shù)量的計算資源進行高效部署;P2對應標記數(shù)據(jù)為零或很少的情況;而P3對應標記數(shù)據(jù)相對豐富的情景。

不可能三角形存在的一個原因是,在當前階段,只有當PLM達到極大的規(guī)模并具有足夠的模型容量時,才會擁有強大的少樣本學習能力。雖然iPET設計了中等大小的PLM,從而實現(xiàn)比GPT-3更佳的少樣本學習性能,但已經(jīng)被后來的SL-PLM(如PaLM)超越。隨著模型規(guī)模的增大,我們可以觀察到零樣本/少樣本學習性能的不連續(xù)改善。例如,與參數(shù)為8B和62B的模型相比,參數(shù)為540B的PaLM在許多任務上的準確性都有了巨大飛躍。因此,開發(fā)出一個具有SoTA零/少樣本學習性能的中等大小模型,同時又保持高超的監(jiān)督學習能力,仍然是一個巨大的挑戰(zhàn)。

雖然沒有一個PLM能實現(xiàn)不可能三角中的所有三個特性,但許多PLM已經(jīng)具備了其中的一or兩個屬性:

  • 中等規(guī)模的PLM(具備P1 + P3的屬性),這些語言模型屬于中等大小,參數(shù)小于10億個,從而能夠有效地進行模型調(diào)優(yōu)和部署。它們在一般的NLP任務中都可以達到SoTA性能,這些NLP任務包括GLUE基準測試、文本摘要、開放域問題回答和常識推理等。然而這些模型的零/少樣本學習能力通常相對較弱,這意味著使用這些模型需要依賴目標域中足夠的標記數(shù)據(jù)。

  • 具備P2屬性的超大規(guī)模PLM,這些語言模型有極大的規(guī)模(參數(shù)從10到1000億不等),且已經(jīng)在超大規(guī)模的數(shù)據(jù)上預訓練過。擁有5400億個參數(shù)、在7800億個單詞的文本語料庫上進行了預訓練的PaLM就屬此列。當只提示任務描述和少量輸入輸出對示例時,他們在一般的零/少樣本NLP任務中已經(jīng)實現(xiàn)了SoTA性能。然而總的來說,1)SL-PLM的零/少樣本學習性能低于有監(jiān)督訓練的模型,2)經(jīng)過微調(diào)后,許多SL-PLM的性能仍然低于最好的經(jīng)過微調(diào)的中等大小的PLM,這可能就是因為它們的模型規(guī)模太大。



2

改善措施

由于不可能三角的存在,學界和工業(yè)界采取了許多措施來解決實踐中所使用的PLM所缺少的能力??偨Y如下:

  • 極大模型(缺少P1):這種情況出現(xiàn)在需要部署一個超大PLM的時候。為了獲得一個中等規(guī)模、性能與SL-PLM類似的模型,常用的做法是知識蒸餾(KD)。在KD中,較大的模型是老師,較小的模型是學生,從教師的預測分布和/或參數(shù)中學習。知識提取在創(chuàng)建更高效的模型時非常有效,只需要犧牲一點性能。然而,這里仍然存在兩個問題。首先,學生很難達到和老師一樣的表現(xiàn)。其次,SL-PLM的巨大規(guī)模阻礙了有效的推理,使它們不方便作為教師模型。

  • 零/少樣本學習性能較差(缺少P2)。這對于中等規(guī)模的PLM最常見,它們在微調(diào)后可以實現(xiàn)SoTA性能,但具有相對較低的零/少樣本學習能力。在許多場景中,當缺少足夠的標記數(shù)據(jù)時,希望部署這樣的模型。因此,解決這個問題的一種方法是數(shù)據(jù)增強,生成偽標簽和偽數(shù)據(jù)實例使得模型可以利用這些額外的數(shù)據(jù)進行有效的監(jiān)督訓練。然而,偽數(shù)據(jù)質(zhì)量的參差不齊和不同任務中數(shù)據(jù)類型的多樣性對普遍適用的解決方案提出了挑戰(zhàn)。

  • 監(jiān)督訓練表現(xiàn)欠佳(缺乏P3)。這種情況在使用SL-PLM時很常見,在這種情況下,計算資源有限使得微調(diào)超大型模型的所有參數(shù)變得十分困難。一個典型解決方案是prompt學習。我們可以利用hard prompt,如離散文本模板,或 soft prompt,如連續(xù)參數(shù)嵌入,以便在微調(diào)期間僅更新 hard prompt 詞或 soft prompt 參數(shù)。這些方法已被證明對于提高SL-PLM 的準確度十分有效。然而,這些方法的效果對prompt以及訓練數(shù)據(jù)的選擇非常敏感,且最終效果一般仍然低于監(jiān)督學習后的中等規(guī)模PLM。

以上提到的這些額外工作拖慢了訓練和部署PLM模型的進程。而且對于不同下游任務或產(chǎn)品,需要不斷進行這些工作。因此,如果一個PLM能夠實現(xiàn)這個不可能三角形,則將大大加快模型訓練和實用的過程。



3

展望未來

雖然目前在NLP模型中存在不可能三角形,但研究者認為可以通過三階段的方法來解決這個問題。

階段1:開發(fā)PLM以達到三角形中的某些屬性,并同時改進其他缺失的屬性。例如,提高一個具有SoTA監(jiān)督學習能力的中等規(guī)模模型在少樣本學習上的效果;或將具有SoTA少樣本學習能力的SL-PLM壓縮成更小的模型,并使其具有更好的監(jiān)督學習性能。

階段2:在一個或幾個NLP任務上實現(xiàn)具有所有三個期望屬性的PLM。為了實現(xiàn)這一點,可以利用目標任務的特殊性。例如,在某些任務上,模型性能對于訓練數(shù)據(jù)規(guī)模的依賴性較小,零/少樣本學習和監(jiān)督學習性能之間的差距較小,等等。

階段3:在第一階段和第二階段的基礎上開發(fā)在通用NLP任務上實現(xiàn)所有三個屬性的PLM??赡苁褂玫降姆椒ㄓ校篿) 用更大數(shù)據(jù)預訓練一個中等規(guī)模模型; ii) 更好地進行知識蒸餾; iii) 泛化數(shù)據(jù)增強方法等。一旦一個PLM在通用NLP任務中具備了不可能三角形的所有三個特性,將很大程度上改變整個NLP研究和應用的格局,促進快速、高效和高質(zhì)量的模型開發(fā)和部署。

原文鏈接:https://arxiv.org/pdf/2204.06130.pdf

不可能三角:預訓練語言模型的下一步是什么?

雷峰網(wǎng)(公眾號:雷峰網(wǎng))

雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

不可能三角:預訓練語言模型的下一步是什么?

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說