什么是 XLNet ? 為什么它的性能優(yōu)于 BERT？

本文作者： AI研習(xí)社-譯站

2019-07-24 15:19

導(dǎo)語：XLNet：NLP領(lǐng)域中一個新的預(yù)訓(xùn)練方法，相比BERT可以顯著提高20個任務(wù)的準(zhǔn)確率。

原標(biāo)題 | What is XLNet and why it outperforms BERT
作者 | Xu LIANG
譯者 | Ryan（西安理工大學(xué)）、依耶芙特?歐

XLNet發(fā)布后僅僅不到一周的時間，我周圍NLP領(lǐng)域的每個人似乎都在談?wù)撍?/span>

XLNet：NLP領(lǐng)域中一個新的預(yù)訓(xùn)練方法，相比BERT可以顯著提高20個任務(wù)的準(zhǔn)確率。

arxiv：https://arxiv.org/abs/1906.08237

github (代碼 + 預(yù)訓(xùn)練模型)：https://github.com/zihangdai/xlnet

由Zhilin Yang, @ZihangDai, Yiming Yang,
Jaime Carbonell, @rsalakhu等發(fā)出。

是的，“在 BERT 基礎(chǔ)上20個任務(wù)提高了準(zhǔn)確率”確實吸引了我們的眼球。但是更加重要的事情是去理解 XLnet 的工作原理以及為何它的效果超過BERT。所以我寫了這個博客來分享我閱讀論文后的理解。

內(nèi)容結(jié)構(gòu)如下：

什么是 XLNet？
XLNet 和 BERT 有哪些區(qū)別？
XLNet 是如何工作的？

什么是 XLNet?

首先，XLNet是一個類似BERT的模型，而不是完全不同的模型。但這是一個非常有前途和潛力的模型?？傊?，XLNet是一種通用的自回歸預(yù)訓(xùn)練方法。

那么什么是自回歸（AR）語言模型？

AR語言模型是一種利用上下文詞來預(yù)測下一個詞的模型。但是在這里，上下文詞被限制在兩個方向上，要么向前，要么向后。

什么是 XLNet ? 為什么它的性能優(yōu)于 BERT？

GPT和GPT-2都是自回歸語言模型。

AR語言模型在生成NLP任務(wù)方面具有很好的優(yōu)勢，因為在生成上下文時，通常是向前的方向。AE語言模型自然能很好地處理這些NLP任務(wù)。

但AR語言模型存在一些不足，它只能使用前向上下文或后向上下文，這意味著它不能同時使用前向上下文和后向上下文。

XLNet 和 BERT 有什么區(qū)別？

與AR語言模型不同，BERT被歸類為自動編碼器(AE)語言模型。

AE語言模型的目的是從被破壞的輸入中重建原始數(shù)據(jù)。

什么是 XLNet ? 為什么它的性能優(yōu)于 BERT？

損壞的輸入意味著我們在預(yù)處理階段中使用[MASK]將原始標(biāo)記into。目的是預(yù)測into來得到原來的句子。

AE語言模型的優(yōu)點在于它可以看到前后兩個方向的語境。

但是，AE語言模型也有其不足之處。它在預(yù)訓(xùn)練中使用了[MASK]，但是這種人工符號在訓(xùn)練過程中沒有出現(xiàn)在實際數(shù)據(jù)中，導(dǎo)致了訓(xùn)練前的誤差。[MASK]的另一個缺點是假定預(yù)測的(蒙面的)標(biāo)記是相互獨立的，給出未蒙面的標(biāo)記。例如，我們有一句話：“這表明房地產(chǎn)危機已轉(zhuǎn)變?yōu)殂y行危機”。我們掩蓋住“銀行”和“危機”。在這里，我們知道遮住的“銀行”和“危機”包含彼此的隱含關(guān)系。但AE模型試圖預(yù)測“銀行”和“危機”，并分別給出未掩蓋的標(biāo)記。它忽略了“銀行”與“危機”之間的關(guān)系。換句話說，它假定預(yù)測的(蒙面的)標(biāo)記是相互獨立的。但我們知道，模型應(yīng)該了解預(yù)測(蒙面)標(biāo)記之間的這種相關(guān)性，以預(yù)測其中一個標(biāo)記。

作者想強調(diào)的是，XLNet提出了一種讓AR語言模型從雙向語境中學(xué)習(xí)的新方法，以避免AE語言模型中的掩碼方法帶來的缺點。