Pytorch-Transformers 1.0 發(fā)布，支持六個(gè)預(yù)訓(xùn)練框架，含 27 個(gè)預(yù)訓(xùn)練模型

本文作者：叢末

2019-07-17 17:23

導(dǎo)語：本文還有安裝教程！

雷鋒網(wǎng) AI 科技評(píng)論按：剛剛，在 Github 上發(fā)布了開源 Pytorch-Transformers 1.0，該項(xiàng)目支持 BERT, GPT, GPT-2, Transfo-XL, XLNet, XLM 等，并包含 27 個(gè)預(yù)訓(xùn)練模型。

我們來看。

哪些支持

PyTorch-Transformers（此前叫做pytorch-pretrained-bert）是面向自然語言處理，當(dāng)前性能最高的預(yù)訓(xùn)練模型開源庫。

該開源庫現(xiàn)在包含了 PyTorch 實(shí)現(xiàn)、預(yù)訓(xùn)練模型權(quán)重、運(yùn)行腳本和以下模型的轉(zhuǎn)換工具：

1、谷歌的 BERT，論文：“BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”，論文作者：Jacob Devlin, Ming-Wei Chang, Kenton Lee ，Kristina Toutanova

2、OpenAI 的GPT，論文：“ Improving Language Understanding by Generative Pre-Training”，論文作者：Alec Radford, Karthik Narasimhan, Tim Salimans ， Ilya Sutskever

3、OpenAI 的 GPT-2，論文：“ Language Models are Unsupervised Multitask Learners”，論文作者：Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei，Ilya Sutskever

4、谷歌和 CMU 的 Transformer-XL ，論文：“ Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context”，論文作者：Zihang Dai*, Zhilin Yang*, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov.

5、谷歌和 CMU 的XLNet，論文：“XLNet: Generalized Autoregressive Pretraining for Language Understanding”，論文作者：Zhilin Yang*, Zihang Dai*, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le

6、Facebook的 XLM，論文：“ Cross-lingual Language Model Pretraining”，論文作者：Guillaume Lample，Alexis Conneau

這些實(shí)現(xiàn)都在幾個(gè)數(shù)據(jù)集（參見示例腳本）上進(jìn)行了測(cè)試，性能與原始實(shí)現(xiàn)相當(dāng)，例如 BERT中文全詞覆蓋在 SQuAD數(shù)據(jù)集上的F1分?jǐn)?shù)為93 ， OpenAI GPT 在 RocStories上的F1分?jǐn)?shù)為88， Transformer-XL在 WikiText 103 上的困惑度為18.3， XLNet在STS-B的皮爾遜相關(guān)系數(shù)為0.916。

27個(gè)預(yù)訓(xùn)練模型

項(xiàng)目中提供了27個(gè)預(yù)訓(xùn)練模型，下面是這些模型的完整列表，以及每個(gè)模型的簡短介紹。

Pytorch-Transformers 1.0 發(fā)布，支持六個(gè)預(yù)訓(xùn)練框架，含 27 個(gè)預(yù)訓(xùn)練模型

例子

BERT-base和BERT-large分別是110M和340M參數(shù)模型，并且很難在單個(gè)GPU上使用推薦的批量大小對(duì)其進(jìn)行微調(diào)，來獲得良好的性能（在大多數(shù)情況下批量大小為32）。

為了幫助微調(diào)這些模型，我們提供了幾種可以在微調(diào)腳本中激活的技術(shù) run_bert_classifier.py 和 run_bert_squad.py：梯度累積（gradient-accumulation），多GPU訓(xùn)練（multi-gpu training），分布式訓(xùn)練（distributed training ）和16- bits 訓(xùn)練（ 16-bits training）。注意，這里要使用分布式訓(xùn)練和16- bits 訓(xùn)練，你需要安裝NVIDIA的apex擴(kuò)展。

作者在doc中展示了幾個(gè)基于BERT原始實(shí)現(xiàn)（https://github.com/google-research/bert/）和擴(kuò)展的微調(diào)示例，分別為：