丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給栗峰
發(fā)送

0

GPT-2的探究:對(duì)虛假新聞生成的恐懼,源于技術(shù)還是人?

本文作者: 栗峰 2019-09-09 10:23
導(dǎo)語(yǔ):也許,與其抗拒生成文本技術(shù),不如去訓(xùn)練人類辯證思維!

雷鋒網(wǎng)AI科技評(píng)論編者按:今年年初,OpenAI發(fā)布了一個(gè)非常強(qiáng)大的語(yǔ)言模型,可以模擬生成類似人類創(chuàng)作出的文本。通常在公告發(fā)布之后就會(huì)面向公眾發(fā)布模型,但這這次的公告不同以往,它表示這樣一個(gè)強(qiáng)大的工具可能會(huì)構(gòu)成危險(xiǎn),因此只發(fā)布了一個(gè)較小、功能較單一的模型。

 很快,除了學(xué)術(shù)的熱議之外,這則新聞還被傳到了大眾媒體上,在那里,人們用相當(dāng)簡(jiǎn)單和夸張的方式描述它。在普通民眾中引起了恐慌;其他NLP人士中也提出了批評(píng)意見(jiàn);甚至連他們內(nèi)部也提出了質(zhì)疑。六個(gè)月后,OpenAI終于決定發(fā)布完整的模型。

那么這個(gè)模型是如何訓(xùn)練的?它們是如何使用的?它們真的那么好嗎?真的具有危險(xiǎn)嗎?

本文將對(duì)以上問(wèn)題做具體分析。 

一、 我們討論什么?

最近大多數(shù)人在談?wù)撜Z(yǔ)言模型(language models,LMs)的原因并不是說(shuō)他們都在進(jìn)行文本生成研究,而是因?yàn)榻?jīng)過(guò)預(yù)先訓(xùn)練的LMs(比如OpenAI GPT-2或Google的BERT)可以用于在各種NLP應(yīng)用程序中生成文本表征,大大提高了它們的性能。這種效果類似于2013年預(yù)先訓(xùn)練過(guò)的單詞嵌入對(duì)NLP產(chǎn)生的影響。我推薦閱讀SebastianRuder的文章《NLP的ImageNet時(shí)刻已經(jīng)到來(lái)》,對(duì)此有很好的總結(jié)。雷鋒網(wǎng)接下來(lái)將帶你領(lǐng)略文本生成。

在文本生成中有兩種完全不同的應(yīng)用:

1、開(kāi)放式文本生成:其目的是可以生成任何文本。它可以是一個(gè)特定的主題,也可以續(xù)寫(xiě)上一段,該模型被賦予了生成任何文本的最好效果。

2、限制性文本生成:這個(gè)模型預(yù)期將生成一個(gè)特定的文本。更正式地說(shuō),就是給定一些輸入,模型應(yīng)該嚴(yán)格依據(jù)輸入文本來(lái)生成。最好的例子是翻譯:例如給出一個(gè)法語(yǔ)句子,模型必須用英語(yǔ)生成一個(gè)與法語(yǔ)句子的意思相同的句子。其他例子包括摘要(給定長(zhǎng)文檔,生成包含文檔中重要細(xì)節(jié)的簡(jiǎn)短文本)、圖像描述(給定圖像,生成描述它的文本)、語(yǔ)音到文本(轉(zhuǎn)換)、以及將文本轉(zhuǎn)換為代碼或SQL查詢。

這篇文章的重點(diǎn)是開(kāi)放式文本生成。

二、 語(yǔ)言模型 

我之前曾經(jīng)討論過(guò)機(jī)器翻譯的語(yǔ)言模型。簡(jiǎn)單來(lái)說(shuō),語(yǔ)言模型是在文本中給定一個(gè)單詞來(lái)預(yù)測(cè)后續(xù)出現(xiàn)單詞的概率分布。分布在詞匯表上的所有單詞在總量上通常非常龐大(可能是幾十萬(wàn)或更多)。 

例如,“I'mtired, I want to”這個(gè)句子中的下一個(gè)單詞會(huì)是什么?一個(gè)好的語(yǔ)言模型會(huì)把高分分配給p(sleep|I'mtired, I want to)。像“bed”這樣的詞出現(xiàn)的概率應(yīng)該很低,雖然它是一個(gè)相關(guān)的術(shù)語(yǔ),但它并不構(gòu)成語(yǔ)法句子;再者是“party”,雖然語(yǔ)法上正確但與邏輯相矛盾。整個(gè)句子的概率是每個(gè)單詞條件概率的乘積,使用鏈?zhǔn)椒▌t,給定前面的單詞:

p(I'mtired, I want to sleep) = p(I'm|<s>) * p(tired|<s> I'm) *p(,|<s> I'm tired) * p(I|<s> I'm tired,) *p(want|<s> I'm tired, I) * p(to|<s> I'm tired, I want) *p(sleep|<s> I'm tired, I want to) * p(</s>|<s> I'mtired, I want to sleep)

其中<s>和</s>分別標(biāo)記句子的開(kāi)頭和結(jié)尾。請(qǐng)注意,我在這篇文章中使用了基于單詞的LM進(jìn)行演示,但是,可以將基本標(biāo)記定義為token或“Word部件”/“子詞單元”。 

三、生成文本

雖然LMs可以用來(lái)對(duì)某一文本在通常語(yǔ)言邏輯中出現(xiàn)的可能性進(jìn)行評(píng)分,但在這篇文章中,我們將討論它們的另一個(gè)常見(jiàn)用法,即生成新文本。

假設(shè)我們已經(jīng)訓(xùn)練了一個(gè)語(yǔ)言模型,我們?nèi)绾紊晌谋灸兀?/p>

我們用一個(gè)非常簡(jiǎn)單的玩具LM來(lái)演示,它的詞匯量很小,僅有少量可能的話語(yǔ):

GPT-2的探究:對(duì)虛假新聞生成的恐懼,源于技術(shù)還是人?

要使用語(yǔ)言模型生成文本,必須逐個(gè)地生成,后面的符號(hào)由前面符號(hào)定義的分布決定。最基本的方法是在每一步簡(jiǎn)單地使用最可能的詞。代碼將如下所示:

GPT-2的探究:對(duì)虛假新聞生成的恐懼,源于技術(shù)還是人?

我們的玩具LM只生成句子“This LM is cool”。一般來(lái)說(shuō),這種生成方法是非常受限的,因?yàn)樗谋憩F(xiàn)單一,尤其是它更傾向于出現(xiàn)概率大的單詞,其中一些是虛詞,如限定詞(the,a,.),介詞(on,in,of,.)。諸如此類。此外,據(jù)一些研究表明,最大概率生成的文本與人工生成的文本有很大不同。人們說(shuō)話并不會(huì)考慮哪些單詞出現(xiàn)的概率更大、哪些句子更常規(guī),而是要告訴聽(tīng)眾對(duì)他們最有幫助,或者是他們還不知道的信息(根據(jù)Grice's Cooperative原則)。

另一種方法是根據(jù)語(yǔ)言模型從分布中抽樣,即從詞匯表中隨機(jī)選取一個(gè)單詞,與先前給定的單詞概率成正比。代碼如下所示:

  GPT-2的探究:對(duì)虛假新聞生成的恐懼,源于技術(shù)還是人?

你可能會(huì)注意到,多次運(yùn)行這個(gè)代碼,有時(shí)生成的LM并不符合常理,而有時(shí)這個(gè)LM是可用的。雖然這種抽樣方法傾向于產(chǎn)生更多樣化的文本,但它也不完美,因?yàn)楝F(xiàn)在有機(jī)會(huì)在每一個(gè)時(shí)間步中對(duì)一個(gè)生詞或無(wú)關(guān)的單詞進(jìn)行采樣,一旦模型完成,下一個(gè)單詞的生成就取決于這個(gè)生詞,這就是它可能會(huì)走下坡路的原因。

一個(gè)簡(jiǎn)單的解決方案是將這兩種方法結(jié)合在一起,僅從分布中概率最大的top k 個(gè)單詞中抽取樣本。如下所示:

GPT-2的探究:對(duì)虛假新聞生成的恐懼,源于技術(shù)還是人?

注意,在分布中只保留k個(gè)單詞之后,我們需要再次確保它們形成有效的概率分布,即每個(gè)數(shù)據(jù)在0到1之間,并且總和是1。

從分布頂端取樣的另一種方法是top p:將符號(hào)根據(jù)從大到小的概率排序,然后抽取符號(hào),直到概率之和(也就是生成這些符號(hào)的概率)達(dá)到0到1之間的某個(gè)預(yù)定義值p為止。如果p值接近 0,那么模型將始終采用概率最大的token,而如果p值接近1,那么將從完整的分布中進(jìn)行采樣。

顯然這種方法相對(duì)于topk更加靈活,因?yàn)楹蜻xtoken的數(shù)量會(huì)根據(jù)所生成的前綴而改變。例如,對(duì)于像“I want to”這樣的文本就會(huì)有更多的候選者,而像“The bride andthe groom got”可選的token就不多(“married”應(yīng)該占很大一部分的概率)。

四、訓(xùn)練語(yǔ)言模型 

我之前討論過(guò)N-gram語(yǔ)言模型,但是4年前它們就已經(jīng)過(guò)時(shí)了,取而代之的是神經(jīng)語(yǔ)言模型。神經(jīng)LM的基本訓(xùn)練算法如下:

GPT-2的探究:對(duì)虛假新聞生成的恐懼,源于技術(shù)還是人?

不同的神經(jīng)LMs在基本token(即字、字符、字塊)和編碼器的選擇上有所不同。編碼器采用一系列單詞嵌入并返回表示相應(yīng)單詞序列的單個(gè)向量(例如: tired, I want to)。我以后可能會(huì)再寫(xiě)一篇文章專門(mén)討論將文本編碼為向量的方法。本文我們僅將其視為黑匣子。下圖說(shuō)明了訓(xùn)練方法(尤其是基于RNN的編碼器):

GPT-2的探究:對(duì)虛假新聞生成的恐懼,源于技術(shù)還是人?

神經(jīng)LMs相比于N-gram LMs,有兩個(gè)重要的優(yōu)勢(shì):

1)N-gram LM通常根據(jù)前一個(gè)單詞預(yù)測(cè)下一個(gè)單詞,例如, I'mtired, I want to,3-gram LM只會(huì)根據(jù)最后3個(gè)單詞“I want to”來(lái)預(yù)測(cè)下一個(gè)可能出現(xiàn)的單詞,完全忽略了“tired”這個(gè)關(guān)鍵詞。N-gram LMs通常以小N(2 - 4個(gè))為基礎(chǔ)。(請(qǐng)參閱關(guān)于N-gram 語(yǔ)言模型的文章獲得詳細(xì)的解釋)。

2)N-gram LM是基于文本數(shù)據(jù)中每個(gè)文本出現(xiàn)次數(shù)的統(tǒng)計(jì),它必須是逐字逐句的,“I'mtired”的出現(xiàn)次數(shù)與“I'm exhausted”的出現(xiàn)次數(shù)是完全不相關(guān)的,而神經(jīng)LMs卻學(xué)習(xí)將文本片段表示為向量,并在此基礎(chǔ)上預(yù)測(cè)下一個(gè)單詞。它可以通過(guò)分配相似的向量表征來(lái)概括語(yǔ)義相似的文本(結(jié)果是相同的預(yù)測(cè))。

一個(gè)重要的提示:當(dāng)前的LM訓(xùn)練有不同的訓(xùn)練目標(biāo),即不再執(zhí)著于猜測(cè)句子中可能出現(xiàn)的下一個(gè)單詞。具體而言,BERT具有“掩蔽LM的目的”,即隱藏句子中的隨機(jī)單詞,并通過(guò)聯(lián)系上下文對(duì)后面出現(xiàn)的單詞進(jìn)行預(yù)測(cè),在這些隱藏單詞的前后都用符號(hào)標(biāo)記。文本GAN(生成對(duì)抗網(wǎng)絡(luò))由兩個(gè)組件組成:生成類似人類文本的生成器和經(jīng)過(guò)訓(xùn)練以區(qū)分人類生成文本和生成器生成文本的鑒別器。實(shí)際上,當(dāng)前基于GAN的文本生成的表現(xiàn)不如語(yǔ)言模型的生成。

五、評(píng)估文本生成 

比較兩個(gè)用于解決相同任務(wù)的分類器的性能很容易。有一個(gè)測(cè)試集,每個(gè)數(shù)據(jù)點(diǎn)帶有真實(shí)標(biāo)注;使用模型預(yù)測(cè)測(cè)試數(shù)據(jù)的標(biāo)注,并計(jì)算每個(gè)模型與真實(shí)標(biāo)注相比的準(zhǔn)確度。我們會(huì)得到兩個(gè)數(shù)值,精度越高模型就越好。

但這對(duì)于文本生成來(lái)說(shuō)卻并不奏效。

由于我們討論的是開(kāi)放式文本生成,并不存在黃金標(biāo)準(zhǔn)文本(gold standard text)來(lái)評(píng)判模型的準(zhǔn)確度。

那么,我們?cè)撊绾闻袛嗄P偷馁|(zhì)量呢?

目前最好的方法就是,我們手動(dòng)去查看模型生成的部分文本的質(zhì)量來(lái)評(píng)判一個(gè)模型是否足夠優(yōu)秀。

為了更系統(tǒng)地做到這一點(diǎn),我們可以通過(guò)向人們展示由我們的模型生成的文本和由某個(gè)基礎(chǔ)模型(或人類)生成的文本,讓他們對(duì)比評(píng)分,并對(duì)這些評(píng)價(jià)匯總,總結(jié)出對(duì)這些文本最準(zhǔn)確的評(píng)價(jià)。

但這種方法成本卻極高,而且耗時(shí)很長(zhǎng)。因此,在模型開(kāi)發(fā)的最后階段,它通常應(yīng)用于相對(duì)較少的文本,而不是在中間步驟去驗(yàn)證文本(這可能有助于改進(jìn)模型)。

另一種常用的方法是困惑度:根據(jù)定義,它是測(cè)試集的逆概率,由字?jǐn)?shù)來(lái)量化。我們希望得到一個(gè)盡可能低的困惑評(píng)分,這意味著測(cè)試集的概率是最大化的。也就是說(shuō),LM學(xué)習(xí)了一個(gè)類似于“truth”的概率分布。測(cè)試集是LM從未見(jiàn)過(guò)的文本,它的概率是通過(guò)逐字逐句的檢查并計(jì)算LM預(yù)測(cè)的每個(gè)單詞的概率來(lái)計(jì)算的。好的LM會(huì)將大概率分配給“正確的”(實(shí)際的)下一個(gè)單詞,而將小概率分配給其他單詞。

困惑度雖然是最常見(jiàn)的文本生成評(píng)價(jià)指標(biāo),但由于種種原因也備受質(zhì)疑。主要是因?yàn)槔Щ蠖鹊母纳撇⒉坏韧谡Z(yǔ)言模型的改進(jìn)(它基本上不是象征質(zhì)量好的指標(biāo))。另外,也是因?yàn)槔Щ蠖炔荒苡脕?lái)評(píng)估文本生成模型,這些模型不會(huì)像GAN一樣產(chǎn)生單詞分布。如果你認(rèn)為限制性文本生成的評(píng)估指標(biāo)更好,那就要仔細(xì)考慮清楚了!

六、 語(yǔ)言模型是否危險(xiǎn)?

我之前討論過(guò)機(jī)器學(xué)習(xí)模型濫用的風(fēng)險(xiǎn),結(jié)論是:如果有人惡意使用LMs,那么可能會(huì)造成危險(xiǎn)。

更具體地說(shuō),OpenAI的聲明表達(dá)了這樣一種擔(dān)憂,就是如果發(fā)布這種模型,可能會(huì)被用于大規(guī)模地生成虛假新聞。

雖然這有可能會(huì)發(fā)生,但目前文本生成的兩個(gè)限制可能會(huì)減少對(duì)LMs濫用風(fēng)險(xiǎn)的恐慌——至少暫時(shí)會(huì)。

人類發(fā)布假新聞通常有一定的目的,為了宣傳或者為了點(diǎn)擊量(擴(kuò)大廣告收益)。與人類不同,語(yǔ)言模型生成文本是沒(méi)有目的性的。這里提到的語(yǔ)言模型是為了生成看起來(lái)更加真實(shí)、連貫、與主題相關(guān)的文本。因此想要用它們來(lái)產(chǎn)生大規(guī)模的假新聞事實(shí)上并沒(méi)有那么簡(jiǎn)單。

GPT-2的探究:對(duì)虛假新聞生成的恐懼,源于技術(shù)還是人?

Grover是一個(gè)例外,它的目的是生成可控文本。也可以說(shuō),它就是因?yàn)榧傩侣劦漠a(chǎn)生而存在的,由幾個(gè)參數(shù)控制:域(如“紐約時(shí)報(bào)”)、日期、作者和標(biāo)題。然而,最重要的是,這個(gè)模型可以非常準(zhǔn)確地區(qū)分假新聞和真實(shí)新聞。它能識(shí)別出機(jī)器生成的文本和人類生成的文本之間的細(xì)微差別,即使文本是由另一種語(yǔ)言模型生成的,它也能準(zhǔn)確地區(qū)分它們。這其實(shí)說(shuō)明了一點(diǎn):機(jī)器生成的文本還不夠好(如果是以人類生成的文本為標(biāo)準(zhǔn)的話)。

當(dāng)然,今天生成文本已經(jīng)令人印象深刻。它具有語(yǔ)法性,在大多數(shù)情況下不會(huì)偏離主題。但這并不是說(shuō)它就具有事實(shí)意識(shí)(看看它是如何延續(xù)以下句子的:GPT-2 is a language model ___),它也沒(méi)有什么常識(shí)(舉個(gè)例子:she fell and broke her leg becausesomeone left a banana peel ____)。盡管有時(shí)人類無(wú)法判斷出一段文字是否是由機(jī)器產(chǎn)生,但有一些模型卻能很好地做到這一點(diǎn)。

一個(gè)機(jī)器人讓我們失望,而另一個(gè)卻沒(méi)有。

雷鋒網(wǎng)認(rèn)為害怕虛假信息可以理解,但至少在目前更擔(dān)心的是這些信息背后的人——那些使用模型制造虛假新聞的人,惡意傳播它的人,以及那些完全不知情的人。

也許,與其抗拒虛假信息技術(shù),不如去訓(xùn)練人類辯證思維!

via: https://veredshwartz.blogspot.com/2019/08/text-generation.html

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

GPT-2的探究:對(duì)虛假新聞生成的恐懼,源于技術(shù)還是人?

分享:
相關(guān)文章
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)