丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

太魔幻了!DALL·E 2 居然能用自創(chuàng)的語(yǔ)言來(lái)生成圖像,AI模型的可解釋性再一次暴露短板

本文作者: 我在思考中 2022-06-02 11:05
導(dǎo)語(yǔ):萬(wàn)一DALL·E-2是在向人類(lèi)發(fā)出什么了不得的信號(hào)呢?這門(mén)語(yǔ)言快學(xué)起來(lái)!

太魔幻了!DALL·E 2 居然能用自創(chuàng)的語(yǔ)言來(lái)生成圖像,AI模型的可解釋性再一次暴露短板

萬(wàn)一DALL·E-2是在向人類(lèi)發(fā)出什么了不得的信號(hào)呢?這門(mén)語(yǔ)言快學(xué)起來(lái)!
作者|李梅、劉冰一

編輯|陳彩嫻

DALL·E 和 DALL·E-2從文本生成圖像的魔力,想必大家都已經(jīng)見(jiàn)識(shí)過(guò)了。作為深度生成模型,它們能夠?qū)⑽谋咀鳛檩斎耄善ヅ浣o定文本的超逼真圖像。
不過(guò),DALL·E-2 的一個(gè)眾所周知的局限性是它在生成帶文本的圖像時(shí)很吃力。
例如,給出文本提示:Two farmers talking about vegetables,with subtitles.(兩個(gè)農(nóng)民在談?wù)撌卟耍凶帜唬?/span>
DALL·E-2 生成的圖像如下:
太魔幻了!DALL·E 2 居然能用自創(chuàng)的語(yǔ)言來(lái)生成圖像,AI模型的可解釋性再一次暴露短板
誰(shuí)能告訴我這張圖上的文字是什么語(yǔ)言?什么意思???
在DALL·E-2所生成的帶有文本的圖像中,DALL·E-2顯然在說(shuō)一種我們?nèi)祟?lèi)看不懂的語(yǔ)言。其實(shí)這一點(diǎn)在最初的DALL·E-2論文以及Marcus等人對(duì)該模型的初步評(píng)估中就已經(jīng)發(fā)現(xiàn)了。
而最近有人發(fā)現(xiàn),這些讓人無(wú)法理解的文本并不是隨機(jī)的!

來(lái)自德克薩斯大學(xué)奧斯汀分校的博士生Giannis Daras 和 Alexandros G. Dimakis教授,發(fā)現(xiàn)DALLE-2背后竟然有一套秘密語(yǔ)言,模型內(nèi)部似乎有一套隱藏的詞匯表,從這些隱藏的詞匯中,模型會(huì)學(xué)習(xí)一些單詞,并創(chuàng)造一些荒謬的文本提示來(lái)生成圖像。

比如,在DALL·E-2的語(yǔ)言系統(tǒng)里,Apoploe vesrreaitais意思是鳥(niǎo)類(lèi),Contarra ccetnxniams luryca tanniounons則表示昆蟲(chóng)或害蟲(chóng)。
當(dāng)你輸入這個(gè)句子作為文本提示時(shí):Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounons
DALL·E-2生成了下面這些圖像,圖像內(nèi)容翻譯成英語(yǔ),顯然是“A bird is eating a bug”(一只鳥(niǎo)在吃蟲(chóng)子)
太魔幻了!DALL·E 2 居然能用自創(chuàng)的語(yǔ)言來(lái)生成圖像,AI模型的可解釋性再一次暴露短板
DALL·E-2這是「成精」了?
太魔幻了!DALL·E 2 居然能用自創(chuàng)的語(yǔ)言來(lái)生成圖像,AI模型的可解釋性再一次暴露短板



1

DALL·E-2 的秘密語(yǔ)言

Daras 和 Dimakis 采用了一種簡(jiǎn)單的方法來(lái)破解DALL·E-2的詞匯庫(kù)。
比如,假設(shè)我們想找到在DALL·E-2的語(yǔ)言系統(tǒng)中,“ vegetables(蔬菜)”這個(gè)英語(yǔ)單詞對(duì)應(yīng)的詞是什么,就可以用下面這些句子來(lái)提示DALL·E-2:
  • A book that has the word vegetables written on it.(上面寫(xiě)著“蔬菜”一詞的書(shū)。)
  • Two people talking about vegetables, with subtitles.(兩個(gè)人在談?wù)撌卟耍凶帜?。?/span>
  • The word vegetables written in 10 languages.(以10種語(yǔ)言書(shū)寫(xiě)的“蔬菜”一詞。)
然后,DALL·E-2就會(huì)生成帶有表示“蔬菜”義的文本的圖像,比如在上面那張“兩個(gè)農(nóng)民在談?wù)撌卟恕钡膱D片中,DALL·E-2給出了自己的翻譯文本:Avcopinitegoos Vicootes, Apoploe vesrreaitais。
下一步,我們就可以輸入DALL·E-2自己的詞匯,來(lái)看它會(huì)生成什么圖像。比如下圖(左)是從單詞“vicootes” 生成的圖像,下圖(右)是從短語(yǔ) “apoploe vesrreaitais” 生成的圖像:
太魔幻了!DALL·E 2 居然能用自創(chuàng)的語(yǔ)言來(lái)生成圖像,AI模型的可解釋性再一次暴露短板
懂了懂了,所以“vicotes”的意思是“蔬菜”,“apoploe vesrreaitais”的意思是”鳥(niǎo)類(lèi)”~ 只是這些鳥(niǎo)看起來(lái)倔強(qiáng)而自由,仿佛正盯著對(duì)農(nóng)民的蔬菜準(zhǔn)備搞破壞。
DALL·E-2:所以這張圖什么意思,不用我說(shuō)了吧。
太魔幻了!DALL·E 2 居然能用自創(chuàng)的語(yǔ)言來(lái)生成圖像,AI模型的可解釋性再一次暴露短板
好玩真好玩,我已經(jīng)迫不及待想要學(xué)會(huì)DALL·E-2的這門(mén)語(yǔ)言了!
再看一個(gè)例子。輸入文本“Two whales talking about food, with subtitles”(兩只鯨魚(yú)在談?wù)撌澄铮凶帜唬?,DALL·E-2 給出了如下的圖片回執(zhí)(左)~ 上面寫(xiě)著 “Wa ch zod ahaakes rea.”
誰(shuí)看的懂??可能人類(lèi)不懂就對(duì)了——我猜這兩頭鯨魚(yú)正在用DALLE-2 的語(yǔ)言談?wù)撍鼈兊氖澄?。緊接著,把這句話(huà)作為輸入,DALL·E-2生成的圖像(右)是......一堆海鮮美食!
太魔幻了!DALL·E 2 居然能用自創(chuàng)的語(yǔ)言來(lái)生成圖像,AI模型的可解釋性再一次暴露短板
這些有趣的發(fā)現(xiàn)引起了吃瓜群眾的熱烈討論:
太魔幻了!DALL·E 2 居然能用自創(chuàng)的語(yǔ)言來(lái)生成圖像,AI模型的可解釋性再一次暴露短板
這真是不可思議。我們能要求它用我們的語(yǔ)言說(shuō)話(huà)嗎?例如 “兩只鯨魚(yú)在談?wù)撌澄?,有英文字幕”?/span>
太魔幻了!DALL·E 2 居然能用自創(chuàng)的語(yǔ)言來(lái)生成圖像,AI模型的可解釋性再一次暴露短板
偉大的工作!這些輸出讓我想起了我一直在訓(xùn)練的GANs,它們產(chǎn)生了以前沒(méi)有聽(tīng)說(shuō)過(guò)的新詞。有些是英語(yǔ)單詞,有些可能是但不是。它們會(huì)賦予這些新詞有意義的表述。
太魔幻了!DALL·E 2 居然能用自創(chuàng)的語(yǔ)言來(lái)生成圖像,AI模型的可解釋性再一次暴露短板
我要吹毛求疵一下。如果農(nóng)民談?wù)摰氖?“Apoploe vesrreaitais”,而 “Apoploe vesrreaitais的3D效果圖 ”,或 “線(xiàn)條藝術(shù),Apoploe vesrreaitais ”可以指昆蟲(chóng)(或如他們所說(shuō)的更普遍的 “會(huì)飛的東西”),那我認(rèn)為農(nóng)民更可能是在說(shuō)昆蟲(chóng)而不是鳥(niǎo)。
太魔幻了!DALL·E 2 居然能用自創(chuàng)的語(yǔ)言來(lái)生成圖像,AI模型的可解釋性再一次暴露短板
我不太相信我們?cè)凇癴armers with subtitles”的圖片中看到的文字和推斷的單詞含義之間有很強(qiáng)的相關(guān)性。我們不知道這個(gè)農(nóng)民的例子是如何“偷梁換柱”的,而且它甚至不起作用:如果這個(gè)假設(shè)是真的,“Apoploe vesrreaitais ”就對(duì)應(yīng)“蔬菜”,但它對(duì)應(yīng)的卻是“鳥(niǎo)”。而且由于某種原因,我們看到的是 “vicootes ”的輸出,而不是 “vicootess”。這看起來(lái)很似是而非。
太魔幻了!DALL·E 2 居然能用自創(chuàng)的語(yǔ)言來(lái)生成圖像,AI模型的可解釋性再一次暴露短板
令人難以置信的結(jié)果!我猜想,由于CLIP從未在純語(yǔ)言任務(wù)上接受過(guò)訓(xùn)練,它從未被激勵(lì)“不”去將胡言亂語(yǔ)與概念聯(lián)系起來(lái)(不像Imagen中使用的常規(guī)語(yǔ)言模型)。
太魔幻了!DALL·E 2 居然能用自創(chuàng)的語(yǔ)言來(lái)生成圖像,AI模型的可解釋性再一次暴露短板
-所以它必須從帶有文字的圖像中獲得語(yǔ)言知識(shí),但由于其訓(xùn)練數(shù)據(jù)中只有這么多這樣的圖像,它在找到的文字之間做了某種不完整的插值。雖然給我們的是胡言亂語(yǔ),但胡言亂語(yǔ)仍然是以特定數(shù)據(jù)為索引的。

-它的語(yǔ)言模型是來(lái)自CLIP,所以問(wèn)題一定是來(lái)自那個(gè)模型。


-我的理解是,它只在圖像上進(jìn)行訓(xùn)練,對(duì)吧?它用文本描述對(duì)圖像進(jìn)行編碼,但它實(shí)際上從未 “看到 ”文本描述,除非圖像中恰好有文本。


-任何被索引到文本描述的圖像文本(或圖像文本的插值)都不會(huì)只是隨機(jī)的胡言亂語(yǔ),這很有道理。有趣的是它如何對(duì)語(yǔ)言概念本身進(jìn)行索引,以及它將它們混合在一起的能力。就像人類(lèi)對(duì)語(yǔ)言的使用一樣。



2

剝其機(jī)理

兩位作者對(duì)DALL·E-2的詞匯庫(kù)做了進(jìn)一步的研究。
詞匯組合性
先來(lái)瞅瞅它的 Compositionality(組合性)。
從前面的例子中,我們知道 "Apoploe vesrreaitais" 指“鳥(niǎo)類(lèi)”。通過(guò)重復(fù)有關(guān)農(nóng)民的提示的實(shí)驗(yàn),我們還可推測(cè) “Contarra ccetnxniams luryca tanniounons”表示“害蟲(chóng)或蟲(chóng)子”。
那么一個(gè)有趣的問(wèn)題就來(lái)了,DALL·E-2能否把這兩個(gè)概念組成一個(gè)句子呢?
如下圖所示 ,DALL·E-2可以將詞和短語(yǔ)組合成句子,根據(jù) "Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounons" 生成了鳥(niǎo)類(lèi)在吃蟲(chóng)子的圖像。不過(guò)這種情況不是發(fā)生在所有的生成圖像中,所以一致性并不是十分穩(wěn)健。
太魔幻了!DALL·E 2 居然能用自創(chuàng)的語(yǔ)言來(lái)生成圖像,AI模型的可解釋性再一次暴露短板
風(fēng)格遷移
DALL·E-2 能夠根據(jù)提示中指定的風(fēng)格,生成一些相關(guān)概念的圖像。
例如,預(yù)設(shè)我們想得到一個(gè)蘋(píng)果的逼真圖像,或蘋(píng)果的線(xiàn)條藝術(shù)。要先測(cè)試單詞(如Apoploe vesrreaitais)是否對(duì)應(yīng)于視覺(jué)概念,這些概念能否根據(jù)提示的上下文轉(zhuǎn)化為不同的風(fēng)格。
在下圖中提示有時(shí)會(huì)導(dǎo)致飛蟲(chóng),而不是鳥(niǎo)類(lèi)。
太魔幻了!DALL·E 2 居然能用自創(chuàng)的語(yǔ)言來(lái)生成圖像,AI模型的可解釋性再一次暴露短板
DALL·E-2 生成的不同風(fēng)格的 “Apoploe vesrreaitais”,形態(tài)雖異,但“會(huì)飛的東西 ”這一視覺(jué)概念得到了保持。
文本和生成圖像的一致性
回顧一下農(nóng)民和鳥(niǎo)的例子。
當(dāng)時(shí)的提示是:兩個(gè)農(nóng)民在談?wù)撌卟?,有字幕?/span>
結(jié)果,既發(fā)現(xiàn)有蔬菜、也發(fā)現(xiàn)有鳥(niǎo)的存在。兩個(gè)農(nóng)民談?wù)擑B(niǎo)類(lèi)是非常合理的,這就提出了一個(gè)非常有趣的問(wèn)題:DALL·E-2 的文本輸出是否與文本條件和生成的圖像一致?
實(shí)驗(yàn)表明,有時(shí)我們得到的胡言亂語(yǔ)的文本翻譯成視覺(jué)概念,與首先產(chǎn)生胡言亂語(yǔ)文本的標(biāo)題一致。
有點(diǎn)繞口,簡(jiǎn)單一點(diǎn),就是種瓜得瓜種豆得豆,管它是印象派還是寫(xiě)實(shí)派,結(jié)出的瓜和豆和最初的瓜豆種子(廢話(huà)文學(xué)快住嘴),能看的出還是有聯(lián)系的。
太魔幻了!DALL·E 2 居然能用自創(chuàng)的語(yǔ)言來(lái)生成圖像,AI模型的可解釋性再一次暴露短板
例如,"Two whales talking about food, with subtitles"(兩只鯨魚(yú)在談?wù)撌澄?,有字幕)產(chǎn)生了一個(gè)帶有文字 "Wa ch zod ahaakes rea" 的圖像。把這段文字作為提示輸入模型,在生成的圖像中看到了海鮮。
結(jié)合上圖“不同風(fēng)格的鳥(niǎo)”看來(lái),胡言亂語(yǔ)的文本確實(shí)有其含義,有時(shí)與產(chǎn)生它的文本條件相一致。
太魔幻了!DALL·E 2 居然能用自創(chuàng)的語(yǔ)言來(lái)生成圖像,AI模型的可解釋性再一次暴露短板
在鯨魚(yú)圖中,生成圖像中不明所以的文字 "Wa ch zod ahaakes rea",與產(chǎn)生的圖像、標(biāo)題和第一幅圖像的視覺(jué)輸出是相關(guān)的。



3

安全性和可解釋性的挑戰(zhàn)

有一種可能是,這些非人類(lèi)現(xiàn)有語(yǔ)言的單詞是不同語(yǔ)言中正常單詞的拼寫(xiě)錯(cuò)誤,但兩位作者在搜索中沒(méi)有發(fā)現(xiàn)任何這樣的例子,所以這些詞的來(lái)源仍然令人困惑。而且在他們的初步實(shí)驗(yàn)中,有些詞并不像其他詞那樣具有一致性,也就是說(shuō),目前DALL·E-2 的這套語(yǔ)言在從文本生成圖像時(shí)的穩(wěn)健性可能不足。
初步研究表明,像“Contarra ccetnxni ams lurycat anni ounons”這樣的提示有時(shí)會(huì)產(chǎn)生包含蟲(chóng)子和害蟲(chóng)的圖像(約占生成圖像的一半),每次還會(huì)產(chǎn)生不同的圖像,大部分是動(dòng)物。而“Apoploe vesrreaitais”這個(gè)短語(yǔ)的一致性明顯更強(qiáng),可以以各種方式組合來(lái)生成具有一致性的圖像。
如果要測(cè)試更多提示語(yǔ)的穩(wěn)健性,則需要大量的實(shí)驗(yàn)。論文作者表示,如果一個(gè)系統(tǒng)表現(xiàn)出瘋狂的不可預(yù)測(cè)性,即使這種情況很少發(fā)生,也仍然是一個(gè)重要的問(wèn)題,特別是對(duì)于一些應(yīng)用程序而言。
另一個(gè)有趣的問(wèn)題是,Imagen是用語(yǔ)言模型訓(xùn)練的,而不是CLIP,它是否也會(huì)有一個(gè)類(lèi)似的隱藏詞匯庫(kù)呢?
無(wú)論如何,生成圖像的荒謬提示挑戰(zhàn)了我們對(duì)這些大型生成模型的信心。顯然,在理解這些現(xiàn)象和創(chuàng)建穩(wěn)健的、與人類(lèi)預(yù)期相一致的語(yǔ)言和圖像生成模型方面還需要更多的基礎(chǔ)研究。
更多細(xì)節(jié),可參考論文原文:
太魔幻了!DALL·E 2 居然能用自創(chuàng)的語(yǔ)言來(lái)生成圖像,AI模型的可解釋性再一次暴露短板
論文地址:https://giannisdaras.github.io/publications/Discovering_the_Secret_Language_of_Dalle.pdf

參考鏈接:

https://twitter.com/giannis_daras/status/1531693111755149312
https://www.reddit.com/r/MachineLearning/comments/v1zzh8/d_dalle_2_has_its_own_secret_language/
太魔幻了!DALL·E 2 居然能用自創(chuàng)的語(yǔ)言來(lái)生成圖像,AI模型的可解釋性再一次暴露短板

雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))雷峰網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

太魔幻了!DALL·E 2 居然能用自創(chuàng)的語(yǔ)言來(lái)生成圖像,AI模型的可解釋性再一次暴露短板

分享:
相關(guān)文章

運(yùn)營(yíng)

當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話(huà)
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)