丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

太魔幻了!DALL·E 2 居然能用自創(chuàng)的語言來生成圖像,AI模型的可解釋性再一次暴露短板

本文作者: 我在思考中 2022-06-02 11:05
導(dǎo)語:萬一DALL·E-2是在向人類發(fā)出什么了不得的信號呢?這門語言快學(xué)起來!

太魔幻了!DALL·E 2 居然能用自創(chuàng)的語言來生成圖像,AI模型的可解釋性再一次暴露短板

萬一DALL·E-2是在向人類發(fā)出什么了不得的信號呢?這門語言快學(xué)起來!
作者|李梅、劉冰一

編輯|陳彩嫻

DALL·E 和 DALL·E-2從文本生成圖像的魔力,想必大家都已經(jīng)見識過了。作為深度生成模型,它們能夠?qū)⑽谋咀鳛檩斎?,生成匹配給定文本的超逼真圖像。
不過,DALL·E-2 的一個眾所周知的局限性是它在生成帶文本的圖像時很吃力。
例如,給出文本提示:Two farmers talking about vegetables,with subtitles.(兩個農(nóng)民在談?wù)撌卟?,有字幕?/span>
DALL·E-2 生成的圖像如下:
太魔幻了!DALL·E 2 居然能用自創(chuàng)的語言來生成圖像,AI模型的可解釋性再一次暴露短板
誰能告訴我這張圖上的文字是什么語言?什么意思???
在DALL·E-2所生成的帶有文本的圖像中,DALL·E-2顯然在說一種我們?nèi)祟惪床欢恼Z言。其實這一點在最初的DALL·E-2論文以及Marcus等人對該模型的初步評估中就已經(jīng)發(fā)現(xiàn)了。
而最近有人發(fā)現(xiàn),這些讓人無法理解的文本并不是隨機的!

來自德克薩斯大學(xué)奧斯汀分校的博士生Giannis Daras 和 Alexandros G. Dimakis教授,發(fā)現(xiàn)DALLE-2背后竟然有一套秘密語言,模型內(nèi)部似乎有一套隱藏的詞匯表,從這些隱藏的詞匯中,模型會學(xué)習一些單詞,并創(chuàng)造一些荒謬的文本提示來生成圖像。

比如,在DALL·E-2的語言系統(tǒng)里,Apoploe vesrreaitais意思是鳥類,Contarra ccetnxniams luryca tanniounons則表示昆蟲或害蟲。
當你輸入這個句子作為文本提示時:Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounons
DALL·E-2生成了下面這些圖像,圖像內(nèi)容翻譯成英語,顯然是“A bird is eating a bug”(一只鳥在吃蟲子)
太魔幻了!DALL·E 2 居然能用自創(chuàng)的語言來生成圖像,AI模型的可解釋性再一次暴露短板
DALL·E-2這是「成精」了?
太魔幻了!DALL·E 2 居然能用自創(chuàng)的語言來生成圖像,AI模型的可解釋性再一次暴露短板



1

DALL·E-2 的秘密語言

Daras 和 Dimakis 采用了一種簡單的方法來破解DALL·E-2的詞匯庫。
比如,假設(shè)我們想找到在DALL·E-2的語言系統(tǒng)中,“ vegetables(蔬菜)”這個英語單詞對應(yīng)的詞是什么,就可以用下面這些句子來提示DALL·E-2:
  • A book that has the word vegetables written on it.(上面寫著“蔬菜”一詞的書。)
  • Two people talking about vegetables, with subtitles.(兩個人在談?wù)撌卟?,有字幕。?/span>
  • The word vegetables written in 10 languages.(以10種語言書寫的“蔬菜”一詞。)
然后,DALL·E-2就會生成帶有表示“蔬菜”義的文本的圖像,比如在上面那張“兩個農(nóng)民在談?wù)撌卟恕钡膱D片中,DALL·E-2給出了自己的翻譯文本:Avcopinitegoos Vicootes, Apoploe vesrreaitais。
下一步,我們就可以輸入DALL·E-2自己的詞匯,來看它會生成什么圖像。比如下圖(左)是從單詞“vicootes” 生成的圖像,下圖(右)是從短語 “apoploe vesrreaitais” 生成的圖像:
太魔幻了!DALL·E 2 居然能用自創(chuàng)的語言來生成圖像,AI模型的可解釋性再一次暴露短板
懂了懂了,所以“vicotes”的意思是“蔬菜”,“apoploe vesrreaitais”的意思是”鳥類”~ 只是這些鳥看起來倔強而自由,仿佛正盯著對農(nóng)民的蔬菜準備搞破壞。
DALL·E-2:所以這張圖什么意思,不用我說了吧。
太魔幻了!DALL·E 2 居然能用自創(chuàng)的語言來生成圖像,AI模型的可解釋性再一次暴露短板
好玩真好玩,我已經(jīng)迫不及待想要學(xué)會DALL·E-2的這門語言了!
再看一個例子。輸入文本“Two whales talking about food, with subtitles”(兩只鯨魚在談?wù)撌澄铮凶帜唬?,DALL·E-2 給出了如下的圖片回執(zhí)(左)~ 上面寫著 “Wa ch zod ahaakes rea.”
誰看的懂??可能人類不懂就對了——我猜這兩頭鯨魚正在用DALLE-2 的語言談?wù)撍鼈兊氖澄?。緊接著,把這句話作為輸入,DALL·E-2生成的圖像(右)是......一堆海鮮美食!
太魔幻了!DALL·E 2 居然能用自創(chuàng)的語言來生成圖像,AI模型的可解釋性再一次暴露短板
這些有趣的發(fā)現(xiàn)引起了吃瓜群眾的熱烈討論:
太魔幻了!DALL·E 2 居然能用自創(chuàng)的語言來生成圖像,AI模型的可解釋性再一次暴露短板
這真是不可思議。我們能要求它用我們的語言說話嗎?例如 “兩只鯨魚在談?wù)撌澄?,有英文字幕”?/span>
太魔幻了!DALL·E 2 居然能用自創(chuàng)的語言來生成圖像,AI模型的可解釋性再一次暴露短板
偉大的工作!這些輸出讓我想起了我一直在訓(xùn)練的GANs,它們產(chǎn)生了以前沒有聽說過的新詞。有些是英語單詞,有些可能是但不是。它們會賦予這些新詞有意義的表述。
太魔幻了!DALL·E 2 居然能用自創(chuàng)的語言來生成圖像,AI模型的可解釋性再一次暴露短板
我要吹毛求疵一下。如果農(nóng)民談?wù)摰氖?“Apoploe vesrreaitais”,而 “Apoploe vesrreaitais的3D效果圖 ”,或 “線條藝術(shù),Apoploe vesrreaitais ”可以指昆蟲(或如他們所說的更普遍的 “會飛的東西”),那我認為農(nóng)民更可能是在說昆蟲而不是鳥。
太魔幻了!DALL·E 2 居然能用自創(chuàng)的語言來生成圖像,AI模型的可解釋性再一次暴露短板
我不太相信我們在“farmers with subtitles”的圖片中看到的文字和推斷的單詞含義之間有很強的相關(guān)性。我們不知道這個農(nóng)民的例子是如何“偷梁換柱”的,而且它甚至不起作用:如果這個假設(shè)是真的,“Apoploe vesrreaitais ”就對應(yīng)“蔬菜”,但它對應(yīng)的卻是“鳥”。而且由于某種原因,我們看到的是 “vicootes ”的輸出,而不是 “vicootess”。這看起來很似是而非。
太魔幻了!DALL·E 2 居然能用自創(chuàng)的語言來生成圖像,AI模型的可解釋性再一次暴露短板
令人難以置信的結(jié)果!我猜想,由于CLIP從未在純語言任務(wù)上接受過訓(xùn)練,它從未被激勵“不”去將胡言亂語與概念聯(lián)系起來(不像Imagen中使用的常規(guī)語言模型)。
太魔幻了!DALL·E 2 居然能用自創(chuàng)的語言來生成圖像,AI模型的可解釋性再一次暴露短板
-所以它必須從帶有文字的圖像中獲得語言知識,但由于其訓(xùn)練數(shù)據(jù)中只有這么多這樣的圖像,它在找到的文字之間做了某種不完整的插值。雖然給我們的是胡言亂語,但胡言亂語仍然是以特定數(shù)據(jù)為索引的。

-它的語言模型是來自CLIP,所以問題一定是來自那個模型。


-我的理解是,它只在圖像上進行訓(xùn)練,對吧?它用文本描述對圖像進行編碼,但它實際上從未 “看到 ”文本描述,除非圖像中恰好有文本。


-任何被索引到文本描述的圖像文本(或圖像文本的插值)都不會只是隨機的胡言亂語,這很有道理。有趣的是它如何對語言概念本身進行索引,以及它將它們混合在一起的能力。就像人類對語言的使用一樣。



2

剝其機理

兩位作者對DALL·E-2的詞匯庫做了進一步的研究。
詞匯組合性
先來瞅瞅它的 Compositionality(組合性)。
從前面的例子中,我們知道 "Apoploe vesrreaitais" 指“鳥類”。通過重復(fù)有關(guān)農(nóng)民的提示的實驗,我們還可推測 “Contarra ccetnxniams luryca tanniounons”表示“害蟲或蟲子”。
那么一個有趣的問題就來了,DALL·E-2能否把這兩個概念組成一個句子呢?
如下圖所示 ,DALL·E-2可以將詞和短語組合成句子,根據(jù) "Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounons" 生成了鳥類在吃蟲子的圖像。不過這種情況不是發(fā)生在所有的生成圖像中,所以一致性并不是十分穩(wěn)健。
太魔幻了!DALL·E 2 居然能用自創(chuàng)的語言來生成圖像,AI模型的可解釋性再一次暴露短板
風格遷移
DALL·E-2 能夠根據(jù)提示中指定的風格,生成一些相關(guān)概念的圖像。
例如,預(yù)設(shè)我們想得到一個蘋果的逼真圖像,或蘋果的線條藝術(shù)。要先測試單詞(如Apoploe vesrreaitais)是否對應(yīng)于視覺概念,這些概念能否根據(jù)提示的上下文轉(zhuǎn)化為不同的風格。
在下圖中提示有時會導(dǎo)致飛蟲,而不是鳥類。
太魔幻了!DALL·E 2 居然能用自創(chuàng)的語言來生成圖像,AI模型的可解釋性再一次暴露短板
DALL·E-2 生成的不同風格的 “Apoploe vesrreaitais”,形態(tài)雖異,但“會飛的東西 ”這一視覺概念得到了保持。
文本和生成圖像的一致性
回顧一下農(nóng)民和鳥的例子。
當時的提示是:兩個農(nóng)民在談?wù)撌卟?,有字幕?/span>
結(jié)果,既發(fā)現(xiàn)有蔬菜、也發(fā)現(xiàn)有鳥的存在。兩個農(nóng)民談?wù)擑B類是非常合理的,這就提出了一個非常有趣的問題:DALL·E-2 的文本輸出是否與文本條件和生成的圖像一致?
實驗表明,有時我們得到的胡言亂語的文本翻譯成視覺概念,與首先產(chǎn)生胡言亂語文本的標題一致。
有點繞口,簡單一點,就是種瓜得瓜種豆得豆,管它是印象派還是寫實派,結(jié)出的瓜和豆和最初的瓜豆種子(廢話文學(xué)快住嘴),能看的出還是有聯(lián)系的。
太魔幻了!DALL·E 2 居然能用自創(chuàng)的語言來生成圖像,AI模型的可解釋性再一次暴露短板
例如,"Two whales talking about food, with subtitles"(兩只鯨魚在談?wù)撌澄铮凶帜唬┊a(chǎn)生了一個帶有文字 "Wa ch zod ahaakes rea" 的圖像。把這段文字作為提示輸入模型,在生成的圖像中看到了海鮮。
結(jié)合上圖“不同風格的鳥”看來,胡言亂語的文本確實有其含義,有時與產(chǎn)生它的文本條件相一致。
太魔幻了!DALL·E 2 居然能用自創(chuàng)的語言來生成圖像,AI模型的可解釋性再一次暴露短板
在鯨魚圖中,生成圖像中不明所以的文字 "Wa ch zod ahaakes rea",與產(chǎn)生的圖像、標題和第一幅圖像的視覺輸出是相關(guān)的。



3

安全性和可解釋性的挑戰(zhàn)

有一種可能是,這些非人類現(xiàn)有語言的單詞是不同語言中正常單詞的拼寫錯誤,但兩位作者在搜索中沒有發(fā)現(xiàn)任何這樣的例子,所以這些詞的來源仍然令人困惑。而且在他們的初步實驗中,有些詞并不像其他詞那樣具有一致性,也就是說,目前DALL·E-2 的這套語言在從文本生成圖像時的穩(wěn)健性可能不足。
初步研究表明,像“Contarra ccetnxni ams lurycat anni ounons”這樣的提示有時會產(chǎn)生包含蟲子和害蟲的圖像(約占生成圖像的一半),每次還會產(chǎn)生不同的圖像,大部分是動物。而“Apoploe vesrreaitais”這個短語的一致性明顯更強,可以以各種方式組合來生成具有一致性的圖像。
如果要測試更多提示語的穩(wěn)健性,則需要大量的實驗。論文作者表示,如果一個系統(tǒng)表現(xiàn)出瘋狂的不可預(yù)測性,即使這種情況很少發(fā)生,也仍然是一個重要的問題,特別是對于一些應(yīng)用程序而言。
另一個有趣的問題是,Imagen是用語言模型訓(xùn)練的,而不是CLIP,它是否也會有一個類似的隱藏詞匯庫呢?
無論如何,生成圖像的荒謬提示挑戰(zhàn)了我們對這些大型生成模型的信心。顯然,在理解這些現(xiàn)象和創(chuàng)建穩(wěn)健的、與人類預(yù)期相一致的語言和圖像生成模型方面還需要更多的基礎(chǔ)研究。
更多細節(jié),可參考論文原文:
太魔幻了!DALL·E 2 居然能用自創(chuàng)的語言來生成圖像,AI模型的可解釋性再一次暴露短板
論文地址:https://giannisdaras.github.io/publications/Discovering_the_Secret_Language_of_Dalle.pdf

參考鏈接:

https://twitter.com/giannis_daras/status/1531693111755149312
https://www.reddit.com/r/MachineLearning/comments/v1zzh8/d_dalle_2_has_its_own_secret_language/
太魔幻了!DALL·E 2 居然能用自創(chuàng)的語言來生成圖像,AI模型的可解釋性再一次暴露短板

雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

太魔幻了!DALL·E 2 居然能用自創(chuàng)的語言來生成圖像,AI模型的可解釋性再一次暴露短板

分享:
相關(guān)文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說