太魔幻了！DALL·E 2 居然能用自創(chuàng)的語言來生成圖像，AI模型的可解釋性再一次暴露短板

本文作者：我在思考中

2022-06-02 11:05

導(dǎo)語：萬一DALL·E-2是在向人類發(fā)出什么了不得的信號呢？這門語言快學(xué)起來！

萬一DALL·E-2是在向人類發(fā)出什么了不得的信號呢？這門語言快學(xué)起來！

作者｜李梅、劉冰一

編輯｜陳彩嫻

DALL·E 和 DALL·E-2從文本生成圖像的魔力，想必大家都已經(jīng)見識過了。作為深度生成模型，它們能夠?qū)⑽谋咀鳛檩斎?，生成匹配給定文本的超逼真圖像。

不過，DALL·E-2 的一個眾所周知的局限性是它在生成帶文本的圖像時很吃力。

例如，給出文本提示：Two farmers talking about vegetables，with subtitles.（兩個農(nóng)民在談?wù)撌卟?，有字幕?/span>

DALL·E-2 生成的圖像如下：

太魔幻了！DALL·E 2 居然能用自創(chuàng)的語言來生成圖像，AI模型的可解釋性再一次暴露短板

誰能告訴我這張圖上的文字是什么語言？什么意思？？？

在DALL·E-2所生成的帶有文本的圖像中，DALL·E-2顯然在說一種我們?nèi)祟惪床欢恼Z言。其實(shí)這一點(diǎn)在最初的DALL·E-2論文以及Marcus等人對該模型的初步評估中就已經(jīng)發(fā)現(xiàn)了。

而最近有人發(fā)現(xiàn)，這些讓人無法理解的文本并不是隨機(jī)的！

來自德克薩斯大學(xué)奧斯汀分校的博士生Giannis Daras 和 Alexandros G. Dimakis教授，發(fā)現(xiàn)DALLE-2背后竟然有一套秘密語言，模型內(nèi)部似乎有一套隱藏的詞匯表，從這些隱藏的詞匯中，模型會學(xué)習(xí)一些單詞，并創(chuàng)造一些荒謬的文本提示來生成圖像。

比如，在DALL·E-2的語言系統(tǒng)里，Apoploe vesrreaitais意思是鳥類，Contarra ccetnxniams luryca tanniounons則表示昆蟲或害蟲。

當(dāng)你輸入這個句子作為文本提示時：Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounons

DALL·E-2生成了下面這些圖像，圖像內(nèi)容翻譯成英語，顯然是“A bird is eating a bug”（一只鳥在吃蟲子）

DALL·E-2這是「成精」了？

1

DALL·E-2 的秘密語言

Daras 和 Dimakis 采用了一種簡單的方法來破解DALL·E-2的詞匯庫。

比如，假設(shè)我們想找到在DALL·E-2的語言系統(tǒng)中，“ vegetables（蔬菜）”這個英語單詞對應(yīng)的詞是什么，就可以用下面這些句子來提示DALL·E-2：

A book that has the word vegetables written on it.（上面寫著“蔬菜”一詞的書。）
Two people talking about vegetables, with subtitles.（兩個人在談?wù)撌卟?，有字幕。?/span>
The word vegetables written in 10 languages.（以10種語言書寫的“蔬菜”一詞。）

然后，DALL·E-2就會生成帶有表示“蔬菜”義的文本的圖像，比如在上面那張“兩個農(nóng)民在談?wù)撌卟恕钡膱D片中，DALL·E-2給出了自己的翻譯文本：Avcopinitegoos Vicootes, Apoploe vesrreaitais。

下一步，我們就可以輸入DALL·E-2自己的詞匯，來看它會生成什么圖像。比如下圖（左）是從單詞“vicootes” 生成的圖像，下圖（右）是從短語 “apoploe vesrreaitais” 生成的圖像：

懂了懂了，所以“vicotes”的意思是“蔬菜”，“apoploe vesrreaitais”的意思是”鳥類”～只是這些鳥看起來倔強(qiáng)而自由，仿佛正盯著對農(nóng)民的蔬菜準(zhǔn)備搞破壞。

DALL·E-2：所以這張圖什么意思，不用我說了吧。

好玩真好玩，我已經(jīng)迫不及待想要學(xué)會DALL·E-2的這門語言了！

再看一個例子。輸入文本“Two whales talking about food, with subtitles”（兩只鯨魚在談?wù)撌澄?，有字幕），DALL·E-2 給出了如下的圖片回執(zhí)（左）~ 上面寫著 “Wa ch zod ahaakes rea.”

誰看的懂？？可能人類不懂就對了——我猜這兩頭鯨魚正在用DALLE-2 的語言談?wù)撍鼈兊氖澄?。緊接著，把這句話作為輸入，DALL·E-2生成的圖像（右）是......一堆海鮮美食！

這些有趣的發(fā)現(xiàn)引起了吃瓜群眾的熱烈討論：

這真是不可思議。我們能要求它用我們的語言說話嗎？例如 “兩只鯨魚在談?wù)撌澄?，有英文字幕”?/span>

偉大的工作！這些輸出讓我想起了我一直在訓(xùn)練的GANs，它們產(chǎn)生了以前沒有聽說過的新詞。有些是英語單詞，有些可能是但不是。它們會賦予這些新詞有意義的表述。

我要吹毛求疵一下。如果農(nóng)民談?wù)摰氖?“Apoploe vesrreaitais”，而 “Apoploe vesrreaitais的3D效果圖 ”，或 “線條藝術(shù)，Apoploe vesrreaitais ”可以指昆蟲（或如他們所說的更普遍的 “會飛的東西”），那我認(rèn)為農(nóng)民更可能是在說昆蟲而不是鳥。

我不太相信我們在“farmers with subtitles”的圖片中看到的文字和推斷的單詞含義之間有很強(qiáng)的相關(guān)性。我們不知道這個農(nóng)民的例子是如何“偷梁換柱”的，而且它甚至不起作用：如果這個假設(shè)是真的，“Apoploe vesrreaitais ”就對應(yīng)“蔬菜”，但它對應(yīng)的卻是“鳥”。而且由于某種原因，我們看到的是 “vicootes ”的輸出，而不是 “vicootess”。這看起來很似是而非。

令人難以置信的結(jié)果！我猜想，由于CLIP從未在純語言任務(wù)上接受過訓(xùn)練，它從未被激勵“不”去將胡言亂語與概念聯(lián)系起來（不像Imagen中使用的常規(guī)語言模型）。

-所以它必須從帶有文字的圖像中獲得語言知識，但由于其訓(xùn)練數(shù)據(jù)中只有這么多這樣的圖像，它在找到的文字之間做了某種不完整的插值。雖然給我們的是胡言亂語，但胡言亂語仍然是以特定數(shù)據(jù)為索引的。

-它的語言模型是來自CLIP，所以問題一定是來自那個模型。

-我的理解是，它只在圖像上進(jìn)行訓(xùn)練，對吧？它用文本描述對圖像進(jìn)行編碼，但它實(shí)際上從未 “看到 ”文本描述，除非圖像中恰好有文本。

-任何被索引到文本描述的圖像文本（或圖像文本的插值）都不會只是隨機(jī)的胡言亂語，這很有道理。有趣的是它如何對語言概念本身進(jìn)行索引，以及它將它們混合在一起的能力。就像人類對語言的使用一樣。

2

剝其機(jī)理

兩位作者對DALL·E-2的詞匯庫做了進(jìn)一步的研究。

詞匯組合性

先來瞅瞅它的 Compositionality（組合性）。

從前面的例子中，我們知道 "Apoploe vesrreaitais" 指“鳥類”。通過重復(fù)有關(guān)農(nóng)民的提示的實(shí)驗，我們還可推測 “Contarra ccetnxniams luryca tanniounons”表示“害蟲或蟲子”。

那么一個有趣的問題就來了，DALL·E-2能否把這兩個概念組成一個句子呢？

如下圖所示，DALL·E-2可以將詞和短語組合成句子，根據(jù) "Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounons" 生成了鳥類在吃蟲子的圖像。不過這種情況不是發(fā)生在所有的生成圖像中，所以一致性并不是十分穩(wěn)健。

風(fēng)格遷移

DALL·E-2 能夠根據(jù)提示中指定的風(fēng)格，生成一些相關(guān)概念的圖像。

例如，預(yù)設(shè)我們想得到一個蘋果的逼真圖像，或蘋果的線條藝術(shù)。要先測試單詞（如Apoploe vesrreaitais）是否對應(yīng)于視覺概念，這些概念能否根據(jù)提示的上下文轉(zhuǎn)化為不同的風(fēng)格。

在下圖中提示有時會導(dǎo)致飛蟲，而不是鳥類。

DALL·E-2 生成的不同風(fēng)格的 “Apoploe vesrreaitais”，形態(tài)雖異，但“會飛的東西 ”這一視覺概念得到了保持。

文本和生成圖像的一致性

回顧一下農(nóng)民和鳥的例子。

當(dāng)時的提示是：兩個農(nóng)民在談?wù)撌卟?，有字幕?/span>

結(jié)果，既發(fā)現(xiàn)有蔬菜、也發(fā)現(xiàn)有鳥的存在。兩個農(nóng)民談?wù)擑B類是非常合理的，這就提出了一個非常有趣的問題：DALL·E-2 的文本輸出是否與文本條件和生成的圖像一致？

實(shí)驗表明，有時我們得到的胡言亂語的文本翻譯成視覺概念，與首先產(chǎn)生胡言亂語文本的標(biāo)題一致。

有點(diǎn)繞口，簡單一點(diǎn)，就是種瓜得瓜種豆得豆，管它是印象派還是寫實(shí)派，結(jié)出的瓜和豆和最初的瓜豆種子（廢話文學(xué)快住嘴），能看的出還是有聯(lián)系的。

例如，"Two whales talking about food, with subtitles"（兩只鯨魚在談?wù)撌澄?，有字幕）產(chǎn)生了一個帶有文字 "Wa ch zod ahaakes rea" 的圖像。把這段文字作為提示輸入模型，在生成的圖像中看到了海鮮。

結(jié)合上圖“不同風(fēng)格的鳥”看來，胡言亂語的文本確實(shí)有其含義，有時與產(chǎn)生它的文本條件相一致。

在鯨魚圖中，生成圖像中不明所以的文字 "Wa ch zod ahaakes rea"，與產(chǎn)生的圖像、標(biāo)題和第一幅圖像的視覺輸出是相關(guān)的。

3

安全性和可解釋性的挑戰(zhàn)

有一種可能是，這些非人類現(xiàn)有語言的單詞是不同語言中正常單詞的拼寫錯誤，但兩位作者在搜索中沒有發(fā)現(xiàn)任何這樣的例子，所以這些詞的來源仍然令人困惑。而且在他們的初步實(shí)驗中，有些詞并不像其他詞那樣具有一致性，也就是說，目前DALL·E-2 的這套語言在從文本生成圖像時的穩(wěn)健性可能不足。

初步研究表明，像“Contarra ccetnxni ams lurycat anni ounons”這樣的提示有時會產(chǎn)生包含蟲子和害蟲的圖像（約占生成圖像的一半），每次還會產(chǎn)生不同的圖像，大部分是動物。而“Apoploe vesrreaitais”這個短語的一致性明顯更強(qiáng)，可以以各種方式組合來生成具有一致性的圖像。

如果要測試更多提示語的穩(wěn)健性，則需要大量的實(shí)驗。論文作者表示，如果一個系統(tǒng)表現(xiàn)出瘋狂的不可預(yù)測性，即使這種情況很少發(fā)生，也仍然是一個重要的問題，特別是對于一些應(yīng)用程序而言。

另一個有趣的問題是，Imagen是用語言模型訓(xùn)練的，而不是CLIP，它是否也會有一個類似的隱藏詞匯庫呢？

無論如何，生成圖像的荒謬提示挑戰(zhàn)了我們對這些大型生成模型的信心。顯然，在理解這些現(xiàn)象和創(chuàng)建穩(wěn)健的、與人類預(yù)期相一致的語言和圖像生成模型方面還需要更多的基礎(chǔ)研究。

更多細(xì)節(jié)，可參考論文原文：