丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

Gary Marcus:文本生成圖像系統(tǒng)理解不了世界,離 AGI 還差得遠(yuǎn)

本文作者: 我在思考中 2022-09-20 10:53
導(dǎo)語(yǔ):?AI 作畫(huà)很牛,但它并不理解圖像背后的世界。
 AI 作畫(huà)很牛,但它并不理解圖像背后的世界。
作者 | 李梅、黃楠
編輯 | 陳彩嫻

自從 DALL-E 2 問(wèn)世以來(lái),很多人都認(rèn)為,能夠繪制逼真圖像的 AI 是邁向通用人工智能(AGI)的一大步。OpenAI 的 CEO  Sam Altman 曾在 DALL-E 2 發(fā)布的時(shí)候宣稱(chēng)“AGI is going to be wild”,媒體也都在渲染這些系統(tǒng)對(duì)于通用智能進(jìn)展的重大意義。

但真的是如此嗎?知名 AI 學(xué)者(給 AI 潑冷水愛(ài)好者) Gary Marcus 表示“持保留意見(jiàn)”。

最近,他提出,在評(píng)估 AGI 的進(jìn)展時(shí),關(guān)鍵要看像 Dall-E、Imagen、Midjourney 和 Stable Diffusion 這樣的系統(tǒng)是否真正理解世界,從而能夠根據(jù)這些知識(shí)進(jìn)行推理并進(jìn)行決策。

在判斷這些系統(tǒng)之于 AI (包括狹義和廣義的 AI)的意義時(shí),我們可以提出以下三個(gè)問(wèn)題:

  1. 圖像合成系統(tǒng)能否生成高質(zhì)量的圖像?

  1. 它們能否將語(yǔ)言輸入與它們產(chǎn)生的圖像關(guān)聯(lián)起來(lái)?

  2. 它們了解它們所呈現(xiàn)出的圖像背后的世界嗎?



    1

    AI 不懂語(yǔ)言與圖像的關(guān)聯(lián)

    在第一個(gè)問(wèn)題上,答案是肯定的。區(qū)別只在于,在用 AI 生成圖像這件事兒上,經(jīng)過(guò)訓(xùn)練的人類(lèi)藝術(shù)家能做得更好。

    在第二個(gè)問(wèn)題上,答案就不一定了。在某些語(yǔ)言輸入上,這些系統(tǒng)能表現(xiàn)良好,比如下圖是 DALL-E 2 生成的“騎著馬的宇航員”:

    Gary Marcus:文本生成圖像系統(tǒng)理解不了世界,離 AGI 還差得遠(yuǎn)

    但在其他一些語(yǔ)言輸入上,這些 AI 就表現(xiàn)欠佳、很容易被愚弄了。比如前段時(shí)間 Marcus 在推特上指出,這些系統(tǒng)在面對(duì)“騎著宇航員的馬”時(shí),難以生成對(duì)應(yīng)的準(zhǔn)確圖像:

    Gary Marcus:文本生成圖像系統(tǒng)理解不了世界,離 AGI 還差得遠(yuǎn)

    盡管深度學(xué)習(xí)的擁護(hù)者對(duì)此進(jìn)行了激烈的反擊,比如 AI 研究員 Joscha Bach 認(rèn)為“Imagen 可能只是使用了錯(cuò)誤的訓(xùn)練集”,機(jī)器學(xué)習(xí)教授 Luca Ambrogioni 反駁說(shuō),這正表明了“Imagen 已經(jīng)具有一定程度的常識(shí)”,所以拒絕生成一些荒謬的東西。

    Gary Marcus:文本生成圖像系統(tǒng)理解不了世界,離 AGI 還差得遠(yuǎn)

    還有一位谷歌的科學(xué)家 Behnam Neyshabur 提出,如果“以正確的方式提問(wèn)”,Imagen 就可以畫(huà)出“騎著宇航員的馬”:

    Gary Marcus:文本生成圖像系統(tǒng)理解不了世界,離 AGI 還差得遠(yuǎn)

    但是,Marcus 認(rèn)為,問(wèn)題的關(guān)鍵不在于系統(tǒng)能否生成圖像,聰明的人總能找到辦法讓系統(tǒng)畫(huà)出特定的圖像,但這些系統(tǒng)并沒(méi)有深刻理解語(yǔ)言與圖像之間的關(guān)聯(lián),這才是關(guān)鍵。



    2

    不知道自行車(chē)輪子是啥

    怎么能稱(chēng)是AGI?

    系統(tǒng)對(duì)語(yǔ)言的理解還只是一方面,Marcus 指出,最重要的是,判斷 DALL-E 等系統(tǒng)對(duì) AGI 的貢獻(xiàn)最終要取決于第三個(gè)問(wèn)題:如果系統(tǒng)所能做的只是以一種偶然但令人驚嘆的方式將許多句子轉(zhuǎn)換為圖像,它們可能會(huì)徹底改變?nèi)祟?lèi)藝術(shù),但仍然不能真正與 AGI 相提并論,也根本代表不了 AGI。

    讓 Marcus 對(duì)這些系統(tǒng)理解世界的能力感到絕望的是最近的一些例子,比如平面設(shè)計(jì)師 Irina Blok 用 Imagen 生成的“帶有很多孔的咖啡杯”圖像:

    Gary Marcus:文本生成圖像系統(tǒng)理解不了世界,離 AGI 還差得遠(yuǎn)

    正常人看了這張圖都會(huì)覺(jué)得它違反常識(shí),咖啡不可能不從孔里漏出來(lái)。類(lèi)似的還有:

    “帶有方形輪子的自行車(chē)”

    Gary Marcus:文本生成圖像系統(tǒng)理解不了世界,離 AGI 還差得遠(yuǎn)

    “布滿(mǎn)仙人掌刺的廁紙”

    Gary Marcus:文本生成圖像系統(tǒng)理解不了世界,離 AGI 還差得遠(yuǎn)

    說(shuō)“有”容易說(shuō)“無(wú)”難,誰(shuí)能知道一個(gè)不存在的事物應(yīng)當(dāng)是什么樣?這也是讓 AI 繪制不可能事物的難題所在。

    但又或許,系統(tǒng)只是“想”繪制一個(gè)超現(xiàn)實(shí)主義的圖像呢,正如 DeepMind 研究教授 Michael Bronstein 所說(shuō)的,他并不認(rèn)為那是個(gè)糟糕的結(jié)果,換做是他,也會(huì)這樣畫(huà)。

    Gary Marcus:文本生成圖像系統(tǒng)理解不了世界,離 AGI 還差得遠(yuǎn)

    那么如何最終解決這個(gè)問(wèn)題呢?Gary Marcus 在最近同哲學(xué)家 Dave Chalmers 的一次交談中獲得了新的靈感。

    為了了解系統(tǒng)對(duì)于部分和整體、以及功能的認(rèn)識(shí), Gary Marcus 提出了一項(xiàng)對(duì)系統(tǒng)性能是否正確有更清晰概念的任務(wù),給出文本提示“Sketch a bicycle and label the parts that roll on the ground”(畫(huà)出一輛自行車(chē)并標(biāo)記出在地面上滾動(dòng)的部分),以及“Sketch a ladder and label one of the parts you stand on”(畫(huà)出一個(gè)梯子并標(biāo)記出你站立的部分)。

    這個(gè)測(cè)試的特別之處在于,并不直接給出“畫(huà)出一輛自行車(chē)并標(biāo)記出輪子”、“畫(huà)出一個(gè)梯子并標(biāo)記出踏板”這樣的提示,而是讓 AI 從“地面上滾動(dòng)的部分”、“站立的部分”這樣的描述中推理出對(duì)應(yīng)的事物,這正是對(duì) AI 理解世界能力的考驗(yàn)。

    但 Marcus 的測(cè)試結(jié)果表明,Craiyon(以前稱(chēng)為 DALL-E mini)在這種事情上做得一塌糊涂,它并不能理解自行車(chē)的輪子和梯子的踏板是什么:

    Gary Marcus:文本生成圖像系統(tǒng)理解不了世界,離 AGI 還差得遠(yuǎn)

    Gary Marcus:文本生成圖像系統(tǒng)理解不了世界,離 AGI 還差得遠(yuǎn)

    那么這是不是 DALL-E Mini 特有的問(wèn)題呢?

    Gary Marcus 發(fā)現(xiàn)并不是,在目前最火的文本生成圖像系統(tǒng) Stable Diffusion 中也出現(xiàn)了同樣的結(jié)果。

    比如,讓 Stable Diffusion “畫(huà)一個(gè)人,并把拿東西的部分變成紫色”(Sketch a person and make the parts that hold things purple),結(jié)果是:

    Gary Marcus:文本生成圖像系統(tǒng)理解不了世界,離 AGI 還差得遠(yuǎn)

    顯然,Stable Diffusion 并不理解人的雙手是什么。

    而在接下來(lái)的九次嘗試中,只有一次成功完成(在右上角),而且準(zhǔn)確性還不高:

    Gary Marcus:文本生成圖像系統(tǒng)理解不了世界,離 AGI 還差得遠(yuǎn)

    下一個(gè)測(cè)試是,“畫(huà)出一輛白色自行車(chē),并將用腳推動(dòng)的部分變成橙色”,得到圖像結(jié)果是:

    Gary Marcus:文本生成圖像系統(tǒng)理解不了世界,離 AGI 還差得遠(yuǎn)

    所以它也不能理解什么是自行車(chē)的腳踏板。

    而在畫(huà)出“自行車(chē)的草圖,并標(biāo)記在地面上滾動(dòng)部分”的測(cè)試中,其表現(xiàn)得也并沒(méi)有很好:

    Gary Marcus:文本生成圖像系統(tǒng)理解不了世界,離 AGI 還差得遠(yuǎn)

    如果文本提示帶有否定語(yǔ),比如“畫(huà)一輛沒(méi)有輪子的白色自行車(chē)",其結(jié)果如下:

    Gary Marcus:文本生成圖像系統(tǒng)理解不了世界,離 AGI 還差得遠(yuǎn)

    這表明系統(tǒng)并不理解否定的邏輯關(guān)系。

    即便是“畫(huà)一輛綠色輪子的白色自行車(chē)”這樣簡(jiǎn)單的只關(guān)注部分與整體關(guān)系提示,而且也沒(méi)有出現(xiàn)復(fù)雜的語(yǔ)法或功能等,其得到的結(jié)果仍存在問(wèn)題:

    Gary Marcus:文本生成圖像系統(tǒng)理解不了世界,離 AGI 還差得遠(yuǎn)

    因此,Marcus 質(zhì)問(wèn)道,一個(gè)并不了解輪子是什么、或是它們的用途的系統(tǒng),能稱(chēng)得上是人工智能的重大進(jìn)步么?

    今天,Gary Marcus 還針對(duì)這個(gè)問(wèn)題發(fā)出了一個(gè)投票調(diào)查,他提出的問(wèn)題是,“Dall-E 和 Stable Diffusion 等系統(tǒng),對(duì)它們所描繪的世界到底了解有多少?”

    其中,86.1% 的人認(rèn)為系統(tǒng)對(duì)世界的理解并不多,只有 13.9% 的人認(rèn)為這些系統(tǒng)理解世界的程度很高。

    Gary Marcus:文本生成圖像系統(tǒng)理解不了世界,離 AGI 還差得遠(yuǎn)

    對(duì)此,Stability.AI 的首席執(zhí)行官 Emad Mostique 也回應(yīng)稱(chēng),我投的是“并不多”,并承認(rèn)“它們只是拼圖上的一小塊。”

    Gary Marcus:文本生成圖像系統(tǒng)理解不了世界,離 AGI 還差得遠(yuǎn)

    來(lái)自科學(xué)機(jī)構(gòu) New Science 的 Alexey Guzey 也有與 Marcus 類(lèi)似的發(fā)現(xiàn),他讓 DALL-E 畫(huà)出一輛自行車(chē),但結(jié)果只是將一堆自行車(chē)的元素堆在一起。

    Gary Marcus:文本生成圖像系統(tǒng)理解不了世界,離 AGI 還差得遠(yuǎn)

    所以他認(rèn)為,并沒(méi)有任何能真正理解自行車(chē)是什么以及自行車(chē)如何工作的模型,生成當(dāng)前的 ML 模型幾乎可以與人類(lèi)媲美或取代人類(lèi)是很荒謬的。

    大家怎么看?

    參考鏈接:https://garymarcus.substack.com/p/form-function-and-the-giant-gulf

    更多內(nèi)容,點(diǎn)擊下方關(guān)注:
    掃碼添加 AI 科技評(píng)論 微信號(hào),投稿&進(jìn)群:

    Gary Marcus:文本生成圖像系統(tǒng)理解不了世界,離 AGI 還差得遠(yuǎn)

    Gary Marcus:文本生成圖像系統(tǒng)理解不了世界,離 AGI 還差得遠(yuǎn)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))Gary Marcus:文本生成圖像系統(tǒng)理解不了世界,離 AGI 還差得遠(yuǎn)


    雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

    Gary Marcus:文本生成圖像系統(tǒng)理解不了世界,離 AGI 還差得遠(yuǎn)

    分享:
    相關(guān)文章

    運(yùn)營(yíng)

    當(dāng)月熱門(mén)文章
    最新文章
    請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
    姓名
    電話
    郵箱
    微信號(hào)
    作品鏈接
    個(gè)人簡(jiǎn)介
    為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
    您的郵箱還未驗(yàn)證,完成可獲20積分喲!
    請(qǐng)驗(yàn)證您的郵箱
    立即驗(yàn)證
    完善賬號(hào)信息
    您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
    立即設(shè)置 以后再說(shuō)