Gary Marcus 對(duì) AI 領(lǐng)域開炮：踏踏實(shí)實(shí)做研究，不要凈吹牛逼

本文作者：楊曉凡

2019-12-05 09:51

導(dǎo)語(yǔ)：每隔幾天就要見證一次新的技術(shù)革命

也許我們應(yīng)該要求每篇論文都要在摘要里面用一兩句話說明他們提出的方法有哪些局限和不足。這樣，很多的科學(xué)成果誤讀和狂熱都可以在一開始就避免。
推特網(wǎng)友 Sebastian Risi，2019-10-28

雷鋒網(wǎng) AI 科技評(píng)論按：紐約大學(xué)心理學(xué)教授 Gary Marcus 曾是 Uber 人工智能實(shí)驗(yàn)室的負(fù)責(zé)人，如今他是 Robust.AI 的創(chuàng)始人和 CEO，近期他還出版了一本書《Rebooting AI》。但 Gary Marcus 并不是對(duì)深度學(xué)習(xí)的學(xué)術(shù)和應(yīng)用成果津津樂道的技術(shù)人物，相反地，他經(jīng)常對(duì)深度學(xué)習(xí)領(lǐng)域「潑冷水」，2018 年時(shí)他就曾在 arXiv 上公開文章，指出深度學(xué)習(xí)存在十個(gè)問題。

近期 Gary Marcus 又發(fā)表了一篇文章，更針對(duì)性地指出 AI 相關(guān)的信息傳播也有很大的問題，不僅媒體經(jīng)?？浯髨?bào)道，許多研究結(jié)構(gòu)和學(xué)者也對(duì) AI 的能力夸下?？?。Gary Marcus 認(rèn)為這是危險(xiǎn)的，結(jié)合很多具體例子對(duì)這種風(fēng)氣進(jìn)行了批評(píng)。雷鋒網(wǎng) AI 科技評(píng)論全文翻譯如下。

每隔幾天就要見證一次新的技術(shù)革命

媒體從來(lái)都會(huì)以滿腔的熱情報(bào)道 AI 或者納米或者量子之類的科學(xué)領(lǐng)域的新進(jìn)展，哪怕只有指甲蓋大的成果也經(jīng)常被說成是重大突破，然后不久之后就能改變整個(gè)世界云云。我們必須承認(rèn)，有時(shí)候科學(xué)成果的意義確實(shí)被低估了，比如晶體管剛剛發(fā)明的時(shí)候并沒有引發(fā)什么熱潮，也沒幾個(gè)人在互聯(lián)網(wǎng)剛剛出現(xiàn)的時(shí)候就預(yù)期到了它在幾十年后迸發(fā)出的巨大潛力。

可是，隨著每個(gè)晶體管、互聯(lián)網(wǎng)這種級(jí)別的新成果出現(xiàn)，同時(shí)還會(huì)有成千上萬(wàn)被過度報(bào)道的小成果，這些想法或者產(chǎn)品設(shè)計(jì)可能從來(lái)都不會(huì)變成實(shí)物，又或者聲稱實(shí)現(xiàn)了室溫核聚變之類的壯舉但再也沒有人能重現(xiàn)，最終只能靜靜地躺在文獻(xiàn)庫(kù)或者圖書館里，當(dāng)初設(shè)想的美好愿景全都成了過眼云煙。

Gary Marcus 對(duì) AI 領(lǐng)域開炮：踏踏實(shí)實(shí)做研究，不要凈吹牛逼

之所以會(huì)出現(xiàn)這樣的狀況，是因?yàn)槠胀ù蟊娞矚g聽技術(shù)革命的故事了，小的技術(shù)進(jìn)步要寫得仿佛很大才能引起他們的興趣。而研究人員們也經(jīng)常成為媒體的共犯，因?yàn)樗麄円残枰姷年P(guān)注度，這對(duì)他們的科研資金申請(qǐng)能產(chǎn)生切實(shí)的影響?？梢哉f，當(dāng)前這種科研成果經(jīng)常被吹噓炒作、然后就被悄悄遺忘的風(fēng)氣，不管是媒體還是相當(dāng)一部分研究者都已經(jīng)習(xí)以為常，乃至覺得「應(yīng)當(dāng)如此」。

過去的幾周里剛好有那么幾個(gè)好多知名媒體都在報(bào)道的大新聞，但可惜這幾個(gè)報(bào)道都很有誤導(dǎo)性

一

11 月 24 號(hào)，《經(jīng)濟(jì)學(xué)人》雜志發(fā)表了對(duì) OpenAI 的 GPT-2 文本生成系統(tǒng)的采訪，而且故意說 GPT-2 給出的這些回答是「未經(jīng)編輯的」，而實(shí)際上，每個(gè)回答都是從 GPT-2 生成的 5 個(gè)候選回答中由人類挑選的，挑選標(biāo)準(zhǔn)是要語(yǔ)意連貫而且幽默。這篇報(bào)道讓大眾以為能與人類自然交流的對(duì)話 AI 其實(shí)近在眼前了，但其實(shí)這只是一場(chǎng)表演。

知名 AI 專家 Erik Bryjngjolffson 轉(zhuǎn)推了這篇采訪，評(píng)價(jià)說這個(gè)采訪「令人印象深刻」，以及「這些回答要比很多人類的回答還要通順有趣」。從技術(shù)角度來(lái)說，這種通順程度一方面來(lái)自于 GPT-2 訓(xùn)練時(shí)搜集使用了海量的人類撰寫的句子，另一方面也是人類記者們精心挑選出了通順有趣的句子。所以作為圈內(nèi)人的 Erik 本意是挖苦他們戲演得太假，在外行眼里卻成了對(duì)這個(gè)系統(tǒng)、對(duì)這篇采訪的高度贊揚(yáng)，反倒對(duì)誤解的傳播推波助瀾。后來(lái) Erik 又發(fā)了一條推特澄清他的本意，但閱讀量只有原來(lái)那條的 1/75 而已——這倒并不奇怪，吹捧巨大成果就是比嚴(yán)肅的澄清辟謠容易傳播多了。

二

OpenAI 設(shè)計(jì)了一組神經(jīng)網(wǎng)絡(luò)，可以讓機(jī)械臂學(xué)會(huì)玩一個(gè)專門定制的魔方。對(duì)外宣傳的時(shí)候，OpenAI 在技術(shù)博客里用了一個(gè)有迷惑性的視頻，讓人誤以為這個(gè)系統(tǒng)已經(jīng)能從認(rèn)識(shí)層面上理解魔方，但實(shí)際上它并沒有真的學(xué)會(huì)如何解魔方。（實(shí)際上，僅僅針對(duì)求解魔方這個(gè)問題，1992 年的時(shí)候就有人提出了基于符號(hào)計(jì)算的解魔方算法，它不需要經(jīng)過學(xué)習(xí)）

在這個(gè)視頻里還有幾件事沒有體現(xiàn)出來(lái)，不僅這個(gè)定制的魔方是帶有藍(lán)牙傳感器的，而且，在最好的情況下，隨機(jī)打亂的魔方中也只有 20% 被成功還原了。在媒體報(bào)道里，這些細(xì)節(jié)都被忽略了，比如華盛頓郵報(bào)的報(bào)道是這樣的「OpenAI 的研究人員說他們并沒有明確地給機(jī)器編程教會(huì)它解魔方」，仿佛暗示解魔方是它自己學(xué)會(huì)的；后來(lái)華盛頓郵報(bào)發(fā)出了一則更正「更正為：OpenAI 的研究重點(diǎn)是讓機(jī)械臂控制魔方的轉(zhuǎn)動(dòng)，而不是魔方的解法」。但是，正如前一個(gè)故事，會(huì)讀這則更正啟事的人，和閱讀了原來(lái)的故事然后被誤導(dǎo)的人相比，數(shù)量可謂不值一提。

三

還有兩篇宣稱用神經(jīng)網(wǎng)絡(luò)解決物理問題的論文也被過度報(bào)道了，甚至包括麻省理工科技評(píng)論（MITTR）這樣的著名學(xué)術(shù)媒體，兩篇論文僅僅是解決了復(fù)雜問題的經(jīng)過高度簡(jiǎn)化后的某幾個(gè)狀況而已，但卻被報(bào)道得仿佛完全解決了本來(lái)那個(gè)復(fù)雜問題一樣。比如，有的報(bào)道寫道「神經(jīng)網(wǎng)絡(luò)解決三體問題可以比傳統(tǒng)方法快 1 億倍」，但首先，神經(jīng)網(wǎng)絡(luò)做的不是解決，而是近似計(jì)算，它僅僅近似計(jì)算了高度簡(jiǎn)化過后僅剩 2 個(gè)自由度的狀況（簡(jiǎn)化前有 10 個(gè)自由度），而且這些天體的質(zhì)量還要相同。（詳細(xì)論文解讀見這里）

MITTR 的文章廣為傳播之后，我和 Ernest Davis 也撰寫了一篇詳細(xì)的批評(píng)文章，不過，這篇文章的轉(zhuǎn)發(fā)數(shù)量，大概也就只有 MITTR 文章的 1/75 這個(gè)數(shù)量級(jí)而已。

過度樂觀的研究人員們

不幸的是，AI 科研成果過度炒作的風(fēng)氣并不僅僅出現(xiàn)在媒體中。自從 AI 這個(gè)概念出現(xiàn)的幾十年以來(lái)，即便是 AI 學(xué)術(shù)研究的領(lǐng)軍人物里也有給它煽風(fēng)點(diǎn)火的。從一開始就是這樣，1960 年代，AI 研究的幾位奠基人就覺得可以集中精力研究，一個(gè)夏天搞定計(jì)算機(jī)視覺，以及十幾年時(shí)間搞定通用人工智能。但如今，僅僅是計(jì)算機(jī)視覺都還沒完全解決，通用人工智能更連門都沒有摸到。

這種過度樂觀的情緒在近幾年也是一樣，我們來(lái)看看這幾位著名 AI 學(xué)者的例子：

衛(wèi)報(bào)在 2015 年采訪了「深度學(xué)習(xí)教父」Geoff Hinton，他們的采訪文章標(biāo)題是「谷歌距離開發(fā)出類人智慧又近了一步」。在衛(wèi)報(bào)的采訪中，Hinton 表示他加入谷歌后開發(fā)的新技術(shù)可以「幫助攻克人工智能中的兩大核心挑戰(zhàn)：掌握自然的、對(duì)話級(jí)別的語(yǔ)言能力，以及做出邏輯推理」，而且「馬上就能開發(fā)出有邏輯能力、自然語(yǔ)言對(duì)話能力、甚至能和人開玩笑的算法」。如今，四年過去了，我們還沒見到什么能在沒有外人干預(yù)下就能和人進(jìn)行自然語(yǔ)言對(duì)話的機(jī)器，而且也沒見到什么能理解、推理物理世界現(xiàn)象的系統(tǒng)。
差不多一年之后，Hinton 表示放射科醫(yī)生就像「已經(jīng)踩在了懸崖邊上但是還沒探頭往下看的郊狼」，他想表達(dá)的意思是「如果你現(xiàn)在的工作是放射科醫(yī)生的話，你的工作岌岌可危」；他還補(bǔ)充道「我們現(xiàn)在應(yīng)該停止培養(yǎng)更多的放射科醫(yī)生了。很明顯，在 5 年內(nèi)深度學(xué)習(xí)就會(huì)比放射科醫(yī)生做得更好」。在 2017 年紐約客的采訪中，Hinton 又表達(dá)了一次這個(gè)觀點(diǎn)。也就是這個(gè)時(shí)間前后，上百個(gè)深度學(xué)習(xí)醫(yī)學(xué)影像分析創(chuàng)業(yè)公司出現(xiàn)了，但目前還沒有放射科醫(yī)生真的被取代，而且目前大家最樂觀的猜測(cè)也就是深度學(xué)習(xí)可以成為醫(yī)生的幫手，而不是在短期內(nèi)就取代他們。Hinton 當(dāng)時(shí)的話嚇壞了不少醫(yī)院的放射科，然后帶來(lái)了負(fù)面影響：世界上許多地方的醫(yī)院放射科現(xiàn)在是缺少醫(yī)生的。
2016 年 11 月，在哈佛商業(yè)評(píng)論上，另一位深度學(xué)習(xí)知名人物吳恩達(dá)在文章中寫下「如果一個(gè)普通人做某項(xiàng)任務(wù)的過程中，只需要思考不超過一秒鐘時(shí)間就可以想通，那么這項(xiàng)任務(wù)很有可能可以用 AI 技術(shù)自動(dòng)化，現(xiàn)在或者就在不遠(yuǎn)的將來(lái)?！垢唧w的表述是，某項(xiàng)任務(wù)能否通過 AI 技術(shù)實(shí)現(xiàn)自動(dòng)化，基本上取決于這項(xiàng)任務(wù)的本質(zhì)、能采集到的數(shù)據(jù)，以及這兩者之間的關(guān)系。
對(duì)于棋類游戲這樣的封閉結(jié)局問題，我們可以很方便地通過模擬采集到大量數(shù)據(jù)，吳恩達(dá)的理論就被證明是正確的；但是在對(duì)話理解這種開放結(jié)局的場(chǎng)景中，我們沒法進(jìn)行完整的模擬，吳恩達(dá)的理論目前都是無(wú)效的。如果企業(yè)領(lǐng)袖和政策制訂者們能更明白當(dāng)前的技術(shù)能解決哪些問題、不能解決哪些問題肯定是一件好事，但吳恩達(dá)的文字在其中增加了許多模糊之處。
2015 年 5 月，連線雜志根據(jù)對(duì)當(dāng)時(shí)擔(dān)任 Facebook 人工智能研究院負(fù)責(zé)人的 Yann LeCun 的采訪發(fā)表了一篇報(bào)道，表示「深度學(xué)習(xí)很快就會(huì)給我們帶來(lái)非常聰明的機(jī)器人」。無(wú)需多言，非常聰明的機(jī)器人到現(xiàn)在也還沒看到。正如機(jī)器人技術(shù)專家 Pieter Abbeel 近期在演講中說的，從實(shí)驗(yàn)室中的機(jī)器人技術(shù)演示，到機(jī)器人走入真實(shí)世界、做出智慧行為，其中還有很長(zhǎng)的路要走。

另一方面，學(xué)術(shù)成果被誤讀的學(xué)者們通常都會(huì)保持沉默，說他們是默許了也可以。OpenAI 的首席科學(xué)家 llya Sutskever 就發(fā)推特表示《經(jīng)濟(jì)學(xué)人》對(duì) GPT-2 的采訪挺好的。當(dāng)后來(lái)確認(rèn)了采訪里 GPT-2 的回答都是人工挑選出來(lái)的之后，我問了 Sutskever 是否還認(rèn)同當(dāng)時(shí)自己做出的評(píng)價(jià)，但 Sutskever 沒有回答。

再往前數(shù)一個(gè)月，OpenAI CTO Greg Brockman 自己就做了不少手工挑選的工作。他發(fā)推特說「我們把一篇 GPT-2 生成的短文投稿到了《經(jīng)濟(jì)學(xué)人》的青年作者文章欄目。其中一位評(píng)審者，并不知道這篇短文是 AI 寫出來(lái)的，給出了這樣的評(píng)價(jià)：文章用詞考究，提出的觀點(diǎn)都有證據(jù)支撐，不過思路的原創(chuàng)性并不高?！沟?Brockman 沒有說的是，還有幾位評(píng)審者對(duì)這篇短文的評(píng)價(jià)要低很多，比如來(lái)自評(píng)審者 2 的「文章沒有很快體現(xiàn)出論點(diǎn)，論點(diǎn)也并不新穎，太模糊，太激烈，有很多修辭問題」，評(píng)審者 6 也給出了非常低的評(píng)價(jià)「這篇短文并沒有給問題做出完整的解答，也沒有帶來(lái)新的觀點(diǎn)；它的論述水平不高，文章的用詞、結(jié)構(gòu)也很一般。除此之外，我覺得文章體現(xiàn)出作者對(duì)當(dāng)前的氣候策略以及 IPCC 撰寫的科學(xué)文獻(xiàn)都沒有很好的理解」。對(duì)于讀者來(lái)說，只要他們沒有去查這個(gè)完整故事、只是讀了 Brockman 的推特的話，是完全意識(shí)不到存在這樣低的評(píng)價(jià)的。（其實(shí)，機(jī)器學(xué)習(xí)領(lǐng)域內(nèi)的許多研究人員一直都覺得 OpenAI 一開始表示 GPT-2「太危險(xiǎn)了所以不可以公開發(fā)布」的行為本身就是小題大做、言過其實(shí)）

學(xué)術(shù)研究人員們還有一個(gè)習(xí)慣也給「真正的 AI 近在眼前」的論調(diào)添油加醋，比如 DeepMind 就經(jīng)常在論文里用專門的篇幅描寫他們的成果未來(lái)的潛力，但是又很少提及潛在的限制是什么——如果是作為嚴(yán)謹(jǐn)?shù)目茖W(xué)成果進(jìn)行討論，只說優(yōu)點(diǎn)不談缺點(diǎn)應(yīng)該算不上正確的下結(jié)論的方式。另一方面，他們還會(huì)對(duì)論文中的實(shí)驗(yàn)場(chǎng)景設(shè)定做類比和引申，表明他們正在研究非常難的問題、正在攻克非常宏大的挑戰(zhàn)，暗指他們目前使用的技術(shù)還可以解決更多的困難和挑戰(zhàn)。但是我們需要知道，即便是比較復(fù)雜的游戲，也還和現(xiàn)實(shí)世界不是一回事。DeepMind 撰寫的圍棋 AI AlphaGo 和星際 2 AI AlphaStar 的論文都是這樣，對(duì)潛在的限制幾乎沒有討論。

好在并不是機(jī)器學(xué)習(xí)領(lǐng)域的所有學(xué)者都對(duì)自己的成果吹個(gè)沒完，就在這一年中我先后聽了 Pieter Abbeel 和 Yoshua Bengio 的演講，都既精彩又克制，在介紹深度學(xué)習(xí)（以及深度強(qiáng)化學(xué)習(xí)）的優(yōu)秀表現(xiàn)的同事，也坦誠(chéng)指出了我們面前還有多少挑戰(zhàn)、我們離終點(diǎn)還有多遠(yuǎn)。（具體來(lái)說，Abbeel 著重指出實(shí)驗(yàn)室的機(jī)器人技術(shù)成果和能在現(xiàn)實(shí)世界中工作的機(jī)器人之間還有很遠(yuǎn)的距離，Bengio 則強(qiáng)調(diào)了在現(xiàn)有的 AI 模型中加入因果推理能力的必要性）。我多希望他們這樣的態(tài)度能成為機(jī)器學(xué)習(xí)領(lǐng)域的正常狀態(tài)。當(dāng)這不是常態(tài)的時(shí)候，政策制訂者和普通大眾很容易覺得迷惑，因?yàn)閳?bào)道中的偏倚總是傾向于夸大成果而不是掩蓋它，所以普通大眾害怕的那個(gè) AI 形象其實(shí)不僅現(xiàn)在不存在，可見的未來(lái)中也不會(huì)出現(xiàn)。

夸下?？跁?huì)帶來(lái)危險(xiǎn)

那么，這對(duì)做 AI 應(yīng)用的、AI 商品化的人有什么損害呢？畢竟，如果鼓吹之下有更多的公眾關(guān)注、更多的資金投入、更多的人員加入，也許我們實(shí)現(xiàn)通用人工智能的速度也能更快，似乎也不是什么壞事？

在我看來(lái)這是普通人遇到的一場(chǎng)悲劇，許多人看中了同一片領(lǐng)域里有機(jī)會(huì)，然后一擁而上、竭澤而漁，最后誰(shuí)都落不到好下場(chǎng)。具體到 AI 這里，如果公眾、政府、投資機(jī)構(gòu)都發(fā)現(xiàn) AI 其實(shí)只是畫餅、AI 的長(zhǎng)處短處其實(shí)和現(xiàn)實(shí)需求沒有相符之處，那么一個(gè)新的 AI 寒冬可能就會(huì)到來(lái)。（1974 年開始的那個(gè) AI 寒冬就是早期的狂熱吹捧變成失望之后的后果）

我們現(xiàn)在從事后來(lái)看的話，有很多當(dāng)時(shí)的熱門事件其實(shí)都預(yù)兆了悲劇的結(jié)果：

聊天機(jī)器人：Facebook 在 2015 年公布了一個(gè)名為 M 的聊天機(jī)器人系統(tǒng)，聲稱它可以給個(gè)人助理的能力范圍帶來(lái)革命性的升級(jí)。當(dāng)時(shí)還沒有成熟的 AI 技術(shù)可以實(shí)現(xiàn)他們?cè)O(shè)計(jì)的功能，但他們認(rèn)為這是一個(gè)憑數(shù)據(jù)就能解決的問題，人類只需要回答最開始的幾個(gè)問題，然后深度學(xué)習(xí)就會(huì)把后續(xù)的都搞定。等時(shí)間到了 2018 年，這個(gè)項(xiàng)目被取消了。

總體來(lái)說，2015 年的時(shí)候大家都對(duì)聊天機(jī)器人有充足的熱情，然后如今領(lǐng)域內(nèi)已經(jīng)形成了共識(shí)，以目前的 AI 技術(shù)只能處理一部分有內(nèi)容限制的對(duì)話，即便這樣也無(wú)法保證完全可靠。當(dāng)時(shí)做出承諾很容易，但是要做到就太難了。

Gary Marcus 對(duì) AI 領(lǐng)域開炮：踏踏實(shí)實(shí)做研究，不要凈吹牛逼

醫(yī)療診斷：IBM Watson 也承諾了很多做不到的事情，以至于醫(yī)療機(jī)構(gòu) MD Andersen 癌癥中心由于對(duì)結(jié)果不滿所以終止了和 IBM Watson 的合作。現(xiàn)在看來(lái)，IBM 說要用 Watson 做醫(yī)療診斷肯定有吹噓的成分?？赡芤灿泻芏嗳似诖?DeepMind 進(jìn)入醫(yī)療診斷市場(chǎng)，因?yàn)?DeepMind 也和很多醫(yī)療機(jī)構(gòu)有合作，可以獲取很多數(shù)據(jù)，而且也有大量的計(jì)算和智力資源。但現(xiàn)實(shí)是，DeepMind 也一直都沒有拿出什么有說服力的成果（DeepMind 的醫(yī)療業(yè)務(wù)也已經(jīng)轉(zhuǎn)給了谷歌）。即便只是在簡(jiǎn)單的、主要關(guān)注感知、額外帶有一點(diǎn)點(diǎn)自然語(yǔ)言理解即可的醫(yī)學(xué)圖像分析任務(wù)中，把實(shí)驗(yàn)室成果搬到真正的醫(yī)院里原來(lái)也相當(dāng)困難。

Gary Marcus 對(duì) AI 領(lǐng)域開炮：踏踏實(shí)實(shí)做研究，不要凈吹牛逼

假新聞檢測(cè)器：2018 年 4 月，F(xiàn)acebook 創(chuàng)始人&CEO Mark Zuckerberg 告訴美國(guó)國(guó)會(huì)，在未來(lái)的 5 到 10 年里 AI 可以開始幫助檢測(cè)假新聞，但在今年（2019年）5 月，F(xiàn)acebook CTO Mike Schroepfer 表示無(wú)法承諾在短期內(nèi)做出可見的成果

無(wú)人駕駛汽車：按照 Elon Musk 的承諾，2020 年的時(shí)候我們就會(huì)有完全自主駕駛的汽車了，但目前整個(gè)自動(dòng)駕駛研究領(lǐng)域的共識(shí)是，完全的自動(dòng)駕駛要比大多數(shù)人預(yù)計(jì)的難得多，如果想要在高度限定的路況之外實(shí)現(xiàn)完全的自動(dòng)駕駛，我們還需要很多年的時(shí)間

Gary Marcus 對(duì) AI 領(lǐng)域開炮：踏踏實(shí)實(shí)做研究，不要凈吹牛逼

如今，政府、大企業(yè)、風(fēng)投都在 AI 相關(guān)領(lǐng)域做了許多投資，這其中的一大部分是直接針對(duì)深度學(xué)習(xí)的；而如果這些投入的資金發(fā)現(xiàn)深度學(xué)習(xí)的能力原來(lái)這么有限、原來(lái)當(dāng)初的愿景這也實(shí)現(xiàn)不了那也實(shí)現(xiàn)不了，那么整個(gè)領(lǐng)域都會(huì)受到影響。如果完全的自動(dòng)駕駛、對(duì)話機(jī)器人只是樂觀地比原來(lái)預(yù)期的時(shí)間遲一兩年，那可能并不是什么大問題。但這些技術(shù)、以及其它向大眾承諾了的 AI 技術(shù)推遲的越久，我們面臨一個(gè)新的 AI 寒冬的風(fēng)險(xiǎn)就越大。

一些建議

綜上所述，有關(guān) AI 的信息和報(bào)道出現(xiàn)不準(zhǔn)確是常事。雖然也存在一些準(zhǔn)確的報(bào)道，但即便是知名的新聞媒體也時(shí)不時(shí)會(huì)對(duì)學(xué)術(shù)結(jié)果做出錯(cuò)誤的解讀；企業(yè)出于自身宣傳需要，常常在其中推波助瀾；學(xué)術(shù)研究人員們，即便是知名的學(xué)者，也常常默許了對(duì)自己成果的錯(cuò)誤解讀，不做任何公開澄清。

有一部分信息是準(zhǔn)確的：有些學(xué)者對(duì)于方法的不足非常坦誠(chéng)，有些報(bào)道對(duì)成果的理解非常準(zhǔn)確。但總體來(lái)說，整個(gè)風(fēng)氣仍然偏向于把任何的小成果不斷放大，樂于宣稱有各種革命性的改進(jìn)。

這一切的后果可能會(huì)對(duì)這個(gè)領(lǐng)域產(chǎn)生反作用，過度激活的公眾熱情帶來(lái)了當(dāng)前的 AI 熱潮，然后在公眾變得失望之后帶來(lái)下一個(gè) AI 寒冬。

在 Rebooting AI 中，Ernie Davis 和我一同提出了六條建議，每一條都希望可以幫助讀者、記者們核對(duì)自己看到的信息是否客觀、全面，以及讓研究者們更慎重地評(píng)價(jià)自己的成果。

把所有的修辭、比喻都去掉，這個(gè) AI 系統(tǒng)究竟是執(zhí)行什么樣的任務(wù)的？（一個(gè)「閱讀系統(tǒng)」所做的是和人一樣的「閱讀」嗎？）
結(jié)果的泛化能力怎么樣？（一個(gè)可以在美國(guó)鳳凰城工作的自動(dòng)駕駛系統(tǒng)，在印度孟買也能工作嗎？一個(gè)能解魔方的機(jī)械臂，能用來(lái)開汽水嗎？這都需要多少訓(xùn)練？）
有沒有可以供感興趣的讀者自己實(shí)驗(yàn)的 demo？
如果宣稱 AI 比人類的表現(xiàn)要好，那么是比怎么樣的人表現(xiàn)更好？要好多少？（只拿很少的薪水的眾包標(biāo)注員真的能準(zhǔn)確體現(xiàn)人類的能力嗎？）
假設(shè)我們認(rèn)可某個(gè) AI 在某項(xiàng)具體任務(wù)上比人類的表現(xiàn)更好，那么這距離我們?cè)斐稣嬲?AI 又還有多遠(yuǎn)？
系統(tǒng)的魯棒性如何？能不能不經(jīng)過重新訓(xùn)練就在別的數(shù)據(jù)集上也發(fā)揮出這樣的表現(xiàn)？（AlphaGo 在 19x19 的正方形圍棋盤上表現(xiàn)不錯(cuò)，但如果換成長(zhǎng)方形棋盤，就需要重新訓(xùn)練這個(gè)系統(tǒng)。遷移能力的缺失一目了然）

最后，如果每篇學(xué)術(shù)論文/技術(shù)報(bào)告以及媒體報(bào)道的最后都能加上幾句冷靜有建設(shè)性的、針對(duì)缺點(diǎn)的自我評(píng)價(jià)的話，能明顯幫助避免大家對(duì) AI 繼續(xù)抱有不切實(shí)際的期待。

via thegradient.pub/an-epidemic-of-ai-misinformation/，雷鋒網(wǎng) AI 科技評(píng)論編譯

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

楊曉凡

讀論文為生

日常笑點(diǎn)滴，學(xué)術(shù)死腦筋

發(fā)私信

當(dāng)月熱門文章