圖靈測試先天不足？解決人工智能威脅論爭論的四個困難

本文作者：人工智能學(xué)家

2015-09-28 15:55

導(dǎo)語：圖靈測試為什么不靠譜？人工智能的水平為什么不好判斷？

【編者按】本文是“人工智能學(xué)家”舉辦2015世界人工智能系統(tǒng)智商測試排名活動的第二篇。文章重點闡述了圖靈測試的先天不足和解決人工智能超越人類智慧爭議面臨的四個困難。

隨著互聯(lián)網(wǎng)大數(shù)據(jù)的興起，以及深度學(xué)習(xí)等機器學(xué)習(xí)算法在互聯(lián)網(wǎng)領(lǐng)域的廣泛應(yīng)用，人工智能再次進入快速發(fā)展的時期。但是，不同領(lǐng)域的科學(xué)家、企業(yè)家（如物理學(xué)家霍金，微軟創(chuàng)始人比爾蓋茨等）對人工智能的未來表達了擔(dān)心，由于他們的影響力，人工智能威脅論因此得到廣泛傳播。

與之相對地，人工智能領(lǐng)域科學(xué)家對人工智能威脅論提出了反駁意見，其中就包括Facebook人工智能實驗室主任、NYU計算機科學(xué)教授Yann LeCun，百度首席科學(xué)家、斯坦福大學(xué)計算機科學(xué)系和電子工程系副教授吳恩達，以及中國科學(xué)院自動化所教授、人工智能領(lǐng)域?qū)＜彝躏w躍等。

應(yīng)該說人工智能威脅論引發(fā)爭論背后，本質(zhì)上是人工智能的智力發(fā)展水平能不能定量評測的問題。對于這個問題，前人研究者已經(jīng)做出大量工作。

圖靈測試的先天不足

測試人工智能系統(tǒng)是否具有智能最著名的方法是”圖靈測試“。1950年，圖靈發(fā)表論文《Computing Machinery and Intelligence》提出了“機器思維”的概念，提出一位測試者在與被測試者相互隔離不能進行直接交流的情況下，通過信息傳輸，和被測試者進行一系列的問答，在經(jīng)過一段時間后，測試者如果無法根據(jù)獲取的信息判斷對方是人還是計算機系統(tǒng)，那么就可以認(rèn)為這個系統(tǒng)具有同人類相當(dāng)?shù)闹橇δ芰?，也就是說這臺計算機是有思維能力的，這就是著名的“圖靈測試”(Turing Testing)。

圖靈在論文中這樣定義圖靈測試：

“我們稱下面這個問題為“模仿游戲”。游戲參與者包括一個男人，一個女人，以及一個任意性別的詢問者。詢問者與另兩個人待在不同的房間里，并通過打字的方式與他們交流，以確保詢問者不能通過聲音和筆跡區(qū)分二者。兩位被詢問者分別用X和Y表示，詢問者事先只知道X和Y中有且僅有一位女性，而詢問的目標(biāo)是正確分辨X和Y中哪一位是女性。另一方面，兩位被詢問者X和Y的目標(biāo)都是試圖讓詢問者認(rèn)為自己是女性。也就是說，男性被詢問者需要把自己偽裝成女性，而女性被詢問者需要努力自證。現(xiàn)在我們問：如果我們把“模仿游戲”中的男性被詢問者換成計算機，結(jié)果會怎樣？相比人類男性，計算機能否使詢問者更容易產(chǎn)生誤判？”。

圖靈測試并沒有定義智能的范疇，而只能作為一個人工智能的充分條件，關(guān)于這一點，圖靈在論文中寫道：

“機器能否擁有智能，為了回答這個問題我們應(yīng)該首先定義‘機器’和‘智能’。一種可能性是根據(jù)大多數(shù)普通人的日常理解去定義這兩個概念，但這樣做是危險的。在這里我并不打算定義這兩個概念，可能有人會說這項測試對機器而言過于嚴(yán)格 —— 畢竟人類也無法反過來成功偽裝成機器，這只需檢查算術(shù)的速度和正確度即可辨別。難道被認(rèn)為擁有智能的機器就不能表現(xiàn)出和人類不同的行為么？這是一個很有力的反對意見，但至少不管怎樣，假如我們有能力制造出一個可以成功通過測試的機器的話，也就無需為這個反對意見煩惱了?！?/em>

如上圖所示，圖靈測試與人工智能的關(guān)系可以用集合的概念進行闡述。從圖中可以看到“所有人類行為”對應(yīng)的集合“和所有智能行為”對應(yīng)的集合有交集但又互有不同。雖然“在全部智能行為”中有部分能力是人類靠自身力量無法完全實現(xiàn)，但人類可以被認(rèn)為是有智能標(biāo)準(zhǔn)體，因此，能達到“人類水平”的部分，也就是兩個集合交集的那個部分，就應(yīng)該被認(rèn)作是“擁有智能”的特征。而且，人類的所有行為并不總是和智能相關(guān)。圖靈測試要求機器全面模擬“所有人類行為”，其中既包括人類“智能”的部分，也包括人類的“非智能”行為，由此可得出結(jié)論：通過圖靈測試是 “擁有智能”的一個有效的充分條件，而非必要條件或充要條件。（該內(nèi)容引自微軟研究院）

圖靈測試經(jīng)常用來檢驗機器是否具備人的智能，但總體看，圖靈測試的方法受人為因素干擾太多，嚴(yán)重依賴于裁判者和被測試者的主觀判斷，因此往往有人在沒有得到嚴(yán)格驗證的情況下宣稱其程序通過圖靈測試，例如2014年6月英國雷丁大學(xué)客座教授凱文?沃維克宣稱一款名為“尤金?古特曼(Eugene Goostman)”的計算機軟件通過了測試，但是測試結(jié)果充滿爭議，例如機器人只要能夠通過30%的評判標(biāo)準(zhǔn)即可被判定通過圖靈測試，另外這個計算機軟件通過扮演一名年僅13歲，且第二外語為英語的男孩讓參與測試的裁判大幅度降低了測試難度。

中國科學(xué)院自動化所研究員王飛躍在“關(guān)于人工智能九個問題”中也對圖靈測試存在的問題進行了討論，他的意見主要有以下兩點：

人類的智能并不是一個單一的對象，而是有多個類別組成，同樣人工智能對應(yīng)也是多類別組成。圖靈測試究竟測試的那些類別并不明確，從實踐上看，目前圖靈測試僅僅局限在語言智能等特定小領(lǐng)域里，不具備代表性。
圖靈測試并不是考官對一臺計算機測試后就可以宣布其是否擁有智能，圖靈測試的本意是指一個廣義的人類做個為整體的考官，其測試的時間段也不是具體的一段時間而是廣義的時間段，即所有的人類在所有時間都分辨不出人與機器之后，才算其人類智能與人工智能等價。

從上述討論可以看出，圖靈實驗只對人工智能系統(tǒng)是否具有人類智能回答“是”或“否”，并不對人工智能系統(tǒng)的發(fā)展水平進行定量分析，而且測試的智能或智力種類還過于單一；在測試方法上存在漏洞，容易被測試者找到漏洞從而產(chǎn)生作弊行為?？偟膩碚f，圖靈實驗?zāi)壳斑€無法承擔(dān)定量分析智能系統(tǒng)智力發(fā)展水平的需求。

解決人工智能威脅論爭論的四個困難

2015年3月，Stuart Geman，Donald Geman等研究在National Acad Sciences發(fā)表論文“Visual Turing test for computer vision systems”，提出的視覺圖靈測試“Visual Turing test”，目的是測試計算機能否能像人類那樣描述一張圖片。

除此之外，2015年1月，在德克薩斯州召開的美國人工智能大會（AAAI-15）上，學(xué)者專門組織了研討會（Beyond Turing Test），對圖靈測試進行深入的討論，并對智能的評測標(biāo)準(zhǔn)提出了新的建議。但是這些測試也存在分析范圍單一，或無法定量分析的問題。

總體看，目前包括圖靈測試在內(nèi)的各種方案對判斷一個人工智能系統(tǒng)是否和人一樣擁有同等水平的智力、高低程度如何、發(fā)展速度比率如何，上述中研究沒有涉及到可具體執(zhí)行的思路和方案。我們認(rèn)為這些問題長時間存在，主要與下面提到的四點困難有關(guān)。

1、沒有統(tǒng)一的模型和測試方法對不同的人工智能系統(tǒng)進行測試。人工智能無論從理論研究還是從應(yīng)用實踐都存在眾多分支和發(fā)展方向。在理論上人工智能分為三大學(xué)派，如符號主義（Symbolicism）或計算機學(xué)派（Computerism）；連結(jié)主義或生理學(xué)派（Physiologism）；行為主義（Actionism）或控制論學(xué)派（Cyberneticsism）等。在應(yīng)用實踐上，人工智能可以應(yīng)用的方向包括符號計算、模式識別、機器翻譯、機器學(xué)習(xí)、問題求解、邏輯推理與定理證明、自然語言處理、分布式人工智能、計算機視覺、智能信息檢索、專家系統(tǒng)等等。

每種具體的人工智能系統(tǒng)往往只具備一個或若干上述提到的功能。例如IBM的深藍強于計算能力，在國際象棋方面可以與人類對手一決高下；沃森系統(tǒng)擁有龐大知識庫系統(tǒng)，因此可以在常識問答比賽中擊敗人類選手。因為沒有統(tǒng)一的模型可以涵蓋這些人工智能系統(tǒng)，就無法形成統(tǒng)一的測試方法進行測試和比較。如圖1.2所示，人工智能系統(tǒng)A 在計算能力上得分為100，人工智能系統(tǒng)B 在計算機視覺識別上得分為80，人工智能系統(tǒng)C在機器翻譯測試得分為90分，我們?nèi)匀粺o法得出結(jié)論A的智力能力高于C，C的智力能力高于B的結(jié)論。

2、沒有統(tǒng)一的模型和測試方法能夠同時對人工智能系統(tǒng)和人類進行測試，這也是當(dāng)前人工智能威脅論產(chǎn)生最重要的原因之一。因為沒有人工智能系統(tǒng)和人類智能水平統(tǒng)一的測量方法，人工智能威脅論宣揚者往往將計算機或軟件系統(tǒng)表現(xiàn)強大的領(lǐng)域作為標(biāo)準(zhǔn)，例如計算能力，歷史，地理等常識的掌握能力等，而忽略諸如圖像識別能力，創(chuàng)新創(chuàng)造的能力，發(fā)現(xiàn)規(guī)律的能力等，對于這個原因產(chǎn)生的問題，人工智能威脅論反駁者往往無法拿出定量的數(shù)字結(jié)果進行反駁。

目前雖然針對人類智力能力的評測方法已經(jīng)非常成熟，但過去100多年的發(fā)展和改進過程中，這些方法并沒有考慮到人工智能系統(tǒng)的特點和發(fā)展水平，因此很難將人類的智商測試方法拿來測試人工智能系統(tǒng)。例如目前絕大多數(shù)人工智能系統(tǒng)就無法完成圖1.3所示題目，因為測試者需要首先識別圖像中的問題，并與圖中的各個圖形特征關(guān)聯(lián)起來。做不到這一點，回答問題就無法進行下去。

圖1.4所示的人類智商測試的題目需要測試者運用鉛筆，鋼筆等工具繪制圖形。用手操作物體完成任務(wù)，解決問題是人類普通的能力，但對大多數(shù)人工智能系統(tǒng)因為沒有相應(yīng)輸出系統(tǒng)或操控設(shè)備，于是無法完成圖1.4所示的測試。

3、人工智能系統(tǒng)沒有形成智力發(fā)展水平測試的標(biāo)準(zhǔn)輸入輸出接口。例如如圖靈測試的問題問答，IBM深藍與國際象棋大師的比賽，沃森系統(tǒng)與人類選手進行知識比賽等時，研究人員就需要研發(fā)不同的輸入輸入接口以滿足測試需求。對于更多人工智能系統(tǒng)，在設(shè)計時往往由于只考慮到滿足工作需求，而沒有設(shè)計和開發(fā)與測試系統(tǒng)進行完整交互的能力，如圖1.5所示。這個問題如果沒有得到解決，對于發(fā)展新的統(tǒng)一的人工智能測試也將帶來困難。

4、沒有關(guān)于人工智能智力發(fā)展水平的歷史測試統(tǒng)計數(shù)據(jù)。由于針對人工智能系統(tǒng)一直沒有產(chǎn)生定量分析方法，這個問題在今天依然存在。因為歷史數(shù)據(jù)的缺失，研究者就無法繪制類似圖1.6所示的人工智能系統(tǒng)智力水平的發(fā)展示意圖，也無法將人工智能系統(tǒng)與人類智力發(fā)展水平進行比較。因此很難定量的對未來發(fā)展趨勢進行預(yù)測。上文我們提到Facebook人工智能實驗室主任Yann LeCun在反駁人工智能威脅論時雖然給出了相關(guān)發(fā)展趨勢圖，但因為不是通過歷史數(shù)據(jù)預(yù)測得來，因此說服力大打折扣。

關(guān)于這些問題如何解決，目前各國的人工智能專家都在進行研究。這一問題并不是無法解決的，而一旦能夠有更完善的系統(tǒng)對人工智能系統(tǒng)與人的智力水平作出客觀真實的比較和評價后，人工智能威脅論的說法也會產(chǎn)生又會何去何從呢？我們拭目以待。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

5人收藏

分享：

相關(guān)文章

人工智能威脅論圖靈測試 Yann LeCun 吳恩達深度學(xué)習(xí)

AI PC進入全民創(chuàng)新時代？英特爾人工智能創(chuàng)新應(yīng)用大賽 ...

“因其偉大，故而艱難”，資深科普作家陳宗周解碼AI ...

全國多地教育部門舉辦“AI運動會”，開啟暑期線上運 ...

他山科技多款新品亮相 WAIC 展會，展現(xiàn)機器人觸覺技 ...

人工智能學(xué)家

AItisis

關(guān)注人工智能科技與產(chǎn)業(yè)前沿進展

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門文章

最新文章

“因其偉大，故而艱難”，資深科普作家陳宗周解碼AI七十年

跨境電商如果還在靠堆人力，很快就要被淘汰 | 鯨犀百人談No.34

錯過中國直播帶貨，別再失守美國私域黃金期 | 鯨犀百人談No.33

驗證碼的發(fā)展史與未來預(yù)測 | 科普

機器學(xué)習(xí)算法中分類知識總結(jié)！

神經(jīng)網(wǎng)絡(luò)淺講：從神經(jīng)元到深度學(xué)習(xí)

熱門搜索

Twitter 智能手機美團吳恩達 Android Wear HTC Vive HoloLens 蘋果發(fā)布會 Galaxy S4 數(shù)據(jù)庫上汽

圖靈測試先天不足？解決人工智能威脅論爭論的四個困難

圖靈測試先天不足？解決人工智能威脅論爭論的四個困難