1
編者按:借著谷歌IO大會的東風,《連線》雜志發(fā)文深入剖析AI向人類進化的整個過程,并提出,在這個過程中,雖然人類擔憂AI會取代人類等,但事實上,AI不僅不會取代人類,還能推動人類進步。以下為文章主要內容:
人機圍棋大戰(zhàn)第二局,AlphaGo一手落向空白區(qū)域的37驚呆了世界——李世石看到后離開了,遠程觀看并解說的雷德蒙同樣震撼。這個西方唯一的九段棋手表示,“我真的不知道這是一步好棋還是壞棋?!倍c此同時,美國圍棋協會通訊副總裁英語解說員克里斯·加洛克則表示,“這是一個錯誤?!?/p>
這一步李世石長考了大約二十分鐘,但四個多小時候,他還是輸了。后來的后來,在這場人機大戰(zhàn)中,鏈接了數百個分布在世界各地的谷歌數據中心的AI程序,擊敗了可能是有史以來人類設計的最復雜的游戲中最好的選手。
對37手同樣產生疑惑的是樊麾,他不只是曾經5比0輸給AlphaGo的歐洲圍棋冠軍,而且從那以后,他成為了AlphaGo的陪練。與李世石交戰(zhàn)前的五個多月里,樊麾與AlphaGo進行了上百盤比賽。他看著AlphaGo一天天地長大。樊麾失敗的次數越來越多,但他是最了解AlphaGo的人。看著AlphaGo的第37手,他深知這其中一定有常人難以理解的地方,計算10秒后,他表示“竟是如此妙手”。
對,大多數人認為,AlphaGo的勝利是計算力的強勢碾壓,然而,第37手證明AlphaGo不只是計算,它表現出一定程度理解圍棋的能力,就像人類棋手一樣,具有“棋感”。所以,37手具有歷史性的意義,它表明機器和人類終于開始有了真正融合的一天。
AlphaGo創(chuàng)始人哈薩比斯1976年生于倫敦,他4歲開始接觸國際象棋,13歲晉身“大師級”(chess master),在14歲以下棋手中名列世界第二。AlphaGo團隊的領導者席爾瓦說道,“我曾見他出現在我們鎮(zhèn)上,贏得了比賽,然后離開。” 他們兩人在劍橋讀本科時正式見了面。為了了解人類的思維,研究機器是否也能變得智能,兩人的專業(yè)都是計算神經科學。哈薩比斯在倫敦大學學院(UCL)攻讀認知神經科學博士課程時,主攻腦部負責導航、回憶及想像的海馬回(hippocampus) ,為打造思考方式更近似人類的電腦打下基礎,他提出的新理論獲《科學》雜志評為2007年十大科技突破。
1997年IBM深藍電腦擊敗國際象棋冠軍時,正好是哈薩比斯在劍橋大學攻讀電腦科學的時候。那時他在劍橋內第一次接觸到圍棋——這個已有千年歷史的棋類運動,而剛剛接觸圍棋的哈薩比斯忍不住思考:為什么機器從未破解這種智力游戲?也因為如此,哈薩比斯暗下決心,希望做出一個下圍棋勝過人類的電腦系統。用博弈論的術語講,圍棋與國際象棋和西洋跳棋一樣,是一種完全信息博弈游戲——毫無運氣可言,信息完全公開。通常來說,電腦應該輕松就能將其掌握,但其就是攻克不下圍棋。
哈薩比斯表示,在圍棋中,無論是人類還是機器都無法算出每一步的最終結果,頂級棋手靠的是直覺,而非硬算——即是棋感?!皣宀季种v究美學,好的布局看起來充滿美感?!?/p>
1998年,兩人畢業(yè)后合開了一家電子游戲公司。游戲是檢驗人工智能的好辦法。但在2005年,他們的游戲公司倒閉了。席爾瓦去了阿爾伯塔大學研究人工智能的初級形式——增強學習。增強學習技術讓機器可以重復同樣的任務,找出效果最佳的決策,從而實現自主學習。哈薩比斯則去到了英國倫敦大學學院,獲得了神經系統學的博士學位。兩人的專業(yè)都是計算神經科學,為了研究機器是否也能變得智能。2010年,他們再次相聚——哈薩比斯在倫敦成立了一個名為DeepMind的人工智能公司,席爾瓦則加入了他。
當谷歌CEO布林遇見哈薩比斯時,哈薩比斯說:“幾年內,DeepMind或許能打敗世界圍棋冠軍?!边B以遠見卓著的布林也覺得不可思議,但他們做到了。
人機大戰(zhàn)第二局結束后,席爾瓦進入AlphaGo的控制室,監(jiān)控其運行是否正常,并跟蹤它對每場對弈結局的預測有何變化。 席爾瓦調出了AlphaGo在對弈期間做出的決策記錄,查看AlphaGo在下出第37手的前一刻發(fā)生了什么。
在DeepMind和AlphaGo出現之前,機器下棋都依靠暴力破解的方法,即窮舉,IBM的深藍用的就是這種。當時,深藍也走出了人類意料之外的一步,但是,暴力計算解決不了圍棋。圍棋有太多變化,電腦都無法硬算。
所以,DeepMind只能另辟蹊徑——機器學習。
DeepMind團隊將3000萬步人類下出的圍棋步法輸入到一個深度神經網絡中。這個網絡模擬人腦中的神經網,團隊也希望它能夠像人腦一樣思考,自主學習。比如Facebook的計算機視覺技術,谷歌的語音識別。觀察足夠多的貓,它就能認出貓;輸入足夠多的語言數據,它就能聽懂自然語言;同樣,輸入足夠多的棋譜,它也能學會如何下棋。但是,創(chuàng)意聯想與規(guī)則運用是兩碼事,比如37手并不在那3000萬步棋譜之中,那么它是如何做到的呢?事實上,AlphaGo還計算出,一名人類專業(yè)棋手下出這樣一步的概率大約只有萬分之一,但它還是選擇了這一步。
“它知道職業(yè)棋手這么下的幾率很低,但當它經過自己的計算后,它可以推翻原先輸入的棋譜參考,”席爾瓦解釋道,從某種意義上來說,AlphaGo開始自主思考。它做出的決定不是以其創(chuàng)造者在其數字DNA中編入的規(guī)則為基礎的,而是以其自學的算法為基礎的。
讓它自己學會了下棋后,席爾瓦讓AlphaGo和自己對弈——一個與其版本不一樣的神經網絡。在自我對弈訓練過程中,AlphaGo記錄起那些最優(yōu)的走法——這就是席爾瓦曾研究的增強學習技術。
給自己打譜——這是棋力提高的有效方法,但這是部分技巧。懂得分析局面、有了邏輯計算還不夠,在茫茫棋盤中找到妙手還要靠直覺,就是根據棋形進行的感性預測。在增強學習技術實現后,席爾瓦的團隊將這些非人類圍棋步法輸入到第二個神經網絡中,教它像深藍那樣預測國際象棋棋局一樣預測圍棋的棋局。將其與自己對弈多場后收集到的所有信息輸進去后,AlphaGo開始可以預測一場圍棋對弈可能展開的方式。這便是直覺。比如AlphaGo的37手。即使回到后臺查看過程的席爾瓦,也無法知道AlphaGo是如何得出這個結果——這就是棋感的形成。
AlphaGo是 DeepMind 跨入 AI 領域的重要一步,但對于“AI取代人類論”,哈薩比斯表示無需擔心,在他看來,AI是一個工具,一個結構智慧,讓人類更好的工具。雖然AlphaGo目前有這樣的能力,但它未必真的知道“自己”在做什么。所以,利用這樣一個工具,哈薩比斯又是如何設想未來5年的AI世界的呢?谷歌花6.5億美元收購一家公司,不會只是玩一場棋牌游戲。
有了深度學習和自主思維能力,AlphaGo今天可以下棋,明天就可以學設計。深度學習和神經網絡支撐著十多項由谷歌提供的服務,包括它那無所不能的搜索引擎。AlphaGo另一個不那么秘密的武器——增強學習已經在教導該公司的實驗室機器人們拿起并移動各種物品。
但是,商業(yè)問題并不是最重要的。當詢問哈薩比斯,看見李世石輸了比賽他作何感想時,他指著心口說:“我很難過。” 看到自己創(chuàng)造的成果他感到驕傲,但出于人類本能,他感到難過,他希望李世石能夠贏下一局。
然而到了第四局,AlphaGo用同樣神秘的手法掌控著棋盤上的主導權——當李世石對棋盤上的特定區(qū)域發(fā)起猛攻時,AlphaGo的應對體現出了驚人的大局觀,不僅能夠防住李世石的局部絞殺,還能為全盤埋下伏筆——在第37手時,AlphaGo將一枚黑色棋子置于一個旁邊只有一枚白棋的地方,遠離主戰(zhàn)場。
然后的然后,到了AlphaGo下出第77手時,李世石再一次陷入長考。李世石走78手之前,AlphaGo計算出自己的勝率為70%。但就在這個時候,AlphaGo成為了下一個卡斯帕羅夫。它無法相信一個人類會下出那“神之一手”的78——其可能性接近萬分之一。但換個角度想,這個思維更可怕:它在挑戰(zhàn)人類的恐懼,它有僥幸心理。它有人類思維的有點,也有弱點。
78手逆轉后,李世石在右方發(fā)動攻勢,AlphaGo專為防守。在這以守為攻的過程中,AlphaGo一度看似想在右方“提劫”,卻沒有成功,反而跑出“死子”。隨后,中后盤的每一次落子,AlphaGo平均都要思考3分鐘以上。到了“收官”階段,李世石仍舊小心翼翼,沒有出現失誤。最終,AlphaGo投子認輸,李世石獲得首勝。這也是AlphaGo自戰(zhàn)勝樊麾以來首次向人類“投降”。
最后第五局雖然仍以李世石落敗告終,但雙方的奮力拼殺早已把勝負置之度外,這是一場原則的較量。人機大戰(zhàn)開始前,哈薩比斯簡稱AI是推動人類進步的工具,當時這樣的說法毫無根據,但隨著AI投入現實生產和生活的應用越多,就越讓人相信:機器也可以做得人性化,而且能與人類相互協同,相互促進。最簡單的,沒有AlphaGo的37手,又哪來“神之一手”的78?
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。