0
雷鋒網按:如果說到在機器學習領域領先的公司,想必你不會忽略谷歌。從谷歌翻譯到從機器視覺,谷歌一直努力將機器學習應用于可能想象的任何地方。本文會講三個故事,它們在 Google 翻譯向 AI 的成功轉型中整合在了一起:一個技術故事,一個制度故事和一個關于思想演變的故事。本文源自紐約時報,作者Gideon Lewis-Kraus,雷鋒網編譯,未經許可不得轉載。
如果對前情不太熟悉的讀者,歡迎點擊閱讀《谷歌大腦是如何煉成的:萬字無刪減版全解密(一)》。
Jeff Dean
雖然 Jeff Dean 頂著高級研究員的頭銜,但其實他才是谷歌大腦部門的真正大腦。Dean 長著像卷福一樣的長臉,眼窩深陷、身材健壯且精力充沛,總是在談話中透出一股熱情。
Dean 的父親是一位醫(yī)學人類學家兼公共衛(wèi)生流行病學家,經常輾轉于世界各地。因此, Dean 的童年也是在周游世界中度過的,明尼蘇達州、夏威夷、波士頓、阿肯色、亞特蘭大和日內瓦、烏干達、索馬里等地都留有他的身影。
同時,Dean 從小就擅長制作軟件,他在高中和大學時編寫的軟件就被世界衛(wèi)生組織買走使用。1999年,Dean 正式加入谷歌,當時他才 25 歲。從那時起,他幾乎參與了谷歌所有重大項目的核心軟件系統(tǒng)開發(fā)。作為一位功勛卓著的谷歌人,Dean 在谷歌內部甚至成了一種文化,每個人都會拿他當俏皮梗的素材。
2011 年年初,Dean 在谷歌的休息室遇見了吳恩達,后者是斯坦福大學的計算機科學家,同時也是谷歌的顧問。吳恩達表示自己正在幫助谷歌推進一個名為 Project Marvin 的項目(以著名的 AI 先驅馬文·明斯基命名),模仿人類大腦結構的數(shù)字網格,用于研究“神經網絡”。
1990 年在明尼蘇達大學讀大學時,Dean 也曾接觸過此類技術,當時神經網絡的概念就已經開始流行了。而最近五年里,專注于神經科學研究的學者數(shù)量再次開始快速增長。吳恩達表示,在谷歌 X 實驗室中秘密推進的 Project Marvin 項目已經取得了一些進展。
Dean 對這個項目很感興趣,于是決定分出自己 20% 的時間投入其中(每位谷歌員工都要拿出自己 20% 的時間從事核心職務外的“私活”)。隨后,Dean 又拉來了一位得力助手,Greg Corrado 擁有神經科學背景。同年春季末,該團隊又迎來了第一位實習生——吳恩達最出色的學生 Quoc Le 。在那之后,Project Marvin 項目在谷歌工程師口中變成了“谷歌大腦”。
“人工智能”一詞誕生于 1956 年,當時大多數(shù)研究人員認為創(chuàng)造 AI 的最佳方法是寫一個非常高大全的程序,將邏輯推理的規(guī)則和有關世界的知識囊括其中。舉例來說,如果你想將英語翻譯成日語,需要將英日雙語的語法和詞匯全部囊括其中。這種觀點通常被稱為“符號化 AI ”,因為它對認知的定義是基于符號邏輯的,這種解決方案已經嚴重過時。
說這種方案過時主要有兩個原因:一是它非常耗費人力和時間,二是只有在規(guī)則和定義非常清楚的領域才有用:如數(shù)學計算和國際象棋。但如果拿這種方案來解決翻譯問題,就會捉襟見肘,因為語言無法與詞典上的定義一一對應,而且語言的使用中會出現(xiàn)各種變形和例外。不過,在數(shù)學和國際象棋上符號化 AI 確實非常強悍,絕對無愧于“通用智能”的名頭。
1961 年的這個紀錄片點出了人工智能研究中的一個共識:如果可以讓計算機模擬高階認知任務(比如數(shù)學或象棋),就能沿著這種方法最終開發(fā)出類似于意識的東西。
不過,此類系統(tǒng)的能力確實有限。上世紀 80 年代,卡耐基梅隆大學的研究人員指出,讓計算機做成人能做的事情很簡單,但讓計算機做一歲兒童做的事情卻幾乎不可能,比如拿起一個球或識別一只貓。十幾年后,雖然深藍計算機在國際象棋上戰(zhàn)勝世界冠軍,但它離理想中的“通用智能”差的還很遠。
關于人工智能,研究人員還有另一種看法,這種觀點認為電腦的學習是自下而上的,即它們會從底層數(shù)據開始學習,而非頂層規(guī)則。這一觀點上世紀 40 年代就誕生了,當時研究人員發(fā)現(xiàn)自動智能的最佳模型就是人類大腦本身。
其實,從科學角度來看,大腦只不過是一堆神經元的集合體,神經元之間會產生電荷(也有可能不會),因此單個神經元并不重要,重要的是它們之間的連接方式。這種特殊的連接方式讓大腦優(yōu)勢盡顯,它不但適應能力強,還可以在信息量較少或缺失的情況下工作。同時,這套系統(tǒng)即使承受重大的損害,也不會完全失去控制,而且還可以用非常有效的方式存儲大量的知識,可以清楚區(qū)分不同的模式,同時又保留足夠的混亂以處理歧義。
其實我們已經可以用電子元件的形式模擬這種結構,1943 年研究人員就發(fā)現(xiàn),簡單的人工神經元如果排布準確,就可以執(zhí)行基本的邏輯運算。從理論上來講,它們甚至可以模擬人類的行為。
在生活中,人類大腦中的神經元會因為不同的體驗而調節(jié)連接的強弱,人工神經網絡也能完成類似任務,通過不斷試錯來改變人工神經元之間的數(shù)字關系。人工神經網絡的運行不需要預定的規(guī)則,相反,它可以改變自身以反映說吸納數(shù)據中的模式。
這種觀點認為人工智能是進化出來而非創(chuàng)造出來的,如果想獲得一個靈活且能適應環(huán)境的機制,那么絕對不能剛開始就教它學國際象棋。相反,你必須從一些基本的能力,如感官知覺和運動控制開始,長此以往更高的技能便會有機出現(xiàn)。既然我們學語言都不是靠背誦詞典和語法書的,為什么計算機要走這一道路呢?
谷歌大腦是世界上首個對這種觀點進行商業(yè)投資的機構,Dean、Corrado 和吳恩達開始合作不久就取得了進展,他們從最近的理論大綱以及自 20 世紀八九十年代的想法中吸取靈感,并充分利用了谷歌巨大的數(shù)據儲備和龐大的計算基礎設施。他們將大量標記過的數(shù)據輸入網絡,計算機的反饋隨之不斷改進,越來越接近現(xiàn)實。
一天,Dean 告訴我“動物進化出眼睛是自然界的巨變?!碑敃r我們正在會議室里,Dean 在白板上畫出了復雜的時間線,展示了谷歌大腦與神經網絡發(fā)展歷史的關系。“現(xiàn)在,電腦也有了‘眼睛’,我們也可以借助‘眼睛’讓計算機識別圖片,機器人的能力將得到巨大的提升。未來,它們能夠在一個未知的環(huán)境中,處理許多不同的問題。”這些正在開發(fā)中的能力看起來雖然比較原始,但絕對意義深遠。
Geoffrey Hinton
Dean 表示,誕生一年后,谷歌大腦就在開發(fā)具有一歲兒童智力機器的實驗中取得了巨大進展。谷歌的語音識別部門順勢將自己的老系統(tǒng)中的一部分改成了神經網絡,借此該系統(tǒng)取得了 20 年來最好的成績。同時,谷歌的物體識別系統(tǒng)也躍升了一整個數(shù)量級。不過,這并非因為谷歌大腦的團隊想出了什么新點子,而是因為谷歌在該領域投入了大量人力物力,填補了原本研發(fā)領域的空缺。
隨后,Geoffrey Hinton 的到來將谷歌的戰(zhàn)果再次擴大。成立第二年,吳恩達離開谷歌(現(xiàn)任百度首席科學家,領導 1300 人的 AI 團隊,雷鋒網此前也做過相關報道),Dean 則請來了 Hinton,原本 Hinton 只想離開多倫多大學在谷歌待三個月,因此他成了谷歌的重量級實習生。在實習生培訓過程中,輔導人員會說“輸入你的LDAP(目錄訪問協(xié)議)”,從沒在此類公司任職過的 Hinton 舉手問道:“什么是LDAP ?”在場一起接受培訓的年輕人,雖然只是剛剛弄清深度學習與人工智能的關系,卻都在想“這個老家伙是誰?為什么他連 LDAP 都不懂?”
直到有一天,一位學生在餐廳見到 Hinton 教授并問道“Hinton 教授!我選修了你的課!你在這里做什么?”一切關于他的質疑才煙消云散。
幾個月后,Hinton 在兩位學生的幫助下,在 ImageNet 大型圖像識別競賽中技驚四座,計算機不僅識別出猴子,而且能區(qū)分蛛臉猴和吼猴,以及各種各樣不同品種的貓。隨后,谷歌馬上對 Hinton 和他的學生伸出了橄欖枝,他們也欣然接受。“我本以為谷歌要買我們的知識產權,”Hinton 說道?!敖Y果它們是對我們這幾個人感興趣?!?/p>
Hinton 出身于一個傳統(tǒng)的英國家族,他們家非常重視教育,因此出了不少著名學者。他的曾祖父 George Boole 在符號邏輯方面的基礎工作為計算機專業(yè)打下基礎,Hinton 的另一位曾祖父是著名的外科醫(yī)生,Hinton 的父親則是一個熱愛冒險家的昆蟲學家,而 Hinton 父親的表哥則在 Los Alamos 研究所工作。
Hinton 也很爭氣,他先后在劍橋和愛丁堡兩所高等學府進修,隨后又到卡耐基梅隆大學教書,現(xiàn)在 Hinton 則轉到了多倫多大學。筆者曾在 Hinton 的辦公室對他進行采訪,當時 Hinton 衣帽整齊,一副英國紳士形象。不過,一開口 Hinton 的個人色彩就擋不住了,他甚至打趣說“電腦恐怕都比美國人更早理解諷刺為何物?!?/p>
上世紀 60 年代在劍橋求學時,Hinton 就開始了對神經網絡技術的研究,他是該領域當之無愧的先驅。不過,由于該理念過于超前,每次他向別人提到機器學習,人們都覺得他是在胡扯。
由于受到了感知機(Perceptron ,50 年代末研發(fā)的人工神經網絡)這一概念被過去熱炒的影響,當時搞神經網絡的研究的人簡直就是學術界的異端。當時,《紐約時報》還曾撰寫報道稱,感知機未來有可能會“走路、說話、閱讀、寫作甚至再造自己,并意識到自己的存在”。結果這證明這一切只是幻想而已。
1954 年,馬文·明斯基在普林斯頓的論文中就將神經網絡選做研究主題,但他對Rosenblatt 關于神經范式所做的夸張說法已經厭倦了。后來,明斯基與麻省理工的同事合作出版了一本書,證明了有些問題即使非常簡單,感知機也永遠無法解決。
不過,當時的條件下明斯基抨擊的只是“單層”的神經網絡,而 Hinton 則認為若使用多層神經網絡,就可以執(zhí)行復雜的任務。簡單來說,神經網絡就是一臺機器,能夠從數(shù)據中發(fā)現(xiàn)模式并以此進行分類或預測。有一層神經網絡,你可以找到簡單的模式,但如果層數(shù)增多,就可以找出模式中的模式。
如果將這一理論套用到圖像識別中去的話,執(zhí)行圖像識別的神經網絡主要使用“卷積神經網絡”(這是 1998 年的一篇開創(chuàng)性論文中闡述的概念,該論文的主要作者是法國人 Yann LeCun ,他曾是 Hinton 的學生,現(xiàn)在則是 Facebook 人工智能實驗室負責人),網絡的第一層負責學習識別圖像最基本的視覺效果“邊緣”,也就是判斷一個像素旁邊是否有東西。
隨后的各層神經網絡都會從前一層尋找模式,“邊緣”可以是圓型也可以是矩形,而這些形狀可能就是人臉。這種識別方法與人眼類似,都是將信息組合在一起,從視網膜中的光線感應器將信息回傳到大腦的視覺皮層。在處理過程中,那些不相關的細節(jié)會被即可丟掉,因為如果各種形狀結合成一張臉后,你無須在意臉部的位置,只需明確它是一張臉就行。
在 1993 年的一段演示視頻中,Yann LeCun 展示了自己卷積神經網絡的早期版本,該系統(tǒng)隨后派上了大用場,在 20 世紀末處理了美國銀行經手的 10%-20% 的支票。現(xiàn)在,卷積神經網絡則成了圖像識別系統(tǒng)背后的超級大腦。
不過,多層的深度神經網絡可不像單層的那么容易搭建。假設你在訓練一個小孩子,讓他拿起綠色的球放進紅色的盒子,這一動作很容易學習,但如果你要求那個孩子拿起綠色球穿過三號門再放進 A 盒子可就不容易了,他很容易在過程中出錯。你如何教會孩子完成這一系列動作呢?總不能一直在他耳邊喋喋不休的重復吧?
為了解決多層出錯的問題,Hinton 和其他幾個人找到了一種解決方案(也可以說是改進了一個老方案)。當時還是 70 年代末、80 年代初,這一方案重新點燃了學界對神經網絡的興趣?!叭藗儗Υ朔浅Ed奮,”Hinton 說道。“但其實我們錯估了其他人的興趣?!焙芸欤琀inton 這樣的人又成了學界眼中的怪人和神秘主義者。
不過,在哲學家和心理學家那里,Hinton 的想法依然很有市場,他們將其稱之為“連接主義”或“并行分布式處理”。雖然加拿大政府一直對 Hinton 全力支持,但它們也難不出計算能力足夠前行的計算機和數(shù)據?!拔覀冎荒茏晕野参?,一旦時機成熟,我們就能做出點什么?!盚inton 說道。
當皮查伊抬出“AI 為先”的概念時,他可不止是在描述公司的商業(yè)戰(zhàn)略,也同時把這一長久以來都沒有起到多大作用的概念扔給了公司。皮查伊大方的資源分配讓 Dean 和 Hinton 這樣的專家能獲得有力支持,他們有足夠的數(shù)據和計算能力來推進自己的研究。從科學角度來說,人的大腦擁有 1000 億個神經元,而每個神經元則會與其他 1 萬個神經元連在一起,這就意味著神經突觸的數(shù)量在 100 萬億到 1000 萬億之間。如果以上世紀 40 年代的標準來看,想復制這樣的復雜網絡根本是不可能的。我們離真正的神經網絡還差著十萬八千里。不過,谷歌持續(xù)的投資至少讓我們通過人工神經網絡實現(xiàn)了小白鼠大腦部分切片的功能。
要理解規(guī)模的重要性,你就得理解更多相關細節(jié),即機器究竟對數(shù)據作做了什么?我們對 AI 的恐懼,大都因為覺得它們會像一個神秘的學者一般在圖書館挖掘學習知識,然后,從前只會玩曲別針的機器或許有一天能像對待一只螞蟻或者萵苣一樣輕松碾死人類。
不過,AI 可不是這樣工作的,它們每天只是在搜索并尋找共同點。開始其模式非常簡單,隨后逐漸深化?,F(xiàn)在最大的危險則在于我們是否最初就給它灌輸了一些包含偏見的信息。
假設你想用老式的符號化 AI 模型打造一個貓咪識別程序,首先就必須花大量時間給機器灌輸?shù)降资裁词恰柏垺?。隨后在對照片進行學習時,程序會遵循一大堆“如果”,并通過這些限制條件來識別貓咪。不過,如果你拿來一張?zhí)K格蘭折耳貓的圖片,它就會在耳朵這一“如果”上卡住,符號化 AI 根本就不認這種耳朵出現(xiàn)變化的貓咪,這樣的識別水平連蹣跚學步的小孩都不如。
不過,換到神經網絡的話,就根本無需貓的定義這個限制了,二進制會處理一切。得到指令后,神經網絡會自動對相互連接的交換機進行調教,將輸入的數(shù)據變成準確的輸出數(shù)據。訓練時用到的數(shù)據越多,得到的輸出數(shù)據就越準確,一旦整個訓練過稱完成,神經網絡就能穩(wěn)定的處理數(shù)據并做出可靠的預測,這就是所謂的“監(jiān)督式學習”。
不過,需要注意的是,神經網絡有一定的概率性,因此它并非萬金油,不能通吃所有任務。所以,如果它將狗狗識別成了貓咪,無需驚慌。但如果將這一情景換到自動駕駛領域,我們可就要驚慌了,因為 0.1% 的錯誤率可能就會要了你的命。
此外,由于監(jiān)督式學習是基于標記過的數(shù)據的,因此人類依然會扮演重要的角色,如果在輸入時做了錯誤的分類,未來在情境識別時神經網絡可能就會出錯。
谷歌大腦部門推進神速,一年多的時間,它們就成功讓機器掌握了一歲小孩的技能。隨后,它們的部門成功從谷歌 X 實驗室“畢業(yè)”,升級成高一級的研究機構。不過,當時的谷歌大腦團隊依然只有不到 10 個工作人員,對于未來,他們也只有一個較為模糊的概念。
不過,就像人一樣,在學會了形狀并開始認識皮球這一事物后,我們會為之滿足一段時間。但最終,人類會開始產生關于皮球的問題,這就是語言出現(xiàn)的原因。
在探索過程中,谷歌先整出了一篇關于貓的論文。這篇論文向我們展示了帶有超過 10 億個“突觸”連接的神經網絡,這比當時任何公開的神經網絡模型都要大好幾百倍,不過與人類的大腦相比,依然小了好幾個數(shù)量級。這個神經網絡能識別原始的、無標簽的數(shù)據,并識別高難度的人類概念。谷歌大腦的研究者向神經網絡展示了幾百萬幀的靜態(tài) Youtube 視頻,然后,神經網絡的感覺中樞開始運轉,分離出了一個穩(wěn)定的模型。和所有的小孩一樣,這一模型能毫不猶豫地識別出貓的臉。
這一神經網絡在識別貓臉前可沒有讓研究人員“開小灶”,它對貓的定義和知識一無所知。神經網絡直接與現(xiàn)實世界交互并且抓住了“貓”這一概念。(研究者發(fā)現(xiàn),這一神經網絡就好像核磁共振成像一般,貓的臉部的陰影會激活人工神經元)。
其實,大多數(shù)的機器學習都受限于標簽數(shù)據的數(shù)量,但該論文卻顯示,神經網絡同樣能識別原始的無標簽數(shù)據,有時甚至是人類自身都還沒建立起知識的數(shù)據。這一成果并不只是讓神經網絡識別貓臉這么簡單,它對于人工智能的整體發(fā)展都有很大意義。
這篇論文的第一作者是 Quoc Le 。這位大學者個頭不高,說話輕聲細語但語速極快。Quoc Le 從小在越南長大,父母都是普通農民,小時候家里甚至連電都沒有。不過,他在童年時就顯示出了超強的數(shù)學天賦。20 世紀 90 年代 Quoc Le 還在上學時,就曾經嘗試開發(fā)聊天機器人。他在想,這會有多困難呢?現(xiàn)實告訴他,開發(fā)聊天機器人確實不是個輕松活。
畢業(yè)后,Quoc Le 離開了越南到澳大利亞的堪培拉大學學習,主要研究計算機視覺一類的 AI 任務。當時,這一領域使用的方法,是要給機器填入大量的關于事物的定義性概念,這讓他覺得像是在作弊。Le 當時并不清楚,世界上同樣有很多計算機科學家跟他有類似的想法,他們都認為機器是能夠從零開始學習的。
2006年,Le 在德國的馬克斯普朗克研究所生物控制部門任職。在那里的一個讀書小組中,他讀到了 Geoffrey Hinton 的兩篇論文,他覺得自己的任督二脈瞬間被打通了。
“當時這兩篇論文引起了很大的爭議”,他說道?!胺浅7浅4蟆薄kS后,他看了一眼自己畫在白板上曲線,又輕聲重復到,“我從來沒有見到過那么大的爭議?!?/p>
他清楚的記得,當時自己在閱讀小組中站了起來并表示:”這就是未來?!爱敃r,這并不是一個很受歡迎的決定。他遠在澳大利亞的導師還曾寫郵件問他:“你為什么做了這個決定?”
“當時我沒想好怎么回答,”Le 說道。“我只是非常好奇。它們提出了一個很成功的范式,但老實說,我只是對這一范式感到好奇。2006 年時,這樣的觀點非常稀有。”隨后,Le 轉到斯坦福并加入了吳恩達的團隊,隨后他開始順著 Hinton 的道路向前邁進。“2010 年年底,我已經非常確信會有大事發(fā)生了?!?/p>
隨后,Le 到倫敦進行實習,而關于貓的那篇論文,就是在這一段時間打下的基礎。在一個簡單的層面上,Le 想看看計算機是否可以被訓練,并實現(xiàn)對給定圖像絕對必要信息的識別。他給神經網絡輸入了一個他從 YouTube 采集的靜態(tài)片段。隨后他告訴神經網絡丟棄圖像中包含的一些信息。神經網絡隨后拋棄了一些信息,最初是隨機的。接著他告訴計算機:“剛才是開玩笑,現(xiàn)在重新創(chuàng)建初始圖像,你只需根據你保留的信息進行顯示就行。這種要求就像他要求計算機找到一種方法來“總結”圖像,然后從摘要再回溯到最初的圖像。如果摘要是基于不相關的數(shù)據,如天空的顏色,而不是胡須,計算機就不能執(zhí)行完整的重建。
計算機的表現(xiàn)就像是原始人,他們對于劍齒虎的印象是在逃跑過程中建立的。Le 的神經網絡與前人不同,它需要進行一次一次又一次的嘗試。從數(shù)學的層面上來說,它每一次都會選擇對不同的信息進行優(yōu)化,然后表現(xiàn)會越來越好。
這樣看來,神經網絡就是一個黑箱,它確實生成了某種范式,但人類很難從外部對其進行觀察和理解。
關于貓的論文雖然讓 Le 聲名鵲起,但他自己并未感到自己掌握了業(yè)界的話語權。不過,他感受到了一種動力,未來的研究要跟他早年開發(fā)的聊天機器人聯(lián)系在一起。在發(fā)表那篇著名論文后,他意識到,如果你能讓一個神經網絡對照片進行總結,你也可以讓它對一些句子進行總結。在接下來的兩年中,這些想法一直在 Le 和他在谷歌大腦的同事 Thomas Mikolov 大腦中縈繞。
有段時間,谷歌大腦團隊由于發(fā)展過快甚至占領了高管的辦公室。隨后,管理處還專門發(fā)郵件讓他們不要在公司 CEO 辦公室門口的沙發(fā)上睡覺。
在談到那位“同路者” Mikolov 時,Le 神情有些變化,但總是不斷提起他的名字和兩人之間的合作。后來才知道,原來 Mikolov 已經去了谷歌的對手 Facebook。
2012 年時的谷歌大腦團隊
在這段時間里,他們試圖搭建出新的神經網絡架構,不但能應付簡單的靜態(tài)圖片分類,還能搞定更為復雜的任務,如語言或音樂。他們用到的理念上世紀 90 年代就誕生了,Le 和他的同事們專門回溯了那些長期被忽視的概念,一邊找尋其中被忽略的閃光點。
他們知道,一旦你建立了一個具有基本語言預測能力的設施,你就可以繼續(xù)做其他各種智能的事情, 比如預測一個合適的電子郵件回復,或智能地預測一個談話的過程。這樣,你就可以側重于那種從表面看起來很像思維的能力。
本文為雷鋒網編譯的第二部分,敬請期待后續(xù)的第三部分。
Via. New York Times
【招聘】雷鋒網堅持在人工智能、無人駕駛、VR/AR、Fintech、未來醫(yī)療等領域第一時間提供海外科技動態(tài)與資訊。我們需要若干關注國際新聞、具有一定的科技新聞選題能力,翻譯及寫作能力優(yōu)良的外翻編輯加入。
簡歷投遞至 wudexin@leiphone.com,工作地 北京。
相關文章:
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。