李飛飛：我把今天AI所處的發(fā)展階段稱為“AI in vivo” | Google I/O 2017

本文作者：三川

2017-05-21 16:08

專題：Google I/O 2017 開發(fā)者大會

導語：來自語音識別、計算機視覺、數(shù)據(jù)可視化、生物計算四個領域的頂級專家學者，在 I/O 2017 的巔峰對話！

雷鋒網(wǎng)按：在谷歌 I/O 2017 的最后一日，主場館海岸線圓形劇場迎來了本屆 I/O 最具重量級的機器學習講座：由四位分屬不同領域的 AI 女性大牛展開巔峰對話，漫談 AI 的過去、現(xiàn)在與將來。四位嘉賓分別是語音識別、計算機視覺、數(shù)據(jù)可視化和生物計算領域的頂級 AI 學者與工程師。而本場對話無關技術，純是幾位杰出科學家對各自領域深度學習發(fā)展歷程的反思，以及對將來趨勢的思考。

四位嘉賓是：

Francoise Beaufays，谷歌語音識別技術研發(fā)帶頭人
李飛飛，谷歌云首席科學家，斯坦福 AI 實驗室負責人
Fernanda Viegas，計算式設計（computational design）專家，谷歌 Big Picture 數(shù)據(jù)可視化部門負責人之一
Daphne Kolller，Calico Labs 首席計算官，Coursera 聯(lián)合創(chuàng)始人

本講座由谷歌云副總裁 Diane Greene 主持（以下稱”主持人“），分為三個環(huán)節(jié)，每個環(huán)節(jié)的話題分別對應 AI 的過去、現(xiàn)在與將來。

話題一：AI 技術是如何發(fā)展到深度學習時代，走到今天這一步的？

Daphne Kolller：我認為，深度學習革命讓我們得以解決當今各領域的許多現(xiàn)實難題，它讓這一切成為可能。

這場革命，是一系列機器學習研究進展的結果——深度學習來臨之前，大約有 10 到 15 年相當艱辛的研究，用于研發(fā)人工設計的模型。構建這些模型需要大量其它領域的專業(yè)知識，以及深入細致的思慮考量。研究人員需要人工雕琢模型的大量細節(jié)，由于缺乏數(shù)據(jù)，往往要用我們的直覺判斷作為構建模型的依據(jù)。

而當我們得到更多數(shù)據(jù)，尤其在文字、圖像、語音領域，就逐漸開始用數(shù)據(jù)來替代這些主觀洞察力。但是，過去這 10 到 15 年間的技術研究成果，在今天仍然很有價值。這里有兩個方面：

在研究方法上，優(yōu)化算法便是那時發(fā)明出來的，是深度學習得以成功的關鍵技術之一。
另一方面，如今我們一廂情愿得相信，大數(shù)據(jù)是解決一切的方案。但這僅僅對應部分領域。對其它領域而言，我們掌握的數(shù)據(jù)量充其量不過是中等，有的甚至可說是小規(guī)模。因而，仍需要在人類直覺和數(shù)據(jù)之間做平衡，充分利用兩者的長處。

李飛飛：我來稍微談一談歷史背景。在所有人類的科學領域里，AI 是一門相當年輕的學科，大約有 60 歲。但在我的觀點里，AI 啟蒙思想的根源，即對于智能的求索，可追溯到人類文明誕生的黎明時期。

大約 60 年前，機器剛剛能處理簡單的算術。但以計算機科學之父阿蘭-圖靈為代表的思想家，已開始提出挑戰(zhàn)人類社會的問題：“機器是否能思考？機器是否能擁有智能？那時，馬文·明斯基、John McCarthy 等計算機先驅聚到一起，創(chuàng)立了如今的人工智能學科。AI 之父們眼中的 AI，在技術上講，與今天十分不同。但核心的愿望是一致的：讓機器能學習、思考、感知、有邏輯，能開口說話，與我們交流。

AI 已經(jīng)經(jīng)歷了幾波技術發(fā)展：從一階邏輯（first-order logic），到專家系統(tǒng)（expert systems），然后是早期機器學習，再到如今的深度學習革命。

過去的 60 年，我把它稱為”in-vitro AI“，或者“AI in vitro”（雷鋒網(wǎng)注：可理解為“試管階段的 AI”）。這一階段為 AI 研究的基礎問題以及眾多子學科打下了基石。后者包括機器人、計算機視覺、自然語言處理、語音處理、生物保護學（conbio）等等。這同樣是一個研究人員們不斷理解數(shù)據(jù)、尋找工具集的過程。

而 2010 年左右是一個分水嶺。這時，三個不同領域的進步終于達到了一個前所未有的里程碑高度：統(tǒng)計機器學習領域工具的成熟、互聯(lián)網(wǎng)和傳感器帶來的大數(shù)據(jù)、摩爾定律預測的硬件計算性能提升。這三者的合力，把 AI 從 “in vitro”階段，推上了一個被我稱為 “in vivo” （雷鋒網(wǎng)注：可理解為“胚胎階段的 AI”）的全新階段。

“AI in vivo”，是一個 AI 技術向世界做出實際貢獻的階段。當下這個時間點，還僅僅只是個開頭——“It‘s just the begining”。我們在谷歌云所觀察到的每一個行業(yè)，都在數(shù)據(jù)、AI、機器學習的推動下經(jīng)歷著革命性的轉變。在我眼里，這是一個歷史性的時刻：AI 終于開始發(fā)揮現(xiàn)實影響力，改造無數(shù)個行業(yè)。

我想要再強調(diào)一遍：一切剛剛開始?，F(xiàn)在 AI 領域的工具和革命性技術，僅僅是廣袤海洋中的幾滴水。剩下的可探索空間，即我們能借助 AI 實現(xiàn)的事情，幾乎是無限的，再怎么夸大也不為過。對此，如果你感到興奮激動，或許是應該的——有許多工作等著我們?nèi)プ觯瑏韺崿F(xiàn) “AI in vivo”。

李飛飛：我把今天AI所處的發(fā)展階段稱為“AI in vivo” | Google I/O 2017

主持人：Francoise，你處在語音識別研究的最前沿。當下，語音識別技術已經(jīng)普及開來，能否向我們介紹下這一發(fā)展歷程？

Francoise Beaufays：當然。12 年前我加入谷歌，那時，我們都想用語音識別技術做點有用、好玩的事。但這相當?shù)秒y——當時語音的質量完全不能和現(xiàn)在比。因此，我們從極其有限的產(chǎn)品著手，這樣識別一個人說的話并不過于復雜，然后一點一點地突破極限。我們需要做的，是打造一個成功的產(chǎn)品，讓用戶愿意使用；然后以此為基礎，不斷收集新數(shù)據(jù)導入模型、不斷迭代，每次提高一點點。

按照該思路，我們開發(fā)了 GOOG-411，我不知道有多少人還記得它。它是一個手機 APP：你撥打一個號碼，它會問你：查詢哪個城市或州？回答之后，它接著問：“查詢哪家公司？”說出名字之后，它會撥通該公司的電話。請注意，12 年前，沒有 iPhone 也沒有安卓，大家用的還是功能機。所以 GOOG-411 的功能也很基礎。幸運的是，谷歌高層對該技術的前景抱有憧憬，支持我們盡可能得打破技術極限。

當時我們很成功。然后 iOS 和安卓誕生，一切都變了——用戶有了視覺反饋。于是我們開始構想其他的 APP 產(chǎn)品，那便是 Voice Searchv用語音進行谷歌搜索。我們開始做語音轉錄，把麥克風整合進手機功能的各個入口，讓用戶可以用語音做任何事。

更后來，我們試圖把語音識別技術帶到家庭場景，比如 Google Home 這樣的設備。用語音來處理日常任務，是一個呼聲很高的訴求。我們認為智能助手是一個很好的入口。相比用口頭命令做簡單的事，智能助手可以用日常的自然語言與用戶問答，而不是麻煩的鍵盤打字輸入，使谷歌真正成為用戶的個人助手。

主持人：Fernanda，你曾表示要讓數(shù)據(jù)可視化民主化。如何才能實現(xiàn)？必要性在哪里？數(shù)據(jù)可視化分析又是如何進化的？

Fernanda Viegas：十多年前，我已經(jīng)在從事數(shù)據(jù)可視化。當時的情況很不一樣：研究非常困難，設備和現(xiàn)在不能比，能獲得的數(shù)據(jù)也很少，大多數(shù)并不公開。

這情況逐漸改善，現(xiàn)在，數(shù)據(jù)可視化已可說是無處不在。比如，媒體也喜歡在數(shù)據(jù)可視化的幫助下，用統(tǒng)計數(shù)字表達復雜的新聞事件。我們喜歡的一個玩笑是：“對于統(tǒng)計，數(shù)據(jù)可視化是一道毒品”——你可能都不會意識到自己在做統(tǒng)計，因為數(shù)據(jù)可視化是如此善于在視覺上找規(guī)律、找異常。

數(shù)據(jù)可視化一直在一條更加民主化的軌道上。長久以來，AI、機器學習有一項重大挑戰(zhàn)：如何讓我們?nèi)祟惱斫獬呔S數(shù)據(jù)。這方面，Geoffrey Hinton 和同事們搞出的 t-SNE，堪稱是 AI 領域的革命性數(shù)據(jù)可視化工具。它在數(shù)據(jù)可視化發(fā)展史上是一項相當關鍵的里程碑。我和飛飛有類似的感覺：我們正處于如何利用數(shù)據(jù)可視化技術推動 AI 進步的起點。

話題二：AI 在當下面臨的技術挑戰(zhàn)

Francoise Beaufays：語音識別從來都是基于機器學習，與更早期無關機器學習的技術沒什么關系。過去三十年間，機器學習技術一直在進化，語音識別也不斷進步，其中一個大轉折點是神經(jīng)網(wǎng)絡的采用。這距今不到八年，但基于神經(jīng)網(wǎng)絡的語音識別研究在很久以前就已開始。只是由于計算能力的限制，這條路在產(chǎn)生大量成果之后被學界放棄，直到幾年前重新采用。這期間，語音識別基于更基礎的技術，仍然在發(fā)展提升，例如 Gaussian 混合模型。

在技術上，采用深度學習確是一項較艱巨的工作，牽扯到延遲、規(guī)模、訓練能力等問題。當基于深度學習的語音識別技術在生產(chǎn)環(huán)境部署，這打開了一扇嶄新的大門，背后是一系列的提升。另外，由于有了強大的計算硬件支持，我們能快速地從一個神經(jīng)網(wǎng)絡架構轉換到另一個。因此，我們開始探索 RNN（比如 LSTM）、CNN、基于 CTC 的序列建模等其他模型。簡而言之，采用神經(jīng)網(wǎng)絡，為我們開啟了在支撐谷歌產(chǎn)品的核心技術上不斷創(chuàng)新的新空間。

李飛飛：我把今天AI所處的發(fā)展階段稱為“AI in vivo” | Google I/O 2017

主持人：這是用于語音識別的神經(jīng)網(wǎng)路，我們再來聽聽能延長壽命、讓我們更健康的神經(jīng)網(wǎng)絡。Daphne，給我們講講為什么 Calico Labs 需要你這位世界最頂級的分子生物學與機器學習專家之一，你在那做什么？

Daphne Kolller：很多人可能沒聽說過 Calico，我們的曝光很少。做個簡介，Calico 是最早剝離谷歌，直接歸屬 Alphabet 的子公司。Calico 的目標是理解衰老，幫助人們活得更長、更健康。

衰老其實是我們所面臨的最大的死亡風險，沒有之一。這對幾乎所有 40 歲之前發(fā)生的疾病都成立：當患者一年一年老去，死于該病的風險會指數(shù)級得增長，糖尿病、心腦血管疾病、癌癥均是如此。

但諷刺的是，沒人真正知道為什么。

沒人知道為什么在 40 歲之后，每一年過去，都會給我們增加死于這些疾病的風險。為了對此進行理解，我們很有必要研究導致衰老的生物系統(tǒng)機制，從分子層面一直到系統(tǒng)層面。雖然我不認為我們能永生，但也許通過技術手段介入，我們能活得更久更健康。

Calico 早期有一名研究人員，其研究顯示：僅僅某單個基因的變異，就能延長機體 30%-50% 的壽命。而且，我們不僅會活得更長，還會以更年輕的面貌、更飽滿的健康狀態(tài)生活。

但實現(xiàn)這些需要搞清楚許多尚不明了的東西，還需要收集所有生物系統(tǒng)在所有年齡狀態(tài)下的海量數(shù)據(jù)，包括酵母、蟲子、蒼蠅、老鼠、人——為什么這些不同物種在分子層面發(fā)生著同樣的事？

幸運的是，過去二十年間，科學家們發(fā)明出一整套衡量機制與方法，收集數(shù)據(jù)并試著幫我們理解衰老中的機體。這包括基因測序技術、微流體、跟蹤設備，記錄機體如何隨衰老發(fā)生變化。但是，沒人能把這些不同測量機制所產(chǎn)生的、從微分子層面一直到人口學層面的數(shù)據(jù)整合到一起。

如何整合所有信息，精確描繪出人體如何衰老的過程？

這就需要生物學家和機器學習專家之間的合作，后者能建立模型，整合所有信息。

我屬于少數(shù)極幸運的人，能在該領域的萌芽時期就投身進來：在 2000s 年早些時候開始從事計算生物學（computational biology）。如果說，我的機器學習算是母語造詣，我的生物學就在“流利”水平。這使我能夠與 Calico 的科學家們共事，在兩門學科之間建立真正的合作紐帶，開發(fā)能結合兩個世界的優(yōu)點——大數(shù)據(jù)和人類直覺的模型。

由于生物機體的復雜度實在太高，即便是今天這個量級的數(shù)據(jù)，我也不認為僅用數(shù)據(jù)就能重建生物體從頭到尾的完整模型。正如我在講座的開頭所講:數(shù)據(jù)，和頂級科學家的直覺，我們都需要；用以最終建立對衰老的深度理解，并預測有效的干預方式。

主持人：下面聊聊計算機視覺（CV）。飛飛，有次在 TechCrunch，你說 CV 是 AI 的殺手級應用，你想表達什么？你一直提倡的 AI 民主化又是什么意思？這跟云計算有什么聯(lián)系？

李飛飛：我當時是想推動更多人認識到這一點。我堅信這一點。當時的原話是：“很多人問 CV 的殺手級應用是什么？我會說：CV 本身就是殺手級應用，AI 的殺手應用?！?/strong>

我會這么說，有兩個理由：

五億四千萬年前，生物進化史上發(fā)生了濃墨重彩的一筆：由于某些不知名的原因，地球上的物種種類從極少，一下子爆發(fā)為極多。這被看作是進化史上的宇宙大爆炸——被稱為寒武紀大爆發(fā)。對其背后的原因，生物學家迷惑了許多年。直到最近，一個非常有說服力的理論浮出水面。這個猜想是：那時，生物進化出了眼睛。一下子，動物的生存變得主動：有了獵食者，有了被獵食者，整個物種進化軌跡從此天翻地覆。
今天，人類是最智能的視覺動物。大自然把我們腦容量的一半都分配給了視覺圖像處理，正是由于其重要性。
至于第二個理由，據(jù)估計，互聯(lián)網(wǎng)上超過 80% 的內(nèi)容，為視覺內(nèi)容。另外，傳感器收集的第一大數(shù)據(jù)形式，是由可見光或不可見光組成的圖像數(shù)據(jù)。無論在哪里，對于公司、消費者來說，以像素形式出現(xiàn)的數(shù)據(jù)都是最珍貴的。

和語音識別類似，有了深度神經(jīng)網(wǎng)絡之后，CV 實現(xiàn)了多項突破和長足進步。在我看來，從 2010 到 2017 的七年間，CV 最主要的進步發(fā)生在基礎的感知任務領域（perception task）：物體識別、圖像標注、物體檢測等。我們也已經(jīng)有了應用產(chǎn)品——谷歌照片（Google Photos）、自動駕駛汽車的行人檢測系統(tǒng)等。

我認為，下一波對 CV 的投資，將集中于 “Vision+X”，即 CV 和其他領域的結合應用。比如說，視覺在溝通、語言中是如此重要，CV 和語言的結合，會非常有意思。醫(yī)療、生物領域的視覺應用更不必說。機器人是另一個有無限潛力的 CV 應用領域。人類研究機器人的歷史幾乎和 AI 一樣久，但現(xiàn)在，機器人仍處在一個非常原始的階段。究其原因，這在很大程度上是由于其原始的感知系統(tǒng)（想想寒武紀大爆炸）。

簡而言之，我的確認為視覺是機器智能最重要的構成要素之一。

話題三：AI 在將來有什么趨勢？有哪些可供展望的愿景？

主持人：我們時間不多了，F(xiàn)ernanda，能否講講你眼中數(shù)據(jù)可視化的未來在哪里？

Fernanda Viegas：當然。順著剛才飛飛的思路，既然人類有這么復雜的視覺系統(tǒng)，我們不妨用它來理解機器做的事。機器學習運行于海量的數(shù)據(jù)、統(tǒng)計數(shù)字、概率，在某種意義上，可視化是幫助我們理解這些東西的秘密武器。

為什么我們應該重視數(shù)據(jù)可視化？這有三點：

可解釋性。你是否能解釋模型輸出的東西？
漏洞可修補性。更好地理解模型，能幫助你修補漏洞。
教育?？梢暬跈C器學習教學中扮演了重要角色。另外，如果我們利用可視化更好地理解了機器學習系統(tǒng)，我們能否從這些系統(tǒng)中學習，提升職業(yè)水平？

最后，我想講一個有意思的例子，我們用數(shù)據(jù)可視化發(fā)現(xiàn)了機器學習系統(tǒng)中原本并不知道的東西。前段時間，谷歌實現(xiàn)了 zero-shot 翻譯，即谷歌翻譯能處理未遇到過的語言組。研究人員對此產(chǎn)生了一個疑問：該系統(tǒng)的多語種數(shù)據(jù)空間是按照何種規(guī)律分布的？比如說，數(shù)據(jù)是按語種劃分？還是，系統(tǒng)把不同語種混到一起，“學到”了一些語法、語義的規(guī)律？

于是，我們開發(fā)了一個數(shù)據(jù)可視化工具來進行查看。結果發(fā)現(xiàn)，不同語種但相同語義的句子，組成同一個簇。不同句子形成一個個不同的簇，而無分語種。某種程度上，這可以說是世界通用語言的雛形，我們把這成為“interlingual”，即“跨語言的”。另外，我們發(fā)現(xiàn)，哪些相對更隔離的簇，都是翻譯質量不高的語句。這告訴了我們，數(shù)據(jù)空間的幾何分布是有涵義的。

目前為止，AI 仍讓人感覺到強烈的工程導向屬性。我很期待在將來，藝術家、UI 設計師、科學家會為 AI 帶來什么，有哪些我們?nèi)聪氲竭^的可能性？這些會很值得探索。

主持人：Francoise，我想問你數(shù)據(jù)可視化會如何幫助語音識別（笑）。但我同樣想問你：如今數(shù)據(jù)越來越復雜，比如訓練模型的標記數(shù)據(jù)，還有越來越多的個性化，語音識別技術在走向何方？又有哪些令人興奮激動的挑戰(zhàn)？

Francoise Beaufays：在語音識別領域，每當遭遇一個新難題，我們必須要專注在它上面。我們開發(fā) Youtube 兒童頻道的時候，就必須要專注于孩子的聲音——他們的說話方式、音域、斷句方式都和成年人不一樣。最終，我們找到了把學習成果加入通用模型的方法。因而 Google Home 現(xiàn)在能與兒童正常交互。

對于我們而言，Google Home 又是一個新環(huán)境，我們需要收集新數(shù)據(jù)。有了新數(shù)據(jù)之后，將其導入模型進行訓練就變得簡單直接。但是，第一次發(fā)布 Google Home 的時候，并沒有用戶數(shù)據(jù)。因此，我們做了許多模擬：采集數(shù)據(jù)，添加不同類型的噪音，在數(shù)據(jù)上做不同類型的混響（reverberation）。事實上，我們用的數(shù)據(jù)足以稱得上是海量。我們轉錄了數(shù)萬小時的語音，然后與模擬疊加增殖，最后導入模型的數(shù)據(jù)，相當于是數(shù)個世紀的語音。

世界上有如此之多的語言，語言學家說，光是使用人數(shù)在 10 萬人以上的，就有 1342 種。我們?nèi)绾蜗蛉绱酥嗟恼Z種服務？這是一個需要在機器學習領域發(fā)揮很多創(chuàng)造性的難題。

李飛飛：我相信 AI 是第四次工業(yè)革命的驅動力量之一。我從一個哲學家那里聽來的、一句我最喜歡的話是這樣的：“獨立的機器價值觀并不存在，人類價值觀就是機器價值觀”。我很期待在將來，來自各門學科的技術專家在 AI 領域發(fā)揮所長，只有這樣，才能真正為全人類開發(fā) AI，而不是為一部分人而研發(fā)。

Daphne：作為一名頂級機器學習專家，如果在五年前，有人問我五年后機器是否能像人類一樣準確用文字注解圖像，我會說不可能，二十年后還差不多。但由于飛飛等科學家的努力，這一天比我預想的早很多就到來了。

我離開 Coursera 重回生物領域的原因，是因為我認為生物技術現(xiàn)在已經(jīng)到了指數(shù)級增長曲線的那個拐點。如果我們看看人類基因測序的歷史趨勢，其指數(shù)每七個月就翻倍，增長速度是摩爾定律的兩倍。按照該趨勢預測 2025 年的接受了基因測序的人口數(shù)量，保守估計是 1 億，正常估計是 20 億。而這只是測序，還沒有包含 RNA、蛋白質組、人體成像、細胞成像等等。

人體，是人類迄今所遇見的最復雜系統(tǒng)。我認為，我們正處于理解這一系統(tǒng)的開端——到底是什么讓我們活著？什么讓我們邁向死亡？我認為，有今天這一量級的數(shù)據(jù)以及不斷進步的機器學習技術，我們完全有機會用 AI 革新科學。

雷峰網(wǎng)版權文章，未經(jīng)授權禁止轉載。詳情見轉載須知。

14人收藏

分享：

專題

Google I/O 2017 開發(fā)者大會

本專題其他文章

Keras 之父講解 Keras：幾行代碼就能在分布式環(huán)境訓練模型 | Google I/O 2017

Google I/O 2017:李飛飛 ——我為什么對TensorFlow研究云感到興奮

從 I/O 大會看谷歌如何推動 VR/AR 的生態(tài)發(fā)展和技術邊界 | Google I/O 2017

Google Assistant 主管答記者問，官方介紹沒有的信息全在這里！| Google I/O 2017

谷歌公布Seurat開發(fā)工具，據(jù)說移動VR也能達到PC級的圖像渲染 | Google I/O 2017

Google的AI并不完美，卻是AI的正確打開方式 | Google I/O 2017

more

三川

用愛救世界

發(fā)私信

當月熱門文章

最新文章

IDCC 2025：全球進入算力效能競爭期，商湯大裝置給出中國式解決方案

對話英諾王建明：機器人目前面臨的核心問題是數(shù)據(jù) | GAIR 2025

金融智能體進入規(guī)模落地期螞蟻數(shù)科被評綜合領導者

IDC MarketScape：商湯科技位居中國AI咨詢服務市場領導者類別

銘凡 MINISFORUM 聯(lián)合 AMD 帶來兩款 AI 旗艦產(chǎn)品

趨境科技與金航數(shù)碼拓展人工智能合作場景，支持空天領域數(shù)字化建設

熱門搜索

nvidiA iPad 美團互聯(lián)網(wǎng) Microsoft Kindle 攝像頭移動醫(yī)療虛擬貨幣出海餓了么

李飛飛：我把今天AI所處的發(fā)展階段稱為“AI in vivo” | Google I/O 2017

話題一：AI 技術是如何發(fā)展到深度學習時代，走到今天這一步的？

話題二：AI 在當下面臨的技術挑戰(zhàn)

話題三：AI 在將來有什么趨勢？有哪些可供展望的愿景？

Google I/O 2017 開發(fā)者大會

話題一：AI 技術是如何發(fā)展到深度學習時代，走到今天這一步的？

話題三：AI 在將來有什么趨勢？有哪些可供展望的愿景？