0
本文作者: 奕欣 | 編輯:楊曉凡 | 2018-04-26 18:18 | 專題:GMIC 北京 2018 |
雷鋒網(wǎng) AI 科技評論按:4 月 26 - 28 日,GMIC 北京 2018 在北京國際會議中心召開。自 2017 年 3 月首次被寫入政府工作報告,人工智能產業(yè)上升為國家戰(zhàn)略后,這個科技界的專業(yè)詞匯,如今已經(jīng)席卷各行各業(yè),成為新的經(jīng)濟增長點和國際競爭的焦點。
GMIC 北京 2018 主題為:「AI」生萬物,諧音愛生萬物,科學技術要有人文的溫度,機器有愛,真「芯」英雄。
作為大會的首場峰會,全球人工智能領袖峰會匯聚全球業(yè)界頂尖領袖,探討在基礎硬件、大數(shù)據(jù)與開源平臺、深度學習為代表的算法等人工智能領域的最新洞見,是年度行業(yè)發(fā)展的風向標。這里有人工智能與人類未來的激變;有深度學習三巨匠的巔峰對話;有中美巨頭 4 vs 4 的平臺布局與戰(zhàn)略頭部碰撞;還有成長最快的新星公司,為我們揭示最具發(fā)展?jié)摿Φ氖袌鲱I域。
作為主論壇的開場嘉賓,F(xiàn)acebook 首席 AI 科學家楊立昆( Yann LeCun)通過視頻連線做了題為《AI 的最新技術趨勢》的演講。雷鋒網(wǎng) AI 科技評論把演講內容整理如下。
楊立昆:大家晚上好。我這邊是晚上,你們那邊應該是上午。非常抱歉我不能親自到會場上來。我叫楊立昆,來自 Facebook 人工智能研究院以及紐約大學。今天我想講一下關于深度學習的一些情況,同時也會提及深度學習的未來,以及我們所面臨的關于深度學習方面的挑戰(zhàn),即如何讓機器變得更加智能。
我們看一下今天的 AI 系統(tǒng),如今所有的應用,不管是影像、聲音或者是圖像的識別,或者語言間的翻譯等,這些內容 AI 都需要通過監(jiān)督學習來獲得。比如說向它展示一些車的圖像,告訴它這些都是車,下次再向機器展示車的圖像的話,它就會告訴你答案是車。所以你可以看到,監(jiān)督學習,對于計算機的學習非常重要。
我們現(xiàn)在的有監(jiān)督學習,或者說深度有監(jiān)督學習,就是組合起來一些可以訓練的模塊,形成端到端的一個學習過程,一端是原始的輸入,另一端就可以得到結果。通過這種方式,計算機會更好地了解我們的世界。
實際上這個想法可以回溯到上個世紀八十年代的時候。當時提出的卷積神經(jīng)網(wǎng)絡可以識別圖像,同時也有很多其他的應用,比如說可以用于語言處理和語言識別和其他很多的應用。這就是我們如今在使用的一些常見應用的模型雛形。
我們知道神經(jīng)網(wǎng)絡是非常龐大且復雜的,只有在算力很強的計算機上才可以運用。在深度學習變得普遍之前,我們需要確保機器學習的系統(tǒng)可以順利應用,比如說我們在 2009 年、2010 年在紐約大學的一個合作項目,即利用 ConvNets 進行語義分割,我們可以看到,它能識別圖像,能把馬路上的建筑、天空以及路上的車和人等等在像素級別上分開。當時的識別技術還算不上非常完美。
但在幾年后,我們可以看到有一些公司利用上述技術做了一些工作,系統(tǒng)可以識別出道路上的車輛和行人,這也是實現(xiàn)智能駕駛的重要組成部分。隨著深度學習的發(fā)展、網(wǎng)絡的深度越來越深,越來越多的人相信深度學習是可以奏效的。
大家可以看到幾種常見的神經(jīng)網(wǎng)絡,比如 VGG、GoogLeNet、ResNet 還有 DenseNet 等,比如說有 100 層或者 180 層的一些人工神經(jīng)網(wǎng)絡。像在 Facebook 中我們會廣泛使用深度神經(jīng)網(wǎng)絡來識別圖像。
隨著網(wǎng)絡深度的不斷增加,識別 ImageNet 圖像的錯誤率也在不斷下降,現(xiàn)在已經(jīng)表現(xiàn)得比人還要好。在 ImageNet 上的表現(xiàn)已經(jīng)太好了,以至我們現(xiàn)在都已經(jīng)不再把它作為首選的評價標準了 。我們現(xiàn)在也在研究更復雜的問題,不只是識別圖像,還要能夠進行本地化處理。
Mask R-CNN 是我們在 Facebook 人工智能研究院所做的研究,可以看到它的表現(xiàn)非常好,不僅僅可以識別出對應的物體是什么,還可以對圖像進行精細的分割。只是部分可見的東西都可以分得清。
大家可以看到,它可以識別電腦、酒杯、人、桌子,還可以統(tǒng)計它們的數(shù)量,而且也可以識別出道路、汽車等。
如果五年前讓系統(tǒng)來解決這些問題的話,我們當時可能認為需要 10-20 年時間才能達到今天呈現(xiàn)的效果。這個模型也是我們開源的 Dectectron 物體檢測平臺的一部分,大家可以下載其中的代碼,預訓練好的模型可以檢測 200 多種不同的類別。Facebook 在 AI 方面做研究的方式是,我們不僅僅發(fā)布了一些論文,同時連代碼也開源出來,這樣的話全世界都能更好了解這些成果。
當然還包括其他很多項目,在 Facebook,我們利用這樣的技術設計了 DensePose,它在一個單一的 GPU 上運行,可以預測密集人體姿態(tài)估計,而且系統(tǒng)能夠實時運行。這個系統(tǒng)可以追蹤很多人的行為,生成視頻,而且對姿勢的判斷也非常準確。此外,它可以實時地生成分片 3D 模型,相應的代碼也是開源的。
當然利用這樣的技術不僅僅可以進行圖像識別,也可以進行面部識別,還能識別人的行動,甚至可以用來翻譯。FairSeq 是 Facebook 在加州所做的研究,我們可以用我們的系統(tǒng)進行翻譯工作。在 Facebook 經(jīng)常有各國語言,采用這種技術可以把一些文字從一種語言翻譯到另外一種語言。
我覺得對于行業(yè)來說,進行這樣的開發(fā)研究將是會是一個非常有用的過程,對于我們研究團隊來說,不僅僅要開發(fā)對我們公司來說非常有用的技術,同時我們也希望所開發(fā)的技術能夠引導整個社區(qū),能夠解決我們所感興趣的問題。我們認為 AI 不僅僅會幫助 Facebook 解決問題,同時還會幫助人類解決很多自己無法解決的挑戰(zhàn),所以我們會與我們的科學團隊一起朝這方面努力。以下是在過去的幾年里, 所發(fā)布的一些開源項目,包括像深度學習網(wǎng)絡、深度學習框架,還有關于深度學習的應用。
我剛才講到,F(xiàn)acebook 每天都會有一些新的應用發(fā)布,比如醫(yī)學影像分析、自動駕駛、語言翻譯等等,在科學方面也有很多應用,我們也可以看到,深度學習的廣泛應用會進一步推動科學方面的研究,在接下來幾年里,我們會看到深度學習會發(fā)生更大的變革。
這是一個 NVIDIA 訓練的自動駕駛的 demo 視頻,它是用卷積網(wǎng)絡做模仿學習。模仿人類駕車。它會識別攝像頭拍到的路況,然后把結果映射為方向盤的角度。它可以在郊外的路上連續(xù)開幾分鐘而不需要人的干預。
我們再來看一下可微分編程。
實際上我們可以從另外一個角度來理解深度學習。深度學習并不是一定需要構建一個固定架構的神經(jīng)網(wǎng)絡然后訓練,它也可以是寫程序代碼,但程序代碼可以被解釋為神經(jīng)網(wǎng)絡。這樣的程序里會帶有一些參數(shù),然后可以通過訓練來優(yōu)化這些參數(shù),這些參數(shù)的最終取值也就取決于訓練數(shù)據(jù)。當然了我們也需要寫第二個程序,計算輸入關于參數(shù)的導數(shù)的梯度,就可以往正確的方式調整這些參數(shù)的值了,這樣動態(tài)改變了最終網(wǎng)絡的結構,它也就可以適應不同的任務。這就是可微分編程。
這是幾年前所開展的一項典型的工作,F(xiàn)acebook 和紐約大學一起合作的,用記憶模塊增強神經(jīng)網(wǎng)絡,網(wǎng)絡的結構也就是動態(tài)的。這樣的做法也會影響未來我們用什么樣的工具開發(fā)神經(jīng)網(wǎng)絡。
這是另外一個關于動態(tài)計算的例子。如果你要建立一個系統(tǒng)能夠回答復雜問題的話,比如下面的這副圖中,紅色的立方體,是不是要比別的大一些?或者立方體有沒有比某個顏色的東西更多?這是幾年前 Facebook 和斯坦福大學合作的研究,它的關鍵思想是,通過循環(huán)神經(jīng)網(wǎng)絡 LSTM 輸入問題,問題會被編碼成向量的形式,然后向量再被另一個網(wǎng)絡解碼,解碼后的結果像是一種程序,程序解釋后的結果是幾個模塊連接形成的計算圖。這樣最終我們就解答了這個問題。
比如對于問題「立方體有沒有比黃色的東西更多」,我們首先需要一個立方體的檢測器,然后需要檢測黃色東西的檢測器,分別數(shù)出來都有多少,最后對比兩個數(shù)字得到了結果。動態(tài)計算就可以端到端地訓練出執(zhí)行這樣任務的程序。決定它的組成結構的也就是用來訓練它的數(shù)據(jù)。
剛才看到的都是一些已經(jīng)做到的深度學習成就,那么我們還需要看一下,距離達成「真正的 AI」我們還缺了什么?,F(xiàn)在我們已經(jīng)可以構建出更安全的車輛或者說自動駕駛車輛,我們有更好的醫(yī)學影像分析、還不錯翻譯軟件、差不多能用的聊天機器人,但我們還做不出來有「常識」的機器人、做不出真正有智慧的個人助理、做不出可以替代洗碗機的管家機器人。我們缺了一些重要的東西。
有的人會說,答案就是強化學習。強化學習當然也很有力,但是它只能在游戲的、虛擬的環(huán)境里發(fā)揮。
玩 DOOM、下圍棋,都沒有問題,但是因為強化學習需要很多的嘗試,AlphaGo 甚至自我對局了上百萬局,這些都是現(xiàn)實世界里做不到的。所以強化學習并不適合解決現(xiàn)實生活中的問題。玩 Atari 游戲需要上百個小時才能玩到人類玩幾分鐘的水平,學開車就更是要先撞壞很多車才能學會;現(xiàn)實世界里的嘗試也沒辦法加速時間。這都是不可接受的。
所以確實我覺得人類和動物的那種學習方式,現(xiàn)在的機器并不具備。
我們想想嬰兒是怎么學習的呢?比如我們給嬰兒看左上角的這張圖,那個小車漂浮在空中,雖然沒有下面沒有任何支撐,但是并沒有掉下來。不到 6 個月大的嬰兒看到這張圖片并不會覺得驚訝,但是更大的嬰兒已經(jīng)知道了沒有東西支撐的話是會掉下來的,看到這張圖片就會很驚訝,像左下角的圖這樣。我的一位朋友,她是在巴黎工作,她給我們展示了嬰兒在每個月分別能學會哪些概念,而且他們也能夠了解到一些物理最基本的原理。這是他們在生命的最初幾個月學到的一些概念,也就有假說認為這就是「常識」萌芽的時期。
動物也有一定程度的常識,比如這只幼年的猩猩。我們給它變了個魔術,在杯子里放了東西然后把它變沒了。猩猩本來期待著東西還在里面的,當它看到不見了的時候就笑得躺在地上了。這只猩猩就對這個世界有著較為準確的認知模型。
那么我們需要做的,也就是讓機器具備對這個世界的模型,我把這個稱作「自我監(jiān)督學習」或者「預測學習」。機器要嘗試預測自己看到的東西的各個方面,這也可能就是能讓機器像人類一樣高效地學習的關鍵。
這種學習主要靠觀察,沒有監(jiān)督,和世界只有很少的互動;它們除了接收,還要可以規(guī)劃和行動。這正是構建自動化機器的關鍵。
所以不管下次的變革在哪個點,我覺得它都不會是監(jiān)督學習,當然也不會是純強化學習的。它應該會有某種自我監(jiān)督或者無監(jiān)督學習。而且也會在這樣的變革當中出現(xiàn)一些常識性的學習。
我總結一下,這也就是我們近期在 Facebook 做的預測學習,學習如何預測、推理以及計劃,也就是學習「常識」。它的核心思想是,自動的智能機器人應當有一個內部的世界模型,可以在它做出行動之前自己進行模擬,預知自己的動作的結果。這是一種最優(yōu)控制中常見的方法,但在機器學習中就不那么常見了。這里我們遇到的問題也就是如何讓人工智能學會對世界建模、從而用這個模型幫助自己規(guī)劃現(xiàn)實世界中的行為。
預測的時候還需要處理不確定性,在桌子上立一支筆,然后松手,它就會倒下來。我們只確定它會倒下來,但是不確定具體會倒向哪個方向。這種時候我們也就需要對抗性訓練,訓練模型不只給出一個答案,而是多個可能的答案。這里需要兩個模型,一個模型做預測,另一個模型來評判哪些結果還不錯、哪些結果是現(xiàn)實世界不太可能發(fā)生的。做預測的模型也就要嘗試讓自己的預測越來越好,讓做評判的模型分不清哪些是真的會發(fā)生的,哪些只是預測出的結果。
根據(jù)這樣的思路,早幾年的 GANs 就可以生成臥室的照片。今年 NVIDIA 也可以生成非常逼真的高清明星照片。這個結果非常有趣,下周開幕的 ICLR 會議上就會介紹這篇論文。
所以,對抗性訓練也就是我們希望可以幫助建立預測機器的方法。預測應當是智慧的核心,我相信能訓練出具有預測能力的模型也就能在未來幾年中為我們帶來大的進步。
我最后做一下總結。對于 AI 學術研究的趨勢,監(jiān)督學習和強化學習即便不會被取代,也會被自我監(jiān)督學習和無監(jiān)督學習大大地增強;學習具有預測能力的模型也會成為未來幾年內的研究熱點,這能讓我們從無模型的強化學習來到基于模型的強化學習以及模仿學習,它們的效率都會提升很多,所需的嘗試次數(shù)也會少很多。
另一件事是,讓模型具有推理的能力,但同時還和深度學習是兼容的。就是讓深度學習方法可以做符號表示方法可以做的事情,把符號換成了向量,把邏輯變成了可微分的程序操作。目前的固定結構的網(wǎng)絡會變成動態(tài)的、由數(shù)據(jù)決定的網(wǎng)絡結構。這也會需要在計算方法方面有新的探索,從而成為系統(tǒng)性的問題。深度學習本身我認為也會有一些進化,它們操作的不再是數(shù)值或者高維向量,而是操作圖結構之類的復雜數(shù)據(jù)結構;更多的深度學習理論也可能會出現(xiàn)。
在 AI 的技術應用方面,我認為監(jiān)督學習會變少,更多的會是無監(jiān)督特征學習、監(jiān)督微調,這樣可以在更多沒有充足數(shù)據(jù)的場景下工作,比如小語種的翻譯,只有很少的雙語對照語料。我們也會看到新的深度學習框架出現(xiàn),為動態(tài)網(wǎng)絡提供編譯器,PyTorch 就在嘗試向這個方向發(fā)展;對于不同框架之間的可協(xié)作性,我們也和微軟、亞馬遜等公司一起合作設計了 ONNX。讓神經(jīng)網(wǎng)絡在移動、低功耗設備上做推理也有很多研究,這已經(jīng)成為了一個非常重要的問題,對于 Facebook 這樣的公司來說,每天用戶要上傳 20 億張照片,而且每張照片都需要被一系列卷積網(wǎng)絡識別,分析不同的信息。這會消耗很多電力,尤其是想要拓展到處理視頻等一些別的任務中的話。所以也就需要研究如何在低功耗設備上運行神經(jīng)網(wǎng)絡?,F(xiàn)在手機上也已經(jīng)出現(xiàn)了 GPU 之外的專用深度學習處理器。
感謝各位的傾聽,我就講這么多。謝謝。
現(xiàn)場視頻錄像參見 http://mudu.tv/watch/1924880 ,雷鋒網(wǎng) AI 科技評論聽譯
雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉載。詳情見轉載須知。
本專題其他文章