0
本文作者: 奕欣 | 編輯:楊曉凡 | 2018-04-26 18:18 | 專題:GMIC 北京 2018 |
雷鋒網(wǎng) AI 科技評(píng)論按:4 月 26 - 28 日,GMIC 北京 2018 在北京國(guó)際會(huì)議中心召開。自 2017 年 3 月首次被寫入政府工作報(bào)告,人工智能產(chǎn)業(yè)上升為國(guó)家戰(zhàn)略后,這個(gè)科技界的專業(yè)詞匯,如今已經(jīng)席卷各行各業(yè),成為新的經(jīng)濟(jì)增長(zhǎng)點(diǎn)和國(guó)際競(jìng)爭(zhēng)的焦點(diǎn)。
GMIC 北京 2018 主題為:「AI」生萬物,諧音愛生萬物,科學(xué)技術(shù)要有人文的溫度,機(jī)器有愛,真「芯」英雄。
作為大會(huì)的首場(chǎng)峰會(huì),全球人工智能領(lǐng)袖峰會(huì)匯聚全球業(yè)界頂尖領(lǐng)袖,探討在基礎(chǔ)硬件、大數(shù)據(jù)與開源平臺(tái)、深度學(xué)習(xí)為代表的算法等人工智能領(lǐng)域的最新洞見,是年度行業(yè)發(fā)展的風(fēng)向標(biāo)。這里有人工智能與人類未來的激變;有深度學(xué)習(xí)三巨匠的巔峰對(duì)話;有中美巨頭 4 vs 4 的平臺(tái)布局與戰(zhàn)略頭部碰撞;還有成長(zhǎng)最快的新星公司,為我們揭示最具發(fā)展?jié)摿Φ氖袌?chǎng)領(lǐng)域。
作為主論壇的開場(chǎng)嘉賓,F(xiàn)acebook 首席 AI 科學(xué)家楊立昆( Yann LeCun)通過視頻連線做了題為《AI 的最新技術(shù)趨勢(shì)》的演講。雷鋒網(wǎng) AI 科技評(píng)論把演講內(nèi)容整理如下。
楊立昆:大家晚上好。我這邊是晚上,你們那邊應(yīng)該是上午。非常抱歉我不能親自到會(huì)場(chǎng)上來。我叫楊立昆,來自 Facebook 人工智能研究院以及紐約大學(xué)。今天我想講一下關(guān)于深度學(xué)習(xí)的一些情況,同時(shí)也會(huì)提及深度學(xué)習(xí)的未來,以及我們所面臨的關(guān)于深度學(xué)習(xí)方面的挑戰(zhàn),即如何讓機(jī)器變得更加智能。
我們看一下今天的 AI 系統(tǒng),如今所有的應(yīng)用,不管是影像、聲音或者是圖像的識(shí)別,或者語言間的翻譯等,這些內(nèi)容 AI 都需要通過監(jiān)督學(xué)習(xí)來獲得。比如說向它展示一些車的圖像,告訴它這些都是車,下次再向機(jī)器展示車的圖像的話,它就會(huì)告訴你答案是車。所以你可以看到,監(jiān)督學(xué)習(xí),對(duì)于計(jì)算機(jī)的學(xué)習(xí)非常重要。
我們現(xiàn)在的有監(jiān)督學(xué)習(xí),或者說深度有監(jiān)督學(xué)習(xí),就是組合起來一些可以訓(xùn)練的模塊,形成端到端的一個(gè)學(xué)習(xí)過程,一端是原始的輸入,另一端就可以得到結(jié)果。通過這種方式,計(jì)算機(jī)會(huì)更好地了解我們的世界。
實(shí)際上這個(gè)想法可以回溯到上個(gè)世紀(jì)八十年代的時(shí)候。當(dāng)時(shí)提出的卷積神經(jīng)網(wǎng)絡(luò)可以識(shí)別圖像,同時(shí)也有很多其他的應(yīng)用,比如說可以用于語言處理和語言識(shí)別和其他很多的應(yīng)用。這就是我們?nèi)缃裨谑褂玫囊恍┏R姂?yīng)用的模型雛形。
我們知道神經(jīng)網(wǎng)絡(luò)是非常龐大且復(fù)雜的,只有在算力很強(qiáng)的計(jì)算機(jī)上才可以運(yùn)用。在深度學(xué)習(xí)變得普遍之前,我們需要確保機(jī)器學(xué)習(xí)的系統(tǒng)可以順利應(yīng)用,比如說我們?cè)?2009 年、2010 年在紐約大學(xué)的一個(gè)合作項(xiàng)目,即利用 ConvNets 進(jìn)行語義分割,我們可以看到,它能識(shí)別圖像,能把馬路上的建筑、天空以及路上的車和人等等在像素級(jí)別上分開。當(dāng)時(shí)的識(shí)別技術(shù)還算不上非常完美。
但在幾年后,我們可以看到有一些公司利用上述技術(shù)做了一些工作,系統(tǒng)可以識(shí)別出道路上的車輛和行人,這也是實(shí)現(xiàn)智能駕駛的重要組成部分。隨著深度學(xué)習(xí)的發(fā)展、網(wǎng)絡(luò)的深度越來越深,越來越多的人相信深度學(xué)習(xí)是可以奏效的。
大家可以看到幾種常見的神經(jīng)網(wǎng)絡(luò),比如 VGG、GoogLeNet、ResNet 還有 DenseNet 等,比如說有 100 層或者 180 層的一些人工神經(jīng)網(wǎng)絡(luò)。像在 Facebook 中我們會(huì)廣泛使用深度神經(jīng)網(wǎng)絡(luò)來識(shí)別圖像。
隨著網(wǎng)絡(luò)深度的不斷增加,識(shí)別 ImageNet 圖像的錯(cuò)誤率也在不斷下降,現(xiàn)在已經(jīng)表現(xiàn)得比人還要好。在 ImageNet 上的表現(xiàn)已經(jīng)太好了,以至我們現(xiàn)在都已經(jīng)不再把它作為首選的評(píng)價(jià)標(biāo)準(zhǔn)了 。我們現(xiàn)在也在研究更復(fù)雜的問題,不只是識(shí)別圖像,還要能夠進(jìn)行本地化處理。
Mask R-CNN 是我們?cè)?Facebook 人工智能研究院所做的研究,可以看到它的表現(xiàn)非常好,不僅僅可以識(shí)別出對(duì)應(yīng)的物體是什么,還可以對(duì)圖像進(jìn)行精細(xì)的分割。只是部分可見的東西都可以分得清。
大家可以看到,它可以識(shí)別電腦、酒杯、人、桌子,還可以統(tǒng)計(jì)它們的數(shù)量,而且也可以識(shí)別出道路、汽車等。
如果五年前讓系統(tǒng)來解決這些問題的話,我們當(dāng)時(shí)可能認(rèn)為需要 10-20 年時(shí)間才能達(dá)到今天呈現(xiàn)的效果。這個(gè)模型也是我們開源的 Dectectron 物體檢測(cè)平臺(tái)的一部分,大家可以下載其中的代碼,預(yù)訓(xùn)練好的模型可以檢測(cè) 200 多種不同的類別。Facebook 在 AI 方面做研究的方式是,我們不僅僅發(fā)布了一些論文,同時(shí)連代碼也開源出來,這樣的話全世界都能更好了解這些成果。
當(dāng)然還包括其他很多項(xiàng)目,在 Facebook,我們利用這樣的技術(shù)設(shè)計(jì)了 DensePose,它在一個(gè)單一的 GPU 上運(yùn)行,可以預(yù)測(cè)密集人體姿態(tài)估計(jì),而且系統(tǒng)能夠?qū)崟r(shí)運(yùn)行。這個(gè)系統(tǒng)可以追蹤很多人的行為,生成視頻,而且對(duì)姿勢(shì)的判斷也非常準(zhǔn)確。此外,它可以實(shí)時(shí)地生成分片 3D 模型,相應(yīng)的代碼也是開源的。
當(dāng)然利用這樣的技術(shù)不僅僅可以進(jìn)行圖像識(shí)別,也可以進(jìn)行面部識(shí)別,還能識(shí)別人的行動(dòng),甚至可以用來翻譯。FairSeq 是 Facebook 在加州所做的研究,我們可以用我們的系統(tǒng)進(jìn)行翻譯工作。在 Facebook 經(jīng)常有各國(guó)語言,采用這種技術(shù)可以把一些文字從一種語言翻譯到另外一種語言。
我覺得對(duì)于行業(yè)來說,進(jìn)行這樣的開發(fā)研究將是會(huì)是一個(gè)非常有用的過程,對(duì)于我們研究團(tuán)隊(duì)來說,不僅僅要開發(fā)對(duì)我們公司來說非常有用的技術(shù),同時(shí)我們也希望所開發(fā)的技術(shù)能夠引導(dǎo)整個(gè)社區(qū),能夠解決我們所感興趣的問題。我們認(rèn)為 AI 不僅僅會(huì)幫助 Facebook 解決問題,同時(shí)還會(huì)幫助人類解決很多自己無法解決的挑戰(zhàn),所以我們會(huì)與我們的科學(xué)團(tuán)隊(duì)一起朝這方面努力。以下是在過去的幾年里, 所發(fā)布的一些開源項(xiàng)目,包括像深度學(xué)習(xí)網(wǎng)絡(luò)、深度學(xué)習(xí)框架,還有關(guān)于深度學(xué)習(xí)的應(yīng)用。
我剛才講到,F(xiàn)acebook 每天都會(huì)有一些新的應(yīng)用發(fā)布,比如醫(yī)學(xué)影像分析、自動(dòng)駕駛、語言翻譯等等,在科學(xué)方面也有很多應(yīng)用,我們也可以看到,深度學(xué)習(xí)的廣泛應(yīng)用會(huì)進(jìn)一步推動(dòng)科學(xué)方面的研究,在接下來幾年里,我們會(huì)看到深度學(xué)習(xí)會(huì)發(fā)生更大的變革。
這是一個(gè) NVIDIA 訓(xùn)練的自動(dòng)駕駛的 demo 視頻,它是用卷積網(wǎng)絡(luò)做模仿學(xué)習(xí)。模仿人類駕車。它會(huì)識(shí)別攝像頭拍到的路況,然后把結(jié)果映射為方向盤的角度。它可以在郊外的路上連續(xù)開幾分鐘而不需要人的干預(yù)。
我們?cè)賮砜匆幌驴晌⒎志幊獭?/p>
實(shí)際上我們可以從另外一個(gè)角度來理解深度學(xué)習(xí)。深度學(xué)習(xí)并不是一定需要構(gòu)建一個(gè)固定架構(gòu)的神經(jīng)網(wǎng)絡(luò)然后訓(xùn)練,它也可以是寫程序代碼,但程序代碼可以被解釋為神經(jīng)網(wǎng)絡(luò)。這樣的程序里會(huì)帶有一些參數(shù),然后可以通過訓(xùn)練來優(yōu)化這些參數(shù),這些參數(shù)的最終取值也就取決于訓(xùn)練數(shù)據(jù)。當(dāng)然了我們也需要寫第二個(gè)程序,計(jì)算輸入關(guān)于參數(shù)的導(dǎo)數(shù)的梯度,就可以往正確的方式調(diào)整這些參數(shù)的值了,這樣動(dòng)態(tài)改變了最終網(wǎng)絡(luò)的結(jié)構(gòu),它也就可以適應(yīng)不同的任務(wù)。這就是可微分編程。
這是幾年前所開展的一項(xiàng)典型的工作,F(xiàn)acebook 和紐約大學(xué)一起合作的,用記憶模塊增強(qiáng)神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)的結(jié)構(gòu)也就是動(dòng)態(tài)的。這樣的做法也會(huì)影響未來我們用什么樣的工具開發(fā)神經(jīng)網(wǎng)絡(luò)。
這是另外一個(gè)關(guān)于動(dòng)態(tài)計(jì)算的例子。如果你要建立一個(gè)系統(tǒng)能夠回答復(fù)雜問題的話,比如下面的這副圖中,紅色的立方體,是不是要比別的大一些?或者立方體有沒有比某個(gè)顏色的東西更多?這是幾年前 Facebook 和斯坦福大學(xué)合作的研究,它的關(guān)鍵思想是,通過循環(huán)神經(jīng)網(wǎng)絡(luò) LSTM 輸入問題,問題會(huì)被編碼成向量的形式,然后向量再被另一個(gè)網(wǎng)絡(luò)解碼,解碼后的結(jié)果像是一種程序,程序解釋后的結(jié)果是幾個(gè)模塊連接形成的計(jì)算圖。這樣最終我們就解答了這個(gè)問題。
比如對(duì)于問題「立方體有沒有比黃色的東西更多」,我們首先需要一個(gè)立方體的檢測(cè)器,然后需要檢測(cè)黃色東西的檢測(cè)器,分別數(shù)出來都有多少,最后對(duì)比兩個(gè)數(shù)字得到了結(jié)果。動(dòng)態(tài)計(jì)算就可以端到端地訓(xùn)練出執(zhí)行這樣任務(wù)的程序。決定它的組成結(jié)構(gòu)的也就是用來訓(xùn)練它的數(shù)據(jù)。
剛才看到的都是一些已經(jīng)做到的深度學(xué)習(xí)成就,那么我們還需要看一下,距離達(dá)成「真正的 AI」我們還缺了什么?,F(xiàn)在我們已經(jīng)可以構(gòu)建出更安全的車輛或者說自動(dòng)駕駛車輛,我們有更好的醫(yī)學(xué)影像分析、還不錯(cuò)翻譯軟件、差不多能用的聊天機(jī)器人,但我們還做不出來有「常識(shí)」的機(jī)器人、做不出真正有智慧的個(gè)人助理、做不出可以替代洗碗機(jī)的管家機(jī)器人。我們?nèi)绷艘恍┲匾臇|西。
有的人會(huì)說,答案就是強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)當(dāng)然也很有力,但是它只能在游戲的、虛擬的環(huán)境里發(fā)揮。
玩 DOOM、下圍棋,都沒有問題,但是因?yàn)閺?qiáng)化學(xué)習(xí)需要很多的嘗試,AlphaGo 甚至自我對(duì)局了上百萬局,這些都是現(xiàn)實(shí)世界里做不到的。所以強(qiáng)化學(xué)習(xí)并不適合解決現(xiàn)實(shí)生活中的問題。玩 Atari 游戲需要上百個(gè)小時(shí)才能玩到人類玩幾分鐘的水平,學(xué)開車就更是要先撞壞很多車才能學(xué)會(huì);現(xiàn)實(shí)世界里的嘗試也沒辦法加速時(shí)間。這都是不可接受的。
所以確實(shí)我覺得人類和動(dòng)物的那種學(xué)習(xí)方式,現(xiàn)在的機(jī)器并不具備。
我們想想嬰兒是怎么學(xué)習(xí)的呢?比如我們給嬰兒看左上角的這張圖,那個(gè)小車漂浮在空中,雖然沒有下面沒有任何支撐,但是并沒有掉下來。不到 6 個(gè)月大的嬰兒看到這張圖片并不會(huì)覺得驚訝,但是更大的嬰兒已經(jīng)知道了沒有東西支撐的話是會(huì)掉下來的,看到這張圖片就會(huì)很驚訝,像左下角的圖這樣。我的一位朋友,她是在巴黎工作,她給我們展示了嬰兒在每個(gè)月分別能學(xué)會(huì)哪些概念,而且他們也能夠了解到一些物理最基本的原理。這是他們?cè)谏淖畛鯉讉€(gè)月學(xué)到的一些概念,也就有假說認(rèn)為這就是「常識(shí)」萌芽的時(shí)期。
動(dòng)物也有一定程度的常識(shí),比如這只幼年的猩猩。我們給它變了個(gè)魔術(shù),在杯子里放了東西然后把它變沒了。猩猩本來期待著東西還在里面的,當(dāng)它看到不見了的時(shí)候就笑得躺在地上了。這只猩猩就對(duì)這個(gè)世界有著較為準(zhǔn)確的認(rèn)知模型。
那么我們需要做的,也就是讓機(jī)器具備對(duì)這個(gè)世界的模型,我把這個(gè)稱作「自我監(jiān)督學(xué)習(xí)」或者「預(yù)測(cè)學(xué)習(xí)」。機(jī)器要嘗試預(yù)測(cè)自己看到的東西的各個(gè)方面,這也可能就是能讓機(jī)器像人類一樣高效地學(xué)習(xí)的關(guān)鍵。
這種學(xué)習(xí)主要靠觀察,沒有監(jiān)督,和世界只有很少的互動(dòng);它們除了接收,還要可以規(guī)劃和行動(dòng)。這正是構(gòu)建自動(dòng)化機(jī)器的關(guān)鍵。
所以不管下次的變革在哪個(gè)點(diǎn),我覺得它都不會(huì)是監(jiān)督學(xué)習(xí),當(dāng)然也不會(huì)是純強(qiáng)化學(xué)習(xí)的。它應(yīng)該會(huì)有某種自我監(jiān)督或者無監(jiān)督學(xué)習(xí)。而且也會(huì)在這樣的變革當(dāng)中出現(xiàn)一些常識(shí)性的學(xué)習(xí)。
我總結(jié)一下,這也就是我們近期在 Facebook 做的預(yù)測(cè)學(xué)習(xí),學(xué)習(xí)如何預(yù)測(cè)、推理以及計(jì)劃,也就是學(xué)習(xí)「常識(shí)」。它的核心思想是,自動(dòng)的智能機(jī)器人應(yīng)當(dāng)有一個(gè)內(nèi)部的世界模型,可以在它做出行動(dòng)之前自己進(jìn)行模擬,預(yù)知自己的動(dòng)作的結(jié)果。這是一種最優(yōu)控制中常見的方法,但在機(jī)器學(xué)習(xí)中就不那么常見了。這里我們遇到的問題也就是如何讓人工智能學(xué)會(huì)對(duì)世界建模、從而用這個(gè)模型幫助自己規(guī)劃現(xiàn)實(shí)世界中的行為。
預(yù)測(cè)的時(shí)候還需要處理不確定性,在桌子上立一支筆,然后松手,它就會(huì)倒下來。我們只確定它會(huì)倒下來,但是不確定具體會(huì)倒向哪個(gè)方向。這種時(shí)候我們也就需要對(duì)抗性訓(xùn)練,訓(xùn)練模型不只給出一個(gè)答案,而是多個(gè)可能的答案。這里需要兩個(gè)模型,一個(gè)模型做預(yù)測(cè),另一個(gè)模型來評(píng)判哪些結(jié)果還不錯(cuò)、哪些結(jié)果是現(xiàn)實(shí)世界不太可能發(fā)生的。做預(yù)測(cè)的模型也就要嘗試讓自己的預(yù)測(cè)越來越好,讓做評(píng)判的模型分不清哪些是真的會(huì)發(fā)生的,哪些只是預(yù)測(cè)出的結(jié)果。
根據(jù)這樣的思路,早幾年的 GANs 就可以生成臥室的照片。今年 NVIDIA 也可以生成非常逼真的高清明星照片。這個(gè)結(jié)果非常有趣,下周開幕的 ICLR 會(huì)議上就會(huì)介紹這篇論文。
所以,對(duì)抗性訓(xùn)練也就是我們希望可以幫助建立預(yù)測(cè)機(jī)器的方法。預(yù)測(cè)應(yīng)當(dāng)是智慧的核心,我相信能訓(xùn)練出具有預(yù)測(cè)能力的模型也就能在未來幾年中為我們帶來大的進(jìn)步。
我最后做一下總結(jié)。對(duì)于 AI 學(xué)術(shù)研究的趨勢(shì),監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)即便不會(huì)被取代,也會(huì)被自我監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)大大地增強(qiáng);學(xué)習(xí)具有預(yù)測(cè)能力的模型也會(huì)成為未來幾年內(nèi)的研究熱點(diǎn),這能讓我們從無模型的強(qiáng)化學(xué)習(xí)來到基于模型的強(qiáng)化學(xué)習(xí)以及模仿學(xué)習(xí),它們的效率都會(huì)提升很多,所需的嘗試次數(shù)也會(huì)少很多。
另一件事是,讓模型具有推理的能力,但同時(shí)還和深度學(xué)習(xí)是兼容的。就是讓深度學(xué)習(xí)方法可以做符號(hào)表示方法可以做的事情,把符號(hào)換成了向量,把邏輯變成了可微分的程序操作。目前的固定結(jié)構(gòu)的網(wǎng)絡(luò)會(huì)變成動(dòng)態(tài)的、由數(shù)據(jù)決定的網(wǎng)絡(luò)結(jié)構(gòu)。這也會(huì)需要在計(jì)算方法方面有新的探索,從而成為系統(tǒng)性的問題。深度學(xué)習(xí)本身我認(rèn)為也會(huì)有一些進(jìn)化,它們操作的不再是數(shù)值或者高維向量,而是操作圖結(jié)構(gòu)之類的復(fù)雜數(shù)據(jù)結(jié)構(gòu);更多的深度學(xué)習(xí)理論也可能會(huì)出現(xiàn)。
在 AI 的技術(shù)應(yīng)用方面,我認(rèn)為監(jiān)督學(xué)習(xí)會(huì)變少,更多的會(huì)是無監(jiān)督特征學(xué)習(xí)、監(jiān)督微調(diào),這樣可以在更多沒有充足數(shù)據(jù)的場(chǎng)景下工作,比如小語種的翻譯,只有很少的雙語對(duì)照語料。我們也會(huì)看到新的深度學(xué)習(xí)框架出現(xiàn),為動(dòng)態(tài)網(wǎng)絡(luò)提供編譯器,PyTorch 就在嘗試向這個(gè)方向發(fā)展;對(duì)于不同框架之間的可協(xié)作性,我們也和微軟、亞馬遜等公司一起合作設(shè)計(jì)了 ONNX。讓神經(jīng)網(wǎng)絡(luò)在移動(dòng)、低功耗設(shè)備上做推理也有很多研究,這已經(jīng)成為了一個(gè)非常重要的問題,對(duì)于 Facebook 這樣的公司來說,每天用戶要上傳 20 億張照片,而且每張照片都需要被一系列卷積網(wǎng)絡(luò)識(shí)別,分析不同的信息。這會(huì)消耗很多電力,尤其是想要拓展到處理視頻等一些別的任務(wù)中的話。所以也就需要研究如何在低功耗設(shè)備上運(yùn)行神經(jīng)網(wǎng)絡(luò)?,F(xiàn)在手機(jī)上也已經(jīng)出現(xiàn)了 GPU 之外的專用深度學(xué)習(xí)處理器。
感謝各位的傾聽,我就講這么多。謝謝。
現(xiàn)場(chǎng)視頻錄像參見 http://mudu.tv/watch/1924880 ,雷鋒網(wǎng) AI 科技評(píng)論聽譯
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章