李飛飛北京演講：AI會改變世界，改變AI的又會是誰？

本文作者：亞萌

2017-01-17 22:06

導(dǎo)語：1月15日，李飛飛出席未來論壇2017年會，發(fā)表名為《視覺智能的探索》（The Quest for Visual Intelligent）的演講。

雷鋒網(wǎng)按：2017年1月15日，李飛飛教授出席未來論壇2017年會暨首屆未來科學(xué)頒獎典禮，發(fā)表名為《視覺智能的探索》（The Quest for Visual Intelligent）演講。李飛飛教授分別從四個視角講述了她眼里的AI，提到她加入谷歌后從事的幾項工作，并致力于推動AI的多樣性發(fā)展。雷鋒網(wǎng)根據(jù)其現(xiàn)場演講整理成本文，由宗仁和亞萌共同編輯。

大家下午好！我非常榮幸看到在這個歷史性時刻，中國正在慶祝它在科學(xué)和創(chuàng)新領(lǐng)域的進步。今天我來到這邊是作為人工智能的學(xué)術(shù)圈一員，我想跟大家分享一下視覺技術(shù)方面最新的進展。

作為社會整體，我們依然是盲人

大概5億年前，有一些非常簡單的生物生活在一片非常大的海洋當(dāng)中，它們等待著食物的到來，或有時也成為別人的食物。那時的動物王國非常簡單，后來可能是出于偶然，最早期的一些動物出現(xiàn)了眼睛這種器官，這些動物的眼睛其實還是非常簡單，它們就像古代中國“小孔成像匣”一樣初級。在視覺發(fā)展之后，動物才變得更加積極，尤其是在獵取食物時，它們可以自發(fā)進攻，它們也會尋找更隱蔽的地方躲藏起來，避免自己成為它人的食物。

之后，在一段相對較短的時間內(nèi)，地球上的物種得到了非常豐富的發(fā)展，這也是視覺進化引發(fā)的“寒武紀(jì)大爆發(fā)”。寒武紀(jì)大爆發(fā)之后，視覺就在動物中發(fā)揮著非常重要的作用，幫助它們行動、尋找食物、躲避敵人等等。作為人，我們也是一樣的，我們也用視覺支持我們的生活、我們的工作、我們的交流，讓我們更好地了解世界。

事實上，在5億年的進化當(dāng)中，視覺已經(jīng)成了我們?nèi)俗钪匾母兄到y(tǒng)，我們的大腦中有超過一半都是和視覺處理聯(lián)系在一起的。雖然，動物在5.4億年前就看到了世界的光明，但是直到如今我們的機器和計算機所面對的還是“黑暗時代”。我們?nèi)缃竦教幎加斜O(jiān)控器，但是如果監(jiān)控器拍到一個小孩落水了，它也并不知道發(fā)生了什么事情。

每一分鐘，都有成百上千個小時的視頻上傳到Y(jié)outube和Facebook的服務(wù)器里，但是我們還不能根據(jù)視頻的內(nèi)容來進行搜索；無人機也可以飛翔在廣袤的土地上，但我們還不能根據(jù)無人機鏡頭捕捉到的繪制出地貌。

總的來說，我們作為一個社會整體，是個盲人，這是因為我們的最智能的機器還是盲人。

作為一名計算機視覺科學(xué)家，我們致力于開發(fā)出能從視覺世界中學(xué)習(xí)AI算法，識別出圖片、視頻里的內(nèi)容，最終為數(shù)字世界帶來“光明”。

ImageNet的誕生：從孩子獲得靈感

為了實現(xiàn)這樣一個目標(biāo)，首先我們要教計算機識別物體，物體是視覺世界的基礎(chǔ)物件。我們給計算機一些特定物體的訓(xùn)練圖像，比如貓的圖片樣本，然后設(shè)計數(shù)學(xué)模型，讓機器從這些訓(xùn)練圖像中學(xué)習(xí)。

在早期物體建模中，我們用數(shù)學(xué)語言，告訴計算機這只貓由不同形狀組成（例如圓形的臉、三角型的耳朵等），但是還有很多的圖片里的貓，它們擺出各種奇怪扭曲的姿勢，這時貓身體的各個部位已經(jīng)不是規(guī)則的形狀了，這時要怎么辦呢？

所以，為了讓不同的貓都能被計算機識別出來，我們需要設(shè)計不同的模型，但這樣大量的工作真得會把人逼瘋，所以研究就陷入了困境。很多年來機器視覺領(lǐng)域的很多科學(xué)家，都想找到一個神奇的算法，可以對同一個物體的不同“變種”進行建模。

大概8年前，一個簡單但深刻的發(fā)現(xiàn)，改變了我的思考方式，那就是從小孩學(xué)習(xí)的過程中得到靈感。孩子在學(xué)認貓的過程中，并沒有被告知貓是各種形狀的組合，他們只是根據(jù)過去的經(jīng)歷習(xí)得。如果把小孩的眼睛當(dāng)做一對生物攝像機，它每秒鐘都要看至少5張貓的圖片，到了3歲時，一個孩子已經(jīng)見過數(shù)以億計來自真實世界的圖像。

所以在我們專注于找出最佳的算法之前，我們應(yīng)該為計算機提供跟孩子一樣多的訓(xùn)練圖片。所以，這時，我們需要采集數(shù)據(jù)，采集比以往多得多的圖像，這個數(shù)量將是以前的幾千倍。

所以，我和普林斯頓大學(xué)的李凱教授、當(dāng)時的學(xué)生Jia Deng一起，啟動了ImageNet項目。

李飛飛北京演講：AI會改變世界，改變AI的又會是誰？

我們在網(wǎng)絡(luò)上找到了很多圖片、很多數(shù)據(jù)，網(wǎng)絡(luò)是匯集人類所拍照片的最大寶庫。經(jīng)過3年的辛勤工作后，2009年ImageNet正式交付，其中包括1500萬張圖片和22000類物體，并用日常英語單詞組織起來，這在機器學(xué)習(xí)和視覺領(lǐng)域，從數(shù)量和質(zhì)量來說都是史無前例的。我們比以往，更加準(zhǔn)備好了去解決計算機視覺領(lǐng)域的問題。

而這，就是從一個孩子的視角出發(fā)得來的。

ImageNet完美匹配的算法：CNN

事實證明，ImageNet提供的充足信息，能夠完美匹配某類機器學(xué)習(xí)算法，就是“卷積神經(jīng)網(wǎng)絡(luò)”（CNN），由1970年代和80年代的計算機科學(xué)家提出。

卷積神經(jīng)網(wǎng)絡(luò)受人腦啟發(fā)，其中的基本運算單元，是類似神經(jīng)元的節(jié)點，節(jié)點能從其它節(jié)點接受輸入，并輸出到其它節(jié)點，而且，這成百上千的節(jié)點，會分層有序地組織連接在一起。

這是一個非常經(jīng)典的用來訓(xùn)練物體識別的卷積神經(jīng)網(wǎng)絡(luò)模型，它大概有2400萬個節(jié)點，1.4億個參數(shù)和150億個連接。ImageNet提供的海量信息，加上現(xiàn)代CPU和GPU來訓(xùn)練如此龐大的模型，卷積神經(jīng)網(wǎng)絡(luò)的快速發(fā)展超出人們的想象，它成為了非常成功的算法，在物體識別方面取得了令人欣喜的成果。

李飛飛北京演講：AI會改變世界，改變AI的又會是誰？

在一張圖里，計算機告訴我們這張照片里有一只貓以及這只貓在哪里；這另一張圖里，計算機告訴我們，一個小孩拿著他的泰迪熊。

如今，計算機取得了巨大的進步，然而這還僅僅是第一步。很快，另一個發(fā)展里程碑就會達到。孩子會開始用句子來交流，比如看到這張圖片，一個小孩會說“一只貓?zhí)稍诖采稀?。而計算機也一樣，所以要教電腦看懂圖片，并且用一句話來描述它。我們需要用到神經(jīng)系統(tǒng)，并且把神經(jīng)系統(tǒng)推向一個高度，我們需要把視覺信息和文本信息結(jié)合起來，并且讓它生成出一個具有意義的句子。

大概是一年半之前，我們與世界上其它幾個實驗室進行了合作，創(chuàng)造出了第一個根據(jù)圖片講故事的計算機視覺算法。

計算機在看到圖片時說出了一句描述：“一架大型飛機停在機場跑道上”。

當(dāng)然，相比三歲的孩子，計算機的發(fā)音沒有那么可愛。這種看到一張圖，產(chǎn)生一句描述語的叫做“Image Capturing”，而且我們將這種能力擴展，使得計算機可以根據(jù)一張圖片，產(chǎn)生很多句描述。最近，我們提交了一篇論文，計算機通過算法，針對第一次看到的圖片，而自動生成出完整的一大段的自然語句。

總之，得到大腦的啟發(fā)之后，我們發(fā)現(xiàn)深度學(xué)習(xí)的算法和公式能夠幫助我們做一些視覺方面的檢測，而這就是從大腦的視角得來的。

我在谷歌的一些工作

在卷積神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)技術(shù)得到如此大的發(fā)展之后，我們也開始把焦點轉(zhuǎn)向其它一些領(lǐng)域，尤其是視頻。我們要看看，圖片中學(xué)習(xí)到的東西能否復(fù)制到視頻領(lǐng)域中去，讓真實世界從中獲益。我們的實驗室和谷歌YouTube團隊合作，把YouTube上100萬個運動相關(guān)的視頻樣本抓取出來，它們分別屬于450種運動類別。我們希望有一天這樣的技術(shù)能夠幫助我們?nèi)ス芾?、索引和搜索大量的視頻和圖片。計算機能自動對屏幕上的體育項目進行分類，這里包括各種各樣的體育項目，武術(shù)、籃球、帆船運動等等。

最近我們的實驗室，聯(lián)合谷歌和Facebook一起進一步擴展了我們工作的范圍，不僅僅能夠讓機器識別出運動的類型，而且可以看看單個隊員做了哪些事情。我們來看NBA的籃球，機器可以追蹤每個隊員在重要事件中的表現(xiàn)，譬如三分球投籃成功等。

李飛飛北京演講：AI會改變世界，改變AI的又會是誰？

我們拿了一些安全監(jiān)控視頻（比如醫(yī)院里的），通過深度傳感器的視頻來進行分析應(yīng)用，識別出當(dāng)中人的姿勢和動作，這個是非常有價值的。

我們和歐洲一個火車站進行了合作，將成百上千個視覺傳感器安裝在公共空間，利用這些計算機的傳感器來追蹤乘客的行動，火車站有數(shù)百萬的人流穿梭，通過這樣一種監(jiān)測可以幫助優(yōu)化火車站的空間，調(diào)整火車發(fā)車時間表。

最近我們利用了深度學(xué)習(xí)、CNN和RNN，讓機器學(xué)習(xí)如何預(yù)測人類行為的軌跡，這樣一個工作能夠把我們前邊所討論的結(jié)合在一起。算法不僅有IQ，可以識別出人，而且它也有EQ，來做出被人類社會接受的行為。比如當(dāng)它用來規(guī)劃一個機器人的行為軌跡時，就該知道機器人不應(yīng)該干擾人，或者機器人在一個空間行走時，不能沖進人群里。

我們利用所有這些技術(shù)和現(xiàn)實中的情況結(jié)合，現(xiàn)在我們和斯坦福醫(yī)院合作，部署相關(guān)技術(shù)，可以提高他們手衛(wèi)生和工作流程，不僅是在工作場所，在家也是。

總而言之，作為一個技術(shù)人員，看到計算機視覺算法正在幫助解決現(xiàn)實生活中的問題，真的讓我感特別興奮，這是一個技術(shù)人士的視角。

保證AI多樣性的三個理由

大概是5億年前，動物視覺和智力面臨的挑戰(zhàn)就是讓個體存活，而如今，機器視覺和AI所面臨的挑戰(zhàn)就是讓人類能夠繁榮。作為技術(shù)人員我們要問，AI將會成為一種摧毀力，還是能給我們帶來更好的世界？我思考這個問題很久了，最近我突然頓悟，AI的未來掌握在那些創(chuàng)造、開發(fā)和使用者的手中。無疑的，AI會改變世界，但這里真正的問題是，改變AI又是誰呢？

大家都知道，世界各地都是缺乏多樣性的，包括美國的硅谷、中國、歐洲等，還有很多其它區(qū)域都缺乏多樣性，在美國學(xué)術(shù)界只有25%的計算機專業(yè)人士是女性，不到15%的美國頂尖工程學(xué)校的教職員工是女性，對于少數(shù)族裔來說，女性的代表就更少了，這一不平衡的現(xiàn)象在工業(yè)界也同樣存在。這并不是工作文化問題，這實際上是經(jīng)濟和集體財產(chǎn)的問題。

幾個月前我受邀到美國白宮討論了AI中多樣性的必要性，我提出必須提高AI多樣性的三個理由。第一個理由關(guān)乎經(jīng)濟和勞動力，AI人工智能是一個日益增長的技術(shù)，會影響到每個人，我們需要更多人力開發(fā)出更好的技術(shù)；第二個理由關(guān)乎創(chuàng)造力和創(chuàng)新，很多研究都顯示出，當(dāng)擁有多種多樣背景的人共同合作時，會產(chǎn)生更好的結(jié)果和更具有創(chuàng)意的解決方案；最后一個理由，關(guān)乎社會正義和道德價值，當(dāng)各種各樣背景的人聚集到一起時，他們有著各種各樣不同的價值觀，代表著人類的技術(shù)也會有更加多樣性的思考。

李飛飛北京演講：AI會改變世界，改變AI的又會是誰？