0
本文作者: 亞萌 | 2017-01-17 22:06 |
雷鋒網(wǎng)按:2017年1月15日,李飛飛教授出席未來論壇2017年會暨首屆未來科學(xué)頒獎典禮,發(fā)表名為《視覺智能的探索》 (The Quest for Visual Intelligent)演講。李飛飛教授分別從四個視角講述了她眼里的AI,提到她加入谷歌后從事的幾項工作,并致力于推動AI的多樣性發(fā)展。雷鋒網(wǎng)根據(jù)其現(xiàn)場演講整理成本文,由宗仁和亞萌共同編輯。
大家下午好!我非常榮幸看到在這個歷史性時刻,中國正在慶祝它在科學(xué)和創(chuàng)新領(lǐng)域的進步。今天我來到這邊是作為人工智能的學(xué)術(shù)圈一員,我想跟大家分享一下視覺技術(shù)方面最新的進展。
大概5億年前,有一些非常簡單的生物生活在一片非常大的海洋當(dāng)中,它們等待著食物的到來,或有時也成為別人的食物。那時的動物王國非常簡單,后來可能是出于偶然,最早期的一些動物出現(xiàn)了眼睛這種器官,這些動物的眼睛其實還是非常簡單,它們就像古代中國“小孔成像匣”一樣初級。在視覺發(fā)展之后,動物才變得更加積極,尤其是在獵取食物時,它們可以自發(fā)進攻,它們也會尋找更隱蔽的地方躲藏起來,避免自己成為它人的食物。
之后,在一段相對較短的時間內(nèi),地球上的物種得到了非常豐富的發(fā)展,這也是視覺進化引發(fā)的“寒武紀(jì)大爆發(fā)”。寒武紀(jì)大爆發(fā)之后,視覺就在動物中發(fā)揮著非常重要的作用,幫助它們行動、尋找食物、躲避敵人等等。作為人,我們也是一樣的,我們也用視覺支持我們的生活、我們的工作、我們的交流,讓我們更好地了解世界。
事實上,在5億年的進化當(dāng)中,視覺已經(jīng)成了我們?nèi)俗钪匾母兄到y(tǒng),我們的大腦中有超過一半都是和視覺處理聯(lián)系在一起的。雖然,動物在5.4億年前就看到了世界的光明,但是直到如今我們的機器和計算機所面對的還是“黑暗時代”。我們?nèi)缃竦教幎加斜O(jiān)控器,但是如果監(jiān)控器拍到一個小孩落水了,它也并不知道發(fā)生了什么事情。
每一分鐘,都有成百上千個小時的視頻上傳到Y(jié)outube和Facebook的服務(wù)器里,但是我們還不能根據(jù)視頻的內(nèi)容來進行搜索;無人機也可以飛翔在廣袤的土地上,但我們還不能根據(jù)無人機鏡頭捕捉到的繪制出地貌。
總的來說,我們作為一個社會整體,是個盲人,這是因為我們的最智能的機器還是盲人。
作為一名計算機視覺科學(xué)家,我們致力于開發(fā)出能從視覺世界中學(xué)習(xí)AI算法,識別出圖片、視頻里的內(nèi)容,最終為數(shù)字世界帶來“光明”。
為了實現(xiàn)這樣一個目標(biāo),首先我們要教計算機識別物體,物體是視覺世界的基礎(chǔ)物件。我們給計算機一些特定物體的訓(xùn)練圖像,比如貓的圖片樣本,然后設(shè)計數(shù)學(xué)模型,讓機器從這些訓(xùn)練圖像中學(xué)習(xí)。
在早期物體建模中,我們用數(shù)學(xué)語言,告訴計算機這只貓由不同形狀組成(例如圓形的臉、三角型的耳朵等),但是還有很多的圖片里的貓,它們擺出各種奇怪扭曲的姿勢,這時貓身體的各個部位已經(jīng)不是規(guī)則的形狀了,這時要怎么辦呢?
所以,為了讓不同的貓都能被計算機識別出來,我們需要設(shè)計不同的模型,但這樣大量的工作真得會把人逼瘋,所以研究就陷入了困境。很多年來機器視覺領(lǐng)域的很多科學(xué)家,都想找到一個神奇的算法,可以對同一個物體的不同“變種”進行建模。
大概8年前,一個簡單但深刻的發(fā)現(xiàn),改變了我的思考方式,那就是從小孩學(xué)習(xí)的過程中得到靈感。孩子在學(xué)認貓的過程中,并沒有被告知貓是各種形狀的組合,他們只是根據(jù)過去的經(jīng)歷習(xí)得。如果把小孩的眼睛當(dāng)做一對生物攝像機,它每秒鐘都要看至少5張貓的圖片,到了3歲時,一個孩子已經(jīng)見過數(shù)以億計來自真實世界的圖像。
所以在我們專注于找出最佳的算法之前,我們應(yīng)該為計算機提供跟孩子一樣多的訓(xùn)練圖片。所以,這時,我們需要采集數(shù)據(jù),采集比以往多得多的圖像,這個數(shù)量將是以前的幾千倍。
所以,我和普林斯頓大學(xué)的李凱教授、當(dāng)時的學(xué)生Jia Deng一起,啟動了ImageNet項目。
我們在網(wǎng)絡(luò)上找到了很多圖片、很多數(shù)據(jù),網(wǎng)絡(luò)是匯集人類所拍照片的最大寶庫。經(jīng)過3年的辛勤工作后,2009年ImageNet正式交付,其中包括1500萬張圖片和22000類物體,并用日常英語單詞組織起來,這在機器學(xué)習(xí)和視覺領(lǐng)域,從數(shù)量和質(zhì)量來說都是史無前例的。我們比以往,更加準(zhǔn)備好了去解決計算機視覺領(lǐng)域的問題。
而這,就是從一個孩子的視角出發(fā)得來的。
事實證明,ImageNet提供的充足信息,能夠完美匹配某類機器學(xué)習(xí)算法,就是“卷積神經(jīng)網(wǎng)絡(luò)”(CNN),由1970年代和80年代的計算機科學(xué)家提出。
卷積神經(jīng)網(wǎng)絡(luò)受人腦啟發(fā),其中的基本運算單元,是類似神經(jīng)元的節(jié)點,節(jié)點能從其它節(jié)點接受輸入,并輸出到其它節(jié)點,而且,這成百上千的節(jié)點,會分層有序地組織連接在一起。
這是一個非常經(jīng)典的用來訓(xùn)練物體識別的卷積神經(jīng)網(wǎng)絡(luò)模型,它大概有2400萬個節(jié)點,1.4億個參數(shù)和150億個連接。ImageNet提供的海量信息,加上現(xiàn)代CPU和GPU來訓(xùn)練如此龐大的模型,卷積神經(jīng)網(wǎng)絡(luò)的快速發(fā)展超出人們的想象,它成為了非常成功的算法,在物體識別方面取得了令人欣喜的成果。
在一張圖里,計算機告訴我們這張照片里有一只貓以及這只貓在哪里;這另一張圖里,計算機告訴我們,一個小孩拿著他的泰迪熊。
如今,計算機取得了巨大的進步,然而這還僅僅是第一步。很快,另一個發(fā)展里程碑就會達到。孩子會開始用句子來交流,比如看到這張圖片,一個小孩會說“一只貓?zhí)稍诖采稀?。而計算機也一樣,所以要教電腦看懂圖片,并且用一句話來描述它。我們需要用到神經(jīng)系統(tǒng),并且把神經(jīng)系統(tǒng)推向一個高度,我們需要把視覺信息和文本信息結(jié)合起來,并且讓它生成出一個具有意義的句子。
大概是一年半之前,我們與世界上其它幾個實驗室進行了合作,創(chuàng)造出了第一個根據(jù)圖片講故事的計算機視覺算法。
計算機在看到圖片時說出了一句描述:“一架大型飛機停在機場跑道上”。
當(dāng)然,相比三歲的孩子,計算機的發(fā)音沒有那么可愛。這種看到一張圖,產(chǎn)生一句描述語的叫做“Image Capturing”,而且我們將這種能力擴展,使得計算機可以根據(jù)一張圖片,產(chǎn)生很多句描述。最近,我們提交了一篇論文,計算機通過算法,針對第一次看到的圖片,而自動生成出完整的一大段的自然語句。
總之,得到大腦的啟發(fā)之后,我們發(fā)現(xiàn)深度學(xué)習(xí)的算法和公式能夠幫助我們做一些視覺方面的檢測,而這就是從大腦的視角得來的。
在卷積神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)技術(shù)得到如此大的發(fā)展之后,我們也開始把焦點轉(zhuǎn)向其它一些領(lǐng)域,尤其是視頻。我們要看看,圖片中學(xué)習(xí)到的東西能否復(fù)制到視頻領(lǐng)域中去,讓真實世界從中獲益。我們的實驗室和谷歌YouTube團隊合作,把YouTube上100萬個運動相關(guān)的視頻樣本抓取出來,它們分別屬于450種運動類別。我們希望有一天這樣的技術(shù)能夠幫助我們?nèi)ス芾怼⑺饕退阉鞔罅康囊曨l和圖片。計算機能自動對屏幕上的體育項目進行分類,這里包括各種各樣的體育項目,武術(shù)、籃球、帆船運動等等。
最近我們的實驗室,聯(lián)合谷歌和Facebook一起進一步擴展了我們工作的范圍,不僅僅能夠讓機器識別出運動的類型,而且可以看看單個隊員做了哪些事情。我們來看NBA的籃球,機器可以追蹤每個隊員在重要事件中的表現(xiàn),譬如三分球投籃成功等。
我們拿了一些安全監(jiān)控視頻(比如醫(yī)院里的),通過深度傳感器的視頻來進行分析應(yīng)用,識別出當(dāng)中人的姿勢和動作,這個是非常有價值的。
我們和歐洲一個火車站進行了合作,將成百上千個視覺傳感器安裝在公共空間,利用這些計算機的傳感器來追蹤乘客的行動,火車站有數(shù)百萬的人流穿梭,通過這樣一種監(jiān)測可以幫助優(yōu)化火車站的空間,調(diào)整火車發(fā)車時間表。
最近我們利用了深度學(xué)習(xí)、CNN和RNN,讓機器學(xué)習(xí)如何預(yù)測人類行為的軌跡,這樣一個工作能夠把我們前邊所討論的結(jié)合在一起。算法不僅有IQ,可以識別出人,而且它也有EQ,來做出被人類社會接受的行為。比如當(dāng)它用來規(guī)劃一個機器人的行為軌跡時,就該知道機器人不應(yīng)該干擾人,或者機器人在一個空間行走時,不能沖進人群里。
我們利用所有這些技術(shù)和現(xiàn)實中的情況結(jié)合,現(xiàn)在我們和斯坦福醫(yī)院合作,部署相關(guān)技術(shù),可以提高他們手衛(wèi)生和工作流程,不僅是在工作場所,在家也是。
總而言之,作為一個技術(shù)人員,看到計算機視覺算法正在幫助解決現(xiàn)實生活中的問題,真的讓我感特別興奮,這是一個技術(shù)人士的視角。
大概是5億年前,動物視覺和智力面臨的挑戰(zhàn)就是讓個體存活,而如今,機器視覺和AI所面臨的挑戰(zhàn)就是讓人類能夠繁榮。作為技術(shù)人員我們要問,AI將會成為一種摧毀力,還是能給我們帶來更好的世界?我思考這個問題很久了,最近我突然頓悟,AI的未來掌握在那些創(chuàng)造、開發(fā)和使用者的手中。無疑的,AI會改變世界,但這里真正的問題是,改變AI又是誰呢?
大家都知道,世界各地都是缺乏多樣性的,包括美國的硅谷、中國、歐洲等,還有很多其它區(qū)域都缺乏多樣性,在美國學(xué)術(shù)界只有25%的計算機專業(yè)人士是女性,不到15%的美國頂尖工程學(xué)校的教職員工是女性,對于少數(shù)族裔來說,女性的代表就更少了,這一不平衡的現(xiàn)象在工業(yè)界也同樣存在。這并不是工作文化問題,這實際上是經(jīng)濟和集體財產(chǎn)的問題。
幾個月前我受邀到美國白宮討論了AI中多樣性的必要性,我提出必須提高AI多樣性的三個理由。第一個理由關(guān)乎經(jīng)濟和勞動力,AI人工智能是一個日益增長的技術(shù),會影響到每個人,我們需要更多人力開發(fā)出更好的技術(shù);第二個理由關(guān)乎創(chuàng)造力和創(chuàng)新,很多研究都顯示出,當(dāng)擁有多種多樣背景的人共同合作時,會產(chǎn)生更好的結(jié)果和更具有創(chuàng)意的解決方案;最后一個理由,關(guān)乎社會正義和道德價值,當(dāng)各種各樣背景的人聚集到一起時,他們有著各種各樣不同的價值觀,代表著人類的技術(shù)也會有更加多樣性的思考。
視覺和智能的發(fā)展造成了動物多樣性在5億年前大爆炸式的增長,現(xiàn)在如果我們能夠讓更多的人參與到AI教育和研究當(dāng)中,我們可以鼓勵更多技術(shù)多樣化的發(fā)展,這樣我們會看到寒武紀(jì)技術(shù)上的大爆炸,使我們的世界變得更好。
這是一位教育家和一位母親的視角。
謝謝各位!
PS:請關(guān)注雷鋒網(wǎng)公眾號。
相關(guān)文章:
伯克利人工智能學(xué)家Stuart Russell深度剖析:人工智能在投資顧問中的作用與局限
AI眼中的歷史:用人工智能挖掘舊報紙里的英國現(xiàn)代史
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。