0
本文作者: 亞萌 | 2017-01-17 22:06 |
雷鋒網(wǎng)按:2017年1月15日,李飛飛教授出席未來論壇2017年會(huì)暨首屆未來科學(xué)頒獎(jiǎng)典禮,發(fā)表名為《視覺智能的探索》 (The Quest for Visual Intelligent)演講。李飛飛教授分別從四個(gè)視角講述了她眼里的AI,提到她加入谷歌后從事的幾項(xiàng)工作,并致力于推動(dòng)AI的多樣性發(fā)展。雷鋒網(wǎng)根據(jù)其現(xiàn)場演講整理成本文,由宗仁和亞萌共同編輯。
大家下午好!我非常榮幸看到在這個(gè)歷史性時(shí)刻,中國正在慶祝它在科學(xué)和創(chuàng)新領(lǐng)域的進(jìn)步。今天我來到這邊是作為人工智能的學(xué)術(shù)圈一員,我想跟大家分享一下視覺技術(shù)方面最新的進(jìn)展。
大概5億年前,有一些非常簡單的生物生活在一片非常大的海洋當(dāng)中,它們等待著食物的到來,或有時(shí)也成為別人的食物。那時(shí)的動(dòng)物王國非常簡單,后來可能是出于偶然,最早期的一些動(dòng)物出現(xiàn)了眼睛這種器官,這些動(dòng)物的眼睛其實(shí)還是非常簡單,它們就像古代中國“小孔成像匣”一樣初級。在視覺發(fā)展之后,動(dòng)物才變得更加積極,尤其是在獵取食物時(shí),它們可以自發(fā)進(jìn)攻,它們也會(huì)尋找更隱蔽的地方躲藏起來,避免自己成為它人的食物。
之后,在一段相對較短的時(shí)間內(nèi),地球上的物種得到了非常豐富的發(fā)展,這也是視覺進(jìn)化引發(fā)的“寒武紀(jì)大爆發(fā)”。寒武紀(jì)大爆發(fā)之后,視覺就在動(dòng)物中發(fā)揮著非常重要的作用,幫助它們行動(dòng)、尋找食物、躲避敵人等等。作為人,我們也是一樣的,我們也用視覺支持我們的生活、我們的工作、我們的交流,讓我們更好地了解世界。
事實(shí)上,在5億年的進(jìn)化當(dāng)中,視覺已經(jīng)成了我們?nèi)俗钪匾母兄到y(tǒng),我們的大腦中有超過一半都是和視覺處理聯(lián)系在一起的。雖然,動(dòng)物在5.4億年前就看到了世界的光明,但是直到如今我們的機(jī)器和計(jì)算機(jī)所面對的還是“黑暗時(shí)代”。我們?nèi)缃竦教幎加斜O(jiān)控器,但是如果監(jiān)控器拍到一個(gè)小孩落水了,它也并不知道發(fā)生了什么事情。
每一分鐘,都有成百上千個(gè)小時(shí)的視頻上傳到Y(jié)outube和Facebook的服務(wù)器里,但是我們還不能根據(jù)視頻的內(nèi)容來進(jìn)行搜索;無人機(jī)也可以飛翔在廣袤的土地上,但我們還不能根據(jù)無人機(jī)鏡頭捕捉到的繪制出地貌。
總的來說,我們作為一個(gè)社會(huì)整體,是個(gè)盲人,這是因?yàn)槲覀兊淖钪悄艿臋C(jī)器還是盲人。
作為一名計(jì)算機(jī)視覺科學(xué)家,我們致力于開發(fā)出能從視覺世界中學(xué)習(xí)AI算法,識別出圖片、視頻里的內(nèi)容,最終為數(shù)字世界帶來“光明”。
為了實(shí)現(xiàn)這樣一個(gè)目標(biāo),首先我們要教計(jì)算機(jī)識別物體,物體是視覺世界的基礎(chǔ)物件。我們給計(jì)算機(jī)一些特定物體的訓(xùn)練圖像,比如貓的圖片樣本,然后設(shè)計(jì)數(shù)學(xué)模型,讓機(jī)器從這些訓(xùn)練圖像中學(xué)習(xí)。
在早期物體建模中,我們用數(shù)學(xué)語言,告訴計(jì)算機(jī)這只貓由不同形狀組成(例如圓形的臉、三角型的耳朵等),但是還有很多的圖片里的貓,它們擺出各種奇怪扭曲的姿勢,這時(shí)貓身體的各個(gè)部位已經(jīng)不是規(guī)則的形狀了,這時(shí)要怎么辦呢?
所以,為了讓不同的貓都能被計(jì)算機(jī)識別出來,我們需要設(shè)計(jì)不同的模型,但這樣大量的工作真得會(huì)把人逼瘋,所以研究就陷入了困境。很多年來機(jī)器視覺領(lǐng)域的很多科學(xué)家,都想找到一個(gè)神奇的算法,可以對同一個(gè)物體的不同“變種”進(jìn)行建模。
大概8年前,一個(gè)簡單但深刻的發(fā)現(xiàn),改變了我的思考方式,那就是從小孩學(xué)習(xí)的過程中得到靈感。孩子在學(xué)認(rèn)貓的過程中,并沒有被告知貓是各種形狀的組合,他們只是根據(jù)過去的經(jīng)歷習(xí)得。如果把小孩的眼睛當(dāng)做一對生物攝像機(jī),它每秒鐘都要看至少5張貓的圖片,到了3歲時(shí),一個(gè)孩子已經(jīng)見過數(shù)以億計(jì)來自真實(shí)世界的圖像。
所以在我們專注于找出最佳的算法之前,我們應(yīng)該為計(jì)算機(jī)提供跟孩子一樣多的訓(xùn)練圖片。所以,這時(shí),我們需要采集數(shù)據(jù),采集比以往多得多的圖像,這個(gè)數(shù)量將是以前的幾千倍。
所以,我和普林斯頓大學(xué)的李凱教授、當(dāng)時(shí)的學(xué)生Jia Deng一起,啟動(dòng)了ImageNet項(xiàng)目。
我們在網(wǎng)絡(luò)上找到了很多圖片、很多數(shù)據(jù),網(wǎng)絡(luò)是匯集人類所拍照片的最大寶庫。經(jīng)過3年的辛勤工作后,2009年ImageNet正式交付,其中包括1500萬張圖片和22000類物體,并用日常英語單詞組織起來,這在機(jī)器學(xué)習(xí)和視覺領(lǐng)域,從數(shù)量和質(zhì)量來說都是史無前例的。我們比以往,更加準(zhǔn)備好了去解決計(jì)算機(jī)視覺領(lǐng)域的問題。
而這,就是從一個(gè)孩子的視角出發(fā)得來的。
事實(shí)證明,ImageNet提供的充足信息,能夠完美匹配某類機(jī)器學(xué)習(xí)算法,就是“卷積神經(jīng)網(wǎng)絡(luò)”(CNN),由1970年代和80年代的計(jì)算機(jī)科學(xué)家提出。
卷積神經(jīng)網(wǎng)絡(luò)受人腦啟發(fā),其中的基本運(yùn)算單元,是類似神經(jīng)元的節(jié)點(diǎn),節(jié)點(diǎn)能從其它節(jié)點(diǎn)接受輸入,并輸出到其它節(jié)點(diǎn),而且,這成百上千的節(jié)點(diǎn),會(huì)分層有序地組織連接在一起。
這是一個(gè)非常經(jīng)典的用來訓(xùn)練物體識別的卷積神經(jīng)網(wǎng)絡(luò)模型,它大概有2400萬個(gè)節(jié)點(diǎn),1.4億個(gè)參數(shù)和150億個(gè)連接。ImageNet提供的海量信息,加上現(xiàn)代CPU和GPU來訓(xùn)練如此龐大的模型,卷積神經(jīng)網(wǎng)絡(luò)的快速發(fā)展超出人們的想象,它成為了非常成功的算法,在物體識別方面取得了令人欣喜的成果。
在一張圖里,計(jì)算機(jī)告訴我們這張照片里有一只貓以及這只貓?jiān)谀睦?;這另一張圖里,計(jì)算機(jī)告訴我們,一個(gè)小孩拿著他的泰迪熊。
如今,計(jì)算機(jī)取得了巨大的進(jìn)步,然而這還僅僅是第一步。很快,另一個(gè)發(fā)展里程碑就會(huì)達(dá)到。孩子會(huì)開始用句子來交流,比如看到這張圖片,一個(gè)小孩會(huì)說“一只貓?zhí)稍诖采稀?。而?jì)算機(jī)也一樣,所以要教電腦看懂圖片,并且用一句話來描述它。我們需要用到神經(jīng)系統(tǒng),并且把神經(jīng)系統(tǒng)推向一個(gè)高度,我們需要把視覺信息和文本信息結(jié)合起來,并且讓它生成出一個(gè)具有意義的句子。
大概是一年半之前,我們與世界上其它幾個(gè)實(shí)驗(yàn)室進(jìn)行了合作,創(chuàng)造出了第一個(gè)根據(jù)圖片講故事的計(jì)算機(jī)視覺算法。
計(jì)算機(jī)在看到圖片時(shí)說出了一句描述:“一架大型飛機(jī)停在機(jī)場跑道上”。
當(dāng)然,相比三歲的孩子,計(jì)算機(jī)的發(fā)音沒有那么可愛。這種看到一張圖,產(chǎn)生一句描述語的叫做“Image Capturing”,而且我們將這種能力擴(kuò)展,使得計(jì)算機(jī)可以根據(jù)一張圖片,產(chǎn)生很多句描述。最近,我們提交了一篇論文,計(jì)算機(jī)通過算法,針對第一次看到的圖片,而自動(dòng)生成出完整的一大段的自然語句。
總之,得到大腦的啟發(fā)之后,我們發(fā)現(xiàn)深度學(xué)習(xí)的算法和公式能夠幫助我們做一些視覺方面的檢測,而這就是從大腦的視角得來的。
在卷積神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)技術(shù)得到如此大的發(fā)展之后,我們也開始把焦點(diǎn)轉(zhuǎn)向其它一些領(lǐng)域,尤其是視頻。我們要看看,圖片中學(xué)習(xí)到的東西能否復(fù)制到視頻領(lǐng)域中去,讓真實(shí)世界從中獲益。我們的實(shí)驗(yàn)室和谷歌YouTube團(tuán)隊(duì)合作,把YouTube上100萬個(gè)運(yùn)動(dòng)相關(guān)的視頻樣本抓取出來,它們分別屬于450種運(yùn)動(dòng)類別。我們希望有一天這樣的技術(shù)能夠幫助我們?nèi)ス芾?、索引和搜索大量的視頻和圖片。計(jì)算機(jī)能自動(dòng)對屏幕上的體育項(xiàng)目進(jìn)行分類,這里包括各種各樣的體育項(xiàng)目,武術(shù)、籃球、帆船運(yùn)動(dòng)等等。
最近我們的實(shí)驗(yàn)室,聯(lián)合谷歌和Facebook一起進(jìn)一步擴(kuò)展了我們工作的范圍,不僅僅能夠讓機(jī)器識別出運(yùn)動(dòng)的類型,而且可以看看單個(gè)隊(duì)員做了哪些事情。我們來看NBA的籃球,機(jī)器可以追蹤每個(gè)隊(duì)員在重要事件中的表現(xiàn),譬如三分球投籃成功等。
我們拿了一些安全監(jiān)控視頻(比如醫(yī)院里的),通過深度傳感器的視頻來進(jìn)行分析應(yīng)用,識別出當(dāng)中人的姿勢和動(dòng)作,這個(gè)是非常有價(jià)值的。
我們和歐洲一個(gè)火車站進(jìn)行了合作,將成百上千個(gè)視覺傳感器安裝在公共空間,利用這些計(jì)算機(jī)的傳感器來追蹤乘客的行動(dòng),火車站有數(shù)百萬的人流穿梭,通過這樣一種監(jiān)測可以幫助優(yōu)化火車站的空間,調(diào)整火車發(fā)車時(shí)間表。
最近我們利用了深度學(xué)習(xí)、CNN和RNN,讓機(jī)器學(xué)習(xí)如何預(yù)測人類行為的軌跡,這樣一個(gè)工作能夠把我們前邊所討論的結(jié)合在一起。算法不僅有IQ,可以識別出人,而且它也有EQ,來做出被人類社會(huì)接受的行為。比如當(dāng)它用來規(guī)劃一個(gè)機(jī)器人的行為軌跡時(shí),就該知道機(jī)器人不應(yīng)該干擾人,或者機(jī)器人在一個(gè)空間行走時(shí),不能沖進(jìn)人群里。
我們利用所有這些技術(shù)和現(xiàn)實(shí)中的情況結(jié)合,現(xiàn)在我們和斯坦福醫(yī)院合作,部署相關(guān)技術(shù),可以提高他們手衛(wèi)生和工作流程,不僅是在工作場所,在家也是。
總而言之,作為一個(gè)技術(shù)人員,看到計(jì)算機(jī)視覺算法正在幫助解決現(xiàn)實(shí)生活中的問題,真的讓我感特別興奮,這是一個(gè)技術(shù)人士的視角。
大概是5億年前,動(dòng)物視覺和智力面臨的挑戰(zhàn)就是讓個(gè)體存活,而如今,機(jī)器視覺和AI所面臨的挑戰(zhàn)就是讓人類能夠繁榮。作為技術(shù)人員我們要問,AI將會(huì)成為一種摧毀力,還是能給我們帶來更好的世界?我思考這個(gè)問題很久了,最近我突然頓悟,AI的未來掌握在那些創(chuàng)造、開發(fā)和使用者的手中。無疑的,AI會(huì)改變世界,但這里真正的問題是,改變AI又是誰呢?
大家都知道,世界各地都是缺乏多樣性的,包括美國的硅谷、中國、歐洲等,還有很多其它區(qū)域都缺乏多樣性,在美國學(xué)術(shù)界只有25%的計(jì)算機(jī)專業(yè)人士是女性,不到15%的美國頂尖工程學(xué)校的教職員工是女性,對于少數(shù)族裔來說,女性的代表就更少了,這一不平衡的現(xiàn)象在工業(yè)界也同樣存在。這并不是工作文化問題,這實(shí)際上是經(jīng)濟(jì)和集體財(cái)產(chǎn)的問題。
幾個(gè)月前我受邀到美國白宮討論了AI中多樣性的必要性,我提出必須提高AI多樣性的三個(gè)理由。第一個(gè)理由關(guān)乎經(jīng)濟(jì)和勞動(dòng)力,AI人工智能是一個(gè)日益增長的技術(shù),會(huì)影響到每個(gè)人,我們需要更多人力開發(fā)出更好的技術(shù);第二個(gè)理由關(guān)乎創(chuàng)造力和創(chuàng)新,很多研究都顯示出,當(dāng)擁有多種多樣背景的人共同合作時(shí),會(huì)產(chǎn)生更好的結(jié)果和更具有創(chuàng)意的解決方案;最后一個(gè)理由,關(guān)乎社會(huì)正義和道德價(jià)值,當(dāng)各種各樣背景的人聚集到一起時(shí),他們有著各種各樣不同的價(jià)值觀,代表著人類的技術(shù)也會(huì)有更加多樣性的思考。
視覺和智能的發(fā)展造成了動(dòng)物多樣性在5億年前大爆炸式的增長,現(xiàn)在如果我們能夠讓更多的人參與到AI教育和研究當(dāng)中,我們可以鼓勵(lì)更多技術(shù)多樣化的發(fā)展,這樣我們會(huì)看到寒武紀(jì)技術(shù)上的大爆炸,使我們的世界變得更好。
這是一位教育家和一位母親的視角。
謝謝各位!
PS:請關(guān)注雷鋒網(wǎng)公眾號。
相關(guān)文章:
伯克利人工智能學(xué)家Stuart Russell深度剖析:人工智能在投資顧問中的作用與局限
AI眼中的歷史:用人工智能挖掘舊報(bào)紙里的英國現(xiàn)代史
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。