0
「我一直希望家里有一個機器人,可以幫我洗衣服、做飯。」
宋舒然談道。而要實現(xiàn)這一設(shè)想,機器人視覺研究是不可缺少的一環(huán)。
近年來,計算機視覺與機器人的「聯(lián)姻」在人工智能領(lǐng)域如火如荼。單就自動駕駛來看,就有許多研究人員擁有計算機視覺的學(xué)科背景,比如阿里達摩院自動駕駛實驗室的前負責(zé)人王剛,中國RoboTaxi領(lǐng)先企業(yè)AutoX(安途)的創(chuàng)始人肖健雄等等。
從算法架構(gòu)來看,計算機視覺的研究潛力或已「窮途末路」;但在機器人的應(yīng)用中,人們普遍相信,計算機視覺仍大有可為。設(shè)計出優(yōu)秀的算法,讓機器人系統(tǒng)能在與物理世界的交互中學(xué)習(xí)、自主獲得執(zhí)行復(fù)雜任務(wù)和協(xié)助人類的感知和操縱技能,是新一代計算機視覺研究者的主要目標之一,宋舒然也是該賽道上的一員。
作為一名「CVer」,宋舒然為何會轉(zhuǎn)向機器人領(lǐng)域?她在該領(lǐng)域的研究故事又是怎樣的?計算機視覺與機器人系統(tǒng)如何互動?針對這些問題,我們與宋舒然聊了聊。
1、與機器人視覺的首次「邂逅」
不久前,2022年斯隆研究獎公布,計算機領(lǐng)域有四位華人女性科學(xué)家入選,宋舒然便是其中之一,名噪一時。
斯隆研究獎被譽為「諾貝爾風(fēng)向標」,主要授予被認為在各自領(lǐng)域最有潛力的青年科學(xué)家,以往獲得該榮譽的人工智能學(xué)者均非同凡響,如AI科技評論往期報道過的鬲融、馬騰宇、方飛等等。宋舒然能成功當(dāng)選,實力可見一斑。
但這并不是宋舒然第一次被「看見」。此前,她與團隊已在多個國際機器人頂會上獲得最佳論文獎,包括RSS 2019最佳系統(tǒng)論文獎、CoRL 2021最佳系統(tǒng)論文獎,以及2020年《IEEE Transactions on Robotics》最佳論文獎,是近年來「機器人視覺」賽道最知名的青年代表人物之一。
更令人欽佩的是,此時距離她博士畢業(yè)后進入學(xué)術(shù)界才不過四年時間。
目前宋舒然在哥倫比亞大學(xué)計算機系擔(dān)任助理教授,主要研究計算機視覺與機器人技術(shù)的交叉領(lǐng)域,如開發(fā)能使機器人系統(tǒng)在與物理世界的交互中學(xué)習(xí)、并自主獲得執(zhí)行復(fù)雜任務(wù)和協(xié)助人們的感知和操縱技能的算法。
回顧自己的研究經(jīng)歷,宋舒然對AI科技評論談道,她第一次對機器人感興趣,是在大一時上的第一門基礎(chǔ)課上:
「那是我第一次接觸到機器人。這門課沒有教特別多的專業(yè)知識,就是一門動手操作的課,做一輛小車、最后讓小車成功地跑起來,過程很簡單,編程也很簡單,但整個過程中有很多意想不到的驚喜,對我影響非常大?!?/p>
于是后來,在學(xué)校的機器人社團來招新時,宋舒然毫不猶豫就報名了。也是在參加機器人社團的過程中,她有機會在本科階段就接觸到了計算機視覺的知識。
圖注:香港科技大學(xué)
宋舒然的本科就讀于香港科技大學(xué)電子與計算機工程專業(yè)(ECE)。
作為一名土生土長的北京人,2008年奧運會加速了北京發(fā)展的國際化,年少的宋舒然對探索世界有著極高的熱情。所以2009年她在高考前夕填寫大學(xué)志愿時,除了北京大學(xué)的醫(yī)學(xué)院,還報考了香港科技大學(xué)的計算機專業(yè):
「我們那時候還是在高考前報志愿。一是報考香港的大學(xué)不占志愿名額,二是我當(dāng)時就打算未來要出國走一走。相比直接就去英國、美國讀書,香港是一個比較折中的選擇?!?/p>
宋舒然自幼是一個擅長學(xué)習(xí)的學(xué)生,在重要的考試中總能發(fā)揮超常。出于對自我學(xué)習(xí)能力的自信,在報考大學(xué)志愿時,她也專門挑選了學(xué)習(xí)難度較高的專業(yè)。即使當(dāng)時的編程基礎(chǔ)幾乎為零,在填寫計算機為志愿專業(yè)時,她也沒有任何猶豫。
也正是這股子無所畏懼的勁,讓宋舒然在一個男性占大多數(shù)的領(lǐng)域中也能披襟斬棘、所向披靡。
2009年,宋舒然從北京南下,來到香港這座以國際化著稱的城市。剛到港科大不久,她就明顯地感覺到多元化的校園環(huán)境:
「高中時感覺周圍的同學(xué)想要做的事情都差不多。到了香港后,發(fā)現(xiàn)大家想要實現(xiàn)的人生都很不一樣。大家學(xué)不同的專業(yè),有些人注重社交,有些人會提前規(guī)劃職業(yè)發(fā)展,像我這樣喜歡做研究的學(xué)生反而不多,所以我在本科時的科研機會也更多?!?/p>
大學(xué)期間,宋舒然有幸參加香港科技大學(xué)機器人社團(HKUST Robotics Team),還在2011年代表社團參加了一年一度的國際性機器人比賽——ABU Robocon。那一年,宋舒然與團隊贏得了香港地區(qū)的選拔賽,代表香港去泰國參加決賽。
「印象中,當(dāng)時機器人的研究里面,最難的也是計算機視覺的部分。雖然我的專業(yè)不是計算機視覺,但我在那個過程中也學(xué)到了不少知識,比如視覺追蹤與檢測?!顾问嫒换貞浀?。
除了參加機器人社團,宋舒然還在大三那年(2012年)參加了香港科技大學(xué)與美國麻省理工學(xué)院(MIT)的暑期交換生項目?!改且荒晔堑谝粚?,申請的人并不多,所以我就非常幸運地得到了這個機會。」
雖然只有短短一個暑假,交換期間參與研究的內(nèi)容也十分基礎(chǔ),但整個過程給宋舒然留下了深刻的印象。
宋舒然記得,當(dāng)時她每天都會去MIT CSAIL的大樓,每天在路上都能遇到形形色色的人。在這棟形狀奇特的大樓里,有很多做機器人研究的人,她每天都可以在大樓里看到各種各樣奇怪的機器人,「研究者不停地調(diào)試著什么」,整個研究氛圍非?;钴S。
當(dāng)時她的指導(dǎo)老師是圖形學(xué)領(lǐng)域的大神 Frédo Durand。宋舒然記得,雖然 Frédo 是一名非常有名、事物繁多的教授,但還是會不厭其煩地騰出教研時間指導(dǎo)交換生們學(xué)習(xí)目標課程,與他們固定時間開會、解答疑問。在這個過程中,宋舒然也學(xué)到了許多圖像視覺的知識。
原先宋舒然只是對研究感興趣,但這次赴MIT交換的經(jīng)歷使她下定了讀博的決心:
「剛上大學(xué)時我并沒有想好之后要讀博,或者在學(xué)術(shù)領(lǐng)域有多大的發(fā)展。但到了MIT,認識的學(xué)生都是PhD,他們做的研究非常有意思,做研究的過程感覺非常振奮,讓我開始覺得我好像也很想去做研究?!?/p>
2、請回答2015:突破3D視覺
2013年,宋舒然加入普林斯頓大學(xué)的計算機視覺與機器人實驗室(計算機視覺領(lǐng)域的知名華人學(xué)者鄧嘉也在共同領(lǐng)導(dǎo)該實驗室)攻讀博士,先后師從肖健雄(2016年離開普林斯頓去創(chuàng)業(yè))與Thomas Funkhouser。據(jù)悉,Thomas Funkhouser每年均只招收1-2名博士生。
圖注:普林斯頓大學(xué)
普林斯頓大學(xué)最吸引宋舒然的一點是它較小的實驗室規(guī)模,和與之帶來的能與教授進行更多交流的機會。
讀博期間,宋舒然的研究內(nèi)容聚焦在計算機視覺。雖然本科時做過物體追蹤項目,但宋舒然回憶,在剛開始讀博時,她的視覺基礎(chǔ)是相對薄弱的。
在導(dǎo)師的指導(dǎo)下,她延續(xù)本科時期的學(xué)習(xí),先是研究3D物體檢測與追蹤。當(dāng)時恰逢微軟推出一個新的3D感知相機(Kinect 3D Camera Sensor-System),他們便思考是否能用這些新設(shè)備,將2D物體檢測延伸到3D物體追蹤。
圖注:微軟在2013年推出的Kinect 3D相機感知系統(tǒng)
2014年前后,計算機視覺領(lǐng)域的一個重要研究方向就是2.5D到3D的物體識別與檢測追蹤。宋舒然從2013年開始研究,恰好趕上了這一熱潮,加上個人的后天努力,她的博士生涯也因而比大多數(shù)人的成長要迅速得多。
2015年是宋舒然在計算機視覺研究上的「豐收年」。那一年,她在計算機視覺頂會上發(fā)表了4篇高引論文,篇篇經(jīng)典,而彼時距離她入學(xué)博士才不過兩年時間:
3d shapenets: A deep representation for volumetric shapes(谷歌學(xué)術(shù)引用3500+)
Shapenet: An information-rich 3d model repository(谷歌學(xué)術(shù)引用2500+)
Sun rgb-d: A rgb-d scene understanding benchmark suite(谷歌學(xué)術(shù)引用1100+)
Lsun: Construction of a large-scale image dataset using deep learning with humans in the loop(谷歌學(xué)術(shù)引用1000+)
宋舒然對AI科技評論介紹,她第一次接觸深度學(xué)習(xí)是在“3D ShapeNets: A Deep Representation for Volumetric Shapes”這篇工作中,經(jīng)湯曉鷗與吳志榮的帶領(lǐng)入門。當(dāng)時,就讀于香港中文大學(xué)的吳志榮到普林斯頓交換,宋舒然與他由此結(jié)識。
「那時候深度學(xué)習(xí)還沒有那么火。2D視覺開始火起來,但把深度學(xué)習(xí)用于3D視覺的研究還幾乎沒有。我當(dāng)時完全沒有做過深度學(xué)習(xí)的研究,只是做過一些比較傳統(tǒng)的2D識別與檢測。因為志榮在湯曉鷗的組里做了很多深度學(xué)習(xí)的研究,所以我們就把他拉過來一起合作?!顾问嫒换貞浀?。
開辟性的工作往往艱難重重。宋舒然記得,當(dāng)時他們在合作的過程中遇到了很多困難,其中最大的困難是沒有成熟的機器學(xué)習(xí)庫或框架去支持深度學(xué)習(xí)系統(tǒng)的搭建,「只有賈揚青提出的Caffe,而且比較初期的Caffe并不支持計算機視覺的操作」。
所以他們當(dāng)時的研究重點就放在了如何開發(fā)系統(tǒng)、將2D算法轉(zhuǎn)化為可以接受3D數(shù)據(jù)上。他們當(dāng)時的想法其實非常簡單 –從2D pixel 表征方式轉(zhuǎn)化成 3D voxel 的表征方式。雖然現(xiàn)在看來這個方法有很多明顯的缺陷(需要大量的顯存空間), 但好處是可以沿用很多傳統(tǒng)的2D 算法,比如卷積。
圖注:3D ShapeNets(2015)的轉(zhuǎn)換原理
這是第一個成功通過深度學(xué)習(xí)方法將2.5D延伸到3D上的視覺工作。在此之前,深度學(xué)習(xí)多用在2D圖像或自然語言處理上。「3D ShapeNets」首次展示了深度學(xué)習(xí)系統(tǒng)如何學(xué)習(xí)形狀表征的過程,且通用性強,可以應(yīng)用在多個不同的任務(wù)上,在計算機視覺領(lǐng)域產(chǎn)生了深遠的影響。
對于宋舒然來說,這個工作既是她研究生涯中的一個里程碑,也是啟發(fā)她在研究中采用「簡單而高效」的方法論的起點:
「它很簡單,但非常高效,唯一的限制是對算力的需求加大,因為數(shù)據(jù)的維度提升,計算量也會隨之增長。此外,這是我第一次研究3D,我之后的許多工作都延續(xù)了這個項目的idea(觀點),即用3D深度學(xué)習(xí)系統(tǒng)做形狀表征。」
憑借在計算機視覺方向(尤其是數(shù)據(jù)驅(qū)動的3D場景理解)的一系列出色工作,宋舒然獲得2015年Facebook博士生獎學(xué)金。她的工作登上普林斯頓研究???,還入選了「普林斯頓25歲以下創(chuàng)新25人」。
圖注:宋舒然在普林斯頓讀博期間
3、從視覺到機器人
機器人對現(xiàn)實世界的感知準確率依賴于視覺中的3D語義場景完成技術(shù)。宋舒然在3D視覺上的研究突破奠定了她從事機器人視覺研究的基礎(chǔ)。
從2016年提出「Deep Sliding Shapes」后,她就開始在研究視覺之余探索如何用3D視覺提高機器人推理周圍環(huán)境的物體的能力。彼時,計算機視覺正越來越多地從分析單個靜止圖像轉(zhuǎn)向理解視頻和空間數(shù)據(jù),對機器人的智能提升是一大利好。
圖注:宋舒然在普林斯頓大學(xué)研究的機器人(“Robot In a Room: Toward Perfect Object Recognition in Closed Environments”)
想象一下,如果一個機器人要打掃房間,那么它既需要有空間導(dǎo)航能力、知道移動到哪里,也需要識別出房間中的不同物體,才可以執(zhí)行掃地、收拾、整理等任務(wù)。
這時,機器人就需要理解兩個層級的信息:第一層級是幫助機器人與周圍環(huán)境互動,可以識別移動的開放空間,并定位要操作的物體對象;第二層級及以上的信息則使機器人了解一個物體是什么,并使用該物體來執(zhí)行任務(wù)。
在這個問題上,以往的研究趨于將兩者分開,劃分為「場景完成」與「對象標記」。但2017年,宋舒然與團隊提出了「SSCNet」系統(tǒng),通過從單個2D圖像生成場景的完整3D表示與場景對象的標記,將兩者結(jié)合起來,取得了更佳的算法效果。
盡管仍是從3D視覺出發(fā),但這項工作預(yù)示了宋舒然之后在研究機器人視覺上的一個重要理念:機器人通過與現(xiàn)實世界的互動中了解世界。比如,即使一個房間里的椅子視線部分被桌子擋住,但如果機器人能夠?qū)⑵鋵σ巫有螤畹幕咀R別與房間布局相結(jié)合,那么它也能判斷桌子旁邊的形狀是椅子。這類預(yù)測的準確率會大幅度提升。
圖注:在「SSCNet」中,只需要輸入「桌子」的圖像,就可以預(yù)測桌子周圍的物體擺放
在3D物體檢測與追蹤上做了許多工作后,2017年,宋舒然與MIT的機器人團隊合作,一起參加了亞馬遜機器人挑戰(zhàn)賽——Amazon Picking Challenge,開始嘗試視覺與機器人的「軟硬結(jié)合」。
「我們最開始合作的想法非常簡單。他們是做機器人的,我們是做視覺的,我們把兩邊的系統(tǒng)合起來就可以去參加比賽。我們第一年也確實是這么做的。」宋舒然對AI科技評論講道。
不過,這種「粗魯搭配」的做法并沒有取得很好的效果。
2017年,他們合作的方式是:由宋舒然的計算機視覺組先定義一個要輸出的算法結(jié)果(如物體姿勢),然后再由MIT的機器人組通過視覺輸出的算法去做動作規(guī)劃(motion planning),計算機器人如何可以抓取目標物體。
但這次的合作并不高效。普林斯頓與MIT位于不同的城市,兩個團隊之間的交流主要是通過郵件傳代碼,宋舒然團隊的視覺算法過了一個月后才放在MIT的機器人上試驗。
在試驗的過程中,他們也發(fā)現(xiàn)了許多問題,比如:宋舒然團隊所提出的視覺算法非常慢,導(dǎo)致整個系統(tǒng)也很慢;可用于訓(xùn)練的標注數(shù)據(jù)極其有限,模型跑不起來;算法精度不夠,對于計算機視覺來說,誤差在5度5厘米以內(nèi)的算法精度已是效果極佳,但當(dāng)這個誤差被真正應(yīng)用在機器人操作上時,卻可能造成整個機器人環(huán)境的崩潰。
所以,2017年的比賽中,他們只取得了第三名的成績。但是,這次的合作也激起了宋舒然對機器人視覺的研究熱情,他們發(fā)現(xiàn)了許多有意思的問題,激發(fā)了許多提升系統(tǒng)的想法,于是決定繼續(xù)合作參加2018年的比賽。
圖注:MIT-Princeton 團隊在亞馬遜機器人競賽 (2018)
這一次,宋舒然和整個團隊對物體姿態(tài)的算法進行了重新整合,不再使用中間的物體姿態(tài)作預(yù)測,而是直接從圖像出發(fā)去預(yù)測機器人應(yīng)該采取怎樣的動作。如此一來,整個算法系統(tǒng)的速度有了大幅提升,而且更加通用。
亞馬遜挑戰(zhàn)賽的內(nèi)容是:機器人要從一個裝了各種物體的盒子里挑選出目標物體。這時,盒子里的物體之間可能彼此遮擋,會擋住機器人的視線。
針對這個問題,宋舒然團隊擯棄了之前「先識別物體」的步驟,而是設(shè)為「先抓取物體」,把物體先取出來再識別。這時,機器人只需要知道物體的哪個部位更易抓取,而無需判斷物體是什么,系統(tǒng)的魯棒性也大大加強了。
在改進算法后,他們的機器人抓取速度快速提升,獲得了2018年亞馬遜抓取機器人挑戰(zhàn)賽的冠軍,還獲得2018年亞馬遜最佳操作系統(tǒng)論文獎。
自此,宋舒然也正式踏上了用計算機視覺幫助機器人感知物理世界、與物理世界交互的研究道路。
4、簡單,但高效
2018年,宋舒然從普林斯頓大學(xué)獲得計算機博士學(xué)位,后加入哥倫比亞大學(xué)計算機系擔(dān)任助理教授。問及為何選擇哥大,她給出的理由是:
「我選擇哥大的一個重要原因是地理位置。我還是喜歡待在城市里。我是在北京長大的,然后去了香港讀大學(xué)。去了普林斯頓后,我就發(fā)現(xiàn)我不適合在一個小鎮(zhèn)子里生活,所以我就想回到大城市,就選了哥大,因為它在紐約?!?/p>
圖注:哥倫比亞大學(xué)
擔(dān)任教職后,宋舒然在機器人視覺的研究上屢出成果,三年內(nèi)接連拿下RSS 2019最佳系統(tǒng)論文獎、T-RO 2020最佳論文獎、CoRL 2021最佳系統(tǒng)論文獎,相關(guān)工作還獲得了IROS 2018、RSS 2019、CVPR 2019、ICRA 2020等頂級會議的最佳論文提名。
2018年,宋舒然團隊延續(xù)亞馬遜挑戰(zhàn)賽的思路,進一步研究機器人在「推」與「抓」兩個動作上的協(xié)同。盡管強化學(xué)習(xí)在當(dāng)時很火,但宋舒然的這個工作首次在機器人視覺研究中直接引入了強化學(xué)習(xí)方法,并獲得了IROS 2018最佳感知機器人論文獎提名。
圖注:該感知機器人先「推開」物體,再「抓取」物體
「當(dāng)時我們的最終目標是能把物體抓起來?!鹤ァ贿@個動作很好評估,只要能抓起來就是positive reward(正向獎勵)。但『推』這個動作很難評估,什么樣的『推』才算是好的『推』?所以我們就采用強化學(xué)習(xí)方法,提供一個好的評估函數(shù)去定義『推』,最后只需要編寫一個最終獎勵(即推的動作能幫助抓取物體)即可?!顾问嫒幌駻I科技評論解釋道。
據(jù)宋舒然介紹,在她與團隊「憑直覺」做這個項目之前,大多數(shù)人都認為強化學(xué)習(xí)方法需要大量的數(shù)據(jù),所以很難在真實的機器人上直接訓(xùn)練。即使到現(xiàn)在,強化學(xué)習(xí)被應(yīng)用于機器人的方法也不是主流,宋舒然與團隊也沒想到「真的能跑起來」,可以說打破了不可為的魔咒、給予了該方向的研究者以莫大的信心。
宋舒然在機器人視覺系統(tǒng)上的第一個里程碑工作當(dāng)屬獲得RSS 2019最佳系統(tǒng)論文獎的「TossingBot」。在這個工作中,他們與谷歌的研究團隊合作,最終成果登上了《紐約時報》商業(yè)板塊的封面。
圖注:TossingBot登上《紐約時報》商業(yè)版封面
這個投擲機器人的「絕殺技」是可以學(xué)習(xí)快速準確地撿起任意物體,并將其扔到附近的目標框中。研究者認為,投擲是一種利用動力學(xué)來提高機械手能力的絕佳方法。例如,「在拾取與放置的例子中,投擲可以使機械臂快速地將物體放入其最大運動范圍之外的選定盒子中,從而提高其可接觸的物理范圍和拾取速度。」
這個工作背后的關(guān)鍵思想是「殘差物理學(xué)」(Residual Physics),可以將簡單的物理學(xué)與深度學(xué)習(xí)相結(jié)合,使系統(tǒng)能夠從試錯中快速訓(xùn)練、并泛化到新的場景中。
物理學(xué)提供了世界如何運作的先驗?zāi)P?,宋舒然與團隊可以利用這些模型開發(fā)初始控制器。比如,在投擲中,他們可以使用彈道學(xué)來估計使物體降落在目標位置所需的投擲速度,同時使用神經(jīng)網(wǎng)絡(luò)在物理估計之上預(yù)測調(diào)整,以補償未知動態(tài)以及現(xiàn)實世界的噪聲和可變性。
作為一名計算機視覺專業(yè)的「科班生」,宋舒然每研究一個項目,便愈發(fā)為視覺與機器人的交叉結(jié)合所能產(chǎn)生的神奇效果驚訝。TossingBot的工作發(fā)表后,她在接受《紐約時報》的采訪時驚嘆道:「It is learning more complicated things than I could ever think about.(機器人正在學(xué)習(xí)更復(fù)雜的事情,這是我以前沒有想過的。)」
不過,這顯然不是終點?!窽ossingBot」發(fā)表兩年后,宋舒然又挑戰(zhàn)了機器人在高速動態(tài)動作上的新高度。她帶領(lǐng)她在哥大的第一位博士生Huy Ha,又憑借另一個機器人「FlingBot」拿下了第二個最佳系統(tǒng)論文獎——CoRL 2021最佳系統(tǒng)論文獎。
當(dāng)時CoRL 2021的評選委員會對「FlingBot」這項工作給出了極高的評價:「這篇論文是我見過的迄今為止對模擬和現(xiàn)實世界布料操作方面的最了不起的工作?!?/p>
論文地址:https://arxiv.org/pdf/2105.03655.pdf
「FlingBot」挑戰(zhàn)的任務(wù)是布料處理,遷移到日常生活中,就是常見的鋪床單、鋪被子等等。此前,針對這項任務(wù)的大多數(shù)工作是使用單臂準靜態(tài)動作來操作布料,但這需要大量的交互來挑戰(zhàn)初始布料配置,并嚴格限制了機器人可及范圍的最大布料尺寸。
于是,宋舒然與學(xué)生使用了自監(jiān)督學(xué)習(xí)框架FlingBot,從視覺觀察出發(fā)設(shè)置雙臂操作,對織物使用拾取、拉伸并拋擲的初始配置。實驗表明,F(xiàn)lingBot的3個動作組合可以覆蓋80%以上的布料面積,超過靜態(tài)基線的面積4倍以上。
圖注:FlingBot
聽起來是不是很簡單?
「算法確實不難,所以這篇工作還被RSS拒過,理由是方法過于『trivial』?!顾问嫒恍Φ?。
他們一開始的想法很簡單:當(dāng)時他們看了許多文獻,所有工作都是采用拾取、放置,這與人們在日常生活中的習(xí)慣十分不同。「舉一個非常簡單的例子,就是早上鋪床。我們不可能小心翼翼地去做『pick up-place』(拾取-放置),我們鋪床單一般就是一扔,拋開后再把床單鋪開,但沒有機器人系統(tǒng)是這樣做的?!?/p>
所以他們就思考,是否可以讓機器人采用一些扔高、展開的動作,如拋開。最后做出系統(tǒng)時,他們也發(fā)現(xiàn),整個系統(tǒng)確實非常簡單,只需分解成三步:第一步是抓布料,第二步是把布料展開,第三步是「扔」開布料。而「展開」與「扔」這兩個動作基本不需要學(xué)習(xí),因為學(xué)與不學(xué)的區(qū)別不大,真正要學(xué)的只有「抓」這一步,因為如何抓會直接影響后面的「展開」與「扔」。
雖然他們在「抓」這一步上也突破了傳統(tǒng)算法,但整體而言,「FlingBot」的整個系統(tǒng)是比較簡單的。所以在第一次提交論文時,評審們就將論文拒了,理由均是:結(jié)果很了不起,系統(tǒng)也很了不起,但算法非常簡單。
這時候宋舒然的反向思維又來了:在第二次提交時,他們就在論文中強調(diào)了「簡單但高效」的亮點——
「用一個簡單的算法就可以解決一個這么復(fù)雜的任務(wù),難道不是好過你去設(shè)計一個非常復(fù)雜的系統(tǒng)嗎?而且它的效果非常好,恰恰證明了它在高速動態(tài)動作上的效率?!?/p>
這與她在博士期間與湯曉鷗等人合作3D ShapeNets的研究思想是一脈相承的:簡單,但高效。后來,F(xiàn)lingBot 果然被 CoRL 接收,還獲得了最佳系統(tǒng)論文獎。
5、一些思考
這時想必大家都已發(fā)現(xiàn),與在結(jié)構(gòu)性環(huán)境中的機器人(如亞馬遜工廠的產(chǎn)線機器人)相比,宋舒然的機器人工作,無論是「TossingBot」還是「FlingBot」,都需要先對物理環(huán)境進行感知,掌握環(huán)境信息,然后執(zhí)行適應(yīng)環(huán)境的動作。
「在工廠或倉庫中,機器人每天遇到的物體、物體位置與物體類別高度相似,在這類場景下,機器人的感知與規(guī)劃已經(jīng)達到非常成熟的狀態(tài)。很多工廠的流水線上都安置了自動化機器人。但如果你仔細觀察,這些機器人大多是沒有『視覺』的,它們只是在記憶特定的動作,然后重復(fù)同樣的動作,所以它們不能照搬到一個新的環(huán)境?!?/p>
因此,宋舒然認為,如何讓機器人去適應(yīng)非結(jié)構(gòu)化的環(huán)境,是機器人視覺接下來的關(guān)鍵研究方向。在她的研究中,無論是從對人的觀察中學(xué)習(xí)機器人的進化經(jīng)驗,還是強調(diào)機器人與現(xiàn)實世界的交互,都是在為這個方向努力。
比如,在FlingBot中,為什么會用「扔」的動作去展開物體呢?宋舒然解釋:「如果物體被展開,是更容易被識別的。如果衣物揉成一團,不展開的話你根本不知道是T恤還是褲子?!箯倪@個角度來看,機器人與物理世界的交互也有利于提升感知的準確性。
換言之,在視覺與機器人的聯(lián)姻中,不僅是視覺幫助機器人感知,反過來,機器人的動作也會增加視覺的感知。
6、探討「通用人工智能」
AI科技評論:Yann LeCun 之前一直強調(diào)自監(jiān)督學(xué)習(xí)是下一代人工智能的重要方向,老師您怎么看?
宋舒然:我非常同意。我覺得的確是的?,F(xiàn)在我們已經(jīng)在監(jiān)督學(xué)習(xí)上取得了很多的進展,包括ImageNet和現(xiàn)有的許多Benchmark(基準),下一步如果我們想用上更大的數(shù)據(jù)集,其實很難再標注更多的數(shù)據(jù)了。我們需要的是在算法上的提高,就是如何去利用這些沒有標注的數(shù)據(jù)。
在這個方向上,不同的領(lǐng)域有不同的定義方法。如何去定義自監(jiān)督學(xué)習(xí)?我覺得這是最核心的問題。在計算機視覺領(lǐng)域,你可以做視頻預(yù)測;在自然語言處理方向,你可以做語言計算。我一直在想的是,在機器人領(lǐng)域,如何定義自監(jiān)督學(xué)習(xí)?如何去定義一個統(tǒng)一框架可以去做自主自監(jiān)督學(xué)習(xí)?
AI科技評論:而且之前很多人在強調(diào)這個方向的時候,好像都沒有提到跟現(xiàn)實的交互。
宋舒然:對的,因為它的成本的確比較高。如果你沒有機器人,你需要買一個機器人。而且就算是有機器人,通過交互去收集數(shù)據(jù),感覺上是要比標注數(shù)據(jù)慢很多的。但這并不代表它沒有前景;相反,我覺得這是一個更有潛力的方向。雷峰網(wǎng)
尤其是,如果你考慮未來的人工智能發(fā)展,當(dāng)機器人不再是一個昂貴的設(shè)備,當(dāng)機器人的標價降低、遍布各地,并且可以執(zhí)行很多任務(wù)時,我覺得通過交互的自監(jiān)督學(xué)習(xí)會變成更主流的方法。
AI科技評論:明白。老師您可否再總結(jié)一下,這種交互加自監(jiān)督學(xué)習(xí)的學(xué)習(xí)方式,過去的發(fā)展、當(dāng)前存在的瓶頸和未來趨勢是什么?
宋舒然:目前「自監(jiān)督+交互」的方式里仍然摻雜了許多人為經(jīng)驗。我們現(xiàn)在的許多工作,比如我們可以用自監(jiān)督的方式做「抓取」,原因是我們可以很好地計算這個物體是不是被抓起來了。對于「展開」這個動作也是一樣的。我們可以通過物體的表面、面積有沒有展開作為一個監(jiān)督的信息。但是這些獎勵雖然是自監(jiān)督,可以直接從圖像里計算,但它也是由人來定義的,是經(jīng)驗告訴我們可以得到這樣的信息。
而且我覺得在任何一個算法里,如果必須由一個人類工程師去定義事情的話,往往會成為一個瓶頸。所以展望未來,我們?nèi)绾稳p少這種人為的經(jīng)驗?是不是可以通過學(xué)一個未來預(yù)測模型,或者學(xué)一個比較通用的世界模型,然后用一種比較統(tǒng)一的方式去看,或者比較直覺的方式去設(shè)計?而不是我們需要去對每一個任務(wù)特定設(shè)計世界模型。我覺得這個可能是將來比較有意思的發(fā)展方向。
AI科技評論:目前對于通用人工智能的實現(xiàn),您有沒有一些理解和設(shè)想?
宋舒然:我覺得我沒有很清晰的理解和設(shè)想(笑)。通用人工智能是最終目標,但我們的確還有很大的距離。很多想法是有意思的,但以我現(xiàn)在有限的理解,還是需要很長時間的發(fā)展,很難說哪個方向是更有前景的,或更有意義的。雷峰網(wǎng)
但我覺得學(xué)習(xí)嵌入式智能是非常關(guān)鍵的一步,因為我覺得通用人工智能不只是理解網(wǎng)絡(luò)信息,不只是理解圖像或抽象數(shù)據(jù),還需要理解物理、理解3D環(huán)境。
AI科技評論:就是先不說通用人工智能是什么樣子,但是要增進我們對通用人工智能的理解的話,我們不能局限于當(dāng)前已有的這些任務(wù),而是要去不斷探索新的任務(wù)是嗎?
宋舒然:對的,而且不能只考慮對機器學(xué)習(xí)模型進行抽象,還要考慮如果你要構(gòu)建一個「物理分身」(physical embodiment),比如機器人,它是可以在現(xiàn)實的物理世界中去與不同的物體互動的。
不說人工智能,只是說我們(人類)的智能。其實我們學(xué)到了很多智能,但不只是通過網(wǎng)絡(luò),不只是通過讀書、看圖片或看視頻,很大一部分的智能是在交互中學(xué)習(xí)的,比如怎么走路,怎么拿起物體。
所以我的一個理解是,實現(xiàn)通用人工智能,機器人或嵌入式智能是非常重要的一步。
注:琰琰、青暮對本文亦有貢獻。雷峰網(wǎng)(公眾號:雷峰網(wǎng))
參考鏈接:
1. https://www.researchgate.net/figure/The-Microsoft-Kinect-3D-Camera-Sensor-System-an-IR-transmitter-3D-Depth-Sensors_fig15_309740491
2. https://www.cs.princeton.edu/news/andy-zeng-shuran-song-win-best-systems-paper-award
3. https://www.cs.princeton.edu/news/article/shuran-song-wins-facebook-fellowship
4. https://www.cs.princeton.edu/news/deep-learning-improves-robotic-vision
5. https://www.cs.princeton.edu/news/scene-completing-system-may-show-robots-what-theyre-missing
6. http://arc.cs.princeton.edu/
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。