
十年前,他以本科生的身份走入清華電子系;十年后,他將以一名教師的身份重回清華,在叉院開(kāi)啟新的篇章,傳遞知識(shí),探索真理。作者 | 李梅
想象一下:
在未來(lái)的某一天,你,一個(gè)996的「社畜」,或「上班狗」,辛苦一天回到家,癱倒在沙發(fā)上。當(dāng)你抬頭一看,你的機(jī)器人朋友正在廚房為你做晚飯——它的雙手敏捷靈活,在油鹽醬醋與鍋碗瓢盆之間,一頓優(yōu)雅操作,不久便有陣陣香氣撲鼻而來(lái)。它把晚餐端到餐桌上,對(duì)你微微一笑:「開(kāi)飯啦!」然后轉(zhuǎn)身拿起你換下的衣物走向洗衣機(jī)......
這不是一篇小學(xué)生的科幻小作文,而是許華哲作為一位機(jī)器人學(xué)研究者關(guān)于未來(lái)機(jī)器人的想象:「我希望能有一個(gè)真正通用的機(jī)器人,它什么都能做,或者至少能為人類(lèi)完成家居場(chǎng)景里的大部分任務(wù)?!?/span>
最近,他在走向通用機(jī)器人的這條路上又前進(jìn)了一步:想要機(jī)器人為我們包餃子、卷壽司?先讓機(jī)器人從學(xué)習(xí)捏橡皮泥開(kāi)始吧!
不久前,許華哲團(tuán)隊(duì)的一篇論文被機(jī)器人學(xué)頂會(huì)RSS接收。這項(xiàng)工作提出了一種機(jī)器人系統(tǒng),叫「RoboCraft」,將傳感器數(shù)據(jù)轉(zhuǎn)換為粒子,使用圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)基于粒子的動(dòng)力學(xué)模型,對(duì)機(jī)器人進(jìn)行行為控制,實(shí)現(xiàn)了機(jī)器人操作柔性物體的目標(biāo)。
論文地址:https://arxiv.org/pdf/2205.02909.pdf
這個(gè)RoboCraft框架有三個(gè)組件,一個(gè)是基于粒子的場(chǎng)景對(duì)模塊進(jìn)行表示,從而「看到」橡皮泥;二是基于GNN模型,模擬對(duì)象的動(dòng)力學(xué);三是一個(gè)基于梯度和采樣的模型預(yù)測(cè)控制模塊,學(xué)習(xí)如何對(duì)一塊橡皮泥進(jìn)行塑形。
圖注:機(jī)器人將橡皮泥捏成字母A和X的形狀
實(shí)驗(yàn)表明,無(wú)論是在模擬器、還是在真實(shí)世界中,這個(gè)基于模型的規(guī)劃框架在測(cè)試任務(wù)上的表現(xiàn)都可以與人類(lèi)相當(dāng),甚至比人類(lèi)做得更好。
圖注:RoboCraft與人類(lèi)在捏橡皮泥任務(wù)上的對(duì)比。在模擬器中,人用鼠標(biāo)和鍵盤(pán)控制機(jī)械臂。

圖注:RoboCraft與人類(lèi)在捏橡皮泥任務(wù)上的對(duì)比。在真實(shí)世界中,人直接操縱機(jī)械臂。當(dāng)然,這只是許華哲征服機(jī)器人星辰大海之路上的一片碎小星光。許華哲本科畢業(yè)于清華大學(xué)電子工程系,后在加州大學(xué)伯克利分校攻讀博士,目前在斯坦福大學(xué)從事博士后研究,指導(dǎo)教師為計(jì)算機(jī)視覺(jué)領(lǐng)域的知名新秀吳佳俊。他對(duì)AI科技評(píng)論表示,今年秋季,他將回到母校清華,成為清華大學(xué)交叉信息研究院(也就是「姚班」)的一名教師。關(guān)于機(jī)器人的美好愿景雖然由來(lái)已久,但許華哲并非一開(kāi)始就專(zhuān)攻機(jī)器人學(xué)。從本科到博士后階段,一路上,他的科研方向經(jīng)歷了有跡可循的轉(zhuǎn)變:本科大三去多倫多大學(xué)交換時(shí)第一次接觸計(jì)算機(jī)視覺(jué),到伯克利讀博期間結(jié)合視覺(jué)做自動(dòng)駕駛,最終轉(zhuǎn)向?qū)?qiáng)化學(xué)習(xí)應(yīng)用于機(jī)器人學(xué)。每一次轉(zhuǎn)變,許華哲都越來(lái)越接近他所追求的通用人工智能和通用機(jī)器人。
初識(shí)計(jì)算機(jī)視覺(jué)
2012年,許華哲從東北師大附中畢業(yè),通過(guò)物理競(jìng)賽保送到清華大學(xué)電子工程系,就讀電子信息科學(xué)與技術(shù)專(zhuān)業(yè)。圖注:本科入學(xué)前的許華哲
當(dāng)時(shí),清華大學(xué)的物理系、電子系和建筑系是物理競(jìng)賽保送生的三大熱門(mén)去向,許華哲基于自己的學(xué)科興趣選擇了電子系。他解釋說(shuō):「我當(dāng)時(shí)的想法比較稚嫩,就覺(jué)得電子系離新一代的IT技術(shù)很近。」而且,在高中時(shí)期,他就了解到清華對(duì)電子系開(kāi)設(shè)了很多偏重物理的課程,其他相關(guān)院系(如信息科學(xué)技術(shù)學(xué)院)則沒(méi)有這樣的課程設(shè)置。因此,對(duì)于擅長(zhǎng)物理的許華哲來(lái)說(shuō),電子系無(wú)疑是最好的選擇。從東北的長(zhǎng)春來(lái)到「帝都」北京,雖然未來(lái)的方向尚不明朗,但許華哲內(nèi)心隱隱感到,在清華這樣一個(gè)廣闊的天地,他將大有作為。「其實(shí)我并沒(méi)有想到我一定要做什么,或者我一定要解決一個(gè)什么樣的問(wèn)題,但我有一個(gè)大致明確的主線,就是希望以后可以讀一個(gè)博士?!乖S華哲這樣回憶他初入清華時(shí)的心態(tài)。這樣的期許也來(lái)源于周?chē)迦A人對(duì)他的感染。清華從來(lái)不乏在各個(gè)領(lǐng)域發(fā)光發(fā)熱的個(gè)體:天資聰穎的驕子,勤奮努力的追趕者,玩轉(zhuǎn)社團(tuán)與實(shí)踐的達(dá)人......在這樣一種包容參差、鼓勵(lì)多樣的環(huán)境里,許華哲選擇了一種「玩得開(kāi)心」但也始終向前的道路:加入藝術(shù)團(tuán)鍵盤(pán)隊(duì)繼續(xù)發(fā)展對(duì)音樂(lè)的愛(ài)好,與學(xué)生會(huì)的伙伴一起策劃活動(dòng),跟同學(xué)一起熬夜趕作業(yè),和好朋友一起去玩耍吃烤串,等等。而對(duì)于一位被錄取到頂尖學(xué)府的保送生,優(yōu)秀必然已經(jīng)成為一種習(xí)慣。所以,看似松弛的狀態(tài),也并沒(méi)有耽誤許華哲在學(xué)習(xí)上窮追猛打、將課程績(jī)點(diǎn)排到年級(jí)前2%。雖然不及他口中那位期末期間邊打游戲邊復(fù)習(xí)、最終還能考到年級(jí)第一的室友,但他自己在學(xué)業(yè)上也并不遜色太多。圖注:許華哲在清華
至于科研,許華哲回憶,在清華時(shí),他只是在通信研究所的實(shí)驗(yàn)室跟隨老師做過(guò)一段時(shí)間的科研。他坦言,由于課業(yè)壓力較大,加上課外活動(dòng)所占去的精力,「科研自然就做不動(dòng)了」。直到大三上學(xué)期,許華哲去多倫多大學(xué)交換,才開(kāi)始科研上的更多探索。在那里,他第一次接觸到計(jì)算機(jī)視覺(jué),并進(jìn)一步體會(huì)到做科研的樂(lè)趣。
2014年秋,許華哲赴加拿大多倫多大學(xué)進(jìn)行一個(gè)學(xué)期的交換與學(xué)習(xí)生活。在那里,他修讀了電子與計(jì)算機(jī)工程系的四門(mén)課程:計(jì)算機(jī)視覺(jué)、數(shù)字信號(hào)處理、隨機(jī)過(guò)程和操作系統(tǒng),其中,「計(jì)算機(jī)視覺(jué)」這門(mén)課的描述尤其吸引他,就這樣,他開(kāi)始了與計(jì)算機(jī)視覺(jué)的初遇。而在此之前,許華哲連「計(jì)算機(jī)視覺(jué)」是什么都不知道。為什么會(huì)被計(jì)算機(jī)視覺(jué)這個(gè)方向所吸引?這與許華哲自身的個(gè)性和科研思維傾向或許是分不開(kāi)的。在他看來(lái),相比于其他研究方向,計(jì)算機(jī)視覺(jué)研究所產(chǎn)出的結(jié)果是很直觀的,比如,用視覺(jué)可以將一幢樓的窗戶清晰地分割、檢測(cè)出來(lái),這其中的實(shí)現(xiàn)過(guò)程和結(jié)果呈現(xiàn)都是直接的。這讓直覺(jué)型思維的許華哲覺(jué)得是一種「好玩的科研」。于是,許華哲興致勃勃地向講授計(jì)算機(jī)視覺(jué)這門(mén)課的 Sanja Fidler 教授表明自己想跟她做科研。Sanja Fidler 很認(rèn)可他的課程表現(xiàn),欣然同意。盡管當(dāng)時(shí)他只是一個(gè)本科生,但許華哲能夠感受到,Sanja Fidler 完全把他看作是一位「科研工作者」,雙方都很認(rèn)真、嚴(yán)肅地談?wù)撗芯抗ぷ?。在一個(gè)做了半年的項(xiàng)目中,許華哲運(yùn)用深度學(xué)習(xí)讓 AI 模型學(xué)習(xí)人類(lèi)對(duì)于汽車(chē)類(lèi)型(如外形、顏色等)的偏好,從而完成模型對(duì)汽車(chē)外觀打分的任務(wù)。這個(gè)項(xiàng)目成了他在人工智能科研路上邁出的第一步。交換結(jié)束后,許華哲回到了清華。這段短暫的科研經(jīng)歷,雖然與機(jī)器人研究并無(wú)直接關(guān)聯(lián),卻對(duì)他之后選擇科研方向產(chǎn)生了直接的影響。與在計(jì)算機(jī)視覺(jué)方向上尋求直觀性類(lèi)似,許華哲后來(lái)又在自動(dòng)駕駛、機(jī)器人學(xué)方向上看到了更強(qiáng)的直觀性,從而逐漸將興趣轉(zhuǎn)移到了可控制的、運(yùn)動(dòng)的智能體上。2016年,許華哲赴美國(guó)加州大學(xué)伯克利分校讀博,開(kāi)始了走向機(jī)器人學(xué)的科研探索之路。自動(dòng)駕駛:自己做自己的導(dǎo)師
在申請(qǐng)加州大學(xué)伯克利分校的博士之前,許華哲先去那里做了三個(gè)多月的暑期科研實(shí)習(xí),他當(dāng)時(shí)實(shí)習(xí)的組正是后來(lái)他讀博所在的組。
圖注:許華哲在伯克利做暑期科研實(shí)習(xí)大三結(jié)束那年的暑假,在 Sanja Fidler 的舉薦下,許華哲去了伯克利實(shí)習(xí)。期間,他與在伯克利讀博的胡戎航師兄、Trevor Darrell教授等人合作,完成了一篇視覺(jué)-語(yǔ)言(vision-language)方向的論文(“Natural Language Object Retrieval”)。這項(xiàng)工作旨在解決自然語(yǔ)言對(duì)象檢索的任務(wù),通過(guò)基于對(duì)象的自然語(yǔ)言查詢來(lái)定位一個(gè)目標(biāo)對(duì)象。論文后來(lái)被 CVPR 2016 錄取為 Oral Paper。
論文地址:https://arxiv.org/pdf/1511.04164.pdf暑期實(shí)習(xí)結(jié)束后,許華哲開(kāi)始著手申請(qǐng)博士項(xiàng)目。他希望能留在伯克利繼續(xù)讀博,但對(duì)于Darrell教授是否滿意自己在實(shí)習(xí)期間的表現(xiàn),他心里是沒(méi)有底的。每年去伯克利進(jìn)行暑期實(shí)習(xí)的學(xué)生都不勝枚舉,而博士申請(qǐng)存在競(jìng)爭(zhēng)和不確定性,所以,除了伯克利,許華哲也申請(qǐng)了其他幾所學(xué)校。不過(guò),最終還是如人所愿,他收到了伯克利的錄取通知,便決定繼續(xù)留在 Darrell 的組里攻讀博士。談起自己的博士導(dǎo)師,許華哲認(rèn)為自己很幸運(yùn):「我的導(dǎo)師在指導(dǎo)學(xué)生方面非常寬松,對(duì)我們的研究方向不加任何限制。他覺(jué)得,只要我做的事情是自己真正感興趣的,我就可以去做,他會(huì)全力支持我?!?/span>Darrell 非常鼓勵(lì)許華哲去自由地探索。在他對(duì)科研方向感到迷茫的時(shí)候,Darrell 會(huì)對(duì)他說(shuō):「你可以都試試?!够蛘呤?,「你覺(jué)得什么研究做出來(lái)會(huì)很好玩、很酷,你就去做什么研究,不用去想什么研究能給你帶來(lái)更多的收益?!?/span>導(dǎo)師的這種指導(dǎo)風(fēng)格促使他在博士初期選擇了「離經(jīng)叛道」的科研方向。入學(xué)后,他做的第一個(gè)項(xiàng)目是自動(dòng)駕駛方向,而這個(gè)方向無(wú)論是對(duì)于許華哲還是 Trevor Darrell 來(lái)說(shuō),都是一個(gè)新領(lǐng)域。Darrell 主要研究計(jì)算機(jī)視覺(jué),當(dāng)時(shí)組里在做的課題主要是域遷移與視覺(jué)-語(yǔ)言(vision-language)。原本,許華哲可以跟隨導(dǎo)師專(zhuān)攻這兩個(gè)方向,但導(dǎo)師建議他去嘗試自動(dòng)駕駛。2016年,自動(dòng)駕駛?cè)缛罩刑?。產(chǎn)業(yè)界摩拳擦掌,紛紛入局。在美國(guó),通用汽車(chē)以10億美元的價(jià)格收購(gòu)了Cruise;在德國(guó),Uber與戴姆勒汽車(chē)集團(tuán)開(kāi)始在自動(dòng)駕駛領(lǐng)域展開(kāi)合作;中國(guó)的滴滴也開(kāi)始組建自動(dòng)駕駛公司。在學(xué)術(shù)界,各個(gè)實(shí)驗(yàn)室也開(kāi)始積極投入研究,想要在自動(dòng)駕駛領(lǐng)域中開(kāi)拓和占領(lǐng)一席之地。在這樣的背景下,此前對(duì)自動(dòng)駕駛并沒(méi)有予以太多關(guān)注的 Darrell,也產(chǎn)生了新開(kāi)一個(gè)自動(dòng)駕駛研究方向的想法,而這個(gè)「開(kāi)新坑」的任務(wù)落到了許華哲身上。許華哲也不推脫,話不多說(shuō),就開(kāi)始了自動(dòng)駕駛方向的探索。由于 Darrell 在該領(lǐng)域沒(méi)有太多可傳授的經(jīng)驗(yàn),所以在大多數(shù)時(shí)候,許華哲是自己給自己當(dāng)「導(dǎo)師」,而 Darrell 則從視覺(jué)的角度給他提供了很多技術(shù)上的幫助。許華哲的嘗試很快得到了回報(bào)。當(dāng)時(shí)還是一年級(jí)博士生的他,與博士導(dǎo)師、師兄高陽(yáng)和博士后研究員Fisher Yu等人合作,完成了一個(gè)自動(dòng)駕駛項(xiàng)目,并以第一作者的身份發(fā)表了論文(“End-to-end Learning of Driving Models from Large-scale Video Datasets”),被錄取為2017 CVPR Oral 論文。
論文地址:https://arxiv.org/pdf/1612.01079.pdf這項(xiàng)工作探索了如何從視覺(jué)的角度通過(guò)深度學(xué)習(xí)來(lái)實(shí)現(xiàn)自動(dòng)駕駛。以往的深度學(xué)習(xí)方法受到數(shù)據(jù)量的限制,局限于固定場(chǎng)景和模擬環(huán)境。為了解決這個(gè)問(wèn)題,許華哲與團(tuán)隊(duì)介紹了一個(gè)不依賴執(zhí)行機(jī)構(gòu)的自動(dòng)駕駛通用模型,采用端到端的訓(xùn)練方式,從大規(guī)模眾包視頻數(shù)據(jù)中學(xué)習(xí),實(shí)現(xiàn)了更好的泛化性能。而且,他們還公布了當(dāng)時(shí)市面上時(shí)長(zhǎng)最長(zhǎng)、場(chǎng)景最豐富的自動(dòng)駕駛數(shù)據(jù)集BDDV(Berkeley DeepDrive Video dataset)。
圖注:博一年級(jí)的許華哲在CVPR上作報(bào)告將計(jì)算機(jī)視覺(jué)與自動(dòng)駕駛相結(jié)合的研究,讓許華哲離機(jī)器人學(xué)更近了一步。相比于純靜態(tài)的視覺(jué)研究,許華哲更傾心于動(dòng)態(tài)的智能體,比如可以無(wú)人駕駛的智能汽車(chē)和運(yùn)動(dòng)的機(jī)器人。從強(qiáng)化學(xué)習(xí)出發(fā)研究機(jī)器人
那么,如何做機(jī)器人?如何實(shí)現(xiàn)讓一個(gè)機(jī)器人去感知周遭世界的信息,并像人類(lèi)一樣去實(shí)施決策和控制?許華哲選擇了深度強(qiáng)化學(xué)習(xí)這條路線:在機(jī)器人學(xué)的模擬器里做強(qiáng)化學(xué)習(xí)算法的開(kāi)發(fā),控制機(jī)器狗、機(jī)械臂和機(jī)械手等智能體去完成一系列任務(wù)。他篤信,在一些傳統(tǒng)機(jī)器人學(xué)無(wú)法解決的任務(wù)難題上,強(qiáng)化學(xué)習(xí)大有用武之地。傳統(tǒng)的機(jī)器人學(xué)發(fā)展多年,已經(jīng)取得了令人矚目的成果。例如,經(jīng)常能在公眾視野中收割一大波粉絲的波士頓動(dòng)力機(jī)器狗,在每一次「進(jìn)化」中都能獲得令人意想不到的酷炫新技能。但是,愿景有余,落地不足,這仍是機(jī)器人領(lǐng)域的一大挑戰(zhàn)。把一臺(tái)計(jì)算機(jī)的棋藝調(diào)教到世界第一的水平是容易的,但要教會(huì)一個(gè)機(jī)器人從一堆碎石爛瓦中穿行而不跌倒,卻要困難得多,因?yàn)樵谶@兩類(lèi)任務(wù)中,機(jī)器所需的「智力水平」與人類(lèi)正相反。在那些看似簡(jiǎn)單、實(shí)際卻很復(fù)雜的任務(wù)中,傳統(tǒng)的方法難以派上用場(chǎng)。比如,在系鞋帶這個(gè)任務(wù)中,如果用傳統(tǒng)的方法,在鞋帶上的每一處都安裝控制器、從而使其對(duì)機(jī)器人來(lái)說(shuō)可移動(dòng),這顯然是不現(xiàn)實(shí)的。系鞋帶這樣的任務(wù)需要一種「欠驅(qū)動(dòng)機(jī)器人」(Underactuated Robotics)系統(tǒng)才能實(shí)現(xiàn)。許華哲認(rèn)為,強(qiáng)化學(xué)習(xí)具有解決這類(lèi)問(wèn)題的潛力。強(qiáng)化學(xué)習(xí)的優(yōu)勢(shì)在于,它本質(zhì)上是一個(gè)通過(guò)不斷嘗試犯錯(cuò)、從而獲得反饋的搜索過(guò)程,在這個(gè)過(guò)程中,它很有可能會(huì)搜索到一些傳統(tǒng)方法根本想象不到的解決方案。在攻讀博士的大部分時(shí)間以及博士后研究期間,許華哲都在專(zhuān)攻將強(qiáng)化學(xué)習(xí)應(yīng)用于機(jī)器人學(xué)的研究。當(dāng)他在這條賽道上真的跑出一些較為滿意的成績(jī)后,他更加相信和看好強(qiáng)化學(xué)習(xí)這一方法論的未來(lái)前景。事實(shí)上,目前強(qiáng)化學(xué)習(xí)并未被大規(guī)模地運(yùn)用于各種機(jī)器人任務(wù)當(dāng)中。這其中最大的「攔路虎」是什么?許華哲的回答是:數(shù)據(jù)復(fù)雜度。通常來(lái)說(shuō),為了學(xué)到一個(gè)好的策略,強(qiáng)化學(xué)習(xí)需要進(jìn)行大規(guī)模的試錯(cuò),這就要求要有非常大的數(shù)據(jù)量。這是由強(qiáng)化學(xué)習(xí)算法的本質(zhì)所決定的。解決這個(gè)問(wèn)題的關(guān)鍵在于提高對(duì)數(shù)據(jù)的利用率,方法無(wú)非有兩個(gè):「開(kāi)源」和「節(jié)流」。許華哲在自己的研究中采用了三種路徑來(lái)解決數(shù)據(jù)復(fù)雜度的問(wèn)題:模擬器(simulator)、基于模型的強(qiáng)化學(xué)習(xí)(MBRL)和離線強(qiáng)化學(xué)習(xí)(Offline RL)。前兩者屬于開(kāi)源,后者則屬于節(jié)流。對(duì)數(shù)據(jù)量的需求在計(jì)算機(jī)模擬器里比較容易實(shí)現(xiàn)。在真實(shí)世界中,機(jī)器人是以客觀物理時(shí)間而運(yùn)行的,所以無(wú)法采用一些方式去加速,而計(jì)算機(jī)能夠以很快的速度去運(yùn)行模擬器。而且,物理模擬器能夠?yàn)闄C(jī)器人提供一個(gè)安全且廉價(jià)的虛擬操場(chǎng),讓機(jī)器人在其中利用相關(guān)技術(shù)習(xí)得物理技能,然后轉(zhuǎn)移到真實(shí)世界中去。在一個(gè)四足機(jī)器人的項(xiàng)目中,許華哲團(tuán)隊(duì)就利用了這種Sim-to-Real(從模擬到現(xiàn)實(shí))的方法,通過(guò)強(qiáng)化學(xué)習(xí)的手段,在模擬器中對(duì)機(jī)械狗做大規(guī)模的訓(xùn)練和域隨機(jī)化,然后將它從模擬環(huán)境轉(zhuǎn)移到真實(shí)世界中去做測(cè)試。圖注:機(jī)械狗在室外行走、避障
由于機(jī)械狗可以在模擬環(huán)境中預(yù)先熟悉各種地形,所以能夠適應(yīng)更富有挑戰(zhàn)性的真實(shí)環(huán)境。比如,當(dāng)?shù)匦螐牟莸剞D(zhuǎn)換為山地時(shí),這只機(jī)械狗并不會(huì)「慌張」,因?yàn)樗呀?jīng)被提前訓(xùn)練地很擅長(zhǎng)應(yīng)對(duì)地形變化,所以在山地也能「如履平地」地跑步和避障。這篇論文被ICLR 2022接收。
論文地址:https://arxiv.org/pdf/2107.03996.pdf不過(guò),這種學(xué)習(xí)方式對(duì)模擬器的要求非常高,由于模擬環(huán)境并不能完全匹配真實(shí)世界,在模擬環(huán)境中訓(xùn)練的控制策略可能會(huì)在真實(shí)硬件上遭遇測(cè)試失敗。所以,許華哲認(rèn)為,模擬器做得越真實(shí)越好,無(wú)論是視覺(jué)上(看起來(lái))還是物理運(yùn)動(dòng)規(guī)律上(感覺(jué)起來(lái)),如果模擬環(huán)境都能做得很逼近現(xiàn)實(shí),那么強(qiáng)化學(xué)習(xí)就有可能從模擬器走到現(xiàn)實(shí)世界。在做強(qiáng)化學(xué)習(xí)的時(shí)候,我們還可以讓智能體從預(yù)先采集好的數(shù)據(jù)中去學(xué)習(xí)策略,而不一定要與真實(shí)世界進(jìn)行實(shí)時(shí)交互,這便是「離線強(qiáng)化學(xué)習(xí)」。離線強(qiáng)化學(xué)習(xí)具有降低成本的優(yōu)點(diǎn),還可避免在線學(xué)習(xí)的高風(fēng)險(xiǎn)性。在博士后研究期間,許華哲與潘玲(姚班博士生)、黃隆波(姚班副教授)、馬騰宇(斯坦福助理教授、姚班校友,也是許華哲高中時(shí)的學(xué)長(zhǎng))等人,合作了一個(gè)多智能體場(chǎng)景中的離線強(qiáng)化學(xué)習(xí)項(xiàng)目。他們提出了一種OMAR方法(Offline Multi-Agent RL with Actor Rectification),在多智能體的控制任務(wù)中獲得了較高的性能。就在前幾天,這篇論文剛被ICML2022接收。
論文地址:https://arxiv.org/pdf/2111.11188.pdf除了以上兩種方案,許華哲還對(duì)基于模型的強(qiáng)化學(xué)習(xí)(MBRL)特別感興趣。強(qiáng)化學(xué)習(xí)算法與之交互的對(duì)象并不一定是真正的機(jī)器人。如果我們使用一個(gè)神經(jīng)網(wǎng)絡(luò)去學(xué)習(xí)一個(gè)機(jī)器人的動(dòng)力學(xué)模型,然后讓算法與動(dòng)力學(xué)模型的神經(jīng)網(wǎng)絡(luò)交互,我們就可以把跟現(xiàn)實(shí)世界交互的過(guò)程變成跟神經(jīng)網(wǎng)絡(luò)交互的過(guò)程。不必用海量的數(shù)據(jù)與現(xiàn)實(shí)世界交互,但可以達(dá)到同樣水平的策略學(xué)習(xí)效果,這就是MBRL的優(yōu)勢(shì)所在。數(shù)據(jù)復(fù)雜度問(wèn)題的解決,是許華哲過(guò)去、現(xiàn)在與未來(lái)的主要研究方向之一,也是他實(shí)現(xiàn)機(jī)器人應(yīng)用夢(mèng)想的一個(gè)關(guān)鍵。他向AI科技評(píng)論表示,事實(shí)上,三種強(qiáng)化學(xué)習(xí)路徑中的每一種都很難單獨(dú)地完全解決數(shù)據(jù)復(fù)雜度問(wèn)題,所以,在將來(lái),把它們結(jié)合起來(lái)或許會(huì)帶來(lái)比較大的突破。另外,這三種方法也并非僅僅是為了解決數(shù)據(jù)復(fù)雜度的問(wèn)題,它們也有助于其他問(wèn)題的解決。比如,MBRL 本質(zhì)上就帶有泛化性,因?yàn)橛辛艘粋€(gè)世界的模型,就可以利用該模型去泛化到不同的任務(wù)上。再比如,Offline RL也可以通過(guò)學(xué)到一個(gè)良好的初始值來(lái)幫助在線強(qiáng)化學(xué)習(xí)。此外,如果模擬器做得足夠好,那么它也有助于做領(lǐng)域隨機(jī)化。「這些方法的努力方向本質(zhì)上是一樣的,就是希望在真實(shí)世界中落地。這是我的理解,可能是有偏見(jiàn)的,但是我比較相信這個(gè)方向?!乖S華哲談道。強(qiáng)化學(xué)習(xí)的另一項(xiàng)關(guān)鍵挑戰(zhàn)是泛化性。目前的一個(gè)普遍情況是,無(wú)論是傳統(tǒng)算法、還是基于學(xué)習(xí)的算法,經(jīng)過(guò)訓(xùn)練的機(jī)器人往往只能「理解」那些已經(jīng)見(jiàn)過(guò)的東西,面對(duì)陌生的物體則會(huì)束手無(wú)策。這就要求機(jī)器人具有更好的泛化性能。在這個(gè)問(wèn)題上,許華哲有自己的觀察與見(jiàn)解,他也正在試圖去解決這個(gè)難題。在機(jī)器人學(xué)或者強(qiáng)化學(xué)習(xí)中,泛化能力是指一個(gè)訓(xùn)練好的決策智能體可以應(yīng)對(duì)各種未經(jīng)訓(xùn)練的情況。泛化包括視覺(jué)上的泛化和結(jié)構(gòu)上的泛化,視覺(jué)泛化是指學(xué)習(xí)可以泛化到未預(yù)先見(jiàn)過(guò)的環(huán)境的策略,比如說(shuō),如果一個(gè)機(jī)器人可以在你家廚房里大展廚藝,那么當(dāng)你的朋友把它借走,它也應(yīng)該能夠在朋友家的廚房里保持它做飯的水準(zhǔn),盡管在它的「眼」里,廚房的地面、墻壁和櫥柜的顏色都發(fā)生了變化。在被 IJCAI 2022 接收的一篇論文中,許華哲與來(lái)自清華、港大的研究人員合作,通過(guò)一種新的數(shù)據(jù)增強(qiáng)方法TLDA(Task-aware Lipschitz Data Augmentation),改善了數(shù)據(jù)增強(qiáng)技術(shù)在對(duì)圖像進(jìn)行微小改動(dòng)時(shí)可能導(dǎo)致的不穩(wěn)定性,從而提高了視覺(jué)強(qiáng)化學(xué)習(xí)中數(shù)據(jù)增強(qiáng)技術(shù)的泛化能力。
論文地址:https://arxiv.org/pdf/2202.09982.pdf再說(shuō)回那個(gè)被朋友借走的機(jī)器人,如果你家廚房的布局和朋友家廚房的布局截然不同,機(jī)器人能理解和應(yīng)對(duì)這種變化嗎?一個(gè)勺子的擺放朝向都有可能難倒機(jī)器人,它也許會(huì)「困惑」:上一次我見(jiàn)到的勺子是豎著放的,現(xiàn)在它卻橫躺在這里,我要怎么把它拿起來(lái)呢?而在實(shí)際生活中,除了極端的強(qiáng)迫癥,誰(shuí)也不會(huì)本末倒置地為了「遷就」機(jī)器人,而每次都保持所有鍋碗瓢盆的擺放位置和朝向不變。這里涉及的難題便是結(jié)構(gòu)泛化。在許華哲看來(lái),結(jié)構(gòu)上的泛化問(wèn)題最為棘手:「究竟該如何解決,我還沒(méi)有一個(gè)完善的想法,但是我們?cè)趪L試兩個(gè)事情?!?/span>其一,他們嘗試使用預(yù)訓(xùn)練(Pre-training)的方法,直接從一些大的數(shù)據(jù)集中學(xué)習(xí)。不過(guò),這種思路并不能直接解決結(jié)構(gòu)泛化的問(wèn)題,而只是期望在學(xué)習(xí)過(guò)程中能碰巧學(xué)到一些有助于解決問(wèn)題的知識(shí)。許華哲與他的團(tuán)隊(duì)在做的另一件事情,則是結(jié)合3D視覺(jué)讓機(jī)器人去學(xué)習(xí)物體的旋轉(zhuǎn)不變性。無(wú)論勺子的放置朝向如何變化,機(jī)器人都不會(huì)被「迷惑」。「這可能是我們?cè)诮鉀Q結(jié)構(gòu)泛化問(wèn)題上的一個(gè)小小嘗試,不算完全解決這個(gè)任務(wù),但是在朝著這個(gè)方向前進(jìn)?!乖S華哲解釋。泛化所涉及的另一種情況是組合性(compositional)泛化。舉個(gè)例子,你的廚房機(jī)器人正在學(xué)習(xí)做兩道不同的菜,第一道菜的菜譜里有15個(gè)步驟,第二道菜有10個(gè)步驟,機(jī)器人分別學(xué)會(huì)這兩道菜后,發(fā)現(xiàn)每道菜的其中三個(gè)步驟是重合的,如:1)將雞蛋打散,放入適量的鹽;2)往鍋里倒入適量油;3)油熱后倒入雞蛋,翻炒至熟,出鍋。于是,機(jī)器人就額外學(xué)會(huì)了第三道菜的做法:炒雞蛋。類(lèi)似這種局部任務(wù)具有共通性的情況,就可以做組合性泛化,這也是許華哲目前正在解決的問(wèn)題之一。盡管對(duì)于目前機(jī)器人學(xué)中的很多問(wèn)題,強(qiáng)化學(xué)習(xí)都還無(wú)法提供完美的解決方案,但強(qiáng)化學(xué)習(xí)在真實(shí)世界中的初步亮相,已經(jīng)顯示出其在未來(lái)解決復(fù)雜問(wèn)題的潛力。許華哲對(duì)這一點(diǎn)抱有很大的信心:「只要我們繼續(xù)深入做下去,強(qiáng)化學(xué)習(xí)在其他更難的問(wèn)題上會(huì)產(chǎn)生更多有趣的結(jié)果?!?/span>在斯坦福視覺(jué)和學(xué)習(xí)實(shí)驗(yàn)室做博士后的一年,許華哲明顯感到自己在科研上的目標(biāo)更加清晰。在這里,他更多地體會(huì)到了大家一起合作、彼此互助的科研氛圍。合作導(dǎo)師吳佳俊在3D視覺(jué)方面給他提供了許多幫助,他也在與其他博士后研究員展開(kāi)多模態(tài)機(jī)器人方面的合作,組里還有一些具有優(yōu)秀的機(jī)器人學(xué)背景的博士生,他也能從他們那里學(xué)到許多新知識(shí)。許華哲談道,這不僅是科研漸入深處的自然結(jié)果,也是因?yàn)樗茉缇鸵呀?jīng)簽了清華叉院的教職:「在博士后的時(shí)候,我就知道以后要回到國(guó)內(nèi)任教,所以我自己更加明確以后想要做什么,或者說(shuō)我未來(lái)的組想要做什么?!?/span>圖注:許華哲在(virtual)博士畢業(yè)典禮上
2021年博士畢業(yè)后,除了清華,許華哲還申請(qǐng)來(lái)其他幾所亞洲學(xué)校的教職。不過(guò),在面試完清華的三周后,他就收到了offer。沒(méi)有太多的猶豫,他就直接選擇了清華,終止了其他正在面試流程中的學(xué)校。在被問(wèn)及為什么毫不猶豫地選擇回到清華時(shí),許華哲感慨道:「清華當(dāng)然是我的第一選擇,因?yàn)榍迦A是我的母校,我也是從清華開(kāi)始接觸到外面更廣闊的世界,看到原來(lái)還有這么多人在做一流的研究,這么多人在選擇創(chuàng)業(yè),這么多人把社團(tuán)活動(dòng)搞得這么好。所以我覺(jué)得我對(duì)清華確實(shí)是有特殊的感情的。」另一方面,對(duì)于一個(gè)科研工作者來(lái)說(shuō),清華叉院能給許華哲提供一個(gè)理想的科研環(huán)境。許華哲在伯克利的幾位師兄,如高陽(yáng)、吳翼、陳建宇,目前都在叉院任教。在跟他們的交流中,許華哲了解到叉院的整體科研氛圍非常好,年輕的老師可以擁有比較獨(dú)立的科研空間,去做自己真正感興趣的研究,而不被施以太多的限制。制度相對(duì)自由和寬松的叉院,也支持了許華哲延遲一年入職去斯坦福做博士后的決定。談及回到叉院以后的科研規(guī)劃,許華哲的答案仍然是圍繞著他關(guān)于機(jī)器人應(yīng)用的暢想而展開(kāi):「我在應(yīng)用方面的一個(gè)整體目標(biāo)就是希望讓機(jī)器人真正為我們做一些復(fù)雜的事情,比如說(shuō),為我們做四菜一湯、刷盤(pán)子、疊衣服,等等?!?/span>為了實(shí)現(xiàn)這一目標(biāo),許華哲將從算法、感知和表征層面繼續(xù)他的科研工作。具體而言,算法方面的挑戰(zhàn)在于,如何把強(qiáng)化學(xué)習(xí)算法應(yīng)用到機(jī)器人學(xué)上,而其中,基于模型的強(qiáng)化學(xué)習(xí)和基于視覺(jué)的強(qiáng)化學(xué)習(xí)都是許華哲未來(lái)在算法方面想要努力的方向。在感知層面,許華哲已經(jīng)在嘗試做視覺(jué)、聽(tīng)覺(jué)和觸覺(jué)的多模態(tài)融合研究。另外,機(jī)器人如何表征世界同樣是一個(gè)巨大的挑戰(zhàn),這也是許華哲會(huì)繼續(xù)關(guān)注的一個(gè)問(wèn)題。同時(shí),許華哲也已經(jīng)開(kāi)始為自己將來(lái)的團(tuán)隊(duì)招納賢才。他對(duì)學(xué)生的期待正如當(dāng)初博士導(dǎo)師對(duì)他的期待一樣:保持好奇心,探索自己真正想要探索的問(wèn)題。他希望組建一個(gè)豐富的、非同質(zhì)化的團(tuán)隊(duì):「我希望我未來(lái)的團(tuán)隊(duì)里,每個(gè)人擅長(zhǎng)的東西不同。如果我教的學(xué)生在某一個(gè)維度上比我強(qiáng),或者至少有比我強(qiáng)的潛力,我覺(jué)得我會(huì)很開(kāi)心,因?yàn)槲铱梢詮乃麄兩砩蠈W(xué)到很多東西,而且他們同輩之間也可以互相學(xué)習(xí),比如我擅長(zhǎng)vision(視覺(jué)),你擅長(zhǎng)simulator(模擬器),他擅長(zhǎng)RL(強(qiáng)化學(xué)習(xí)),另外一個(gè)人可能有一些心理學(xué)或物理學(xué)的背景等等。」在學(xué)生培養(yǎng)方面,即將成為一名教師的許華哲則抱有這樣的心態(tài):「把他們培養(yǎng)成大腿,然后再抱住他們的大腿」。這是他對(duì)教育本質(zhì)的理解。他開(kāi)玩笑地說(shuō):「如果清華的學(xué)生都沒(méi)有辦法超過(guò)清華老師的上限,人類(lèi)的發(fā)展不就停滯了嗎?」「我覺(jué)得我應(yīng)該算是個(gè)『反卷斗士』吧。」在機(jī)器人學(xué)領(lǐng)域懷揣愿景、潛心鉆研的許華哲,一直以來(lái)都拒絕過(guò)一種「機(jī)器人式」的生活。比起「有用」,或許他更傾向過(guò)「有趣」的人生?!赣腥ぁ共皇且粋€(gè)標(biāo)簽,而是他所身體力行的一種生活哲學(xué):做有趣的科研,體驗(yàn)有趣的生活,保持有趣的愛(ài)好,對(duì)抗這個(gè)內(nèi)卷加劇的社會(huì)。在科研上,成為一個(gè)「寫(xiě)paper的機(jī)器」并非他想要的狀態(tài)。許華哲回顧,貫穿他科研之路的,一直都是一種「覺(jué)得什么東西好玩就做了」的心態(tài)。博士期間,許華哲就曾做過(guò)一個(gè)很有意思但后來(lái)并未發(fā)表出文章的項(xiàng)目:用強(qiáng)化學(xué)習(xí)教機(jī)械手去學(xué)習(xí)彈鋼琴。發(fā)論文不是他的核心考量,最重要的是去做自己想做的科研。至于如何選擇科研方向,如何面對(duì)科研中的得與失,許華哲有這樣的感悟:「我覺(jué)得要做自己感興趣的事。一個(gè)方向是冷門(mén)還是熱門(mén),這都是不可控的。比如你去看人工智能的發(fā)展歷史,當(dāng)年Hinton做的內(nèi)容也很冷門(mén),當(dāng)時(shí)對(duì)于神經(jīng)網(wǎng)絡(luò)這樣一個(gè)奇怪的東西,大家都覺(jué)得沒(méi)意思,都不是很相信。他也是在神經(jīng)網(wǎng)絡(luò)真正大火以后才獲得各種榮譽(yù)。所以,不要太受別人的影響。即使到最后,我們沒(méi)有獲得巨大的成就,但至少在這個(gè)過(guò)程中,我們?cè)谧鲎约合矚g的事情,而不是浪費(fèi)時(shí)間做別人喜歡的事情、去跟別人比賽。」面對(duì)「青椒」的壓力,許華哲的心態(tài)也頗為從容。對(duì)他而言,科研本質(zhì)上只是體驗(yàn)人生的其中一種方式,如果這條路最終行不通,還有很多其他路可以走:去環(huán)游世界,去中學(xué)當(dāng)老師,教學(xué)生搞物理競(jìng)賽,跟朋友們一起彈彈琴,或者隨便找一個(gè)地方開(kāi)個(gè)奶茶店——「我覺(jué)得都挺好的」。在他的世界觀里,生活的意義在于「快樂(lè)地去對(duì)這個(gè)世界進(jìn)行輸入和輸出」,輸入可以是「上課學(xué)習(xí),看風(fēng)景,吃東西」,輸出則是類(lèi)似于「寫(xiě)論文,教課,做演出」。科研之外,鋼琴和閱讀或許是他「輸入」最多的事情。許華哲從四歲開(kāi)始學(xué)琴,鋼琴已經(jīng)陪伴了他二十多年,在伯克利讀博期間,他還修了音樂(lè)系的專(zhuān)業(yè)課,把樂(lè)理、作曲、配器和指揮都學(xué)了一遍?,F(xiàn)在,即使到了博士后階段,他也在跟著斯坦福音樂(lè)系的老師繼續(xù)學(xué)琴。他還從顧城的詩(shī)歌中找到靈感,嘗試寫(xiě)了第一首原創(chuàng)歌曲《攝》(見(jiàn)許華哲主頁(yè)http://hxu.rocks/misc.html)。「如果不做學(xué)術(shù),現(xiàn)在可能在做什么?」2018年的時(shí)候,AI科技評(píng)論曾做過(guò)一次新年特別推送,采訪了十幾位AI研究青年,當(dāng)時(shí)還在讀博的許華哲對(duì)于這個(gè)問(wèn)題的回答是:「現(xiàn)在可能是一個(gè)不被理解的蹩腳鋼琴家。」在很多人聽(tīng)來(lái)昏昏欲睡的古典樂(lè),許華哲總是能從中感受到無(wú)限的力量。貝多芬是他最喜歡的鋼琴家:「我覺(jué)得貝多芬的人生非常硬核,非常彪悍,我最喜歡他的第三首交響樂(lè),是他最初寫(xiě)給拿破侖的一首交響樂(lè),叫《英雄》,我覺(jué)得非常激勵(lì)我?!?/span>除了嚴(yán)肅音樂(lè),許華哲也喜歡閱讀有趣的文字。對(duì)他來(lái)說(shuō),閱讀是一個(gè)豐盈內(nèi)心的途徑和學(xué)習(xí)大家思想的媒介。卡爾維諾、黑塞、劉慈欣、阿西莫夫......那些科學(xué)幻想與哲學(xué)思辨都是他進(jìn)入和體驗(yàn)「他世界」的一種門(mén)戶。不久前,許華哲在微信朋友圈里發(fā)了一則招生宣傳,并附上這樣一段話:「10年過(guò)去,曾經(jīng)的二字班小朋友將作為二字班的老師回到母校任教,十分感謝所有在我讀書(shū),科研期間給予我支持和幫助的親人、師長(zhǎng)、好友。希望可以在清華,將我之所學(xué)、所思,以無(wú)限地?zé)崆?,用于啟發(fā)更多的同學(xué)去學(xué)習(xí)知識(shí),探索真理。我也會(huì)時(shí)刻反思自己,學(xué)問(wèn)是否足夠,德行是否可為人師表,希望自己也可以在清華的土壤里行健不息,繼續(xù)成長(zhǎng)?!?/span>從清華學(xué)子到清華教師,在未來(lái)的日子里,許華哲將繼續(xù)他對(duì)這個(gè)世界的輸入與輸出。以下是AI科技評(píng)論與許華哲的部分對(duì)話節(jié)選:AI科技評(píng)論:您怎么看待科幻作家阿西莫夫提出的“機(jī)器人三定律”?許華哲:首先我認(rèn)為這個(gè)“三定律”說(shuō)得很好,很有意思,我自己也很喜歡阿西莫夫的小說(shuō),它還是很有價(jià)值的。阿西莫夫的粉絲應(yīng)該都知道,除了這個(gè)定律,后面還有很多人提出了其他定律。比如阿西莫夫自己就還補(bǔ)充“機(jī)器人第零定律”:機(jī)器人必須保護(hù)人類(lèi)的整體利益不受傷害,其他三條定律都是在這一前提下才能成立。還有人提出“繁殖定律”:機(jī)器人不得參與機(jī)器人的設(shè)計(jì)和制造,除非新的機(jī)器人的行動(dòng)服從機(jī)器人學(xué)定律。但現(xiàn)在的人工智能還完全沒(méi)有達(dá)到要認(rèn)真考慮這些定律的水平,好像還為時(shí)尚早,我覺(jué)得,到了該考慮它們的時(shí)候再去考慮也來(lái)得及。AI科技評(píng)論:之前LeCun談到,自監(jiān)督學(xué)習(xí)跟世界模型相結(jié)合可以實(shí)現(xiàn)像人類(lèi)一樣學(xué)習(xí)推理的人工智能系統(tǒng)。也有一些網(wǎng)友認(rèn)為自監(jiān)督學(xué)習(xí)其實(shí)就是強(qiáng)化學(xué)習(xí)。您是怎么看待這種觀點(diǎn)的?自監(jiān)督學(xué)習(xí)與世界模型未來(lái)會(huì)用到您的研究當(dāng)中嗎?許華哲:首先,我認(rèn)為自監(jiān)督學(xué)習(xí)似乎并非就是強(qiáng)化學(xué)習(xí)。自監(jiān)督學(xué)習(xí)還是包含了很多其他任務(wù)的,比如視頻預(yù)測(cè)、圖片補(bǔ)全這些都是自監(jiān)督學(xué)習(xí),但它們并不是強(qiáng)化學(xué)習(xí)。我覺(jué)得在做強(qiáng)化學(xué)習(xí)的過(guò)程中,我們是可以用到自監(jiān)督學(xué)習(xí)來(lái)學(xué)習(xí)世界模型或者世界運(yùn)動(dòng)規(guī)律,Model Based RL(基于模型的強(qiáng)化學(xué)習(xí))里的 model其實(shí)就可以用自監(jiān)督學(xué)習(xí)來(lái)完成,所以我覺(jué)得二者確實(shí)有可結(jié)合的點(diǎn)。但是認(rèn)為自監(jiān)督學(xué)習(xí)就是強(qiáng)化學(xué)習(xí),可能只是稍微懂一點(diǎn)概念,但并非行家之見(jiàn)。AI科技評(píng)論:在結(jié)構(gòu)泛化問(wèn)題上,您覺(jué)得以后會(huì)不會(huì)去適配機(jī)器人的需求來(lái)配套智慧家居?畢竟大部分人可能對(duì)家具的設(shè)計(jì)感要求不高,所以是否可以去適應(yīng)機(jī)器人的能力來(lái)定制一套家具?這會(huì)是解決結(jié)構(gòu)泛化問(wèn)題的一個(gè)方式嗎?許華哲:我的預(yù)測(cè)是,在特定場(chǎng)景下可能會(huì),但是在通用的場(chǎng)景比如家居場(chǎng)景下,我認(rèn)為不會(huì)。我其實(shí)也做過(guò)一點(diǎn)自動(dòng)駕駛,據(jù)我觀察,自動(dòng)駕駛剛興起的時(shí)候,大家有兩種思路,一種是做算法、做視覺(jué),然后讓車(chē)子上路。另一種思路則是說(shuō),如果我做不好算法,那我能不能在道路上面做文章,我能不能搞一種自動(dòng)駕駛專(zhuān)用車(chē)道,或者讓紅綠燈跟汽車(chē)去做通訊等等。但是現(xiàn)在五六年過(guò)去了,看起來(lái)還是前一種從算法著手的思路更占主流。所以回到我們剛剛說(shuō)的機(jī)器人場(chǎng)景,我覺(jué)得在特定場(chǎng)景比如實(shí)驗(yàn)室里,我們可以把場(chǎng)地建造得,對(duì)機(jī)器人很友好,來(lái)讓機(jī)器人更好地發(fā)揮其作用。但是在家居場(chǎng)景中,如果你要讓全中國(guó)或全世界人都要為機(jī)器人量身打造一套家居設(shè)施,這是很不現(xiàn)實(shí)的,第一我覺(jué)得它的成本非常高,大家的接受度也未必會(huì)很高;第二,我覺(jué)得這件事會(huì)牽涉巨大的利益,可能誰(shuí)也不能當(dāng)這個(gè)“頭頭兒”,如果有某個(gè)公司表示要負(fù)責(zé)搞定這個(gè)事情,那不就相當(dāng)于全世界人的房子裝修都由這個(gè)公司說(shuō)了算了嗎?AI科技評(píng)論:你們現(xiàn)在是怎么做的多模態(tài)?視覺(jué)和聽(tīng)覺(jué)、觸覺(jué)是不是要基于不同的技術(shù)?許華哲:在觸覺(jué)方面,我們目前使用的是MIT那邊開(kāi)發(fā)的gelsight sensor,它其實(shí)是相當(dāng)于把一個(gè)觸覺(jué)的信號(hào)(一個(gè)人工手指摸到某個(gè)東西)轉(zhuǎn)換成一個(gè)視覺(jué)的信號(hào)。所以其實(shí)在觸覺(jué)方面,有很多跟視覺(jué)所共享的技術(shù)占領(lǐng),可以把之前視覺(jué)上面的一些網(wǎng)絡(luò)結(jié)構(gòu)用在對(duì)觸覺(jué)的處理上。當(dāng)然,gelsight 遠(yuǎn)遠(yuǎn)不是最好的觸覺(jué)傳感器,因?yàn)楸热缯f(shuō),我們的皮膚除了能摸到物體上面的凸起,我們還能通過(guò)感受熱的流動(dòng)來(lái)感覺(jué)到它的材質(zhì),以及我們還會(huì)聽(tīng)到接觸物體時(shí)產(chǎn)生的聲音等等,這些都會(huì)給我們帶來(lái)更接近人類(lèi)的觸覺(jué)感知。我覺(jué)得未來(lái)的傳感器要想變得更好或者更接近的人類(lèi),甚至超越人類(lèi),肯定就需要更新的算法來(lái)解決其他模態(tài)。但目前來(lái)說(shuō),比如gelsight 這種技術(shù),可能更多的還是仿照視覺(jué)的處理流程去做觸覺(jué)。AI科技評(píng)論:要實(shí)現(xiàn)通用的機(jī)器人,是否要先實(shí)現(xiàn)通用的人工智能?許華哲:我覺(jué)得未必是這樣的一種先后關(guān)系。我們看科學(xué)史就會(huì)發(fā)現(xiàn),好像并不存在把一種理論做得足夠完善后再去實(shí)現(xiàn)它的各種應(yīng)用這種情況。更多的是你先有一個(gè)應(yīng)用方面的目標(biāo),然后你再去思考你的理論有哪里還可以再改進(jìn),從而使其幫助你達(dá)成在應(yīng)用上的目標(biāo)。比如,人們?cè)趹?zhàn)爭(zhēng)期間搞出一些通訊方面的成果,后來(lái)手機(jī)出現(xiàn)了。我更相信需求驅(qū)動(dòng)的方式,這就是說(shuō),我們先產(chǎn)生機(jī)器人幫我們做事情的需要,然后會(huì)有很多聰明的頭腦來(lái)做研究,人工智能的發(fā)展線路可能就會(huì)因此而變得明確,即我們究竟要怎么樣才能創(chuàng)建一種有用的人工智能,這是我的一些拙見(jiàn)。作者注:AI人物故事與研究報(bào)道,請(qǐng)?zhí)砑游⑿牛?02703941)。
推薦閱讀

雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。