
十年前,他以本科生的身份走入清華電子系;十年后,他將以一名教師的身份重回清華,在叉院開啟新的篇章,傳遞知識,探索真理。作者 | 李梅
想象一下:
在未來的某一天,你,一個996的「社畜」,或「上班狗」,辛苦一天回到家,癱倒在沙發(fā)上。當(dāng)你抬頭一看,你的機器人朋友正在廚房為你做晚飯——它的雙手敏捷靈活,在油鹽醬醋與鍋碗瓢盆之間,一頓優(yōu)雅操作,不久便有陣陣香氣撲鼻而來。它把晚餐端到餐桌上,對你微微一笑:「開飯啦!」然后轉(zhuǎn)身拿起你換下的衣物走向洗衣機......
這不是一篇小學(xué)生的科幻小作文,而是許華哲作為一位機器人學(xué)研究者關(guān)于未來機器人的想象:「我希望能有一個真正通用的機器人,它什么都能做,或者至少能為人類完成家居場景里的大部分任務(wù)?!?/span>
最近,他在走向通用機器人的這條路上又前進了一步:想要機器人為我們包餃子、卷壽司?先讓機器人從學(xué)習(xí)捏橡皮泥開始吧!
不久前,許華哲團隊的一篇論文被機器人學(xué)頂會RSS接收。這項工作提出了一種機器人系統(tǒng),叫「RoboCraft」,將傳感器數(shù)據(jù)轉(zhuǎn)換為粒子,使用圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)基于粒子的動力學(xué)模型,對機器人進行行為控制,實現(xiàn)了機器人操作柔性物體的目標。
論文地址:https://arxiv.org/pdf/2205.02909.pdf
這個RoboCraft框架有三個組件,一個是基于粒子的場景對模塊進行表示,從而「看到」橡皮泥;二是基于GNN模型,模擬對象的動力學(xué);三是一個基于梯度和采樣的模型預(yù)測控制模塊,學(xué)習(xí)如何對一塊橡皮泥進行塑形。
圖注:機器人將橡皮泥捏成字母A和X的形狀
實驗表明,無論是在模擬器、還是在真實世界中,這個基于模型的規(guī)劃框架在測試任務(wù)上的表現(xiàn)都可以與人類相當(dāng),甚至比人類做得更好。
圖注:RoboCraft與人類在捏橡皮泥任務(wù)上的對比。在模擬器中,人用鼠標和鍵盤控制機械臂。

圖注:RoboCraft與人類在捏橡皮泥任務(wù)上的對比。在真實世界中,人直接操縱機械臂。當(dāng)然,這只是許華哲征服機器人星辰大海之路上的一片碎小星光。許華哲本科畢業(yè)于清華大學(xué)電子工程系,后在加州大學(xué)伯克利分校攻讀博士,目前在斯坦福大學(xué)從事博士后研究,指導(dǎo)教師為計算機視覺領(lǐng)域的知名新秀吳佳俊。他對AI科技評論表示,今年秋季,他將回到母校清華,成為清華大學(xué)交叉信息研究院(也就是「姚班」)的一名教師。關(guān)于機器人的美好愿景雖然由來已久,但許華哲并非一開始就專攻機器人學(xué)。從本科到博士后階段,一路上,他的科研方向經(jīng)歷了有跡可循的轉(zhuǎn)變:本科大三去多倫多大學(xué)交換時第一次接觸計算機視覺,到伯克利讀博期間結(jié)合視覺做自動駕駛,最終轉(zhuǎn)向?qū)娀瘜W(xué)習(xí)應(yīng)用于機器人學(xué)。每一次轉(zhuǎn)變,許華哲都越來越接近他所追求的通用人工智能和通用機器人。2012年,許華哲從東北師大附中畢業(yè),通過物理競賽保送到清華大學(xué)電子工程系,就讀電子信息科學(xué)與技術(shù)專業(yè)。圖注:本科入學(xué)前的許華哲
當(dāng)時,清華大學(xué)的物理系、電子系和建筑系是物理競賽保送生的三大熱門去向,許華哲基于自己的學(xué)科興趣選擇了電子系。他解釋說:「我當(dāng)時的想法比較稚嫩,就覺得電子系離新一代的IT技術(shù)很近?!苟?,在高中時期,他就了解到清華對電子系開設(shè)了很多偏重物理的課程,其他相關(guān)院系(如信息科學(xué)技術(shù)學(xué)院)則沒有這樣的課程設(shè)置。因此,對于擅長物理的許華哲來說,電子系無疑是最好的選擇。從東北的長春來到「帝都」北京,雖然未來的方向尚不明朗,但許華哲內(nèi)心隱隱感到,在清華這樣一個廣闊的天地,他將大有作為。「其實我并沒有想到我一定要做什么,或者我一定要解決一個什么樣的問題,但我有一個大致明確的主線,就是希望以后可以讀一個博士?!乖S華哲這樣回憶他初入清華時的心態(tài)。這樣的期許也來源于周圍清華人對他的感染。清華從來不乏在各個領(lǐng)域發(fā)光發(fā)熱的個體:天資聰穎的驕子,勤奮努力的追趕者,玩轉(zhuǎn)社團與實踐的達人......在這樣一種包容參差、鼓勵多樣的環(huán)境里,許華哲選擇了一種「玩得開心」但也始終向前的道路:加入藝術(shù)團鍵盤隊繼續(xù)發(fā)展對音樂的愛好,與學(xué)生會的伙伴一起策劃活動,跟同學(xué)一起熬夜趕作業(yè),和好朋友一起去玩耍吃烤串,等等。而對于一位被錄取到頂尖學(xué)府的保送生,優(yōu)秀必然已經(jīng)成為一種習(xí)慣。所以,看似松弛的狀態(tài),也并沒有耽誤許華哲在學(xué)習(xí)上窮追猛打、將課程績點排到年級前2%。雖然不及他口中那位期末期間邊打游戲邊復(fù)習(xí)、最終還能考到年級第一的室友,但他自己在學(xué)業(yè)上也并不遜色太多。圖注:許華哲在清華
至于科研,許華哲回憶,在清華時,他只是在通信研究所的實驗室跟隨老師做過一段時間的科研。他坦言,由于課業(yè)壓力較大,加上課外活動所占去的精力,「科研自然就做不動了」。直到大三上學(xué)期,許華哲去多倫多大學(xué)交換,才開始科研上的更多探索。在那里,他第一次接觸到計算機視覺,并進一步體會到做科研的樂趣。
2014年秋,許華哲赴加拿大多倫多大學(xué)進行一個學(xué)期的交換與學(xué)習(xí)生活。在那里,他修讀了電子與計算機工程系的四門課程:計算機視覺、數(shù)字信號處理、隨機過程和操作系統(tǒng),其中,「計算機視覺」這門課的描述尤其吸引他,就這樣,他開始了與計算機視覺的初遇。而在此之前,許華哲連「計算機視覺」是什么都不知道。為什么會被計算機視覺這個方向所吸引?這與許華哲自身的個性和科研思維傾向或許是分不開的。在他看來,相比于其他研究方向,計算機視覺研究所產(chǎn)出的結(jié)果是很直觀的,比如,用視覺可以將一幢樓的窗戶清晰地分割、檢測出來,這其中的實現(xiàn)過程和結(jié)果呈現(xiàn)都是直接的。這讓直覺型思維的許華哲覺得是一種「好玩的科研」。于是,許華哲興致勃勃地向講授計算機視覺這門課的 Sanja Fidler 教授表明自己想跟她做科研。Sanja Fidler 很認可他的課程表現(xiàn),欣然同意。盡管當(dāng)時他只是一個本科生,但許華哲能夠感受到,Sanja Fidler 完全把他看作是一位「科研工作者」,雙方都很認真、嚴肅地談?wù)撗芯抗ぷ?。在一個做了半年的項目中,許華哲運用深度學(xué)習(xí)讓 AI 模型學(xué)習(xí)人類對于汽車類型(如外形、顏色等)的偏好,從而完成模型對汽車外觀打分的任務(wù)。這個項目成了他在人工智能科研路上邁出的第一步。交換結(jié)束后,許華哲回到了清華。這段短暫的科研經(jīng)歷,雖然與機器人研究并無直接關(guān)聯(lián),卻對他之后選擇科研方向產(chǎn)生了直接的影響。與在計算機視覺方向上尋求直觀性類似,許華哲后來又在自動駕駛、機器人學(xué)方向上看到了更強的直觀性,從而逐漸將興趣轉(zhuǎn)移到了可控制的、運動的智能體上。2016年,許華哲赴美國加州大學(xué)伯克利分校讀博,開始了走向機器人學(xué)的科研探索之路。自動駕駛:自己做自己的導(dǎo)師
在申請加州大學(xué)伯克利分校的博士之前,許華哲先去那里做了三個多月的暑期科研實習(xí),他當(dāng)時實習(xí)的組正是后來他讀博所在的組。
圖注:許華哲在伯克利做暑期科研實習(xí)大三結(jié)束那年的暑假,在 Sanja Fidler 的舉薦下,許華哲去了伯克利實習(xí)。期間,他與在伯克利讀博的胡戎航師兄、Trevor Darrell教授等人合作,完成了一篇視覺-語言(vision-language)方向的論文(“Natural Language Object Retrieval”)。這項工作旨在解決自然語言對象檢索的任務(wù),通過基于對象的自然語言查詢來定位一個目標對象。論文后來被 CVPR 2016 錄取為 Oral Paper。
論文地址:https://arxiv.org/pdf/1511.04164.pdf暑期實習(xí)結(jié)束后,許華哲開始著手申請博士項目。他希望能留在伯克利繼續(xù)讀博,但對于Darrell教授是否滿意自己在實習(xí)期間的表現(xiàn),他心里是沒有底的。每年去伯克利進行暑期實習(xí)的學(xué)生都不勝枚舉,而博士申請存在競爭和不確定性,所以,除了伯克利,許華哲也申請了其他幾所學(xué)校。不過,最終還是如人所愿,他收到了伯克利的錄取通知,便決定繼續(xù)留在 Darrell 的組里攻讀博士。談起自己的博士導(dǎo)師,許華哲認為自己很幸運:「我的導(dǎo)師在指導(dǎo)學(xué)生方面非常寬松,對我們的研究方向不加任何限制。他覺得,只要我做的事情是自己真正感興趣的,我就可以去做,他會全力支持我?!?/span>Darrell 非常鼓勵許華哲去自由地探索。在他對科研方向感到迷茫的時候,Darrell 會對他說:「你可以都試試?!够蛘呤?,「你覺得什么研究做出來會很好玩、很酷,你就去做什么研究,不用去想什么研究能給你帶來更多的收益?!?/span>導(dǎo)師的這種指導(dǎo)風(fēng)格促使他在博士初期選擇了「離經(jīng)叛道」的科研方向。入學(xué)后,他做的第一個項目是自動駕駛方向,而這個方向無論是對于許華哲還是 Trevor Darrell 來說,都是一個新領(lǐng)域。Darrell 主要研究計算機視覺,當(dāng)時組里在做的課題主要是域遷移與視覺-語言(vision-language)。原本,許華哲可以跟隨導(dǎo)師專攻這兩個方向,但導(dǎo)師建議他去嘗試自動駕駛。2016年,自動駕駛?cè)缛罩刑?。產(chǎn)業(yè)界摩拳擦掌,紛紛入局。在美國,通用汽車以10億美元的價格收購了Cruise;在德國,Uber與戴姆勒汽車集團開始在自動駕駛領(lǐng)域展開合作;中國的滴滴也開始組建自動駕駛公司。在學(xué)術(shù)界,各個實驗室也開始積極投入研究,想要在自動駕駛領(lǐng)域中開拓和占領(lǐng)一席之地。在這樣的背景下,此前對自動駕駛并沒有予以太多關(guān)注的 Darrell,也產(chǎn)生了新開一個自動駕駛研究方向的想法,而這個「開新坑」的任務(wù)落到了許華哲身上。許華哲也不推脫,話不多說,就開始了自動駕駛方向的探索。由于 Darrell 在該領(lǐng)域沒有太多可傳授的經(jīng)驗,所以在大多數(shù)時候,許華哲是自己給自己當(dāng)「導(dǎo)師」,而 Darrell 則從視覺的角度給他提供了很多技術(shù)上的幫助。許華哲的嘗試很快得到了回報。當(dāng)時還是一年級博士生的他,與博士導(dǎo)師、師兄高陽和博士后研究員Fisher Yu等人合作,完成了一個自動駕駛項目,并以第一作者的身份發(fā)表了論文(“End-to-end Learning of Driving Models from Large-scale Video Datasets”),被錄取為2017 CVPR Oral 論文。
論文地址:https://arxiv.org/pdf/1612.01079.pdf這項工作探索了如何從視覺的角度通過深度學(xué)習(xí)來實現(xiàn)自動駕駛。以往的深度學(xué)習(xí)方法受到數(shù)據(jù)量的限制,局限于固定場景和模擬環(huán)境。為了解決這個問題,許華哲與團隊介紹了一個不依賴執(zhí)行機構(gòu)的自動駕駛通用模型,采用端到端的訓(xùn)練方式,從大規(guī)模眾包視頻數(shù)據(jù)中學(xué)習(xí),實現(xiàn)了更好的泛化性能。而且,他們還公布了當(dāng)時市面上時長最長、場景最豐富的自動駕駛數(shù)據(jù)集BDDV(Berkeley DeepDrive Video dataset)。
圖注:博一年級的許華哲在CVPR上作報告將計算機視覺與自動駕駛相結(jié)合的研究,讓許華哲離機器人學(xué)更近了一步。相比于純靜態(tài)的視覺研究,許華哲更傾心于動態(tài)的智能體,比如可以無人駕駛的智能汽車和運動的機器人。從強化學(xué)習(xí)出發(fā)研究機器人
那么,如何做機器人?如何實現(xiàn)讓一個機器人去感知周遭世界的信息,并像人類一樣去實施決策和控制?許華哲選擇了深度強化學(xué)習(xí)這條路線:在機器人學(xué)的模擬器里做強化學(xué)習(xí)算法的開發(fā),控制機器狗、機械臂和機械手等智能體去完成一系列任務(wù)。他篤信,在一些傳統(tǒng)機器人學(xué)無法解決的任務(wù)難題上,強化學(xué)習(xí)大有用武之地。傳統(tǒng)的機器人學(xué)發(fā)展多年,已經(jīng)取得了令人矚目的成果。例如,經(jīng)常能在公眾視野中收割一大波粉絲的波士頓動力機器狗,在每一次「進化」中都能獲得令人意想不到的酷炫新技能。但是,愿景有余,落地不足,這仍是機器人領(lǐng)域的一大挑戰(zhàn)。把一臺計算機的棋藝調(diào)教到世界第一的水平是容易的,但要教會一個機器人從一堆碎石爛瓦中穿行而不跌倒,卻要困難得多,因為在這兩類任務(wù)中,機器所需的「智力水平」與人類正相反。在那些看似簡單、實際卻很復(fù)雜的任務(wù)中,傳統(tǒng)的方法難以派上用場。比如,在系鞋帶這個任務(wù)中,如果用傳統(tǒng)的方法,在鞋帶上的每一處都安裝控制器、從而使其對機器人來說可移動,這顯然是不現(xiàn)實的。系鞋帶這樣的任務(wù)需要一種「欠驅(qū)動機器人」(Underactuated Robotics)系統(tǒng)才能實現(xiàn)。許華哲認為,強化學(xué)習(xí)具有解決這類問題的潛力。強化學(xué)習(xí)的優(yōu)勢在于,它本質(zhì)上是一個通過不斷嘗試犯錯、從而獲得反饋的搜索過程,在這個過程中,它很有可能會搜索到一些傳統(tǒng)方法根本想象不到的解決方案。在攻讀博士的大部分時間以及博士后研究期間,許華哲都在專攻將強化學(xué)習(xí)應(yīng)用于機器人學(xué)的研究。當(dāng)他在這條賽道上真的跑出一些較為滿意的成績后,他更加相信和看好強化學(xué)習(xí)這一方法論的未來前景。事實上,目前強化學(xué)習(xí)并未被大規(guī)模地運用于各種機器人任務(wù)當(dāng)中。這其中最大的「攔路虎」是什么?許華哲的回答是:數(shù)據(jù)復(fù)雜度。通常來說,為了學(xué)到一個好的策略,強化學(xué)習(xí)需要進行大規(guī)模的試錯,這就要求要有非常大的數(shù)據(jù)量。這是由強化學(xué)習(xí)算法的本質(zhì)所決定的。解決這個問題的關(guān)鍵在于提高對數(shù)據(jù)的利用率,方法無非有兩個:「開源」和「節(jié)流」。許華哲在自己的研究中采用了三種路徑來解決數(shù)據(jù)復(fù)雜度的問題:模擬器(simulator)、基于模型的強化學(xué)習(xí)(MBRL)和離線強化學(xué)習(xí)(Offline RL)。前兩者屬于開源,后者則屬于節(jié)流。對數(shù)據(jù)量的需求在計算機模擬器里比較容易實現(xiàn)。在真實世界中,機器人是以客觀物理時間而運行的,所以無法采用一些方式去加速,而計算機能夠以很快的速度去運行模擬器。而且,物理模擬器能夠為機器人提供一個安全且廉價的虛擬操場,讓機器人在其中利用相關(guān)技術(shù)習(xí)得物理技能,然后轉(zhuǎn)移到真實世界中去。在一個四足機器人的項目中,許華哲團隊就利用了這種Sim-to-Real(從模擬到現(xiàn)實)的方法,通過強化學(xué)習(xí)的手段,在模擬器中對機械狗做大規(guī)模的訓(xùn)練和域隨機化,然后將它從模擬環(huán)境轉(zhuǎn)移到真實世界中去做測試。圖注:機械狗在室外行走、避障
由于機械狗可以在模擬環(huán)境中預(yù)先熟悉各種地形,所以能夠適應(yīng)更富有挑戰(zhàn)性的真實環(huán)境。比如,當(dāng)?shù)匦螐牟莸剞D(zhuǎn)換為山地時,這只機械狗并不會「慌張」,因為它已經(jīng)被提前訓(xùn)練地很擅長應(yīng)對地形變化,所以在山地也能「如履平地」地跑步和避障。這篇論文被ICLR 2022接收。
論文地址:https://arxiv.org/pdf/2107.03996.pdf不過,這種學(xué)習(xí)方式對模擬器的要求非常高,由于模擬環(huán)境并不能完全匹配真實世界,在模擬環(huán)境中訓(xùn)練的控制策略可能會在真實硬件上遭遇測試失敗。所以,許華哲認為,模擬器做得越真實越好,無論是視覺上(看起來)還是物理運動規(guī)律上(感覺起來),如果模擬環(huán)境都能做得很逼近現(xiàn)實,那么強化學(xué)習(xí)就有可能從模擬器走到現(xiàn)實世界。在做強化學(xué)習(xí)的時候,我們還可以讓智能體從預(yù)先采集好的數(shù)據(jù)中去學(xué)習(xí)策略,而不一定要與真實世界進行實時交互,這便是「離線強化學(xué)習(xí)」。離線強化學(xué)習(xí)具有降低成本的優(yōu)點,還可避免在線學(xué)習(xí)的高風(fēng)險性。在博士后研究期間,許華哲與潘玲(姚班博士生)、黃隆波(姚班副教授)、馬騰宇(斯坦福助理教授、姚班校友,也是許華哲高中時的學(xué)長)等人,合作了一個多智能體場景中的離線強化學(xué)習(xí)項目。他們提出了一種OMAR方法(Offline Multi-Agent RL with Actor Rectification),在多智能體的控制任務(wù)中獲得了較高的性能。就在前幾天,這篇論文剛被ICML2022接收。
論文地址:https://arxiv.org/pdf/2111.11188.pdf除了以上兩種方案,許華哲還對基于模型的強化學(xué)習(xí)(MBRL)特別感興趣。強化學(xué)習(xí)算法與之交互的對象并不一定是真正的機器人。如果我們使用一個神經(jīng)網(wǎng)絡(luò)去學(xué)習(xí)一個機器人的動力學(xué)模型,然后讓算法與動力學(xué)模型的神經(jīng)網(wǎng)絡(luò)交互,我們就可以把跟現(xiàn)實世界交互的過程變成跟神經(jīng)網(wǎng)絡(luò)交互的過程。不必用海量的數(shù)據(jù)與現(xiàn)實世界交互,但可以達到同樣水平的策略學(xué)習(xí)效果,這就是MBRL的優(yōu)勢所在。數(shù)據(jù)復(fù)雜度問題的解決,是許華哲過去、現(xiàn)在與未來的主要研究方向之一,也是他實現(xiàn)機器人應(yīng)用夢想的一個關(guān)鍵。他向AI科技評論表示,事實上,三種強化學(xué)習(xí)路徑中的每一種都很難單獨地完全解決數(shù)據(jù)復(fù)雜度問題,所以,在將來,把它們結(jié)合起來或許會帶來比較大的突破。另外,這三種方法也并非僅僅是為了解決數(shù)據(jù)復(fù)雜度的問題,它們也有助于其他問題的解決。比如,MBRL 本質(zhì)上就帶有泛化性,因為有了一個世界的模型,就可以利用該模型去泛化到不同的任務(wù)上。再比如,Offline RL也可以通過學(xué)到一個良好的初始值來幫助在線強化學(xué)習(xí)。此外,如果模擬器做得足夠好,那么它也有助于做領(lǐng)域隨機化。「這些方法的努力方向本質(zhì)上是一樣的,就是希望在真實世界中落地。這是我的理解,可能是有偏見的,但是我比較相信這個方向?!乖S華哲談道。強化學(xué)習(xí)的另一項關(guān)鍵挑戰(zhàn)是泛化性。目前的一個普遍情況是,無論是傳統(tǒng)算法、還是基于學(xué)習(xí)的算法,經(jīng)過訓(xùn)練的機器人往往只能「理解」那些已經(jīng)見過的東西,面對陌生的物體則會束手無策。這就要求機器人具有更好的泛化性能。在這個問題上,許華哲有自己的觀察與見解,他也正在試圖去解決這個難題。在機器人學(xué)或者強化學(xué)習(xí)中,泛化能力是指一個訓(xùn)練好的決策智能體可以應(yīng)對各種未經(jīng)訓(xùn)練的情況。泛化包括視覺上的泛化和結(jié)構(gòu)上的泛化,視覺泛化是指學(xué)習(xí)可以泛化到未預(yù)先見過的環(huán)境的策略,比如說,如果一個機器人可以在你家廚房里大展廚藝,那么當(dāng)你的朋友把它借走,它也應(yīng)該能夠在朋友家的廚房里保持它做飯的水準,盡管在它的「眼」里,廚房的地面、墻壁和櫥柜的顏色都發(fā)生了變化。在被 IJCAI 2022 接收的一篇論文中,許華哲與來自清華、港大的研究人員合作,通過一種新的數(shù)據(jù)增強方法TLDA(Task-aware Lipschitz Data Augmentation),改善了數(shù)據(jù)增強技術(shù)在對圖像進行微小改動時可能導(dǎo)致的不穩(wěn)定性,從而提高了視覺強化學(xué)習(xí)中數(shù)據(jù)增強技術(shù)的泛化能力。
論文地址:https://arxiv.org/pdf/2202.09982.pdf再說回那個被朋友借走的機器人,如果你家廚房的布局和朋友家廚房的布局截然不同,機器人能理解和應(yīng)對這種變化嗎?一個勺子的擺放朝向都有可能難倒機器人,它也許會「困惑」:上一次我見到的勺子是豎著放的,現(xiàn)在它卻橫躺在這里,我要怎么把它拿起來呢?而在實際生活中,除了極端的強迫癥,誰也不會本末倒置地為了「遷就」機器人,而每次都保持所有鍋碗瓢盆的擺放位置和朝向不變。這里涉及的難題便是結(jié)構(gòu)泛化。在許華哲看來,結(jié)構(gòu)上的泛化問題最為棘手:「究竟該如何解決,我還沒有一個完善的想法,但是我們在嘗試兩個事情?!?/span>其一,他們嘗試使用預(yù)訓(xùn)練(Pre-training)的方法,直接從一些大的數(shù)據(jù)集中學(xué)習(xí)。不過,這種思路并不能直接解決結(jié)構(gòu)泛化的問題,而只是期望在學(xué)習(xí)過程中能碰巧學(xué)到一些有助于解決問題的知識。許華哲與他的團隊在做的另一件事情,則是結(jié)合3D視覺讓機器人去學(xué)習(xí)物體的旋轉(zhuǎn)不變性。無論勺子的放置朝向如何變化,機器人都不會被「迷惑」。「這可能是我們在解決結(jié)構(gòu)泛化問題上的一個小小嘗試,不算完全解決這個任務(wù),但是在朝著這個方向前進。」許華哲解釋。泛化所涉及的另一種情況是組合性(compositional)泛化。舉個例子,你的廚房機器人正在學(xué)習(xí)做兩道不同的菜,第一道菜的菜譜里有15個步驟,第二道菜有10個步驟,機器人分別學(xué)會這兩道菜后,發(fā)現(xiàn)每道菜的其中三個步驟是重合的,如:1)將雞蛋打散,放入適量的鹽;2)往鍋里倒入適量油;3)油熱后倒入雞蛋,翻炒至熟,出鍋。于是,機器人就額外學(xué)會了第三道菜的做法:炒雞蛋。類似這種局部任務(wù)具有共通性的情況,就可以做組合性泛化,這也是許華哲目前正在解決的問題之一。盡管對于目前機器人學(xué)中的很多問題,強化學(xué)習(xí)都還無法提供完美的解決方案,但強化學(xué)習(xí)在真實世界中的初步亮相,已經(jīng)顯示出其在未來解決復(fù)雜問題的潛力。許華哲對這一點抱有很大的信心:「只要我們繼續(xù)深入做下去,強化學(xué)習(xí)在其他更難的問題上會產(chǎn)生更多有趣的結(jié)果?!?/span>在斯坦福視覺和學(xué)習(xí)實驗室做博士后的一年,許華哲明顯感到自己在科研上的目標更加清晰。在這里,他更多地體會到了大家一起合作、彼此互助的科研氛圍。合作導(dǎo)師吳佳俊在3D視覺方面給他提供了許多幫助,他也在與其他博士后研究員展開多模態(tài)機器人方面的合作,組里還有一些具有優(yōu)秀的機器人學(xué)背景的博士生,他也能從他們那里學(xué)到許多新知識。許華哲談道,這不僅是科研漸入深處的自然結(jié)果,也是因為他很早就已經(jīng)簽了清華叉院的教職:「在博士后的時候,我就知道以后要回到國內(nèi)任教,所以我自己更加明確以后想要做什么,或者說我未來的組想要做什么?!?/span>圖注:許華哲在(virtual)博士畢業(yè)典禮上
2021年博士畢業(yè)后,除了清華,許華哲還申請來其他幾所亞洲學(xué)校的教職。不過,在面試完清華的三周后,他就收到了offer。沒有太多的猶豫,他就直接選擇了清華,終止了其他正在面試流程中的學(xué)校。在被問及為什么毫不猶豫地選擇回到清華時,許華哲感慨道:「清華當(dāng)然是我的第一選擇,因為清華是我的母校,我也是從清華開始接觸到外面更廣闊的世界,看到原來還有這么多人在做一流的研究,這么多人在選擇創(chuàng)業(yè),這么多人把社團活動搞得這么好。所以我覺得我對清華確實是有特殊的感情的。」另一方面,對于一個科研工作者來說,清華叉院能給許華哲提供一個理想的科研環(huán)境。許華哲在伯克利的幾位師兄,如高陽、吳翼、陳建宇,目前都在叉院任教。在跟他們的交流中,許華哲了解到叉院的整體科研氛圍非常好,年輕的老師可以擁有比較獨立的科研空間,去做自己真正感興趣的研究,而不被施以太多的限制。制度相對自由和寬松的叉院,也支持了許華哲延遲一年入職去斯坦福做博士后的決定。談及回到叉院以后的科研規(guī)劃,許華哲的答案仍然是圍繞著他關(guān)于機器人應(yīng)用的暢想而展開:「我在應(yīng)用方面的一個整體目標就是希望讓機器人真正為我們做一些復(fù)雜的事情,比如說,為我們做四菜一湯、刷盤子、疊衣服,等等?!?/span>為了實現(xiàn)這一目標,許華哲將從算法、感知和表征層面繼續(xù)他的科研工作。具體而言,算法方面的挑戰(zhàn)在于,如何把強化學(xué)習(xí)算法應(yīng)用到機器人學(xué)上,而其中,基于模型的強化學(xué)習(xí)和基于視覺的強化學(xué)習(xí)都是許華哲未來在算法方面想要努力的方向。在感知層面,許華哲已經(jīng)在嘗試做視覺、聽覺和觸覺的多模態(tài)融合研究。另外,機器人如何表征世界同樣是一個巨大的挑戰(zhàn),這也是許華哲會繼續(xù)關(guān)注的一個問題。同時,許華哲也已經(jīng)開始為自己將來的團隊招納賢才。他對學(xué)生的期待正如當(dāng)初博士導(dǎo)師對他的期待一樣:保持好奇心,探索自己真正想要探索的問題。「我希望我未來的團隊里,每個人擅長的東西不同。如果我教的學(xué)生在某一個維度上比我強,或者至少有比我強的潛力,我覺得我會很開心,因為我可以從他們身上學(xué)到很多東西,而且他們同輩之間也可以互相學(xué)習(xí),比如我擅長vision(視覺),你擅長simulator(模擬器),他擅長RL(強化學(xué)習(xí)),另外一個人可能有一些心理學(xué)或物理學(xué)的背景等等?!?/span>在學(xué)生培養(yǎng)方面,即將成為一名教師的許華哲則抱有這樣的心態(tài):「把他們培養(yǎng)成大腿,然后再抱住他們的大腿」。這是他對教育本質(zhì)的理解。他開玩笑地說:「如果清華的學(xué)生都沒有辦法超過清華老師的上限,人類的發(fā)展不就停滯了嗎?」「我覺得我應(yīng)該算是個『反卷斗士』吧?!?/span>在機器人學(xué)領(lǐng)域懷揣愿景、潛心鉆研的許華哲,一直以來都拒絕過一種「機器人式」的生活。比起「有用」,或許他更傾向過「有趣」的人生。「有趣」不是一個標簽,而是他所身體力行的一種生活哲學(xué):做有趣的科研,體驗有趣的生活,保持有趣的愛好,對抗這個內(nèi)卷加劇的社會。在科研上,成為一個「寫paper的機器」并非他想要的狀態(tài)。許華哲回顧,貫穿他科研之路的,一直都是一種「覺得什么東西好玩就做了」的心態(tài)。博士期間,許華哲就曾做過一個很有意思但后來并未發(fā)表出文章的項目:用強化學(xué)習(xí)教機械手去學(xué)習(xí)彈鋼琴。發(fā)論文不是他的核心考量,最重要的是去做自己想做的科研。至于如何選擇科研方向,如何面對科研中的得與失,許華哲有這樣的感悟:「我覺得要做自己感興趣的事。一個方向是冷門還是熱門,這都是不可控的。比如你去看人工智能的發(fā)展歷史,當(dāng)年Hinton做的內(nèi)容也很冷門,當(dāng)時對于神經(jīng)網(wǎng)絡(luò)這樣一個奇怪的東西,大家都覺得沒意思,都不是很相信。他也是在神經(jīng)網(wǎng)絡(luò)真正大火以后才獲得各種榮譽。所以,不要太受別人的影響。即使到最后,我們沒有獲得巨大的成就,但至少在這個過程中,我們在做自己喜歡的事情,而不是浪費時間做別人喜歡的事情、去跟別人比賽。」面對「青椒」的壓力,許華哲的心態(tài)也頗為從容。對他而言,科研本質(zhì)上只是體驗人生的其中一種方式,如果這條路最終行不通,還有很多其他路可以走:去環(huán)游世界,去中學(xué)當(dāng)老師,教學(xué)生搞物理競賽,跟朋友們一起彈彈琴,或者隨便找一個地方開個奶茶店——「我覺得都挺好的」。在他的世界觀里,生活的意義在于「快樂地去對這個世界進行輸入和輸出」,輸入可以是「上課學(xué)習(xí),看風(fēng)景,吃東西」,輸出則是類似于「寫論文,教課,做演出」。科研之外,鋼琴和閱讀或許是他「輸入」最多的事情。許華哲從四歲開始學(xué)琴,鋼琴已經(jīng)陪伴了他二十多年,在伯克利讀博期間,他還修了音樂系的專業(yè)課,把樂理、作曲、配器和指揮都學(xué)了一遍?,F(xiàn)在,即使到了博士后階段,他也在跟著斯坦福音樂系的老師繼續(xù)學(xué)琴。他還從顧城的詩歌中找到靈感,嘗試寫了第一首原創(chuàng)歌曲《攝》(見許華哲主頁http://hxu.rocks/misc.html)。「如果不做學(xué)術(shù),現(xiàn)在可能在做什么?」2018年的時候,AI科技評論曾做過一次新年特別推送,采訪了十幾位AI研究青年,當(dāng)時還在讀博的許華哲對于這個問題的回答是:「現(xiàn)在可能是一個不被理解的蹩腳鋼琴家?!乖诤芏嗳寺爜砘杌栌墓诺錁罚S華哲總是能從中感受到無限的力量。貝多芬是他最喜歡的鋼琴家:「我覺得貝多芬的人生非常硬核,非常彪悍,我最喜歡他的第三首交響樂,是他最初寫給拿破侖的一首交響樂,叫《英雄》,我覺得非常激勵我?!?/span>除了嚴肅音樂,許華哲也喜歡閱讀有趣的文字。對他來說,閱讀是一個豐盈內(nèi)心的途徑和學(xué)習(xí)大家思想的媒介。卡爾維諾、黑塞、劉慈欣、阿西莫夫......那些科學(xué)幻想與哲學(xué)思辨都是他進入和體驗「他世界」的一種門戶。不久前,許華哲在微信朋友圈里發(fā)了一則招生宣傳,并附上這樣一段話:「10年過去,曾經(jīng)的二字班小朋友將作為二字班的老師回到母校任教,十分感謝所有在我讀書,科研期間給予我支持和幫助的親人、師長、好友。希望可以在清華,將我之所學(xué)、所思,以無限地?zé)崆椋糜趩l(fā)更多的同學(xué)去學(xué)習(xí)知識,探索真理。我也會時刻反思自己,學(xué)問是否足夠,德行是否可為人師表,希望自己也可以在清華的土壤里行健不息,繼續(xù)成長?!?/span>從清華學(xué)子到清華教師,在未來的日子里,許華哲將繼續(xù)他對這個世界的輸入與輸出。以下是AI科技評論與許華哲的部分對話節(jié)選:AI科技評論:您怎么看待科幻作家阿西莫夫提出的“機器人三定律”?許華哲:首先我認為這個“三定律”說得很好,很有意思,我自己也很喜歡阿西莫夫的小說,它還是很有價值的。阿西莫夫的粉絲應(yīng)該都知道,除了這個定律,后面還有很多人提出了其他定律。比如阿西莫夫自己就還補充“機器人第零定律”:機器人必須保護人類的整體利益不受傷害,其他三條定律都是在這一前提下才能成立。還有人提出“繁殖定律”:機器人不得參與機器人的設(shè)計和制造,除非新的機器人的行動服從機器人學(xué)定律。但現(xiàn)在的人工智能還完全沒有達到要認真考慮這些定律的水平,好像還為時尚早,我覺得,到了該考慮它們的時候再去考慮也來得及。AI科技評論:之前LeCun談到,自監(jiān)督學(xué)習(xí)跟世界模型相結(jié)合可以實現(xiàn)像人類一樣學(xué)習(xí)推理的人工智能系統(tǒng)。也有一些網(wǎng)友認為自監(jiān)督學(xué)習(xí)其實就是強化學(xué)習(xí)。您是怎么看待這種觀點的?自監(jiān)督學(xué)習(xí)與世界模型未來會用到您的研究當(dāng)中嗎?許華哲:首先,我認為自監(jiān)督學(xué)習(xí)似乎并非就是強化學(xué)習(xí)。自監(jiān)督學(xué)習(xí)還是包含了很多其他任務(wù)的,比如視頻預(yù)測、圖片補全這些都是自監(jiān)督學(xué)習(xí),但它們并不是強化學(xué)習(xí)。我覺得在做強化學(xué)習(xí)的過程中,我們是可以用到自監(jiān)督學(xué)習(xí)來學(xué)習(xí)世界模型或者世界運動規(guī)律,Model Based RL(基于模型的強化學(xué)習(xí))里的 model其實就可以用自監(jiān)督學(xué)習(xí)來完成,所以我覺得二者確實有可結(jié)合的點。但是認為自監(jiān)督學(xué)習(xí)就是強化學(xué)習(xí),可能只是稍微懂一點概念,但并非行家之見。AI科技評論:在結(jié)構(gòu)泛化問題上,您覺得以后會不會去適配機器人的需求來配套智慧家居?畢竟大部分人可能對家具的設(shè)計感要求不高,所以是否可以去適應(yīng)機器人的能力來定制一套家具?這會是解決結(jié)構(gòu)泛化問題的一個方式嗎?許華哲:我的預(yù)測是,在特定場景下可能會,但是在通用的場景比如家居場景下,我認為不會。我其實也做過一點自動駕駛,據(jù)我觀察,自動駕駛剛興起的時候,大家有兩種思路,一種是做算法、做視覺,然后讓車子上路。另一種思路則是說,如果我做不好算法,那我能不能在道路上面做文章,我能不能搞一種自動駕駛專用車道,或者讓紅綠燈跟汽車去做通訊等等。但是現(xiàn)在五六年過去了,看起來還是前一種從算法著手的思路更占主流。所以回到我們剛剛說的機器人場景,我覺得在特定場景比如實驗室里,我們可以把場地建造得,對機器人很友好,來讓機器人更好地發(fā)揮其作用。但是在家居場景中,如果你要讓全中國或全世界人都要為機器人量身打造一套家居設(shè)施,這是很不現(xiàn)實的,第一我覺得它的成本非常高,大家的接受度也未必會很高;第二,我覺得這件事會牽涉巨大的利益,可能誰也不能當(dāng)這個“頭頭兒”,如果有某個公司表示要負責(zé)搞定這個事情,那不就相當(dāng)于全世界人的房子裝修都由這個公司說了算了嗎?AI科技評論:你們現(xiàn)在是怎么做的多模態(tài)?視覺和聽覺、觸覺是不是要基于不同的技術(shù)?許華哲:在觸覺方面,我們目前使用的是MIT那邊開發(fā)的gelsight sensor,它其實是相當(dāng)于把一個觸覺的信號(一個人工手指摸到某個東西)轉(zhuǎn)換成一個視覺的信號。所以其實在觸覺方面,有很多跟視覺所共享的技術(shù)占領(lǐng),可以把之前視覺上面的一些網(wǎng)絡(luò)結(jié)構(gòu)用在對觸覺的處理上。當(dāng)然,gelsight 遠遠不是最好的觸覺傳感器,因為比如說,我們的皮膚除了能摸到物體上面的凸起,我們還能通過感受熱的流動來感覺到它的材質(zhì),以及我們還會聽到接觸物體時產(chǎn)生的聲音等等,這些都會給我們帶來更接近人類的觸覺感知。我覺得未來的傳感器要想變得更好或者更接近的人類,甚至超越人類,肯定就需要更新的算法來解決其他模態(tài)。但目前來說,比如gelsight 這種技術(shù),可能更多的還是仿照視覺的處理流程去做觸覺。AI科技評論:要實現(xiàn)通用的機器人,是否要先實現(xiàn)通用的人工智能?許華哲:我覺得未必是這樣的一種先后關(guān)系。我們看科學(xué)史就會發(fā)現(xiàn),好像并不存在把一種理論做得足夠完善后再去實現(xiàn)它的各種應(yīng)用這種情況。更多的是你先有一個應(yīng)用方面的目標,然后你再去思考你的理論有哪里還可以再改進,從而使其幫助你達成在應(yīng)用上的目標。比如,人們曾在戰(zhàn)爭期間搞出一些通訊方面的成果,后來手機出現(xiàn)了。我更相信需求驅(qū)動的方式,這就是說,我們先產(chǎn)生機器人幫我們做事情的需要,然后會有很多聰明的頭腦來做研究,人工智能的發(fā)展線路可能就會因此而變得明確,即我們究竟要怎么樣才能創(chuàng)建一種有用的人工智能,這是我的一些拙見。作者注:AI人物故事與研究報道,請?zhí)砑游⑿牛?02703941)。
推薦閱讀

雷峰網(wǎng)(公眾號:雷峰網(wǎng))雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。