
列舉從信息學(xué)競賽(OI)或清華計(jì)算機(jī)系走出來的牛人,人們總會提到鬲融的名字。
這位來自河北唐山的青年,因2004年與樓天城、胡偉棟、栗師代表中國參加第 16 屆國際信息學(xué)競賽(IOI)、全面奪金而一舉成名,保送清華后又在臥虎藏龍的計(jì)算機(jī)系留下三項(xiàng)至今無人打破的紀(jì)錄:17科滿分、學(xué)分積三年排名第一、計(jì)算機(jī)系歷史最高GPA。
當(dāng)你以為他只是一位競賽強(qiáng)人時(shí),他向你展示了在文化綜合科上的實(shí)力;當(dāng)你以為他只是“兩耳不聞窗外事,一心只讀圣賢書”的學(xué)霸時(shí),他又在離開清華多年后捧回在理論研究上的拔群戰(zhàn)績:NIPS 2016 最佳學(xué)生論文獎(jiǎng)、素有“諾貝爾風(fēng)向標(biāo)”之稱的斯隆研究獎(jiǎng)…
然而,關(guān)于鬲融的傳說,大多還是集中在早期的競賽與清華姚班的學(xué)習(xí)上。相比之下,他去普林斯頓讀博、從事理論研究的經(jīng)歷則鮮為人知。
作為“光環(huán)學(xué)生”,鬲融的一言一行被寄予厚望。但是,在與鬲融的對話中,我們發(fā)現(xiàn),這位昔日的 IOI 戰(zhàn)神、清華本科特等獎(jiǎng)獲得者在科研上并非一帆風(fēng)順。剛?cè)腴T時(shí),他也不知道該如何做科研,也是經(jīng)過一番自我覺醒,才明白了其中的門路。
與競賽、考試相比,鬲融在科研上屬于“大器晚成”:讀博前三年,他在近似算法研究上探索無果,無奈轉(zhuǎn)向機(jī)器學(xué)習(xí)理論研究,最后兩年才發(fā)了頂會文章。到2019年憑借非凸優(yōu)化的研究貢獻(xiàn)獲得斯隆研究獎(jiǎng)時(shí),他已是杜克大學(xué)計(jì)算機(jī)系的一名“青椒”。
2008年,鬲融從清華大學(xué)本科畢業(yè),隨后赴普林斯頓大學(xué)讀博、微軟研究院新英格蘭分部擔(dān)任博士后,2015年進(jìn)入杜克大學(xué)擔(dān)任教職。從姚班開始立志做理論研究,到成為機(jī)器學(xué)習(xí)理論研究方向小有名氣的青年學(xué)者,鬲融用了近 10 年。
那么,鬲融離開清華后的成長歷程是怎樣的?今天,我們只談鬲融與理論研究之間的故事。
作者 | 陳彩嫻
在清華計(jì)算機(jī)系 4 字班(2004級)中,最出名的當(dāng)數(shù)信息學(xué)競賽圈無人不知的樓天城“樓教主”,百度曾經(jīng)最年輕的 T10 級員工,后來又率先創(chuàng)立了國內(nèi)知名的自動(dòng)駕駛公司小馬智行(Pony.ai)。許多人最初知道鬲融,是借樓教主的名聲,因?yàn)樵跇墙讨鞯囊欢屋W事里,鬲融曾作為一個(gè)“配角”的身份出現(xiàn):當(dāng)時(shí),樓教主的高中信息學(xué)競賽教練李建江一直認(rèn)為樓教主是天才型學(xué)生,心中引以為豪,每次去北京出差,只要有時(shí)間就會順路去清華看望這位得意門生。結(jié)果到了清華,與老師、同學(xué)交流,李教練發(fā)現(xiàn),自己的學(xué)生在計(jì)算機(jī)系最多只能排到第二名,因?yàn)闃墙讨鞯耐嗤瑢W(xué)鬲融常年排名全年級第一。他還舉例:每次夜晚 9 點(diǎn)去清華的計(jì)算機(jī)系宿舍,鬲融肯定在,而樓教主還在教室用功。他因此感嘆,相比鬲融,樓教主是地道的勤奮型選手。在與AI科技評論的對話中,鬲融首次回應(yīng)了這段傳聞:“哈哈其實(shí)是因?yàn)楫?dāng)時(shí)我們宿舍有空調(diào),所以就不用去教室學(xué)習(xí),樓天城他們宿舍沒有空調(diào),他只能去教室學(xué)習(xí)?!?/span>
圖注:2007年,鬲融(中間)與樓天城(最左)、胡偉棟(最右)在日本參加ACM/ICPC,獲得亞洲賽區(qū)冠軍、全球第二名
樓天城的天賦與能力毋庸置疑,但相形之下,鬲融的實(shí)力也可見一斑。然而,在理論研究領(lǐng)域深耕多年后,回頭再看在清華讀本科時(shí)的成績與排名,鬲融只是一笑置之,稱自己不過是有一點(diǎn)“考試的天賦”:我就是在做一些不是特別難的題時(shí)可以做得很快,也不太會出錯(cuò)。考試可能比較有用,但是(這項(xiàng)能力)后來到了研究上面就沒有什么用了。研究的題比考試難,有些人可能考試時(shí)會在一些簡單的題目上卡住,但在做研究的難題時(shí)就會做得很快。
鬲融與樓教主曾經(jīng)是2004年一起參加 IOI 的戰(zhàn)友,上了清華后又曾兩次組隊(duì)參加編程競賽(兩岸清華編程比賽與ACM/ICPC)。但是,與業(yè)余時(shí)間還愛“玩玩競賽題”的樓教主相比,鬲融并不“戀戰(zhàn)”,參加完2007年ACM/ICPC后便徹底告別了競賽圈,因?yàn)槟且荒?,他找到了下一個(gè)人生目標(biāo):理論計(jì)算機(jī)研究。當(dāng)時(shí),鬲融剛加入姚班不久。在姚期智、陳衛(wèi)、孫曉明等人的引導(dǎo)下,尤其是姚期智親自講授《理論計(jì)算機(jī)》課程,鬲融迷上了理論研究,立志走學(xué)術(shù)研究道路,將科研作為畢生之所向。但是,與競賽、做題相比,鬲融的科研“天賦”似乎略微遜色。比如,讀博前期,鬲融在近似算法(Approximation Algorithm)的研究課題上苦苦折騰了三年,也沒有找到正確的方向,最后只能無奈放棄。2008年,在姚先生的建議下,鬲融去了普林斯頓大學(xué)(計(jì)算機(jī)理論研究排名全美前5)讀博。普林斯頓的計(jì)算機(jī)系每年只招收大約 20 名學(xué)生。在鬲融那一屆,除了他,還有 3 名中國學(xué)生被錄取,包括鬲融昔日的 IOI 戰(zhàn)友栗師(現(xiàn)任紐約州立大學(xué)布法羅分校計(jì)算機(jī)系副教授)。清華姚班出來的學(xué)生對研究往往有一種使命感, 比如,引領(lǐng)一個(gè)領(lǐng)域的新潮流,或解決一道歷史上懸難已久的問題。年少的鬲融起初對學(xué)術(shù)研究也是這樣一種想法:“世界上有那么多猜想與沒解決的問題,挑一個(gè)去做就是了。”近似算法的研究歷史可以追溯到18世紀(jì)中期歐拉(L.Euler)研究的騎士環(huán)游問題,目標(biāo)是用近似方法在多項(xiàng)式時(shí)間內(nèi)給出盡可能接近最優(yōu)值的解,比如著名的「旅行商問題」(TSP):一個(gè)商品推銷員要去若干個(gè)城市推銷商品,該推銷員從一個(gè)城市出發(fā),需要經(jīng)過所有城市后,回到出發(fā)地,那么,TA 應(yīng)如何選擇行進(jìn)路線,以使總的行程最短?這個(gè)課題很吸引鬲融。但很快,他就感到“出師不利”。近似算法發(fā)展至今,亟待解決的問題是大家都知道的幾個(gè)問題,比如旅行商問題、染色問題、最小分割等。鬲融的工作就是研究如何解決這些問題。但是,雖然有明確的研究方向,他卻總會在各種地方卡住,導(dǎo)致工作無法進(jìn)行下去。至于卡住的原因,鬲融坦言,他到現(xiàn)在也還不是很清楚:可能是對研究的課題不熟悉,也可能是思路不對,各種可能都有。我們當(dāng)時(shí)想做的事情直到現(xiàn)在也還沒有人做出來,所以也有可能是因?yàn)檫x擇的題太難。
三年下來,雖然他在ICALP、ISAAC等理論計(jì)算機(jī)的會議與期刊上發(fā)表了論文,但總體感覺還是困難比較多,所取得的成果也遠(yuǎn)遠(yuǎn)沒有達(dá)到鬲融對自己的要求。回想當(dāng)時(shí)的磕磕絆絆,鬲融分析,做研究無非就是兩方面:一是找到合適的題目,二是把這個(gè)題目做出來。在選擇近似算法時(shí),他對第一步的認(rèn)知只是在“世界上已有的難題”上,直到后來轉(zhuǎn)向機(jī)器學(xué)習(xí)理論研究,才發(fā)現(xiàn):原來學(xué)會自己定義問題,也是一項(xiàng)可貴的研究能力。2. 科研轉(zhuǎn)折點(diǎn)與引路人
轉(zhuǎn)折點(diǎn)發(fā)生在 2012 年。那一年,Hinton與他的學(xué)生Alex在ImageNet比賽中憑借AlexNet遠(yuǎn)超第二名10個(gè)百分點(diǎn),勇奪冠軍,深度學(xué)習(xí)崛起。鬲融的博士導(dǎo)師 Sanjeev Arora敏銳地察覺到機(jī)器學(xué)習(xí)(尤其是深度學(xué)習(xí))在未來的發(fā)展?jié)摿?,開始關(guān)注機(jī)器學(xué)習(xí)。當(dāng)時(shí),鬲融正在近似算法的課題上掙扎,這正好給了他重新選擇的契機(jī)。剛好他本科在微軟亞研實(shí)習(xí)時(shí)也接觸過機(jī)器學(xué)習(xí),對這個(gè)方向也很感興趣,于是就選擇了轉(zhuǎn)向研究機(jī)器學(xué)習(xí)理論。在這里不得不提的一點(diǎn)是,Sanjeev Arora 在鬲融讀博期間對他產(chǎn)生了重要影響,不僅直接引導(dǎo)他走進(jìn)了機(jī)器學(xué)習(xí)研究領(lǐng)域,也塑造了他做科研的方法與態(tài)度。Sanjeev Arora是普林斯頓大學(xué)計(jì)算機(jī)系的Charles C. Fitzmorris教授,以研究概率可檢驗(yàn)證明(尤其是PCP定理)而聞名,1996年獲得斯隆研究獎(jiǎng),2001年與2010年共兩次獲得哥德爾獎(jiǎng)(理論計(jì)算機(jī)領(lǐng)域最高獎(jiǎng)),2012年又獲得西蒙斯研究獎(jiǎng)與福爾克森獎(jiǎng)(離散數(shù)學(xué)領(lǐng)域最高獎(jiǎng)),是理論計(jì)算機(jī)研究領(lǐng)域有名的翹楚。鬲融是 Arora 門下的第一個(gè)中國留學(xué)生。在鬲融來到普林斯頓的前一年(2007年),Arora 與 Satyen Kale(現(xiàn)任谷歌研究科學(xué)家)剛剛用乘法權(quán)更新算法(Multiplicative Weight Update Method)的矩陣版本求解了 SDP,并對一些問題給出了更快的近似算法。MWU 的特點(diǎn)是理論復(fù)雜,但算法簡潔。Arora 在近似算法上“大道至簡”的追求,吸引了鬲融。截至目前,Arora 只帶過 3 名中國學(xué)生,除了鬲融,其余 2 位是馬騰宇與李遠(yuǎn)志,后來都成為了機(jī)器學(xué)習(xí)領(lǐng)域的佼佼者。馬騰宇與李遠(yuǎn)志也是清華大學(xué)的校友,分別在2012年、2013年來到普林斯頓讀博,是鬲融日后的重要研究合作者。馬騰宇畢業(yè)后到斯坦福大學(xué)任教,2021年也憑借在非凸優(yōu)化上的研究成果獲得了斯隆研究獎(jiǎng),而李遠(yuǎn)志畢業(yè)后加入了卡內(nèi)基梅隆大學(xué)機(jī)器學(xué)習(xí)系擔(dān)任助理教授。在鬲融的眼里,Sanjeev Arora是一位各方面都讓人佩服的學(xué)者:在轉(zhuǎn)向機(jī)器學(xué)習(xí)之前,他在近似算法及其復(fù)雜度的研究上已獲得非常出色的成就。很多人可能在某個(gè)方向上做出成果,就會沿著這個(gè)方向繼續(xù)做一輩子,但他是一個(gè)很喜歡研究新東西的人,喜歡挑戰(zhàn)自己,每隔幾年就會換一個(gè)新的方向,然后每個(gè)方向都能取得不錯(cuò)的成就。當(dāng)時(shí)轉(zhuǎn)向機(jī)器學(xué)習(xí)時(shí),他在第一年或第二年就做出了很好的結(jié)果。
也是因?yàn)?Arora 的這項(xiàng)品質(zhì),他在2012年轉(zhuǎn)向機(jī)器學(xué)習(xí)研究時(shí),促使鬲融等人也注意到了機(jī)器學(xué)習(xí),直接改變了鬲融的研究方向。2012年轉(zhuǎn)向機(jī)器學(xué)習(xí)時(shí),鬲融已是一名博“四”生,開始一個(gè)全新的方向需要極大的勇氣。但他二話不說,重新調(diào)整了自己的方向。出乎意料的是,轉(zhuǎn)變方向后,他的研究進(jìn)展異常順利,最后兩年連續(xù)發(fā)表了 8 篇頂會論文,其中理論計(jì)算機(jī)頂會 FOCS 就有 2 篇、STOC 有 1 篇,遠(yuǎn)遠(yuǎn)超過了博士前三年的成果總和。與近似算法不同,機(jī)器學(xué)習(xí)是一個(gè)相對較新的領(lǐng)域,有許多新的問題。從鬲融的角度來看,這時(shí)他的研究問題變成了:如何把一個(gè)實(shí)際的機(jī)器學(xué)習(xí)問題放到理論的框架里討論?在這個(gè)過程中,“自己定義問題”的重要性明顯上升。拿鬲融轉(zhuǎn)向機(jī)器學(xué)習(xí)研究后的第一個(gè)工作舉例。當(dāng)時(shí),鬲融在微軟研究院新英格蘭分部實(shí)習(xí),參與主題建模(Topic Modeling)的研究工作。主題建模被用于對數(shù)據(jù)(網(wǎng)頁、新聞、圖片等等)進(jìn)行自動(dòng)理解與分類,在理論研究上側(cè)重于學(xué)習(xí)模型的參數(shù)。當(dāng)時(shí)的方法大多依賴于奇異值分解(SVD),但SVD方法有兩個(gè)限制:要么假設(shè)每篇文章只包含一個(gè)主題,要么只能恢復(fù)主題向量的范圍,而非主題向量本身。針對 SVD 用于主題建模的局限性,鬲融與 Arora 等人提出了一個(gè)問題:“如果沒有真正的矩陣 AW ,而是從每一列所代表的分布中得到一些樣本(比如 100 個(gè)樣本),怎么辦?”他們假設(shè)并證明了 NMF(非負(fù)矩陣分解)比 SVD 更適用于主題建模,并利用 NMF 獲得了第一個(gè)沒有上述兩個(gè)限制的多項(xiàng)式時(shí)間算法,該算法可以泛化至包含主題與主題相關(guān)的模型,比如相關(guān)主題模型(Correlated Topic Model)與彈珠機(jī)分配模型(Pachinko Allocation Model)。最后,他們的工作(“Learning Topic Models - Going beyond SVD” )發(fā)表在 FOCS 2012 上。這也是鬲融在 FOCS (理論計(jì)算機(jī)方向中稿難度最高的會議之一)上發(fā)表的第一篇論文。地址:https://arxiv.org/abs/1204.1956之后,他又在主題建模的研究上陸續(xù)發(fā)表了幾篇文章,包括被 ICML 2013 錄取的工作“A Practical Algorithm for Topic Modeling with Provable Guarantees ”,在業(yè)內(nèi)引起不小關(guān)注,積累了一點(diǎn)名聲。在理論研究領(lǐng)域摸爬滾打多年后,鬲融發(fā)現(xiàn):重要的問題并不一定是很多年前就有人提出來的,提出問題本身也是一個(gè)重要的研究方向;在做研究時(shí),如果一個(gè)問題進(jìn)展不順,不一定是你的研究技術(shù)不對,也有可能是你提的問題本身就是錯(cuò)的。這也是鬲融在讀博期間的主要收獲:對研究形成了一個(gè)比較完整的認(rèn)知,并學(xué)會了如何選擇一個(gè)適合自己的題目。鬲融能夠“守得云開見月明”的另一個(gè)重要因素是堅(jiān)持。而這一品質(zhì),也主要是受到 Arora 的影響。鬲融回憶,在讀PhD時(shí),他在研究問題上卡住時(shí),雖然會花時(shí)間去想,但經(jīng)常會有一種感覺,就是“這個(gè)想法好像不行,做不下去”,便想放棄。在每周的組會上,他與 Arora 討論卡住的點(diǎn),說不知道該怎么做時(shí),Arora 都會說:“這只是一點(diǎn)困難,你可以換一個(gè)思路,嘗試別的解決方法。”“如果要放棄正在進(jìn)行的方向,就要給出嚴(yán)謹(jǐn)?shù)淖C明,讓 Arora 相信這個(gè)方向確實(shí)做不了。但是,只要沒有證明這個(gè)方向不行,他就不會放棄,會不停地想各種解決辦法?!必谛?/span>容,“在這種精神下,后來我也確實(shí)解決了一些卡住的問題?!?/span>大約是受到 Arora 的鼓舞,鬲融漸漸懂得了堅(jiān)持,面對難題時(shí)也會樂觀許多,更傾向于覺得“這個(gè)課題是可以做的”而不是“這個(gè)想法好像不行”,即使題目暫時(shí)沒有做出來,也不會輕易放棄,而是堅(jiān)持到實(shí)在做不下去的時(shí)候。他感嘆:“如果當(dāng)時(shí)我一說某個(gè)思路有哪些困難、覺得做不下去,Arora 就說我們不做這個(gè)題了,那么現(xiàn)在的結(jié)果肯定會不一樣?!?/span>但是,盡管最后兩年發(fā)表了一些論文,與競賽、本科時(shí)的輝煌成績相比,鬲融的博士生涯還是相對黯淡:沒有大廠獎(jiǎng)學(xué)金,沒有最佳論文。換作旁人,博士期間能在理論計(jì)算機(jī)頂會 FOCS 與 STOC 上發(fā)表3篇工作,已經(jīng)非常了不起,但對這位清華特獎(jiǎng)獲得者來說,總覺得還缺點(diǎn)什么。鬲融在2013年獲得博士學(xué)位。當(dāng)時(shí),他剛剛在機(jī)器學(xué)習(xí)理論的酒席上喝到微醺,意猶未盡,“感覺還有很多事情想做”,于是就決定去之前實(shí)習(xí)的微軟研究院新英格蘭分部做博士后。也是在兩年的博士后期間,鬲融開始了在非凸優(yōu)化(Non-Convex Optimization)方向的研究,為之后獲得斯隆研究獎(jiǎng)打下了基礎(chǔ)。在他還是一名實(shí)習(xí)生時(shí),微軟內(nèi)部就有人在研究用張量分解(Tensor decompositions)做話題建模。他們的技術(shù)非常神奇,就是用兩個(gè)矩陣乘一下,然后做一下對角化就能得出成果,光看論文本身完全不明白為什么這么做會有用。鬲融就很好奇:“為什么張量分解這么厲害?我不知道有什么理由,所以我就想去研究?!?/span>于是,他們嘗試用張量分解來研究話題模型上的參數(shù)問題,發(fā)現(xiàn)張量分解不僅可以用于解釋話題模型的參數(shù)問題,還可以解釋與話題模型類似的機(jī)器學(xué)習(xí)模型的參數(shù)問題。他們的工作“Tensor decompositions for learning latent variable models”最后發(fā)表在了機(jī)器學(xué)習(xí)頂刊 JMLR上。
地址:https://arxiv.org/abs/1210.7559
他們在這方面做了很多工作,也取得了不錯(cuò)的成果,但用鬲融的話說,就是“做多了,也就沒那么有意思了”。所以,到了博士后階段,他就開始尋找新的方向。他從張量分解出發(fā),無意間發(fā)現(xiàn)了一個(gè)新的研究課題,就是非凸優(yōu)化(non-convex optimization)。當(dāng)時(shí),他發(fā)現(xiàn)在張量分解的算法中,比如張量有10個(gè)部分,當(dāng)時(shí)的算法是一個(gè)部分、一個(gè)部分地找,但有時(shí)候,我們會想同時(shí)找出這10個(gè)部分,這時(shí)就需要用到優(yōu)化技術(shù)。那時(shí)大家常用的隨機(jī)梯度下降優(yōu)化方法并不管用,于是他就花了很長時(shí)間研究如何轉(zhuǎn)換一個(gè)目標(biāo)函數(shù),可以使它的效果更好。鬲融回憶:“可能是運(yùn)氣比較好,在尋找、測試目標(biāo)函數(shù)時(shí),我首先找到了一個(gè)目標(biāo)函數(shù),使得這個(gè)優(yōu)化方法可以把所有的張量部分同時(shí)找出來。分析隨機(jī)梯度下降的時(shí)候,我們研究出了一套新的分析方法,后來發(fā)現(xiàn)這套分析方法非常有用,不止對我們研究的張量分解問題有用,對許多其他問題也有用?!?/span>接著,他與袁洋、金馳、黃芙蓉等人沿著這個(gè)方向繼續(xù)研究非凸優(yōu)化的函數(shù)。在許多情況下,非凸函數(shù)的目標(biāo)是找到一個(gè)合理的局部最小值,主要的問題是梯度更新被困在鞍點(diǎn)(saddle points)中。他們嘗試辨析非凸優(yōu)化問題的鞍點(diǎn)性質(zhì)(如果函數(shù)沒有退化的鞍點(diǎn),那么對梯度做輕微的擾動(dòng)就可以逃出鞍點(diǎn)),以進(jìn)行有效優(yōu)化。利用這個(gè)屬性,他們發(fā)現(xiàn)隨機(jī)梯度下降可以在多項(xiàng)式迭代中收斂到局部最小值。這是第一項(xiàng)為在具有多個(gè)局部最小值和鞍點(diǎn)的非凸函數(shù)中的隨機(jī)梯度下降提供全局收斂保證的工作。他們的工作開拓了一個(gè)新的研究方向,其成果“Escaping From Saddle Points --- Online Stochastic Gradient for Tensor Decomposition”被機(jī)器學(xué)習(xí)理論會議 COLT 2015 收錄,吸引了許多人往這個(gè)方向努力,并獲得了許多新的結(jié)果。
地址:https://arxiv.org/abs/1503.02101
這是鬲融沒有想到的:“我感覺還是挺幸運(yùn)的,我從一個(gè)非常特殊的問題出發(fā),但是我們最后得到的結(jié)論是非常廣泛的,研究也受到不少重視?!?/span>這項(xiàng)工作對機(jī)器學(xué)習(xí)理論研究領(lǐng)域的貢獻(xiàn)主要有兩個(gè):一是證明了張量分析中他新提出來的目標(biāo)函數(shù)有一些好的性質(zhì),比如它沒有壞的局部最優(yōu)解,它的鞍點(diǎn)也有一些性質(zhì);二是證明了我們可以用很簡單的算法(如梯度下降)來優(yōu)化所有具備這種性質(zhì)的目標(biāo)函數(shù)。也是憑借這兩個(gè)主要貢獻(xiàn),鬲融在2019年獲得斯隆研究獎(jiǎng)。后來,他又分別在這兩個(gè)貢獻(xiàn)上作了進(jìn)一步的研究。比如,在第一個(gè)貢獻(xiàn)上,他們后來證明更多函數(shù)都具備類似性質(zhì),包括與馬騰宇、Jason Lee等人合作的那篇工作“Matrix Completion has No Supurious Local Minimum”(獲 NIPS 2016 最佳學(xué)生論文)也證明矩陣補(bǔ)全(matrix completion)沒有壞的局部最優(yōu)解。據(jù)說,鬲融與馬騰宇合作的這篇工作從開始構(gòu)思到完成投稿,前后只用了不到兩個(gè)月時(shí)間。那時(shí) COLT 2015 的工作剛發(fā)表不久,可以借鑒一二。鬲融回憶:“當(dāng)時(shí)做的時(shí)候,我們就很有信心,因?yàn)槲覀內(nèi)齻€(gè)人都覺得這個(gè)東西肯定是對的。馬騰宇也很快就有了一些具體的想法,我們按照一些步驟去做,然后挺順利地就做出來了?!?/span>至此,鬲融已成為研究用非凸優(yōu)化尋找最優(yōu)神經(jīng)網(wǎng)絡(luò)參數(shù)的早期開拓者之一。但是,在2019年獲得斯隆研究獎(jiǎng)后,鬲融又像2004年拿到IOI金牌一樣,若無其事地回到了原本的生活軌跡上,做一名安安靜靜做研究的教師。斯隆研究獎(jiǎng)每年表彰一次,在以往的獲獎(jiǎng)人員中,有47人后來獲得諾貝爾獎(jiǎng)、17人獲得菲爾茲數(shù)學(xué)獎(jiǎng)、69位獲得國家科學(xué)獎(jiǎng)、18位獲得約翰貝茨克拉克經(jīng)濟(jì)學(xué)獎(jiǎng)。史上許多著名的科學(xué)家都曾獲得斯隆研究獎(jiǎng),包括物理學(xué)家理查德·費(fèi)曼 ,默里·蓋爾曼,以及博弈論學(xué)家約翰·納什。從2008年清華畢業(yè),到獲得斯隆研究獎(jiǎng),鬲融用了 10 年。在這期間,他在 4 字班的許多同學(xué)(如樓天城、貝小輝)都已早早在新的領(lǐng)域聲名鵲起,但人們談起鬲融,仍只是圍繞競賽與GPA。雖然鬲融在中途沉寂了很長時(shí)間,但在姚班創(chuàng)始人、中國首位圖靈獎(jiǎng)得主姚期智姚先生的心中,他的名字一直是姚班教育的驕傲。在2017年鬲融還沒有獲得斯隆研究獎(jiǎng)時(shí),姚先生談起姚班教育,首先就提到了他的名字:在學(xué)界的,我們有好幾個(gè)做人工智能的學(xué)生,已經(jīng)在大學(xué)任教的有兩個(gè),一個(gè)是在美國的杜克大學(xué),一個(gè)是在美國的斯坦福大學(xué)做教授,他們都從事人工智能理論基礎(chǔ)方面的工作。他們在過去的四五年,在人工智能理論方面已經(jīng)非常非常出色……他們確實(shí)可以說在人工智能領(lǐng)域是先驅(qū),將來一定會在該領(lǐng)域留下非常深刻的痕跡。
其中,在杜克大學(xué)任教的便是鬲融,而在斯坦福任教的則是鬲融的同門師弟馬騰宇。聽聞姚先生的掛念,當(dāng)時(shí)離開清華多年的鬲融心中感觸萬分:“我感覺挺感動(dòng)的,因?yàn)橐Π喑鰜砗芏嗪軓?qiáng)的人,遠(yuǎn)遠(yuǎn)不止我們兩個(gè)?!?/span>圖注:2019年,鬲融回清華交叉信息研究院(即“姚班”)作學(xué)術(shù)報(bào)告
在鬲融的成長路上,姚班的身影其實(shí)從未遠(yuǎn)離。他提到,之前在姚班所學(xué)習(xí)的知識、思路,一開始不知道有什么用,但后來都用上了,甚至后悔“當(dāng)初怎么不多學(xué)點(diǎn)”。而曾經(jīng)的同窗好友雖然選擇了不同的人生方向,“但想到大家跟我一樣都在努力,就覺得蠻開心的。”4. 理論研究的意義
“對我個(gè)人來說,如果我知道一個(gè)算法,但是我不知道它的工作原理,是一件不太高興的事情,所以我自己主要就是因?yàn)楹闷娌胚x擇做機(jī)器學(xué)習(xí)理論研究?!?/span>問及從事理論研究的意義,鬲融這樣談道。而從整個(gè)機(jī)器學(xué)習(xí)領(lǐng)域的發(fā)展來看,理論機(jī)器學(xué)習(xí)的研究主要有兩個(gè)意義:一是如果知道神經(jīng)網(wǎng)絡(luò)算法的工作原理,我們就有希望解決一些問題,比如讓它變得更快,或者用更少的資源;二是可以解決人們關(guān)心的一些實(shí)際問題,比如計(jì)算機(jī)視覺中神經(jīng)網(wǎng)絡(luò)的弱關(guān)性問題,把一張圖片錯(cuò)誤識別為其他圖片。
在深度學(xué)習(xí)時(shí)代,機(jī)器學(xué)習(xí)算法嘗試從文本、圖像等數(shù)據(jù)中自動(dòng)學(xué)習(xí)有用的隱含表示。近年來,鬲融的研究重點(diǎn)是希望通過非凸優(yōu)化與張量分解研究如何設(shè)計(jì)高效的算法找到這些隱含表示,比如神經(jīng)網(wǎng)絡(luò)模型中的超參數(shù)化。目前的一個(gè)觀點(diǎn)是:有了超參數(shù)化后,優(yōu)化會變得簡單。有些工作也得到了同樣的結(jié)果,但還有很多問題是未知的,比如:神經(jīng)網(wǎng)絡(luò)要多大,才能有足夠好的優(yōu)化性質(zhì)?有些觀點(diǎn)認(rèn)為神經(jīng)網(wǎng)絡(luò)要無窮寬,鬲融團(tuán)隊(duì)的研究課題則是:你的神經(jīng)網(wǎng)絡(luò)不需要無窮寬,只要足夠?qū)捑涂梢宰C明一些類似的性質(zhì)。他們最近做了一個(gè)工作(“Guarantees for Tuning the Step Size using a Learning-to-Learn Approach”),從理論角度研究如何通過機(jī)器學(xué)習(xí)方法來設(shè)計(jì)新的優(yōu)化算法,得出了一個(gè)有意思的結(jié)論:對于優(yōu)化問題,如果你用最基本的back-propagation(反向傳播)方法來算,它的梯度可能會算不準(zhǔn),如果用其他的方式算,可能還可以算得更精確一些。在未來,他希望能夠進(jìn)一步了解神經(jīng)網(wǎng)絡(luò)的優(yōu)化性質(zhì),然后,在掌握足夠多的性質(zhì)后,可以設(shè)計(jì)出更好的算法。對于想要從事理論研究的學(xué)生,鬲融的建議是最好先加入一個(gè)研究組去做具體的項(xiàng)目,一是看自己適不適合,二是對機(jī)器學(xué)習(xí)領(lǐng)域的發(fā)展有更具體的了解,日后做研究時(shí)能更好地定義研究問題。作為最早進(jìn)入機(jī)器學(xué)習(xí)領(lǐng)域的研究者之一,鬲融能明顯感覺到近幾年來該領(lǐng)域的飛快發(fā)展,論文投稿數(shù)量呈指數(shù)級增長,給人一種浮躁的感覺。由于很難找到足夠多的、有經(jīng)驗(yàn)的審稿人來支持大規(guī)模的會議投稿,導(dǎo)致會議論文的結(jié)果有些隨機(jī)。面對這一現(xiàn)象,鬲融感嘆他也難有作為,只能對自己和自己的學(xué)生有一個(gè)基本要求,就是投出去的論文至少要達(dá)到自己滿意的標(biāo)準(zhǔn)。隨即,鬲融又說:“雖然我對文章的要求嚴(yán)格,但在擔(dān)任審稿人時(shí),我感覺自己給分還是偏高的。”所謂「取其上者得其中,取其中者得其下」,鬲融在非凸優(yōu)化與張量分解上的研究成就看似偶然,追溯根源,其實(shí)在于他對自己做研究的高要求:對好奇的問題刨根問底,對完成的工作精益求精,耐心、敏銳又謙遜,則成事只在時(shí)日長短。科研前期的艱難探索也許是必經(jīng)之路,即使智如鬲融也不例外。讀博三年還沒有“像樣”的成果?別慌,堅(jiān)持一下,說不定你也能拿斯隆研究獎(jiǎng)。
作者注:人物/采訪、交流、爆料、抬杠,歡迎添加微信(302703941)。

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。