丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能學術(shù) 正文
發(fā)私信給知情人士
發(fā)送

0

鬲融:昔日的 IOI 戰(zhàn)神、清華特獎獲得者,“大器晚成”的科研人

本文作者: 知情人士 2021-06-30 15:55
導語:列舉從信息學競賽(OI)或清華計算機系走出來的牛人,人們總會提到鬲融的名字。
鬲融:昔日的 IOI 戰(zhàn)神、清華特獎獲得者,“大器晚成”的科研人

列舉從信息學競賽(OI)或清華計算機系走出來的牛人,人們總會提到鬲融的名字。


這位來自河北唐山的青年,因2004年與樓天城、胡偉棟、栗師代表中國參加第 16 屆國際信息學競賽(IOI)、全面奪金而一舉成名,保送清華后又在臥虎藏龍的計算機系留下三項至今無人打破的紀錄:17科滿分、學分積三年排名第一、計算機系歷史最高GPA。


當你以為他只是一位競賽強人時,他向你展示了在文化綜合科上的實力;當你以為他只是“兩耳不聞窗外事,一心只讀圣賢書”的學霸時,他又在離開清華多年后捧回在理論研究上的拔群戰(zhàn)績:NIPS 2016 最佳學生論文獎、素有“諾貝爾風向標”之稱的斯隆研究獎…


然而,關于鬲融的傳說,大多還是集中在早期的競賽與清華姚班的學習上。相比之下,他去普林斯頓讀博、從事理論研究的經(jīng)歷則鮮為人知。


作為“光環(huán)學生”,鬲融的一言一行被寄予厚望。但是,在與鬲融的對話中,我們發(fā)現(xiàn),這位昔日的 IOI 戰(zhàn)神、清華本科特等獎獲得者在科研上并非一帆風順。剛?cè)腴T時,他也不知道該如何做科研,也是經(jīng)過一番自我覺醒,才明白了其中的門路。


與競賽、考試相比,鬲融在科研上屬于“大器晚成”:讀博前三年,他在近似算法研究上探索無果,無奈轉(zhuǎn)向機器學習理論研究,最后兩年才發(fā)了頂會文章。到2019年憑借非凸優(yōu)化的研究貢獻獲得斯隆研究獎時,他已是杜克大學計算機系的一名“青椒”。


2008年,鬲融從清華大學本科畢業(yè),隨后赴普林斯頓大學讀博、微軟研究院新英格蘭分部擔任博士后,2015年進入杜克大學擔任教職。姚班開始立志做理論研究,到成為機器學習理論研究方向小有名氣的青年學者,鬲融用了近 10 年。


那么,鬲融離開清華后的成長歷程是怎樣的?今天,我們只談鬲融與理論研究之間的故事。

作者 | 陳彩嫻


1. 普林斯頓前半章

在清華計算機系 4 字班(2004級)中,最出名的當數(shù)信息學競賽圈無人不知的樓天城“樓教主”,百度曾經(jīng)最年輕的 T10 級員工,后來又率先創(chuàng)立了國內(nèi)知名的自動駕駛公司小馬智行(Pony.ai)。
許多人最初知道鬲融,是借樓教主的名聲,因為在樓教主的一段軼事里,鬲融曾作為一個“配角”的身份出現(xiàn):
當時,樓教主的高中信息學競賽教練李建江一直認為樓教主是天才型學生,心中引以為豪,每次去北京出差,只要有時間就會順路去清華看望這位得意門生。
結(jié)果到了清華,與老師、同學交流,李教練發(fā)現(xiàn),自己的學生在計算機系最多只能排到第二名,因為樓教主的同班同學鬲融常年排名全年級第一。
他還舉例:每次夜晚 9 點去清華的計算機系宿舍,鬲融肯定在,而樓教主還在教室用功。他因此感嘆,相比鬲融,樓教主是地道的勤奮型選手。
在與AI科技評論的對話中,鬲融首次回應了這段傳聞:“哈哈其實是因為當時我們宿舍有空調(diào),所以就不用去教室學習,樓天城他們宿舍沒有空調(diào),他只能去教室學習?!?/span>

鬲融:昔日的 IOI 戰(zhàn)神、清華特獎獲得者,“大器晚成”的科研人

圖注:2007年,鬲融(中間)與樓天城(最左)、胡偉棟(最右)在日本參加ACM/ICPC,獲得亞洲賽區(qū)冠軍、全球第二名
樓天城的天賦與能力毋庸置疑,但相形之下,鬲融的實力也可見一斑。然而,在理論研究領域深耕多年后,回頭再看在清華讀本科時的成績與排名,鬲融只是一笑置之,稱自己不過是有一點“考試的天賦”:
我就是在做一些不是特別難的題時可以做得很快,也不太會出錯??荚嚳赡鼙容^有用,但是(這項能力)后來到了研究上面就沒有什么用了。研究的題比考試難,有些人可能考試時會在一些簡單的題目上卡住,但在做研究的難題時就會做得很快。
鬲融與樓教主曾經(jīng)是2004年一起參加 IOI 的戰(zhàn)友,上了清華后又曾兩次組隊參加編程競賽(兩岸清華編程比賽與ACM/ICPC)。但是,與業(yè)余時間還愛“玩玩競賽題”的樓教主相比,鬲融并不“戀戰(zhàn)”,參加完2007年ACM/ICPC后便徹底告別了競賽圈,因為那一年,他找到了下一個人生目標:理論計算機研究。
當時,鬲融剛加入姚班不久。在姚期智、陳衛(wèi)、孫曉明等人的引導下,尤其是姚期智親自講授《理論計算機》課程,鬲融迷上了理論研究,立志走學術(shù)研究道路,將科研作為畢生之所向。
但是,與競賽、做題相比,鬲融的科研“天賦”似乎略微遜色。比如,讀博前期,鬲融在近似算法(Approximation Algorithm)的研究課題上苦苦折騰了三年,也沒有找到正確的方向,最后只能無奈放棄。
2008年,在姚先生的建議下,鬲融去了普林斯頓大學(計算機理論研究排名全美前5)讀博。普林斯頓的計算機系每年只招收大約 20 名學生。在鬲融那一屆,除了他,還有 3 名中國學生被錄取,包括鬲融昔日的 IOI 戰(zhàn)友栗師(現(xiàn)任紐約州立大學布法羅分校計算機系副教授)。
鬲融:昔日的 IOI 戰(zhàn)神、清華特獎獲得者,“大器晚成”的科研人
圖注:普林斯頓大學
清華姚班出來的學生對研究往往有一種使命感, 比如,引領一個領域的新潮流,或解決一道歷史上懸難已久的問題。年少的鬲融起初對學術(shù)研究也是這樣一種想法:“世界上有那么多猜想與沒解決的問題,挑一個去做就是了。
近似算法的研究歷史可以追溯到18世紀中期歐拉(L.Euler)研究的騎士環(huán)游問題,目標是用近似方法在多項式時間內(nèi)給出盡可能接近最優(yōu)值的解,比如著名的「旅行商問題」(TSP):一個商品推銷員要去若干個城市推銷商品,該推銷員從一個城市出發(fā),需要經(jīng)過所有城市后,回到出發(fā)地,那么,TA 應如何選擇行進路線,以使總的行程最短?
這個課題很吸引鬲融。但很快,他就感到“出師不利”。
近似算法發(fā)展至今,亟待解決的問題是大家都知道的幾個問題,比如旅行商問題、染色問題、最小分割等。鬲融的工作就是研究如何解決這些問題。但是,雖然有明確的研究方向,他卻總會在各種地方卡住,導致工作無法進行下去。
至于卡住的原因,鬲融坦言,他到現(xiàn)在也還不是很清楚:
可能是對研究的課題不熟悉,也可能是思路不對,各種可能都有。我們當時想做的事情直到現(xiàn)在也還沒有人做出來,所以也有可能是因為選擇的題太難。
三年下來,雖然他在ICALP、ISAAC等理論計算機的會議與期刊上發(fā)表了論文,但總體感覺還是困難比較多,所取得的成果也遠遠沒有達到鬲融對自己的要求。
回想當時的磕磕絆絆,鬲融分析,做研究無非就是兩方面:一是找到合適的題目,二是把這個題目做出來。在選擇近似算法時,他對第一步的認知只是在“世界上已有的難題”上,直到后來轉(zhuǎn)向機器學習理論研究,才發(fā)現(xiàn):原來學會自己定義問題,也是一項可貴的研究能力。

2. 科研轉(zhuǎn)折點與引路人

轉(zhuǎn)折點發(fā)生在 2012 年。
那一年,Hinton與他的學生Alex在ImageNet比賽中憑借AlexNet遠超第二名10個百分點,勇奪冠軍,深度學習崛起。鬲融的博士導師 Sanjeev Arora敏銳地察覺到機器學習(尤其是深度學習)在未來的發(fā)展?jié)摿?,開始關注機器學習。
當時,鬲融正在近似算法的課題上掙扎,這正好給了他重新選擇的契機。剛好他本科在微軟亞研實習時也接觸過機器學習,對這個方向也很感興趣,于是就選擇了轉(zhuǎn)向研究機器學習理論。
在這里不得不提的一點是,Sanjeev Arora 在鬲融讀博期間對他產(chǎn)生了重要影響,不僅直接引導他走進了機器學習研究領域,也塑造了他做科研的方法與態(tài)度。
Sanjeev Arora是普林斯頓大學計算機系的Charles C. Fitzmorris教授,以研究概率可檢驗證明(尤其是PCP定理)而聞名,1996年獲得斯隆研究獎,2001年與2010年共兩次獲得哥德爾獎(理論計算機領域最高獎),2012年又獲得西蒙斯研究獎與福爾克森獎(離散數(shù)學領域最高獎),是理論計算機研究領域有名的翹楚。
鬲融:昔日的 IOI 戰(zhàn)神、清華特獎獲得者,“大器晚成”的科研人
圖注:Sanjeev Arora
鬲融是 Arora 門下的第一個中國留學生。在鬲融來到普林斯頓的前一年(2007年),Arora 與 Satyen Kale(現(xiàn)任谷歌研究科學家)剛剛用乘法權(quán)更新算法(Multiplicative Weight Update Method)的矩陣版本求解了 SDP,并對一些問題給出了更快的近似算法。MWU 的特點是理論復雜,但算法簡潔。Arora 在近似算法上“大道至簡”的追求,吸引了鬲融。
截至目前,Arora 只帶過 3 名中國學生,除了鬲融,其余 2 位是馬騰宇與李遠志,后來都成為了機器學習領域的佼佼者。馬騰宇與李遠志也是清華大學的校友,分在2012年、2013年來到普林斯頓讀博,是鬲融日后的重要研究合作者。馬騰宇畢業(yè)后到斯坦福大學任教,2021年也憑借在非凸優(yōu)化上的研究成果獲得了斯隆研究獎,而李遠志畢業(yè)后加入了卡內(nèi)基梅隆大學機器學習系擔任助理教授。
在鬲融的眼里,Sanjeev Arora是一位各方面都讓人佩服的學者:
在轉(zhuǎn)向機器學習之前,他在近似算法及其復雜度的研究上已獲得非常出色的成就。很多人可能在某個方向上做出成果,就會沿著這個方向繼續(xù)做一輩子,但他是一個很喜歡研究新東西的人,喜歡挑戰(zhàn)自己,每隔幾年就會換一個新的方向,然后每個方向都能取得不錯的成就。當時轉(zhuǎn)向機器學習時,他在第一年或第二年就做出了很好的結(jié)果。
也是因為 Arora 的這項品質(zhì),他在2012年轉(zhuǎn)向機器學習研究時,促使鬲融等人也注意到了機器學習,直接改變了鬲融的研究方向。
2012年轉(zhuǎn)向機器學習時,鬲融已是一名博“四”生,開始一個全新的方向需要極大的勇氣。但他二話不說,重新調(diào)整了自己的方向。
出乎意料的是,轉(zhuǎn)變方向后,他的研究進展異常順利,最后兩年連續(xù)發(fā)表了 8 篇頂會論文,其中理論計算機頂會 FOCS 就有 2 篇、STOC 有 1 篇,遠遠超過了博士前三年的成果總和。
與近似算法不同,機器學習是一個相對較新的領域,有許多新的問題。從鬲融的角度來看,這時他的研究問題變成了:如何把一個實際的機器學習問題放到理論的框架里討論?在這個過程中,“自己定義問題”的重要性明顯上升。
拿鬲融轉(zhuǎn)向機器學習研究后的第一個工作舉例。
當時,鬲融在微軟研究院新英格蘭分部實習,參與主題建模(Topic Modeling)的研究工作。主題建模被用于對數(shù)據(jù)(網(wǎng)頁、新聞、圖片等等)進行自動理解與分類,在理論研究上側(cè)重于學習模型的參數(shù)。
當時的方法大多依賴于奇異值分解(SVD),但SVD方法有兩個限制:要么假設每篇文章只包含一個主題,要么只能恢復主題向量的范圍,而非主題向量本身。針對 SVD 用于主題建模的局限性,鬲融與 Arora 等人提出了一個問題:“如果沒有真正的矩陣 AW ,而是從每一列所代表的分布中得到一些樣本(比如 100 個樣本),怎么辦?”
他們假設并證明了 NMF(非負矩陣分解)比 SVD 更適用于主題建模,并利用 NMF 獲得了第一個沒有上述兩個限制的多項式時間算法,該算法可以泛化至包含主題與主題相關的模型,比如相關主題模型(Correlated Topic Model)與彈珠機分配模型(Pachinko Allocation Model)。
最后,他們的工作(“Learning Topic Models - Going beyond SVD” )發(fā)表在 FOCS 2012 上。這也是鬲融在 FOCS (理論計算機方向中稿難度最高的會議之一)上發(fā)表的第一篇論文。
鬲融:昔日的 IOI 戰(zhàn)神、清華特獎獲得者,“大器晚成”的科研人
地址:https://arxiv.org/abs/1204.1956
之后,他又在主題建模的研究上陸續(xù)發(fā)表了幾篇文章,包括被 ICML 2013 錄取的工作“A Practical Algorithm for Topic Modeling with Provable Guarantees ”,在業(yè)內(nèi)引起不小關注,積累了一點名聲。
在理論研究領域摸爬滾打多年后,鬲融發(fā)現(xiàn):重要的問題并不一定是很多年前就有人提出來的,提出問題本身也是一個重要的研究方向;在做研究時,如果一個問題進展不順,不一定是你的研究技術(shù)不對,也有可能是你提的問題本身就是錯的。
這也是鬲融在讀博期間的主要收獲:對研究形成了一個比較完整的認知,并學會了如何選擇一個適合自己的題目。
鬲融能夠“守得云開見月明”的另一個重要因素是堅持。而這一品質(zhì),也主要是受到 Arora 的影響。
鬲融回憶,在讀PhD時,他在研究問題上卡住時,雖然會花時間去想,但經(jīng)常會有一種感覺,就是“這個想法好像不行,做不下去”,便想放棄。在每周的組會上,他與 Arora 討論卡住的點,說不知道該怎么做時,Arora 都會說:“這只是一點困難,你可以換一個思路,嘗試別的解決方法。”
“如果要放棄正在進行的方向,就要給出嚴謹?shù)淖C明,讓 Arora 相信這個方向確實做不了。但是,只要沒有證明這個方向不行,他就不會放棄,會不停地想各種解決辦法?!必谛?/span>容,“在這種精神下,后來我也確實解決了一些卡住的問題?!?/span>
大約是受到 Arora 的鼓舞,鬲融漸漸懂得了堅持,面對難題時也會樂觀許多,更傾向于覺得“這個課題是可以做的”而不是“這個想法好像不行”,即使題目暫時沒有做出來,也不會輕易放棄,而是堅持到實在做不下去的時候。
他感嘆:“如果當時我一說某個思路有哪些困難、覺得做不下去,Arora 就說我們不做這個題了,那么現(xiàn)在的結(jié)果肯定會不一樣。”
 

3. 大器晚成的 IOI 戰(zhàn)神

但是,盡管最后兩年發(fā)表了一些論文,與競賽、本科時的輝煌成績相比,鬲融的博士生涯還是相對黯淡:沒有大廠獎學金,沒有最佳論文。換作旁人,博士期間能在理論計算機頂會 FOCS 與 STOC 上發(fā)表3篇工作,已經(jīng)非常了不起,但對這位清華特獎獲得者來說,總覺得還缺點什么。
鬲融在2013年獲得博士學位。當時,他剛剛在機器學習理論的酒席上喝到微醺,意猶未盡,“感覺還有很多事情想做”,于是就決定去之前實習的微軟研究院新英格蘭分部做博士后。
也是在兩年的博士后期間,鬲融開始了在非凸優(yōu)化(Non-Convex Optimization)方向的研究,為之后獲得斯隆研究獎打下了基礎。
在他還是一名實習生時,微軟內(nèi)部就有人在研究用張量分解(Tensor decompositions)做話題建模。他們的技術(shù)非常神奇,就是用兩個矩陣乘一下,然后做一下對角化就能得出成果,光看論文本身完全不明白為什么這么做會有用。鬲融就很好奇:“為什么張量分解這么厲害?我不知道有什么理由,所以我就想去研究?!?/span>
于是,他們嘗試用張量分解來研究話題模型上的參數(shù)問題,發(fā)現(xiàn)張量分解不僅可以用于解釋話題模型的參數(shù)問題,還可以解釋與話題模型類似的機器學習模型的參數(shù)問題。他們的工作“Tensor decompositions for learning latent variable models”最后發(fā)表在了機器學習頂刊 JMLR上。

鬲融:昔日的 IOI 戰(zhàn)神、清華特獎獲得者,“大器晚成”的科研人

地址:https://arxiv.org/abs/1210.7559
他們在這方面做了很多工作,也取得了不錯的成果,但用鬲融的話說,就是“做多了,也就沒那么有意思了”。所以,到了博士后階段,他就開始尋找新的方向。
他從張量分解出發(fā),無意間發(fā)現(xiàn)了一個新的研究課題,就是非凸優(yōu)化(non-convex optimization)。
當時,他發(fā)現(xiàn)在張量分解的算法中,比如張量有10個部分,當時的算法是一個部分、一個部分地找,但有時候,我們會想同時找出這10個部分,這時就需要用到優(yōu)化技術(shù)。那時大家常用的隨機梯度下降優(yōu)化方法并不管用,于是他就花了很長時間研究如何轉(zhuǎn)換一個目標函數(shù),可以使它的效果更好。
鬲融回憶:“可能是運氣比較好,在尋找、測試目標函數(shù)時,我首先找到了一個目標函數(shù),使得這個優(yōu)化方法可以把所有的張量部分同時找出來。分析隨機梯度下降的時候,我們研究出了一套新的分析方法,后來發(fā)現(xiàn)這套分析方法非常有用,不止對我們研究的張量分解問題有用,對許多其他問題也有用?!?/span>
接著,他與袁洋、金馳、黃芙蓉等人沿著這個方向繼續(xù)研究非凸優(yōu)化的函數(shù)。
在許多情況下,非凸函數(shù)的目標是找到一個合理的局部最小值,主要的問題是梯度更新被困在鞍點(saddle points)中。他們嘗試辨析非凸優(yōu)化問題的鞍點性質(zhì)(如果函數(shù)沒有退化的鞍點,那么對梯度做輕微的擾動就可以逃出鞍點),以進行有效優(yōu)化。利用這個屬性,他們發(fā)現(xiàn)隨機梯度下降可以在多項式迭代中收斂到局部最小值。
這是第一項為在具有多個局部最小值和鞍點的非凸函數(shù)中的隨機梯度下降提供全局收斂保證的工作。他們的工作開拓了一個新的研究方向,其成果“Escaping From Saddle Points --- Online Stochastic Gradient for Tensor Decomposition”被機器學習理論會議 COLT 2015 收錄,吸引了許多人往這個方向努力,并獲得了許多新的結(jié)果。

鬲融:昔日的 IOI 戰(zhàn)神、清華特獎獲得者,“大器晚成”的科研人

地址:https://arxiv.org/abs/1503.02101
這是鬲融沒有想到的:“我感覺還是挺幸運的,我從一個非常特殊的問題出發(fā),但是我們最后得到的結(jié)論是非常廣泛的,研究也受到不少重視?!?/span>
這項工作對機器學習理論研究領域的貢獻主要有兩個:一是證明了張量分析中他新提出來的目標函數(shù)有一些好的性質(zhì),比如它沒有壞的局部最優(yōu)解,它的鞍點也有一些性質(zhì);二是證明了我們可以用很簡單的算法(如梯度下降)來優(yōu)化所有具備這種性質(zhì)的目標函數(shù)。
也是憑借這兩個主要貢獻,鬲融在2019年獲得斯隆研究獎。
后來,他又分別在這兩個貢獻上作了進一步的研究。比如,在第一個貢獻上,他們后來證明更多函數(shù)都具備類似性質(zhì),包括與馬騰宇、Jason Lee等人合作的那篇工作“Matrix Completion has No Supurious Local Minimum”(獲 NIPS 2016 最佳學生論文)也證明矩陣補全(matrix completion)沒有壞的局部最優(yōu)解。
據(jù)說,鬲融與馬騰宇合作的這篇工作從開始構(gòu)思到完成投稿,前后只用了不到兩個月時間。那時 COLT 2015 的工作剛發(fā)表不久,可以借鑒一二。鬲融回憶:“當時做的時候,我們就很有信心,因為我們?nèi)齻€人都覺得這個東西肯定是對的。馬騰宇也很快就有了一些具體的想法,我們按照一些步驟去做,然后挺順利地就做出來了?!?/span>
至此,鬲融已成為研究用非凸優(yōu)化尋找最優(yōu)神經(jīng)網(wǎng)絡參數(shù)的早期開拓者之一。但是,在2019年獲得斯隆研究獎后,鬲融又像2004年拿到IOI金牌一樣,若無其事地回到了原本的生活軌跡上,做一名安安靜靜做研究的教師。
鬲融:昔日的 IOI 戰(zhàn)神、清華特獎獲得者,“大器晚成”的科研人
圖注:鬲融目前在杜克大學任教
斯隆研究獎每年表彰一次,在以往的獲獎人員中,有47人后來獲得諾貝爾獎、17人獲得菲爾茲數(shù)學獎、69位獲得國家科學獎、18位獲得約翰貝茨克拉克經(jīng)濟學獎。史上許多著名的科學家都曾獲得斯隆研究獎,包括物理學家理查德·費曼 ,默里·蓋爾曼,以及博弈論學家約翰·納什。
從2008年清華畢業(yè),到獲得斯隆研究獎,鬲融用了 10 年。在這期間,他在 4 字班的許多同學(如樓天城、貝小輝)都已早早在新的領域聲名鵲起,但人們談起鬲融,仍只是圍繞競賽與GPA。
雖然鬲融在中途沉寂了很長時間,但在姚班創(chuàng)始人、中國首位圖靈獎得主姚期智姚先生的心中,他的名字一直是姚班教育的驕傲。在2017年鬲融還沒有獲得斯隆研究獎時,姚先生談起姚班教育,首先就提到了他的名字:
在學界的,我們有好幾個做人工智能的學生,已經(jīng)在大學任教的有兩個,一個是在美國的杜克大學,一個是在美國的斯坦福大學做教授,他們都從事人工智能理論基礎方面的工作。他們在過去的四五年,在人工智能理論方面已經(jīng)非常非常出色……他們確實可以說在人工智能領域是先驅(qū),將來一定會在該領域留下非常深刻的痕跡。
其中,在杜克大學任教的便是鬲融,而在斯坦福任教的則是鬲融的同門師弟馬騰宇。聽聞姚先生的掛念,當時離開清華多年的鬲融心中感觸萬分:“我感覺挺感動的,因為姚班出來很多很強的人,遠遠不止我們兩個?!?/span>
鬲融:昔日的 IOI 戰(zhàn)神、清華特獎獲得者,“大器晚成”的科研人
圖注:2019年,鬲融回清華交叉信息研究院(即“姚班”)作學術(shù)報告
在鬲融的成長路上,姚班的身影其實從未遠離。他提到,之前在姚班所學習的知識、思路,一開始不知道有什么用,但后來都用上了,甚至后悔“當初怎么不多學點”。而曾經(jīng)的同窗好友雖然選擇了不同的人生方向,“但想到大家跟我一樣都在努力,就覺得蠻開心的。

4. 理論研究的意義

對我個人來說,如果我知道一個算法,但是我不知道它的工作原理,是一件不太高興的事情,所以我自己主要就是因為好奇才選擇做機器學習理論研究?!?/span>問及從事理論研究的意義,鬲融這樣談道。
而從整個機器學習領域的發(fā)展來看,理論機器學習的研究主要有兩個意義:
一是如果知道神經(jīng)網(wǎng)絡算法的工作原理,我們就有希望解決一些問題,比如讓它變得更快,或者用更少的資源;二是可以解決人們關心的一些實際問題,比如計算機視覺中神經(jīng)網(wǎng)絡的弱關性問題,把一張圖片錯誤識別為其他圖片。
在深度學習時代,機器學習算法嘗試從文本、圖像等數(shù)據(jù)中自動學習有用的隱含表示。近年來,鬲融的研究重點是希望通過非凸優(yōu)化與張量分解研究如何設計高效的算法找到這些隱含表示,比如神經(jīng)網(wǎng)絡模型中的超參數(shù)化。
目前的一個觀點是:有了超參數(shù)化后,優(yōu)化會變得簡單。有些工作也得到了同樣的結(jié)果,但還有很多問題是未知的,比如:神經(jīng)網(wǎng)絡要多大,才能有足夠好的優(yōu)化性質(zhì)?有些觀點認為神經(jīng)網(wǎng)絡要無窮寬,鬲融團隊的研究課題則是:你的神經(jīng)網(wǎng)絡不需要無窮寬,只要足夠?qū)捑涂梢宰C明一些類似的性質(zhì)。
他們最近做了一個工作(“Guarantees for Tuning the Step Size using a Learning-to-Learn Approach”),從理論角度研究如何通過機器學習方法來設計新的優(yōu)化算法,得出了一個有意思的結(jié)論:對于優(yōu)化問題,如果你用最基本的back-propagation(反向傳播)方法來算,它的梯度可能會算不準,如果用其他的方式算,可能還可以算得更精確一些。
在未來,他希望能夠進一步了解神經(jīng)網(wǎng)絡的優(yōu)化性質(zhì),然后,在掌握足夠多的性質(zhì)后,可以設計出更好的算法。
對于想要從事理論研究的學生,鬲融的建議是最好先加入一個研究組去做具體的項目,一是看自己適不適合,二是對機器學習領域的發(fā)展有更具體的了解,日后做研究時能更好地定義研究問題。
作為最早進入機器學習領域的研究者之一,鬲融能明顯感覺到近幾年來該領域的飛快發(fā)展,論文投稿數(shù)量呈指數(shù)級增長,給人一種浮躁的感覺。由于很難找到足夠多的、有經(jīng)驗的審稿人來支持大規(guī)模的會議投稿,導致會議論文的結(jié)果有些隨機。
面對這一現(xiàn)象,鬲融感嘆他也難有作為,只能對自己和自己的學生有一個基本要求,就是投出去的論文至少要達到自己滿意的標準。
隨即,鬲融又說:“雖然我對文章的要求嚴格,但在擔任審稿人時,我感覺自己給分還是偏高的?!?/span>
所謂「取其上者得其中,取其中者得其下」,鬲融在非凸優(yōu)化與張量分解上的研究成就看似偶然,追溯根源,其實在于他對自己做研究的高要求:對好奇的問題刨根問底,對完成的工作精益求精,耐心、敏銳又謙遜,則成事只在時日長短。
科研前期的艱難探索也許是必經(jīng)之路,即使智如鬲融也不例外。讀博三年還沒有“像樣”的成果?別慌,堅持一下,說不定你也能拿斯隆研究獎。

作者注:人物/采訪、交流、爆料、抬杠,歡迎添加微信(302703941)。

 相關閱讀 


鬲融:昔日的 IOI 戰(zhàn)神、清華特獎獲得者,“大器晚成”的科研人

鬲融:昔日的 IOI 戰(zhàn)神、清華特獎獲得者,“大器晚成”的科研人

鬲融:昔日的 IOI 戰(zhàn)神、清華特獎獲得者,“大器晚成”的科研人

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

鬲融:昔日的 IOI 戰(zhàn)神、清華特獎獲得者,“大器晚成”的科研人

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說