0
作者 | 賴文昕
編輯 | 陳彩嫻
「簡(jiǎn)單,是終極的復(fù)雜。」
群星閃耀時(shí)
1988 年的冬天,一輛火車從法國(guó)出發(fā)、開往盧森堡。
火車上有一行四人,來(lái)自法國(guó)南錫,他們精神煥發(fā),興高采烈地討論著即將開始的旅程。從南錫到到盧森堡,他們將在盧森堡乘坐飛機(jī),飛往美國(guó)佛羅里達(dá)參加第二屆國(guó)際計(jì)算機(jī)視覺大會(huì) ICCV。
他們中,有唯一一位來(lái)自中國(guó)的東方面孔,內(nèi)心尤為激動(dòng)——這是他第一次去美國(guó),也是他第一次參加國(guó)際上的頂級(jí)學(xué)術(shù)會(huì)議,有機(jī)會(huì)與來(lái)自世界各地的同行交流切磋。
這位意氣風(fēng)發(fā)的青年,就是后來(lái)中國(guó)計(jì)算機(jī)視覺大師、香港科技大學(xué)計(jì)算機(jī)視覺實(shí)驗(yàn)室的開拓者——權(quán)龍。
那一年,權(quán)龍 24 歲。
與權(quán)龍一同出發(fā)的,還有他的博士導(dǎo)師 Roger Mohr、兩位研究員 Karl Tombre 與 Gerald Masini。
深度學(xué)習(xí)浪潮興起后,華人科學(xué)家逐漸成為計(jì)算機(jī)視覺三大頂會(huì)(ICCV、CVPR、ECCV)的參會(huì)主力,發(fā)表了大量的科研成果,并摘得各大重要獎(jiǎng)項(xiàng)。但在上世紀(jì) 80 年代,ICCV 大會(huì)現(xiàn)場(chǎng)的華人面孔寥寥無(wú)幾,直到 1988 年法國(guó)留學(xué)生權(quán)龍打破了局面。
1988 年,在法國(guó)國(guó)立洛林理工學(xué)院(INPL)、國(guó)家科學(xué)研究中心(CNRS)和國(guó)家信息與自動(dòng)化研究所(INRIA)的共同實(shí)驗(yàn)室攻讀計(jì)算機(jī)博士的中國(guó)學(xué)生權(quán)龍,在導(dǎo)師 Roger Mohr 的指導(dǎo)下,寫了一篇從幾何約束研究室內(nèi)場(chǎng)景圖像匹配的論文。
論文被剛剛誕生的 ICCV 接收,成為了實(shí)驗(yàn)室的第一篇視覺頂會(huì)論文,也標(biāo)志著華人學(xué)者在這個(gè)視覺會(huì)議上的首次亮相。
1987 年第一屆 ICCV 在英國(guó)倫敦成立,權(quán)龍的導(dǎo)師 Roger Mohr 參加了這個(gè)里程碑的會(huì)議,從會(huì)議現(xiàn)場(chǎng)帶回來(lái)唯一一本 Proceeding 會(huì)議論文集。那時(shí)參會(huì)人員的「?jìng)鹘y(tǒng)」就是必須帶一本 Proceeding 回家去讀。權(quán)龍對(duì)這本「孤本」非常珍惜,細(xì)心閱讀,讀完后寫了兩篇文章,其中一篇在實(shí)驗(yàn)室內(nèi)部反饋很好,果不其然中了第二屆 ICCV。
論文地址:https://ieeexplore.ieee.org/document/590050
1988 年的美國(guó)之行,為了讓大家不負(fù)此行,參加 ICCV 之余,Roger Mohr 還聯(lián)系了各大高校,組織了一次全美知名實(shí)驗(yàn)室的游學(xué)之旅。權(quán)龍第一次參會(huì),就感受到了計(jì)算機(jī)視覺領(lǐng)域最前沿的學(xué)術(shù)研討氛圍。
權(quán)龍?jiān)?1985 年從中國(guó)赴法留學(xué)。
這個(gè)成長(zhǎng)于山西太原的中國(guó)青年,從小時(shí)候在少年宮美術(shù)組開始就一直對(duì)圖像有著濃厚的興趣。1980 年,權(quán)龍考上了北方交通大學(xué)(現(xiàn)北京交通大學(xué))通信專業(yè)畢業(yè),成績(jī)優(yōu)秀,在1984年畢業(yè)時(shí)考取教育部赴法留學(xué)研究生。
那時(shí)北方交大的信息科學(xué)研究所就聚集了一批熱愛圖像研究的學(xué)者,實(shí)驗(yàn)室規(guī)模龐大,在模式識(shí)別、圖像理解乃至計(jì)算機(jī)圖形學(xué)上均有涉獵。
權(quán)龍?jiān)诒究飘厴I(yè)設(shè)計(jì)時(shí)就跟隨時(shí)任所長(zhǎng)袁保宗以及剛留法回國(guó)的周忠鈺,后者帶著權(quán)龍的本科畢業(yè)設(shè)計(jì),給了權(quán)龍不少指導(dǎo)。
權(quán)龍出國(guó)留學(xué)也受到了他哥哥權(quán)全的影響。權(quán)全在 1978 年以優(yōu)異成績(jī)考入清華大學(xué),幾個(gè)月后就被教育部派遣到比利時(shí)本科留學(xué),極可能是我國(guó)改革開放后山西太原出國(guó)留學(xué)第一人。 因此,權(quán)龍很早對(duì)出國(guó)留學(xué)有所了解,并考取了 1984 年教育部的派遣留學(xué)研究生,成為當(dāng)年北方交大出國(guó)留學(xué)的 8 名學(xué)生之一。
在法國(guó),權(quán)龍結(jié)識(shí)了更早留法的馬頌德(原中科院自動(dòng)化研究所所長(zhǎng))、張正友(現(xiàn)騰訊首席科學(xué)家),三人并稱為「法國(guó)華人視覺三劍客」,而他們?cè)谮ぺぶ性缬袦Y源:
在北方交大的最后一年,權(quán)龍跟隨周忠鈺做研究,向?qū)Ψ秸?qǐng)教留法經(jīng)驗(yàn),后者研究圖形學(xué),是 1979 年與馬頌德同批赴法的學(xué)生之一。
到 1987 年,權(quán)龍去法國(guó)的第二年,在法國(guó)國(guó)家信息與自動(dòng)化研究所(INRIA)實(shí)習(xí)時(shí)又結(jié)識(shí)了同樣通過(guò)教育部派遣留學(xué)的張正友。張正友先在南錫大學(xué)計(jì)算機(jī)系讀碩,后又去法國(guó)巴黎第十一大學(xué)讀博。
當(dāng)時(shí)歐洲的人工智能已起步,教育發(fā)達(dá),誕生在法國(guó)的 Prolog 作為「古早」人工智能語(yǔ)言正引領(lǐng)人工智能以及第五代計(jì)算機(jī)的發(fā)展,權(quán)龍去法國(guó)的第一志愿也是研究人工智能。
最早在國(guó)內(nèi)接觸「人工智能」這門課時(shí),權(quán)龍有些失望,因?yàn)檎n程內(nèi)容翻來(lái)覆去只涉及了一些搜索算法,并沒有太多他所期待的「智能」。而到了法國(guó)后,法國(guó)的研究中心涵蓋了語(yǔ)音、圖像、邏輯、專家系統(tǒng)等多個(gè)研究方向,同辦公室的兩個(gè)法國(guó)同學(xué)甚至已經(jīng)開始研究為今天的神經(jīng)網(wǎng)絡(luò)提供理論基礎(chǔ)的「連接主義」。
在前沿的研究環(huán)境中,權(quán)龍頓時(shí)燃起了研究的熱情。由于從小對(duì)圖像與空間感興趣,權(quán)龍決定研究圖像理解,由此踏入了計(jì)算機(jī)視覺的大門。
權(quán)龍的導(dǎo)師 Roger Mohr 是法國(guó)射影幾何與計(jì)算機(jī)視覺的研究先驅(qū),從到法國(guó)的第一天起,權(quán)龍就跟著 Roger Mohr 做研究,一直到 2002 年離開法國(guó),整整 16 年都是一個(gè)團(tuán)隊(duì)。1988 年權(quán)龍中 ICCV 論文,1989 年(在法國(guó)的第四年)就獲得了 INPL 博士學(xué)位。
1990 年,權(quán)龍加入法國(guó)國(guó)家研究中心,在 INRIA 擔(dān)任高級(jí)研究科學(xué)家。Roger Mohr 作為主要成員在 INRIA Grenoble(格勒諾布爾)開拓計(jì)算機(jī)視覺小組,權(quán)龍成為創(chuàng)始成員,也開始帶領(lǐng)自己的學(xué)生,并見證了歐洲三維視覺的黃金時(shí)代。
1982 年大衛(wèi)·馬爾出版《視覺》一書,從 edge 研究視覺計(jì)算成為行業(yè)的主流。到 1990-2000 年,行業(yè)內(nèi)出現(xiàn)變化,從 edge 轉(zhuǎn)向研究幾何問題,即「三維重建」。上世紀(jì) 90 年代,歐洲群英薈萃,歐盟有一個(gè)大項(xiàng)目(「歐盟研發(fā)框架計(jì)劃」)聚集了一批研究不變量和幾何的人才(主要來(lái)自 INRIA 、英國(guó)牛津大學(xué)、比利時(shí)魯汶大學(xué)、瑞典皇家理工學(xué)院),成為三維視覺的研究圣地,而歐洲三維視覺的發(fā)源地又在法國(guó)。
權(quán)龍所在的 INRIA 一馬當(dāng)先。1992 年,INRIA 的一位研究員 Olivier Faugeras 發(fā)表論文「What Can be Seen in Three Dimensions with an Uncalibrated Stereo Rig」,試圖用數(shù)學(xué)分析雙目能讓人感知到三維的原因。Oliver 提出「七點(diǎn)算法」,即:通過(guò)在非標(biāo)定相機(jī)的兩張圖像中標(biāo)出 7 個(gè)對(duì)應(yīng)點(diǎn),就可以計(jì)算出獲得三維的基礎(chǔ)矩陣。這個(gè)工作拉開了三維視覺研究的序幕。
三年后、1995 年,權(quán)龍發(fā)表的「六點(diǎn)算法」,又將三維重建向前推進(jìn)了一大步。
在「六點(diǎn)算法」,權(quán)龍?zhí)剿髁巳S重建的最小數(shù)據(jù)需求,得到「六個(gè)點(diǎn)、三幅圖像」的方法論,不僅為三維重建的基礎(chǔ)理論作出杰出貢獻(xiàn),之后幾乎所有基于非標(biāo)定相機(jī)的三維重建技術(shù)都受到了這一算法的啟發(fā)。權(quán)龍由此聲名大噪,成為三維重建的領(lǐng)軍人物。
論文地址:https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=4fa70fb737a514afe8e902a9d8fd56f6cc3d6b60
在九十年代,計(jì)算機(jī)視覺領(lǐng)域最重要的成就之一是發(fā)展了一種三維視覺幾何技術(shù),即從非標(biāo)定的圖像(uncalibrated images)或運(yùn)動(dòng)結(jié)構(gòu)(Structure from Motion)中進(jìn)行三維重建。只要輸入圖像存在重疊,就能全自動(dòng)地計(jì)算出所有相機(jī)的位置和方向,并重建場(chǎng)景的三維點(diǎn)。
圖像的三維重建是計(jì)算機(jī)視覺、機(jī)器人學(xué)、攝影測(cè)量學(xué)和計(jì)算機(jī)圖形學(xué)的基礎(chǔ),而三維視覺幾何的整個(gè)體系建立在兩視圖、三視圖和N視圖幾何這三個(gè)基本要素之上。
兩視圖幾何問題,以基礎(chǔ)矩陣(fundamental matrix)為特征,在 1992 年由 Olivier Faugeras 和 Richard Hartley 各自獨(dú)立解決;三視圖幾何問題則是由權(quán)龍?jiān)?1994 年發(fā)表的論文《Invariants of Six Points and Projective Reconstruction from Three Uncalibrated Images》中得以解決。
兩視圖幾何在使用七點(diǎn)算法啟動(dòng)計(jì)算時(shí)是基礎(chǔ)性的,但它會(huì)導(dǎo)致對(duì)應(yīng)關(guān)系歧義。與之相比,三視圖幾何在唯一性地表征投影結(jié)構(gòu)和消除重建及對(duì)應(yīng)關(guān)系歧義方面,既是最小的也是最完整的。
權(quán)龍引入的「六點(diǎn)算法」,以封閉形式解決了三視圖幾何問題,最多提供三個(gè)代數(shù)解。由于三視圖之外沒有其他獨(dú)立的幾何關(guān)系,三視圖幾何和兩視圖幾何是多視圖幾何中唯二的基礎(chǔ)幾何,因此三視圖的六點(diǎn)算法和兩視圖的七點(diǎn)算法也是圖像三維重建中最基礎(chǔ)的兩個(gè)算法。
而由于 N 視圖幾何本質(zhì)上是一個(gè)代數(shù)冗余系統(tǒng),缺乏通用的代數(shù)解決方案,所以只能通過(guò)優(yōu)化方法來(lái)解決。1992 年,在 Faugeras 和 Hartley 對(duì)兩視圖幾何的代數(shù)分析同時(shí),權(quán)龍及其同事創(chuàng)新性地提出了一種優(yōu)化方法,采用空間中的規(guī)范投影基,首次實(shí)現(xiàn)了多視圖的投影重建。
這篇《Relative Reconstruction from Multiple Uncalibrated Images》與 Faugeras 和 Hartley 同年在兩視圖幾何方面的里程碑式研究齊名,其基礎(chǔ)性貢獻(xiàn)在學(xué)術(shù)界受到了高度認(rèn)可。
權(quán)龍?jiān)谌晥D與 N 視圖這兩個(gè)關(guān)鍵領(lǐng)域的重要貢獻(xiàn),使他成為三維計(jì)算機(jī)視覺發(fā)展的主要推動(dòng)者之一。在那個(gè)時(shí)期,權(quán)龍的貢獻(xiàn)不僅限于此,還解決了其他視覺幾何領(lǐng)域的諸多問題。
「六點(diǎn)算法」也是權(quán)龍與一眾早期中國(guó)計(jì)算機(jī)視覺華人學(xué)者結(jié)緣的契機(jī)。
「六點(diǎn)算法」發(fā)表后,1995 年,權(quán)龍去美國(guó)波士頓參加 ICCV,在哈佛 David Mumford 實(shí)驗(yàn)室結(jié)識(shí)了當(dāng)時(shí)讀博的朱松純。
1996 年,權(quán)龍?jiān)趯W(xué)術(shù)休假 (sabatical year)時(shí)到卡內(nèi)基梅隆大學(xué)拜訪 Takeo Kanade,結(jié)識(shí)了沈向洋。早期計(jì)算機(jī)視覺領(lǐng)域的華人很少,中國(guó)學(xué)者聯(lián)系緊密,權(quán)龍與沈向洋的友誼也一直延續(xù)至今,乃至影響了下一代在港科大與 MSRA 的學(xué)子,這是后話。
從 1990 到 2000 年,三維視覺在歐洲的研究如火如荼。2001 年,Richard Hartley 和 Andrew Zisserman 出版多視幾何理論教材《Multiple View Geometry in Computer Vision》,標(biāo)志著三維視覺領(lǐng)域的基本理論框架確立。
這十年也是群星閃耀的十年,歐洲視覺圈涌現(xiàn)了一批后來(lái)名聲如雷貫耳的學(xué)者人物,如 Oliver Faugeras、Richard Hartly、Andrew Zisserman、Luc Van Gool 等等,權(quán)龍作為其中少數(shù)的東方面孔,也獨(dú)樹一幟。
相比之下,三維重建在北美學(xué)術(shù)圈并不活躍,相關(guān)研究成果蕭條,唯有彼時(shí)在通用電氣公司研發(fā)中心的 Richard Hartley 發(fā)表了一系列非常有影響力的工作。實(shí)際上,Richard Hartley與牛津團(tuán)隊(duì)聯(lián)系密切,因?yàn)樗谕ㄓ秒姎獾睦习?Joe Mundy 曾在牛津?qū)W術(shù)休假,并與其團(tuán)隊(duì)合作過(guò)。
INRIA Grenoble 多次邀請(qǐng) Richard Hartley 前往其實(shí)驗(yàn)室,與權(quán)龍他們討論對(duì)三維重建的前沿探索,權(quán)龍也幫助Richard 在Grenoble 完成了他的著名八點(diǎn)算法。
直到 1999 年,David Lowe 提出著名的 SIFT 算法。
權(quán)龍后來(lái)告訴雷峰網(wǎng),因?yàn)槎硕荚谟?jì)算機(jī)視覺中從事感知分組的工作,他從讀博開始就讀過(guò) David Lowe 的論文,直到現(xiàn)在還會(huì)偶爾翻閱 David Lowe 的文章,「David Lowe 寫的東西都很深刻,他的成功不是突如其來(lái)的。他的成果在很多地方都能直接應(yīng)用,比如 SIFT,visual features(視覺特征),是為幾何而生、為做三維重建定義的?!?/p>
在法國(guó),權(quán)龍還培養(yǎng)了兩位得意門生:第一個(gè)博士生 Peter Sturm,他在三維重建奇異性(reconstruction singularity)方面做出了貢獻(xiàn),1998 年在權(quán)龍指導(dǎo)下完成的博士論文獲得了法國(guó)第一個(gè) SPECIF 獎(jiǎng)(每年只頒給一篇法國(guó)計(jì)算機(jī)科學(xué)博士論文);另一個(gè)學(xué)生 Maxime Lhuillier,作為準(zhǔn)密集方法(Quasi-dense approach)的開創(chuàng)者,也獲得了國(guó)際模式識(shí)別大會(huì)(ICPR)的最佳學(xué)生獎(jiǎng)。
與天才同行、求索三維視覺,充實(shí)了權(quán)龍的法蘭西歲月。
港科大視覺第一人
2001 年,權(quán)龍作了一個(gè)重要的人生選擇:結(jié)束 16 年「法漂」,回到中國(guó)香港。
促使權(quán)龍作出這一決定的,是時(shí)任香港科技大學(xué)計(jì)算機(jī)與工程系(CSE)的系主任錢大康。
港科大 CSE 成立于 1991 年,錢大康作為第一批教職人員在 1992 年加入。香港回歸后,與大陸的聯(lián)系加強(qiáng),香港各高校開始招攬有大陸背景的科學(xué)家,香港科技大學(xué)(HKUST)新成立的計(jì)算機(jī)科學(xué)系也正積極招聘人員,在三維重建領(lǐng)域聲名鵲起的權(quán)龍也進(jìn)入了香港高校的視野中。
與權(quán)龍幾乎是同時(shí)加入港科大計(jì)算機(jī)科學(xué)系的還有楊強(qiáng),二人加入后,第二年另一位華人科學(xué)家倪明選擔(dān)任 CSE 的系主任。權(quán)龍后來(lái)向雷峰網(wǎng)回憶,港科大的校領(lǐng)導(dǎo)「都很放手」。
于是,剛到港科大的第一年,權(quán)龍就帶著積累多年的前沿計(jì)算機(jī)視覺知識(shí),建立了港科大第一個(gè)計(jì)算機(jī)視覺實(shí)驗(yàn)室「 VisGraph」 ?!竀isGraph」 取「視覺(Vision)」和「圖型學(xué)(Graphics)」兩個(gè)含義,實(shí)驗(yàn)室坐落在九龍清水灣港科大教學(xué)樓的 4204 房間。
VisGraph 實(shí)驗(yàn)室內(nèi)部
在法國(guó)的 16 年,權(quán)龍教導(dǎo)出了 Peter Sturm 等三維視覺領(lǐng)域的青年佼佼者?;氐礁劭拼蠛螅麕缀跸喈?dāng)于從零開始,只有 Maxime Lhuillier 跟他來(lái)香港。大約一年后,Maxime 將準(zhǔn)密集方法推進(jìn)到了那個(gè)時(shí)期最佳的 3D 重建算法。
香港回歸后,為了吸引內(nèi)地學(xué)生來(lái)港深造就業(yè),1998 年開始,香港各高校開始通過(guò)合作、委托內(nèi)地 10 所高校代招內(nèi)地生。
很快,權(quán)龍加入港科大的第一年,就從北京大學(xué)招了兩名學(xué)生:危夷晨與曾鋼。
權(quán)龍回憶,當(dāng)時(shí)北大向權(quán)龍推薦了一批優(yōu)秀的學(xué)生,權(quán)龍都很欣賞,但因?yàn)榭蒲薪?jīng)費(fèi)不多,不敢多招,所以只拿了 2 個(gè)名額,便同年招來(lái)了危夷晨與曾鋼。
危夷晨原打算去美國(guó),最后來(lái)到香港,算得上是第一批「吃螃蟹的人」。
危夷晨曾進(jìn)過(guò)實(shí)驗(yàn)室實(shí)習(xí),大概知道自己不喜歡數(shù)據(jù)庫(kù)方向、而是偏愛圖形學(xué)的課程。到港科大后,錢大康給了危夷晨一份導(dǎo)師名單,危夷晨一看,名單上的方向基本都是數(shù)據(jù)庫(kù)、計(jì)算理論、網(wǎng)絡(luò)等傳統(tǒng)學(xué)科,唯一與圖形相關(guān)的就是權(quán)龍的視覺組,于是就選了權(quán)龍,可謂「機(jī)緣巧合」。
權(quán)龍帶領(lǐng)團(tuán)隊(duì)的風(fēng)格是追求小而美,而非建一個(gè)規(guī)模特別大的組,所以權(quán)龍一年只招一個(gè)博士生。2001 年權(quán)龍招了危夷晨與曾鋼后,第三個(gè)學(xué)生就從 2003 年才開始招,2003 年招了譚平,2004 年招了王井東,2005 年招了袁路,2006 年招了方天……
譚平與王井東是通過(guò)微軟亞洲研究院(MSRA)來(lái)到權(quán)龍組。前文提到權(quán)龍與沈向洋在 CMU 相識(shí)、后成為密友,權(quán)龍回港科大發(fā)展時(shí),沈向洋正在北京 MSRA,譚平與王井東都是通過(guò)沈向洋的推薦成為博士生,港科大 VisGraph 實(shí)驗(yàn)室與 MSRA 的羈絆也是由此展開。
譚平是湖南婁底漣源人,15 歲就考上了上海交通大學(xué)少年班,本科學(xué)的是數(shù)學(xué),研究生后才轉(zhuǎn)去人工智能領(lǐng)域,在上海交大的模式識(shí)別所學(xué)習(xí),導(dǎo)師為楊杰。后來(lái)模式識(shí)別所與圖像通訊所合并為了「圖象處理與模式識(shí)別研究所」,楊杰擔(dān)任所長(zhǎng)。
2001年,譚平在上交大聽了一場(chǎng)沈向洋的講座,徹底燃起對(duì)計(jì)算機(jī)視覺的熱情與對(duì) MSRA 的向往,就報(bào)名去 MSRA 實(shí)習(xí)。
在 MSRA 實(shí)習(xí)的四個(gè)月里,譚平跟著沈向洋研究計(jì)算機(jī)視覺,初步建立了對(duì)三維視覺研究的基本認(rèn)知。譚平記得,當(dāng)時(shí) MSRA 的研究條件和上海較大有很大落差:上網(wǎng)不方便,沒有數(shù)碼相機(jī)、要去圖像所排隊(duì)借,想查最新的 PAMI 論文、但圖書館只有老的雜志,深感內(nèi)地高校與海外的條件差距。
譚平覺得研究人工智能的終極目標(biāo)是與機(jī)器人應(yīng)用結(jié)合,所以他覺得計(jì)算機(jī)視覺的能力要求不能只停留在二維圖像上,而是要有三維的感知能力才能實(shí)現(xiàn)機(jī)器人的移動(dòng)、操作物體等,一直對(duì)三維視覺的研究很感興趣。譚平很早讀過(guò)權(quán)龍的六點(diǎn)算法論文,知道權(quán)龍?jiān)舴?、是?dāng)時(shí)全世界范圍內(nèi)三維視覺方向研究成果最出色的幾個(gè)人之一。
譚平
王井東原與危夷晨、曾鋼同是 97 級(jí)本科,但由于在清華大學(xué)自動(dòng)化系本科畢業(yè)后選擇留校讀研,師從導(dǎo)師張長(zhǎng)水,所以 2004 年才到香港,比危夷晨等人晚了兩、三年。
而比王井東晚一年來(lái)權(quán)龍組的袁路,也是與王井東幾乎同一時(shí)間在 MSRA 實(shí)習(xí)的清華學(xué)生。袁路對(duì)計(jì)算機(jī)視覺研究十分癡迷,經(jīng)常會(huì)抱著相機(jī)睡覺,權(quán)龍常說(shuō)「研究計(jì)算機(jī)視覺就應(yīng)該學(xué)習(xí)袁路」。
方天也是沈向洋推薦和共同培養(yǎng)的博士生。方天的本科就讀于華南理工大學(xué)計(jì)算機(jī)系,是一名三維游戲愛好者,覺得「很美、很藝術(shù)」。在 MSRA 網(wǎng)絡(luò)圖形組實(shí)習(xí)時(shí),方天就已經(jīng)開始研究三維圖形學(xué),后來(lái)在沈向洋和王立峰的推薦下來(lái)了權(quán)龍組讀博。
由于「精準(zhǔn)招生」,權(quán)龍組的學(xué)生人數(shù)基本維持到四、五個(gè)學(xué)生左右,團(tuán)隊(duì)成員之間的關(guān)系十分緊密,又都是來(lái)自內(nèi)地,所以常常聚在一起吃飯、討論學(xué)術(shù)研究。
那時(shí)與權(quán)龍學(xué)生同一個(gè)實(shí)驗(yàn)室的還有傅紅波。傅紅波是危夷晨在北大的師弟,博士導(dǎo)師是權(quán)龍的同事戴秋蘭,但研究的方向是圖形學(xué),因此與權(quán)龍組的合作也很多。傅紅波很有親和力,經(jīng)常會(huì)在飯點(diǎn)走到 4204 的門口叫危夷晨、譚平等人去吃飯,氛圍很融洽。
除了博士生,權(quán)龍團(tuán)隊(duì)還有一個(gè)格外出眾的、來(lái)自大陸的碩士生,叫肖健雄,后來(lái)圈內(nèi)人稱「Professor X」、創(chuàng)立了自動(dòng)駕駛明星公司 AutoX。
肖健雄是潮汕人,本科就讀于港科大計(jì)算機(jī)系,性格大膽主動(dòng),由于喜歡三維視覺,本科階段就自己跑去找權(quán)龍說(shuō)想跟他學(xué)習(xí)三維視覺。因?yàn)樾そ⌒凼潜究粕?,一開始權(quán)龍沒太在意,就讓他去實(shí)驗(yàn)室找一個(gè)師兄合作,肖健雄就找到了譚平、王井東,參與他們的項(xiàng)目,還是本科生時(shí)就發(fā)了第一篇學(xué)術(shù)論文、而且中了 2007 ICCV oral。
ICCV 2007 在巴西里約熱內(nèi)盧舉辦,權(quán)龍帶肖健雄去參會(huì),出發(fā)當(dāng)天,權(quán)龍遠(yuǎn)遠(yuǎn)就看到肖健雄提了一個(gè)橘紅色的手提箱走來(lái),給權(quán)龍留下了深刻的印象。權(quán)龍問他為什么選擇顏色這么出眾的箱子,肖健雄回答說(shuō)是因?yàn)檫@樣「easily recognizable(辨識(shí)度高)」。
肖健雄腦子聰明、反應(yīng)也快。后來(lái)權(quán)龍競(jìng)選 2011 年 ICCV 大會(huì)主席時(shí),競(jìng)爭(zhēng)激烈,權(quán)龍與澳大利亞的 Richard Hartley 是呼聲最高的人選之一,后面由于記票場(chǎng)面混亂,大會(huì)就在競(jìng)選會(huì)議室開了兩個(gè)門、分別代表權(quán)龍與另一位競(jìng)選者,投票者從哪個(gè)門出去、就表示選誰(shuí),肖健雄做了很多參會(huì)者的工作,使權(quán)龍以幾票之差險(xiǎn)勝。
所以 2008 年肖健雄本科畢業(yè)后,權(quán)龍就把他招進(jìn)了組里讀 Mphil。肖健雄的本科與碩士論文都是關(guān)于三維重建與街景分析,碩士時(shí)期的成果還影響過(guò)谷歌無(wú)人車的研究(谷歌團(tuán)隊(duì)早期研究無(wú)人車是以谷歌街景為基礎(chǔ))。
肖健雄申請(qǐng)去美國(guó)讀博時(shí),權(quán)龍給他寫推薦信,原先想寫「He is a genius」(電影《美麗心靈》納什推薦信的典故),后來(lái)委婉點(diǎn)改成了「outstanding」。擁有出色履歷的肖健雄受到美國(guó)各大高校的哄搶,最后他選擇了麻省理工學(xué)院(MIT)。
肖健雄
從頭發(fā)到地球
2012 年后,計(jì)算機(jī)視覺的風(fēng)尚從卷積神經(jīng)網(wǎng)絡(luò)識(shí)別到視覺生成大模型,但 2012 年之前相當(dāng)長(zhǎng)的一段時(shí)間里,三維重建都是視覺研究的核心問題。此外,計(jì)算機(jī)視覺與圖形學(xué)兩個(gè)方向的交叉也很多,權(quán)龍領(lǐng)導(dǎo) VisGraph 也不局限在 CV 的圈子里。
與「唯論文數(shù)量」的實(shí)驗(yàn)室風(fēng)格不同,權(quán)龍從不要求學(xué)生追趕論文「死亡線」,也沒有規(guī)定學(xué)生必須發(fā)表多少篇論文才能畢業(yè)。他的指導(dǎo)風(fēng)格隨和,給予學(xué)生極大的自由度,每個(gè)人都可以探索自己感興趣的方向,所以危夷晨、譚平等人都覺得,在 4204 實(shí)驗(yàn)室很有安全感與歸屬感。
一群優(yōu)秀的學(xué)生聚在一起,彼此之間也很容易形成競(jìng)相向上的拉力。譚平回憶,讀博時(shí)實(shí)驗(yàn)室的師兄弟經(jīng)常一起泡實(shí)驗(yàn)室,權(quán)龍每天都會(huì)來(lái)實(shí)驗(yàn)室與大家交流,權(quán)龍隨時(shí)來(lái)、學(xué)生隨時(shí)在。權(quán)龍會(huì)過(guò)問技術(shù)細(xì)節(jié)、與學(xué)生深入探討問題,治學(xué)嚴(yán)謹(jǐn)、熱情,常常感染實(shí)驗(yàn)室的同學(xué)。
譚平記得,權(quán)龍?jiān)谡n上做過(guò)一個(gè)實(shí)驗(yàn),讓譚平拿著兩支鉛筆、筆尖與筆尖觸碰。這個(gè)過(guò)程中,如果譚平蒙上一只眼睛,只有一只眼睛校對(duì),一開始筆尖與筆尖沒對(duì)齊,就會(huì)發(fā)現(xiàn)之后再怎么對(duì)也對(duì)不上。權(quán)龍通過(guò)一個(gè)簡(jiǎn)單的實(shí)驗(yàn),就讓學(xué)生體會(huì)到,人是靠雙目才有深度、立體的感覺,才能使筆尖與筆尖碰上。
當(dāng)時(shí)整個(gè)實(shí)驗(yàn)室都被權(quán)龍點(diǎn)燃,對(duì)三維重建的研究熱情高漲。
三維視覺的發(fā)展大約經(jīng)過(guò)五個(gè)階段:首先是理論階段,方法是根據(jù)單張圖片的光影變化將物體的三維形狀恢復(fù)出來(lái)(即「shape from shading」,開創(chuàng)學(xué)者是 Bruce Horn);其次是雙目或多目階段,通過(guò)多相機(jī)從不同角度拍攝構(gòu)建三維形狀,代表有法國(guó) INRIA,代表有 Richard Hartley、權(quán)龍等;接著是視覺 SLAM(指相機(jī)在運(yùn)動(dòng)時(shí)通過(guò)算法求出相機(jī)的三維姿態(tài));最后是與圖形學(xué)交叉結(jié)合,以及挑戰(zhàn)動(dòng)態(tài)場(chǎng)景(代表是 XR)。
權(quán)龍先前的代表作是六點(diǎn)算法,2000 年后三維重建領(lǐng)域出現(xiàn)了許多新的問題,如稀疏重建。稀疏重建是指從一組稀疏的三維點(diǎn)或特征中恢復(fù)出場(chǎng)景的三維結(jié)構(gòu),一般會(huì)先去求解相機(jī)位置,然后得到一個(gè)表示場(chǎng)景中關(guān)鍵特征點(diǎn)的稀疏點(diǎn)云,其中視覺 SLAM 是一個(gè)關(guān)鍵解法。
簡(jiǎn)單來(lái)說(shuō),視覺 SLAM 是一項(xiàng)用相機(jī)來(lái)收集數(shù)據(jù)點(diǎn)、并創(chuàng)建地圖的技術(shù),現(xiàn)已被廣泛運(yùn)用于無(wú)人機(jī)、掃地機(jī)器人以及蘋果的「當(dāng)紅炸子雞」Vision Pro 中。但在千禧年初始,這個(gè)方向并不受重視,研究者也寥寥無(wú)幾,權(quán)龍團(tuán)隊(duì)是全球最早研究這一方向的團(tuán)隊(duì)之一。
作為最早吃螃蟹的人,彼時(shí)團(tuán)隊(duì)投稿 Visual SLAM 的論文常常被拒,直到 2007 年以后才開始有大量工作出現(xiàn)。譚平回憶,在自己進(jìn)入實(shí)驗(yàn)室的很長(zhǎng)一段時(shí)間里,權(quán)龍與師兄弟們都是在痛苦地「屢敗屢戰(zhàn)」。
早期物體的三維建模往往是通過(guò)在 3D Max 或 CAD 軟件中手動(dòng)拖拽完成,然而,現(xiàn)實(shí)世界的復(fù)雜性遠(yuǎn)遠(yuǎn)超出了這些軟件的直觀操作范圍。即使是一盆花,用 3D Max 進(jìn)行三維建模也非常痛苦。相比之下,從圖像中提取三維信息則簡(jiǎn)化了物體的建模過(guò)程,同時(shí)還能保持物體的細(xì)節(jié)。
所以權(quán)龍也很早帶領(lǐng)學(xué)生研究基于圖像的三維建模,后來(lái)還開拓了 Image-Based X Modeling(簡(jiǎn)稱 IBM)系列。
2005 年,港科大視覺實(shí)驗(yàn)室關(guān)于 IBM 的第一個(gè)工作發(fā)表在計(jì)算機(jī)圖形學(xué)頂會(huì) SIGGRAPH 上,建模對(duì)象是頭發(fā)。2006 年,權(quán)龍團(tuán)隊(duì)又發(fā)表了圍繞植物的建模,2007 年、2008 年、2009 年實(shí)驗(yàn)室的 IBM 工作也相繼中了 SIGGRAPH,建模對(duì)象也從頭發(fā)、植物升級(jí)到建筑、街道與城市。
如今自動(dòng)駕駛領(lǐng)域的高精地圖,智慧城市的房屋與道路建模等技術(shù)成熟,許多工作就是從當(dāng)時(shí)權(quán)龍團(tuán)隊(duì)的工作延續(xù)而來(lái)的。
危夷晨與曾鋼最早加入研究中,危夷晨主要研究頭發(fā)建模,后續(xù)也發(fā)表了數(shù)篇相關(guān)的文章,曾鋼的重點(diǎn)則是與植物有關(guān)的建模。
譚平參與的項(xiàng)目最多,歷經(jīng)了從花、街道到整個(gè)城市復(fù)雜場(chǎng)景的三維建模。王井東擅長(zhǎng)用圖、半監(jiān)督等方法處理圖像分割問題,將在清華實(shí)驗(yàn)室習(xí)得的機(jī)器學(xué)習(xí)經(jīng)驗(yàn),遷移到以應(yīng)用為重的項(xiàng)目中。而擅長(zhǎng)寫程序的方天是一位攝影發(fā)燒友,常給文章提供具有「藝術(shù)家審美」的建議。
深度學(xué)習(xí)風(fēng)潮來(lái)臨前,SIGGRAPH 是計(jì)算機(jī)圖形學(xué)的獨(dú)有的頂級(jí)會(huì)議,影響力極高,GPU就是誕生于圖形學(xué)。而權(quán)龍團(tuán)隊(duì)的 IBM 系列均被 SIGGRAPH 接收,研究含金量可見一斑。
權(quán)龍對(duì)港科大視覺實(shí)驗(yàn)室學(xué)生的一大影響是對(duì)事物的執(zhí)著追求。方天向雷峰網(wǎng)評(píng)價(jià),權(quán)龍是一個(gè)非常純粹的人,做研究會(huì)堅(jiān)持一個(gè)方向。那時(shí)他們?cè)诟劭拼笱芯咳S重建,雖然領(lǐng)域人跡罕至、論文屢遭碰壁,但權(quán)龍認(rèn)為這個(gè)方向有價(jià)值,堅(jiān)持探索,終成開路人。
譚平記得,讀博時(shí)他們?nèi)?huì),權(quán)龍?jiān)诜▏?guó)早期的學(xué)生都已經(jīng)很成功,是學(xué)術(shù)圈有名的人物。權(quán)龍的地位也很高,但為人卻很簡(jiǎn)單,希望學(xué)生去抓住一個(gè)最根本的點(diǎn),將復(fù)雜的事情簡(jiǎn)單化,「有種大道至簡(jiǎn)的感覺?!狗教煨稳?。
有時(shí)權(quán)龍與學(xué)生討論問題,會(huì)一開始提出 a 方案,實(shí)驗(yàn)室的學(xué)生不相信,總覺得可以搞 b、c、d 等等 N 種方案,結(jié)果兜兜轉(zhuǎn)轉(zhuǎn)一圈,發(fā)現(xiàn) a 方案就是最簡(jiǎn)單的?!溉松脑S多事,無(wú)論是做生意、還是做科研,如果一個(gè)人的思想太復(fù)雜,就會(huì)充滿各種各樣的小技巧,變得十分疲憊。」
因?yàn)闄?quán)龍,「簡(jiǎn)單是終極的復(fù)雜」不僅是一句印在蘋果第一本產(chǎn)品宣傳手冊(cè)中的 Slogan,港科大視覺實(shí)驗(yàn)室內(nèi)各人對(duì)簡(jiǎn)單、純粹也有內(nèi)心深處的體會(huì)。
一根藤上幾朵花
重視產(chǎn)研結(jié)合是港科大視覺實(shí)驗(yàn)室的傳統(tǒng)。得益于權(quán)龍與沈向洋、MSRA 的緊密聯(lián)系,權(quán)龍的許多學(xué)生也在讀博時(shí)期就加入了 MSRA 實(shí)習(xí),成為北京與香港兩地飛的「雙城住民」。
讀博時(shí),危夷晨、曾鋼、譚平、袁路都在 MSRA 實(shí)習(xí)過(guò),而且是在不同的組,每個(gè)人有一位 mentor「靠山」:危夷晨是圖形組的以色列老板 Eyal Ofek,曾鋼是 Yasuyuki Matsushita,譚平是 Steve Lin,袁路是孫劍。
危夷晨被 SIGGRAPH 接收的頭發(fā)建模論文就是 VisGraph 與 MSRA 團(tuán)隊(duì)合作的成果。
那時(shí) MSRA 是大陸在 SIGGRAPH 的明星團(tuán)隊(duì),沈向洋帶著MSRA 橫掃 SIGGRAPH。之后,MSRA 圖形組每年都能中好幾篇SIGGRAPH,孫劍也是在那時(shí)候成長(zhǎng)起來(lái)。從 2003 年到 2006 年,孫劍每年都發(fā)兩篇 SIGGRAPH。SIGGRAPH 的工作量很大,很講團(tuán)隊(duì)合作,孫劍跟賈佳亞合作,也是在那時(shí)候與賈佳亞建立起了深厚的友誼。(更多往事可看雷峰網(wǎng)先前報(bào)道:《港中文「1026實(shí)驗(yàn)室」往事:賈佳亞與他的學(xué)生們》)
2006 年博士畢業(yè),危夷晨就直接加入了 MSRA 的視覺組。
危夷晨的代碼寫得不錯(cuò),自我要求很高,一個(gè)趣事是,博士快畢業(yè)時(shí),權(quán)龍讓危夷晨整理出一份代碼交接給師弟們學(xué)習(xí)。那套代碼相當(dāng)于 OpenCV 的外包渲染庫(kù),后續(xù)實(shí)驗(yàn)室的師弟們一直在用,后來(lái)權(quán)龍每次到 MSRA 都表?yè)P(yáng)危夷晨。
危夷晨在 MSRA 工作了 12 年,期間在物體檢測(cè)、識(shí)別與姿態(tài)估計(jì)方向的許多工作是微軟多個(gè)產(chǎn)品的基礎(chǔ),包括 Xbox Kinect,Windows Hello、Bing、Office、Hololens、Microsoft Cognitive Service 以及微軟小冰等。其中,Xbox Kinect 一經(jīng)推出就銷量破千萬(wàn),號(hào)稱史上最成功的消費(fèi)級(jí)電子產(chǎn)品。
2014 年,危夷晨等人在 CVPR 發(fā)表的每秒 3000 幀人臉關(guān)鍵點(diǎn)檢測(cè)技術(shù),也是第一個(gè)能夠在 PC和手機(jī)上實(shí)時(shí)運(yùn)行的全自由度手勢(shì)跟蹤系統(tǒng),大幅提高了性能和精度,在業(yè)界影響巨大,啟發(fā)了該領(lǐng)域后續(xù)一系列的工作。
在 MSRA,危夷晨也思考清楚了自己的發(fā)展方向:他更愿意做能落地的產(chǎn)品技術(shù)研發(fā),而非單純的科研。后來(lái),孫劍離開 MSRA 加入曠視,危夷晨也在孫劍的邀請(qǐng)下于2018年加入了曠視、擔(dān)任曠視上海研究院負(fù)責(zé)人。
譚平?jīng)]有在 MSRA 全職工作過(guò),但也以實(shí)習(xí)生的身份在 MSRA 實(shí)習(xí)了七年,研究生三年加博士四年。MSRA 為實(shí)習(xí)生提供免費(fèi)的雙人宿舍,宿舍在北航招待所一塊,包吃包住。讀博時(shí),譚平每年基本都是幾個(gè)月在北京、幾個(gè)月在香港,因此自己調(diào)侃為「千年老 intern」。
譚平評(píng)價(jià),MSRA 的實(shí)習(xí)是改變命運(yùn)的經(jīng)歷,「當(dāng)時(shí)和很優(yōu)秀的研究人員一起合作,大家志同道合,合作寫論文,一點(diǎn)都不覺得苦。第一次投 SIGGRAPH 時(shí),截稿的最后一個(gè)星期我干脆就睡在桌子底下,完全不想回宿舍,就覺得還差一點(diǎn)點(diǎn)?!?/p>
王井東與危夷晨的經(jīng)歷相似,2007 年博士畢業(yè)后加入 MSRA 全職,一共在 MSRA 度過(guò)了 14 年后才離開。王井東在微軟的日子大體可劃分為兩個(gè)七年:
在第一個(gè)七年中,王井東致力于計(jì)算機(jī)視覺技術(shù)在多媒體搜索中的應(yīng)用。2007年,面對(duì)必應(yīng)圖像搜索的挑戰(zhàn),剛博士畢業(yè)的他被派去解決多媒體搜索中的圖像檢索難題,和團(tuán)隊(duì)一起開發(fā)了基于草圖的圖像檢索技術(shù),顯著提升了搜索效率。
圍繞圖像搜索,王井東從應(yīng)用轉(zhuǎn)向基礎(chǔ)關(guān)鍵算法研究,深入研究了近似最近鄰算法(ANN),并設(shè)計(jì)了一種基于近鄰圖的 ANN 搜索算法,該算法在2014年被應(yīng)用于必應(yīng)的圖像搜索和廣告中,成為商業(yè)產(chǎn)品中的一個(gè)創(chuàng)新應(yīng)用。
進(jìn)入第二個(gè)七年,王井東的研究重點(diǎn)轉(zhuǎn)向了深度學(xué)習(xí)。早在 2005 年,王井東在香港讀博時(shí)便參與過(guò)卷積神經(jīng)網(wǎng)絡(luò)(CNN)車牌識(shí)別項(xiàng)目。而在微軟,王井東開始探索深度學(xué)習(xí)算法在新應(yīng)用中的潛力,并關(guān)注視覺網(wǎng)絡(luò)架構(gòu)的設(shè)計(jì)。
2015 年,他提出保持高分辨率表示的想法,并在 2018 年領(lǐng)導(dǎo)團(tuán)隊(duì)設(shè)計(jì)了 HRNet,該架構(gòu)在 2019 年的 CVPR 上發(fā)布,迅速獲得了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。HRNet 的設(shè)計(jì)突破了傳統(tǒng)的分類架構(gòu),通過(guò)高中低分辨率的不斷交互融合,保持了高分辨率的特征表示,適用于多種視覺任務(wù)。
直到 2021 年,王井東才離開微軟,加入百度任計(jì)算機(jī)視覺首席科學(xué)家,為百度多條業(yè)務(wù)線提供視覺技術(shù)支持。
權(quán)龍(左)與王井東(右)
袁路是在 2009 年博士畢業(yè)后進(jìn)入 MSRA 視覺計(jì)算組工作,至今仍在微軟供職,現(xiàn)在是微軟云與 AI 認(rèn)知服務(wù)研究部門的首席研究經(jīng)理,參與研究多模態(tài)大模型。
在微軟的十五年間,袁路主要鉆研計(jì)算機(jī)視覺、圖形學(xué)、計(jì)算攝影學(xué)和應(yīng)用機(jī)器學(xué)習(xí),多項(xiàng)研究成果被運(yùn)用到微軟的產(chǎn)品和應(yīng)用中,包括微軟 Pix 相機(jī)、OfficeLens、BLINK、Hyperlapse,其主持研究開發(fā)的「微軟自拍」APP,主打智能美顏、低光照美化照片等功能,曾獲得54個(gè)國(guó)家「最佳新APP」。
曾鋼與譚平博士畢業(yè)后沒有加入微軟,而是首先進(jìn)入了學(xué)術(shù)界:
2006 年畢業(yè)的曾鋼先是去了蘇黎世聯(lián)邦理工學(xué)院從事助理研究員工作,現(xiàn)成為北大人工智能研究院的研究員與博士生導(dǎo)師。2007 年畢業(yè)的譚平先是去到新加坡國(guó)立大學(xué)電子與計(jì)算機(jī)工程系任助理教授,2014 年又轉(zhuǎn)去加拿大。
拿到教職后,曾鋼和譚平都向權(quán)龍請(qǐng)教過(guò)如何當(dāng)一名「青椒(青年教師)」,權(quán)龍給了他們?nèi)齻€(gè)建議:好好上課,多拿經(jīng)費(fèi),用心帶學(xué)生。
更徹底的工業(yè)主義
2012 年后,深度學(xué)習(xí)崛起,計(jì)算機(jī)視覺成為一門顯學(xué),受到了資本的熱情追捧。對(duì)著港科大視覺實(shí)驗(yàn)室在三維重建上的研究逐步深入,權(quán)龍也開始思考一個(gè)新的問題:如何將實(shí)驗(yàn)室的研究成果產(chǎn)業(yè)化?
港科大歷來(lái)有產(chǎn)學(xué)研結(jié)合的傳統(tǒng),高秉強(qiáng)、李澤湘與甘潔組成的「鐵三角」是港科大產(chǎn)學(xué)研的代表,例如,高秉強(qiáng)投資的安防 CIS 龍頭思特威就在 2022 年成功上市。技術(shù)成果轉(zhuǎn)化最直接徹底的方式無(wú)疑是創(chuàng)業(yè)。
權(quán)龍和學(xué)生們創(chuàng)業(yè)的契機(jī)可以追溯到 2012 年。
方天在他的博士研究中為一系列基于圖像的建模工作做出了貢獻(xiàn)。畢業(yè)后,方天繼續(xù)留在實(shí)驗(yàn)室當(dāng)博士后,當(dāng)時(shí)無(wú)人機(jī)市場(chǎng)開始爆發(fā),智能手機(jī)也越來(lái)越普及,作為一名攝影發(fā)燒友,方天也開始琢磨起用這些新設(shè)備拍照。
方天內(nèi)心的想法是:怎么結(jié)合越來(lái)越好的數(shù)字圖像拍攝硬件和自動(dòng)化的三維重建技術(shù)讓更多的人可以輕松重建三維模型制作三維內(nèi)容。
這個(gè)想法與權(quán)龍一拍即合。而恰好方天在博士期間做了大量的工程開發(fā)為這個(gè)想法打下了基礎(chǔ)。現(xiàn)在萬(wàn)事俱備,只欠東風(fēng)。
2015 年,權(quán)龍就與方天還有別的博士生一起創(chuàng)立了 Altizure。
Altizure 開發(fā)了一個(gè)3D重建云平臺(tái),適用于來(lái)自相機(jī)、手機(jī)和無(wú)人機(jī)的所有圖像,已成功應(yīng)用于大規(guī)模 3D 建模。
同時(shí),他們也開始制作城市級(jí)別的實(shí)景三維模型,為智慧城市和安防系統(tǒng)提供了基礎(chǔ),還進(jìn)一步拓展了其技術(shù)的應(yīng)用范圍,為測(cè)繪和地理信息行業(yè)提供大規(guī)模數(shù)據(jù)處理服務(wù)。
權(quán)龍十分認(rèn)可方天的想法,在他看來(lái),三維重建技術(shù)的核心在于數(shù)據(jù)的獲取。隨著硬件設(shè)備的普及,智能手機(jī)、無(wú)人機(jī)與無(wú)人駕駛中的車載相機(jī)都配備了高質(zhì)量的攝像頭,能為三維重建提供了豐富的素材。消費(fèi)級(jí)無(wú)人機(jī)的普及更是讓自動(dòng)化和大規(guī)模的數(shù)據(jù)收集成為可能。
2015 年 Altizure 成立,權(quán)龍與方天就同步推出了同名的核心產(chǎn)品。作為一個(gè)創(chuàng)新平臺(tái),Altizure 能夠?qū)o(wú)人機(jī)航拍照片轉(zhuǎn)換成三維實(shí)景模型。在權(quán)龍和方天的規(guī)劃中,Altizure 將利用無(wú)人機(jī)飛手的力量,逐步重建出整個(gè)地球的三維模型,形成一個(gè)眾包的 Google Earth。
Altizure 一經(jīng)發(fā)布,便深受無(wú)人機(jī)愛好者和專業(yè)用戶的青睞。
起初,Altizure 只開放了網(wǎng)站這一個(gè)面向消費(fèi)者的入口。隨著技術(shù)的逐漸成熟,權(quán)龍和方天意識(shí)到,服務(wù)應(yīng)更多地面向企業(yè)和政府,即 2B 和 2G 市場(chǎng)。
于是 Altizure 也開始制作城市級(jí)別的實(shí)景三維模型,為智慧城市和安防系統(tǒng)提供了基礎(chǔ),還進(jìn)一步拓展了其技術(shù)的應(yīng)用范圍,為測(cè)繪和地理信息行業(yè)提供大規(guī)模數(shù)據(jù)處理服務(wù)。
由于出色的三維建模技術(shù), Altizure 很快被國(guó)際大廠并購(gòu)。
而在權(quán)龍與方天之后,VisGraph 的第二位創(chuàng)業(yè)者是肖健雄。
肖健雄 2009 年去 MIT 讀博,隸屬于知名的計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL),專注于大數(shù)據(jù)驅(qū)動(dòng)的三維場(chǎng)景分析研究,博士期間獲得了2012年 Google Research 的最佳論文獎(jiǎng)。之后,他加入普林斯頓大學(xué)擔(dān)任助理教授,研究如何將三維視覺應(yīng)用在機(jī)器人領(lǐng)域,開拓了 RGB-D 場(chǎng)景分析和三維深度學(xué)習(xí)兩項(xiàng)創(chuàng)新研究,在無(wú)人駕駛、Visual SLAM 和機(jī)器人控制等實(shí)際應(yīng)用領(lǐng)域都展現(xiàn)出了巨大潛力。
自動(dòng)駕駛興起后,2016 年肖健雄就辭掉了教職、投身創(chuàng)業(yè)大潮,創(chuàng)立了自動(dòng)駕駛技術(shù)公司 AutoX,專注在 L4。
繼肖健雄之后,VisGraph 的第三位創(chuàng)業(yè)者是譚平。
2019 年,進(jìn)入學(xué)術(shù)界 12 年后的譚平對(duì)工業(yè)界還是熱情不滅,遂回國(guó)投身 AI 產(chǎn)業(yè)建設(shè),但過(guò)程有些坎坷。
他先短暫加入 360 擔(dān)任人工智能研究院副院長(zhǎng),與顏水成搭檔。當(dāng)時(shí) 360 有意研究自動(dòng)駕駛,譚平擅長(zhǎng)的三維視覺正是高精地圖、導(dǎo)航、避障等問題所急需的。后來(lái),360 終止了自動(dòng)駕駛業(yè)務(wù),團(tuán)隊(duì)將研究成果轉(zhuǎn)化為了一款掃地機(jī)器人。掃地機(jī)器人產(chǎn)品上市后,譚平就離開了 360。
后在淺雪的邀請(qǐng)下,譚平加入了阿里人工智能實(shí)驗(yàn)室擔(dān)任視覺首席科學(xué)家。
譚平專長(zhǎng) 3D 視覺,這方面的人才在國(guó)內(nèi)長(zhǎng)期稀缺。當(dāng)時(shí)阿里人工智能實(shí)驗(yàn)室的發(fā)展很好,有天貓精靈與自動(dòng)駕駛等團(tuán)隊(duì),譚平想研究 XR,淺雪也在規(guī)劃相關(guān)產(chǎn)品,找到譚平,就加入了阿里。但沒多久,公司組織結(jié)構(gòu)調(diào)整,阿里人工智能實(shí)驗(yàn)室就被解散。之后譚平轉(zhuǎn)去阿里云呆了一年半,21年又轉(zhuǎn)去阿里達(dá)摩院擔(dān)任 XR 實(shí)驗(yàn)室負(fù)責(zé)人。
在 XR 實(shí)驗(yàn)室,譚平希望打造一款面向消費(fèi)者的MR眼鏡,將元宇宙這一愿景打造成下一代互聯(lián)網(wǎng)。在他設(shè)想的產(chǎn)品里,顯示、交互都將從兩維升級(jí)到三維。社交、電商、娛樂應(yīng)用都會(huì)被徹底顛覆,用戶可以直接沉浸式的和虛擬信息面對(duì)面交流。
巔峰時(shí)期,阿里的 XR 實(shí)驗(yàn)室有 200 多名研發(fā)人員,分散在北京、杭州、深圳乃至以色列。然而到了 2022 年,XR 熱潮逐漸消退,阿里在 XR 方向的研發(fā)策略也有所調(diào)整,譚平領(lǐng)導(dǎo)的 XR 項(xiàng)目只做了一年就被緊急叫停,許多員工選擇離開,譚平也于年中離職。
因?yàn)榘⒗锏倪@段經(jīng)歷,譚平意識(shí)到,如果他想將 XR 技術(shù)落地,或許不如參考導(dǎo)師權(quán)龍的方式:在高校做產(chǎn)學(xué)研孵化。所以 2023 年,譚平加入了港科大任教,研究三維生成模型,又創(chuàng)立了 AI 科技公司光影煥像(Light Illusions)。
譚平在港科大的辦公室就在曾經(jīng) VisGraph 的 4204 實(shí)驗(yàn)室樓下。譚平由此向雷峰網(wǎng)感嘆,他在學(xué)術(shù)界與工業(yè)界之間多次兜轉(zhuǎn)跳躍,「又回到了夢(mèng)開始的地方」。
2021 年,危夷晨在曠視經(jīng)歷了三年多摸爬滾打的創(chuàng)業(yè)經(jīng)歷后,意識(shí)到需要深入扎根到具有重要價(jià)值的行業(yè),需要將人工智能算法和工程、產(chǎn)品等專業(yè)更好地結(jié)合起來(lái)。他選擇了醫(yī)療行業(yè),加入了數(shù)坤科技任聯(lián)席 CTO。
寫在最后
創(chuàng)業(yè)公司被收購(gòu)后,權(quán)龍每周都從清水灣往返于銅鑼灣的辦公室,每次通勤都要花一個(gè)小時(shí),很辛苦。但權(quán)龍依然選擇住在港科大附近。
港科大遠(yuǎn)離繁鬧的市區(qū),自封為「金牌導(dǎo)游」的權(quán)龍對(duì)校內(nèi)每個(gè)能看到海和島的景點(diǎn)了如指掌。閑暇之余,權(quán)龍還喜歡領(lǐng)著來(lái)港科大拜訪他的學(xué)者、業(yè)界朋友們?cè)谛@里溜達(dá)。權(quán)龍的學(xué)生們談到,他的身上總是流露著一種難以模仿的「松弛感」。
極具松弛感的權(quán)龍?jiān)缭邕x擇了三維視覺這條彼時(shí)人跡罕至的路「一路走到黑」,從太原、北京、法國(guó)到香港,從 ICCV 第一位中稿華人到 ICCV、CVPR 的大會(huì)主席。
值得一提的是,權(quán)龍更是迎接新 AI 時(shí)代前夕的大會(huì)主席:2011 年權(quán)龍擔(dān)任 ICCV 大會(huì)主席,CNN(卷積神經(jīng)網(wǎng)絡(luò))在下一年誕生;2023 年權(quán)龍成為 CVPR 大會(huì)主席,生成式 AI在下一年成為焦點(diǎn)。
這一切既是偶然,又是必然。
危夷晨、曾鋼、譚平、王井東、袁路、方天、肖健雄、張宏輝、王婧璐,、朱思語(yǔ)、黎世偉、羅梓鑫、張潤(rùn)澤、鎮(zhèn)明敏、周磊、申天緯、姚遙、張京陽(yáng)、陳鴻凱、尚嘉祥等人從權(quán)龍的實(shí)驗(yàn)室走出,也從三維重建走向計(jì)算機(jī)視覺的多個(gè)方向,并肩同行、又散作滿天星。二十年過(guò)去,他們成為中國(guó)三維視覺的代表人物。
對(duì)于三維視覺的探路者來(lái)說(shuō),他們歷經(jīng)統(tǒng)計(jì)學(xué)習(xí)、深度學(xué)習(xí)再到大模型時(shí)代,幾起幾落,但始終都在努力跟上時(shí)代的前沿,站在視覺的思維去思考眼前的美好世界。
比如,危夷晨告訴雷峰網(wǎng),從港科大到 MSRA、曠視、數(shù)坤,他一直在嘗試打破自己過(guò)去的認(rèn)知和經(jīng)驗(yàn)。譚平最近將 AGI 話語(yǔ)體系下的「世界模型」與機(jī)器人領(lǐng)域的「運(yùn)動(dòng)模型」結(jié)合起來(lái),也有新的認(rèn)知,常學(xué)常新。
4204實(shí)驗(yàn)室的故事已告一段落,但他們的篇章仍未完待續(xù)。
(雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))前編輯郭思對(duì)本文亦有貢獻(xiàn))
本文雷峰網(wǎng)作者 anna042023 將持續(xù)關(guān)注AI大模型領(lǐng)域的人事、企業(yè)、商業(yè)應(yīng)用以及行業(yè)發(fā)展趨勢(shì),歡迎添加交流,互通有無(wú)。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。