0
本文作者: 陳彩嫻 | 2022-08-15 11:57 |
去年年底,2022年 IEEE Fellow(全球電子與電氣工程領(lǐng)域最高榮譽(yù))名單發(fā)布,有人在知乎上評論:
「王井東老師終于當(dāng)選了,實(shí)至名歸?!?/p>
在中國計(jì)算機(jī)視覺領(lǐng)域,王井東是一個(gè)無人不知、無人不曉的研究者。在學(xué)術(shù)圈,人們會討論他在 2019 年視覺算法數(shù)不勝數(shù)之際仍能占據(jù)群雄的 HRNet(一個(gè)用于視覺識別的高分辨率神經(jīng)網(wǎng)絡(luò));在工業(yè)界,他在微軟亞洲研究院(MSRA)視覺計(jì)算組的工作多年,后加入百度,負(fù)責(zé)視覺領(lǐng)域的技術(shù)研究工作,為百度的多線業(yè)務(wù)提供視覺技術(shù)支持。
圖注:王井東
無論在學(xué)術(shù)研究還是技術(shù)落地上,王井東都取得了不錯(cuò)的成就。至今,他的谷歌學(xué)術(shù)被引數(shù)超過三萬次,對于主要為解決產(chǎn)品問題而開展科研工作、發(fā)論文只是「茶余飯后」之消遣的企業(yè)科學(xué)家來說,這是一個(gè)相當(dāng)難得的成績。
據(jù)雷峰網(wǎng)近日與王井東的交談,王井東認(rèn)為,百度的搜索引擎、自動駕駛、語音助手等等不同業(yè)務(wù)線雖然場景應(yīng)用有所差異,但彼此之間也存在共通的視覺問題。他從微軟離開,加入百度,一方面便是看中了百度這個(gè)能夠研究貫穿不同場景的獨(dú)一視覺問題的平臺。
王井東憑什么引領(lǐng)百度的視覺研究?百度的視覺布局又將朝著什么樣的方向發(fā)展?
1、與天才同行
江蘇人王井東是一個(gè)名副其實(shí)的理工科學(xué)霸。
他的本科與碩士就讀于清華大學(xué)自動化系(國內(nèi)最早研究人工智能的院系之一),碩士導(dǎo)師為張長水,張長水的學(xué)生里就包括目前的阿里巴巴技術(shù)副總裁賈揚(yáng)清。博士階段,他就讀于香港科技大學(xué)計(jì)算機(jī)視覺與圖形實(shí)驗(yàn)室,該實(shí)驗(yàn)室走出來的視覺大拿包括思謀科技創(chuàng)始人賈佳亞、曠視前上海研究院院長危夷晨、AutoX 創(chuàng)始人肖健雄、阿里巴巴前計(jì)算機(jī)視覺首席科學(xué)家譚平等人。
走出校園后,他加入微軟亞洲研究院。從微軟亞洲研究院出來的知名視覺研究者包括沈向洋、湯曉鷗、孫劍、馬毅、屠卓文、華剛、何愷明等人。到微軟亞研實(shí)習(xí)的青年學(xué)生對王井東的評價(jià)是:「井東老師對細(xì)節(jié)要求非常嚴(yán)格,是一個(gè)非常嚴(yán)謹(jǐn)?shù)目蒲泄ぷ髡摺!?/p>
在談到當(dāng)初為何會選擇研究計(jì)算機(jī)視覺時(shí),王井東就告訴雷峰網(wǎng),那時(shí)一個(gè)主要的契機(jī)是2003年他在微軟亞研跟著沈向洋實(shí)習(xí)時(shí),盡管視覺的熱浪還未在中國掀起,但周圍許多優(yōu)秀的人都在研究視覺,這使他自然而然地覺得:在未來,計(jì)算機(jī)視覺一定是一個(gè)潛力無限的發(fā)展方向。
所以,2004 年碩士畢業(yè)后,在沈向洋的推薦下,他就去了香港科技大學(xué)讀博,師從權(quán)龍做視覺研究。
值得一提的是,權(quán)龍與沈向洋都是早期進(jìn)入視覺領(lǐng)域的中國科學(xué)家。權(quán)龍?jiān)缒暝诜▏鴩倚畔⑴c自動化研究所取得博士學(xué)位,法國是歐洲視覺研究最重要的發(fā)源地之一,權(quán)龍得天獨(dú)厚,吸收了許多前沿的視覺知識,在 2001 年回到香港科技大學(xué)建立視覺實(shí)驗(yàn)室(即 VisGraph),該實(shí)驗(yàn)室與湯曉鷗在香港中文大學(xué)建立的多媒體實(shí)驗(yàn)室(MMLab)是早期代表中國學(xué)者參與國際視覺頂會的中堅(jiān)力量。
圖注:王井東(右)與博士導(dǎo)師權(quán)龍(左)
王井東告訴雷峰網(wǎng),他在清華與港科大的兩段學(xué)習(xí)經(jīng)歷都對他產(chǎn)生了較大的影響。
1997年,王井東考入清華大學(xué)自動化系,本碩連讀。自動化與視覺研究在外界看起來似乎毫無關(guān)聯(lián),但據(jù)王井東介紹,視覺與自動化及控制的淵源十分深厚,這體現(xiàn)在兩方面:一是機(jī)器人等硬件控制中視覺對識別、定位與導(dǎo)航的重要作用(近年來如日中天的自動駕駛離不開視覺感知算法便是一個(gè)典型的例子);二是清華自動化系早期有許多研究模式識別的學(xué)者,王井東的碩士導(dǎo)師張長水便是其中之一,而張長水的導(dǎo)師是中國科學(xué)院技術(shù)科學(xué)部委員(院士)常迥教授。
據(jù)王井東介紹,在他讀碩士期間,神經(jīng)網(wǎng)絡(luò)還沒火,但他的導(dǎo)師張長水就已經(jīng)在神經(jīng)網(wǎng)絡(luò)方向做了許多出色的工作。2000 年,張長水與閻平凡合著出版了《人工神經(jīng)網(wǎng)絡(luò)與模擬進(jìn)化計(jì)算》一書。張長水還曾邀請一些國外的學(xué)者到清華全英文講授神經(jīng)網(wǎng)絡(luò)的前沿課程,王井東由此第一次了解到用來訓(xùn)練多層神經(jīng)網(wǎng)絡(luò)的反向傳播算法及其工作機(jī)制。
2004年,王井東和同學(xué)李建國就在張長水、邊肇祺的指導(dǎo)下,在人工智能國際頂會 ICML 上發(fā)表了“Probabilistic Tangent Subspace: A Unified View”一文。要知道,當(dāng)時(shí)能在 ICML 之類頂會上留名的人,可是屈指可數(shù)。
王井東告訴雷峰網(wǎng),那時(shí)他在模式識別方向?qū)W到的許多知識,對他如今做研究仍有重要影響。例如,當(dāng)時(shí)模式識別中一統(tǒng)天下的「核方法」(Kernel Method),如今雖然已經(jīng)很少用于視覺研究,但「核方法的思想仍然存在于今天的深度學(xué)習(xí)中,人工智能領(lǐng)域現(xiàn)在用得比較多的 Transformer 架構(gòu)在某種意義上也與之相關(guān)」。再如矩陣分析方法,如今被用在注意力加速的任務(wù)中,王井東本人也用矩陣分析來研究將平方級的復(fù)雜度變?yōu)榫€性的復(fù)雜度的方法,來優(yōu)化速度。
去了港科大讀博后,王井東的直觀體驗(yàn)到的一個(gè)變化是,與清華的實(shí)驗(yàn)室側(cè)重機(jī)器學(xué)習(xí)不同,港科大的VisGraph實(shí)驗(yàn)室最大的特色是:應(yīng)用。實(shí)驗(yàn)室的研究方向都是計(jì)算機(jī)視覺或計(jì)算機(jī)圖形學(xué)。在這樣的環(huán)境中,王井東對視覺的理解也有了更多新的思考。
博士三年,王井東主要研究機(jī)器學(xué)習(xí)與計(jì)算機(jī)視覺,用圖、半監(jiān)督等方法處理圖像分割問題。那時(shí),雖然人在香港,但他與清華、微軟亞研的伙伴都保持著密切的研究交流。2006 年,王井東與沈向洋等微軟研究員的合作(“Picture Collage”),以及他與張長水的工作(“Semi-Supervised Classification Using Linear Neighborhood Propagation”),就一同被視覺頂會 CVPR 2006 接收。
當(dāng)年的 CVPR 在美國紐約召開,王井東記得那時(shí)參會的中國學(xué)者已經(jīng)不少。CVPR 是六月舉行。印象中,許多中國學(xué)者吃不慣西餐,于是他們一行人就匯集了來參會的中國學(xué)者和當(dāng)時(shí)在國外的中國教授和學(xué)生,大家一起去找中餐館吃飯、聊研究與參會的見聞。
王井東是站在視覺騰飛的起點(diǎn)、并見證視覺在全球走向輝煌發(fā)展的一批研究者中的一員。在回憶中,他告訴雷峰網(wǎng),那時(shí)選擇計(jì)算機(jī)視覺真的并不見得是一個(gè)明智的選擇。從大的視角回看,王井東無疑是一個(gè)少數(shù)者,但一個(gè)人的生活并不觸及太廣的半徑,所以對青年王井東來說,他在視覺研究上并不孤獨(dú)。
2、微軟十四年:視覺技術(shù)落地
2007 年,王井東博士畢業(yè),回到了北京,加入微軟亞洲研究院。
王井東將他在微軟亞研的研究分為兩個(gè)階段,也就是「7+7」(王井東一共在微軟亞研工作了十四年):第一個(gè)七年,他主要研究計(jì)算機(jī)視覺在多媒體搜索的應(yīng)用;第二個(gè)七年,他的研究則聚焦在了深度學(xué)習(xí)和計(jì)算機(jī)視覺核心問題上。
第一個(gè)七年
2007年,多媒體搜索剛剛展示出需求與輪廓,當(dāng)時(shí)的必應(yīng)還是一個(gè)尚待開發(fā)的業(yè)務(wù),沈向洋被分派到必應(yīng)的研發(fā)團(tuán)隊(duì)負(fù)責(zé)技術(shù)。由于擅長計(jì)算機(jī)視覺,王井東被派去了解決多媒體搜索中的圖像檢索難題。
王井東向雷峰網(wǎng)(公眾號:雷峰網(wǎng))介紹,那時(shí)圖像搜索功能不盡如人意,如果用戶想搜索一張「藍(lán)天白云下,一只狗臥在綠色的草地上」的圖像,在搜索欄里敲下這樣一串文字時(shí),搜索引擎大概率無法理解用戶的搜索意圖。為了解決這個(gè)問題,他與團(tuán)隊(duì)研發(fā)了基于草圖的圖像檢索技術(shù)和開發(fā)一個(gè)用戶交互的工具:用戶可以畫一個(gè)顏色草圖,如用綠色來表達(dá)草地這一搜索意圖,相比純文本搜索方法取得了明顯的效果提升。
這個(gè)思路并不新,早在上世紀(jì)就有基于草圖的多媒體搜索方法,但用在商業(yè)搜索引擎上還是第一次。
王井東的一個(gè)體會是,在企業(yè)做研究,只有更好,沒有最好。就拿上述這個(gè)例子來說,第一代用戶交互方式還是繁瑣,為了更簡化,他和團(tuán)隊(duì)又繼續(xù)開發(fā)了一種顏色過濾器來使用戶交互更加簡單:例如,如果你希望圖片中的狗是藍(lán)色的,那么就可以設(shè)置顏色篩選來獲得包含藍(lán)色的狗的圖片。這項(xiàng)功能至今仍被應(yīng)用于必應(yīng)中。
圍繞圖像搜索,王井東從應(yīng)用轉(zhuǎn)向基礎(chǔ)關(guān)鍵算法研究,取得了更大的成績。
在搜索中,一個(gè)圖像(即一個(gè)查詢項(xiàng))通常會被轉(zhuǎn)化為一個(gè)向量,數(shù)據(jù)庫中包含著成百上千億的向量,如何快速搜索就成了一個(gè)問題。自 2009 年起,王井東開始研究搜索應(yīng)用中的基礎(chǔ)問題之一近似最近鄰算法(Approximate Nearest Neighbor,ANN)。
ANN 搜索的目標(biāo)是在一個(gè)定義的距離度量下,從數(shù)據(jù)庫中尋找出離查詢項(xiàng)的距離最近項(xiàng)。王井東觀察到一個(gè)有趣的事實(shí):如果一個(gè)向量靠近查詢項(xiàng)的向量,那么這個(gè)向量的相鄰向量也可能靠近查詢項(xiàng)的向量。這個(gè)思路跟「六度分割理論」(小世界理論)類似,即世界上任何互不相識的兩人,只需要很少的中間人就能夠建立起聯(lián)系。
受此啟發(fā),王井東設(shè)計(jì)了一種 ANN 搜索算法,以近鄰圖(Neighborhood Graph)作為索引來進(jìn)行圖像搜索。結(jié)果,該算法帶來的搜索效果非常驚艷。王井東回憶,當(dāng)時(shí)他還以為是測試出了問題,連忙又重復(fù)核查了一下,最終他驚喜地發(fā)現(xiàn),這個(gè)辦法比當(dāng)時(shí)號稱效果最佳的其他同樣基于kd-trees的方法要好很多。2014年,這個(gè)算法已經(jīng)應(yīng)用在必應(yīng)的圖像搜索和廣告中,是第一個(gè)在商業(yè)產(chǎn)品中成功應(yīng)用基于近鄰圖的最近鄰搜索算法。后來,微軟的許多產(chǎn)品包括網(wǎng)頁搜索也采用了該算法作為核心組件。目前,許多商業(yè)搜索以及推薦產(chǎn)品都采用了基于近鄰圖的近似最近鄰搜索算法。
第二個(gè)七年
2014 年,在多媒體搜索上研究多年后,王井東將目光投向了另一個(gè)發(fā)展正熱的新方向——深度學(xué)習(xí)。
事實(shí)上,據(jù)王井東回憶,早在 2005 年,他就已經(jīng)試過用人工智能來解決實(shí)際問題。那一年,王井東還在香港讀博時(shí),他的一位清華師兄回國創(chuàng)業(yè),將卷積神經(jīng)網(wǎng)絡(luò)(CNN)用于車牌識別,他在實(shí)習(xí)時(shí)也參與了其中。
探索初期,王井東的主要工作是把深度學(xué)習(xí)算法的端到端(end-to-end)性質(zhì)拓展到一些新的應(yīng)用上。不過很快,他就發(fā)現(xiàn)了一個(gè)更重要的研究課題:視覺網(wǎng)絡(luò)架構(gòu)的設(shè)計(jì)。網(wǎng)絡(luò)架構(gòu)的設(shè)計(jì)是深度學(xué)習(xí)的核心問題之一。當(dāng)時(shí)許多人都在思考:如何讓神經(jīng)網(wǎng)絡(luò)變得更深。
王井東從2015年開始,則思考利用神經(jīng)網(wǎng)絡(luò)解決分類以外的視覺問題。
2015年前后,視覺領(lǐng)域的普遍做法是使用圖像分類的網(wǎng)絡(luò)來解決分類以外的分割、檢測、姿態(tài)估計(jì)等問題,如 2012 年的 AlexNet、2014 年的 GoogleNet、2015 年的ResNet等架構(gòu)。但他發(fā)現(xiàn),分類網(wǎng)絡(luò)存在一個(gè)顯而易見但始終未被提出的弊端:分類網(wǎng)絡(luò)結(jié)構(gòu)在學(xué)習(xí)高分辨率表示時(shí),先將分辨率慢慢變小,然后通過上采樣的方法在分割等任務(wù)中逐步從低分辨率恢復(fù)高分辨率,這種方法所獲得的特征空間精度很低。
對此,王井東提出了自己的疑問:能不能不降分辨率而保持高分辨率?能不能不依賴分類網(wǎng)絡(luò)?
那時(shí)大家未必沒有同樣的疑問,保持高分辨率的想法也并不復(fù)雜,但考慮到分類的網(wǎng)絡(luò)已經(jīng)訓(xùn)練得很好,用到其他任務(wù)中更容易訓(xùn)練,所以學(xué)術(shù)界與工業(yè)界都沒有人邁出改變的一步。但是,不破不立,王井東心想,若能直接學(xué)習(xí)高分辨率的表示,一定能大幅改進(jìn)視覺任務(wù)的解決。
經(jīng)過兩三年的思路醞釀,2018 年,王井東感到萬事俱備,便領(lǐng)導(dǎo)團(tuán)隊(duì)開始著手設(shè)計(jì)一個(gè)學(xué)習(xí)高分辨率表示的通用視覺架構(gòu)。2019年,HRNet 在 CVPR 上橫空出世,驚艷眾人。它是王井東在視覺研究上的又一大高峰,引用數(shù)在短短三年內(nèi)超過了3000次。
論文地址:https://jingdongwang2017.github.io/Pubs/TPAMI-HRNet.pdf
HRNet 不再沿用以往的分類架構(gòu)從低分辨率恢復(fù)到高分辨率的設(shè)計(jì)規(guī)則,而是讓高中低分辨率不停交互融合,使高分辨率可以獲得低分辨率語義信息較強(qiáng)的表征,低分辨率可以獲得高分辨率的空間精度比較強(qiáng)的表征,能夠從頭就保持高分辨率。同時(shí),由于 HRNet 不以分類任務(wù)出發(fā)點(diǎn),所以也具有更強(qiáng)的通用性,廣泛適用于分割、檢測、姿態(tài)估計(jì)等位置敏感的一般視覺任務(wù)。這項(xiàng)工作發(fā)布以后,在學(xué)術(shù)界與工業(yè)界都引起了廣泛的討論。
王井東告訴雷峰網(wǎng),HRNet 與他之前所提出的網(wǎng)絡(luò)架構(gòu)看起來相似。從 2015 年開始,他就采用多路( Multi-branch)方法設(shè)計(jì)出了 DFN(Deeply-fused nets,深度融合網(wǎng)絡(luò))、IGC(Interleaved Group Convolution,交錯(cuò)組卷積)等視覺網(wǎng)絡(luò)架構(gòu),HRNet 也同樣采用了多路方法,所以有相通之處,但本質(zhì)上,HRNet 展示了一種研究思維上的轉(zhuǎn)變。
后來,HRNet 視覺網(wǎng)絡(luò)架構(gòu)被微軟在內(nèi)的許多公司采用,拿去解決實(shí)際問題,如自動駕駛、3D點(diǎn)云識別、人體姿態(tài)估計(jì)、衛(wèi)星圖像分割、OCR表單識別與檢測等等??梢哉f,HRNet 兼顧了學(xué)術(shù)研究突破的優(yōu)雅與解決實(shí)際問題的效用,是仰望天空,也是腳踏實(shí)地。
王井東雖然身處產(chǎn)業(yè)界,但并不受實(shí)際問題的約束。相反,他的例子證明,在工業(yè)界,杰出的研究者也能有科研上的創(chuàng)新,「工程師」也能成為「科學(xué)家」。他入選 2022 年 IEEE Fellow 的理由,就是對視覺內(nèi)容理解與檢索的杰出貢獻(xiàn)。
截至發(fā)稿,王井東一共有 6 篇谷歌學(xué)術(shù)引用過千的論文,但他談道:「在企業(yè)做研究,我們都是圍繞實(shí)際問題出發(fā),在解決問題的過程提出新的方法、新的思路。我更享受我的研究能夠解決實(shí)際的問題。」
他還提到,在計(jì)算機(jī)視覺領(lǐng)域,近年來許多偉大的工作都是來源于工業(yè)界,而不是學(xué)術(shù)界。這說明,視覺領(lǐng)域的研究,也包含所謂的「感知智能」,要取得大的突破,必須要與實(shí)際的應(yīng)用問題緊密結(jié)合,用實(shí)際需求指導(dǎo)學(xué)術(shù)研究。
3、走進(jìn)百度視覺
從微軟離開后,王井東選擇加入國內(nèi)人工智能研發(fā)實(shí)力最強(qiáng)的平臺之一:百度。
作為國內(nèi)最早押注 AI 技術(shù)的互聯(lián)網(wǎng)企業(yè),百度在多個(gè)熱門的人工智能賽道都有布局:語言、語音、視覺……同時(shí),百度的搜索引擎、自動駕駛、智能云、小度等等不同業(yè)務(wù)線,也為每一項(xiàng)技術(shù)提供了豐富的落地場景。
王井東向雷峰網(wǎng)坦誠道,他對不同方向里面的共性問題最感興趣,比如,視覺研究中的檢測與分割是 OCR 與自動駕駛都關(guān)注的問題,表征學(xué)習(xí)又是檢測、分割、搜索等問題里的核心。盡管每個(gè)任務(wù)都有一些小的差異,但一旦從不同任務(wù)的共性問題中提取出基礎(chǔ)技術(shù),這項(xiàng)技術(shù)就能支撐多個(gè)應(yīng)用。
他直接隸屬于百度的技術(shù)中臺,他的團(tuán)隊(duì)對內(nèi)支持百度搜索、自動駕駛、智能云、小度等多個(gè)業(yè)務(wù)部門的視覺應(yīng)用,對外通過飛槳和智能云賦能工業(yè)制造、智慧城市、智慧金融等產(chǎn)業(yè)領(lǐng)域,這一點(diǎn)很吸引王井東。他告訴雷峰網(wǎng),「一干多支」,這也是他加入百度后開展視覺研究的基本思路。
從去年9月到現(xiàn)在,王井東在百度的時(shí)間不到一年,但在帶領(lǐng)百度視覺發(fā)展上已經(jīng)卓有成就。
作為一個(gè)浸潤于卓越中成長的領(lǐng)軍者,王井東對百度視覺目前最大的影響,可能就是對前沿研究趨勢的把握與緊跟時(shí)代的實(shí)踐,比如主推學(xué)術(shù)界與工業(yè)界都密切關(guān)注的、減少對數(shù)據(jù)依賴的自監(jiān)督學(xué)習(xí)方法、以及視覺大模型。
在實(shí)際應(yīng)用中,自監(jiān)督學(xué)習(xí)帶來的好處是顯然的:它可以減少人工對數(shù)據(jù)的標(biāo)注,降低勞動力成本,提升研發(fā)效率。在 2020 年的 ICLR 大會上,圖靈獎(jiǎng)得主 Yann LeCun 和 Yoshua Bengio 就曾搖旗吶喊「自監(jiān)督學(xué)習(xí)是 AI 的未來」。王井東對自監(jiān)督也表現(xiàn)出很大的興趣和信心,他認(rèn)為,自監(jiān)督學(xué)習(xí)能夠從未標(biāo)注的數(shù)據(jù)中學(xué)到知識,這給了大家無限的想象力。
加入百度后,他帶領(lǐng)百度團(tuán)隊(duì)與北京大學(xué)、香港大學(xué)合作,提出一種自監(jiān)督表征學(xué)習(xí)算法:CAE(Context Autoencoder)、新型掩碼圖像建模(MIM)方法,這項(xiàng)工作已經(jīng)開源在百度飛漿平臺上。在百度 OCR 識別技術(shù)中,就采用了自監(jiān)督學(xué)習(xí)算法 CAE,效果上取得了突破性的提升。
「自監(jiān)督在 OCR 中的應(yīng)用只是第一步,我們希望對通用的圖像自監(jiān)督學(xué)習(xí)有更深刻的理解?!雇蹙畺|正在努力推進(jìn)的一個(gè)方向,是對自監(jiān)督學(xué)習(xí)做數(shù)據(jù)規(guī)?;瑥拇罅繑?shù)據(jù)中學(xué)到有用的知識,這也是整個(gè)業(yè)界關(guān)注的問題。在將來,他希望能夠在因果關(guān)系、預(yù)測等更高級的認(rèn)知學(xué)習(xí)方面有所進(jìn)展。
王井東加入百度后的另一個(gè)成就,是打造通用的視覺大模型。在今年的 WAVE SUMMIT 深度學(xué)習(xí)開發(fā)者峰會上,他領(lǐng)導(dǎo)團(tuán)隊(duì)開發(fā)的視覺大模型發(fā)布,在百度文心大模型的版圖中強(qiáng)化了視覺的一角。
在自動駕駛領(lǐng)域,王井東也帶領(lǐng)團(tuán)隊(duì)開展了一些工作。例如,今年,王井東帶領(lǐng)的百度視覺團(tuán)隊(duì)就與華中科技大學(xué)的研究人員合作,從端到端方案中的一個(gè)代表即 BEV(Birds-Eye-View)語義分割出發(fā),提出了一個(gè) GitNet 架構(gòu)來解決自動駕駛中的感知問題。這項(xiàng)工作發(fā)表在了今年的視覺頂會 ECCV 上。
盡管加入百度的時(shí)間還不長,但上述的工作已足以詮釋王井東在企業(yè)做研究「仰望星空、腳踏實(shí)地」的經(jīng)驗(yàn)與精神。王井東本人也對雷峰網(wǎng)表示,在企業(yè)里做研究,有的人會說產(chǎn)品需求是一種制約,有的人也會說這是一種可以利用的資源,關(guān)鍵在于個(gè)人如何看待。
而從王井東的履歷來看,顯然他是看向了后者。
以下是雷峰網(wǎng)與王井東探討視覺發(fā)展技術(shù)的部分問答整理:
雷峰網(wǎng):基于未來幾年的計(jì)算機(jī)視覺發(fā)展趨勢,您在百度的研究規(guī)劃是什么?您重點(diǎn)關(guān)注什么?
王井東:第一,從方法上講,大家越來越趨于 Transformer 這個(gè)方向。Transformer 幾乎統(tǒng)一了自然語言、視覺、語音等等不同的信號,大家都希望有一個(gè)統(tǒng)一的框架出現(xiàn),這是我們關(guān)注的。
第二是規(guī)?;D阋幚砀嗟臄?shù)據(jù),那么你能不能從海量的數(shù)據(jù)中學(xué)到你想要的知識。歸納起來,就是數(shù)據(jù)量給你的知識規(guī)模,同時(shí)也包括模型參數(shù)的規(guī)?;?。規(guī)模化是未來視覺里備受關(guān)注的一個(gè)方向。
第三個(gè)就是我剛才討論的自監(jiān)督,因?yàn)樗o大家?guī)砹藷o限的想象力。
雷峰網(wǎng):您怎么看「通用人工智能」(GAI)?
王井東:我其實(shí)覺得現(xiàn)在談通用人工智能還是有點(diǎn)太早了。從我們的路徑來講,我們希望一步一個(gè)腳印,把每個(gè)環(huán)節(jié)都弄透了,我們認(rèn)為可以的時(shí)候,再朝著通用人工智能的方向走。當(dāng)然每個(gè)人的觀點(diǎn)是不一樣的。
我自己很喜歡 Transformer。Transformer 里面最關(guān)鍵的是注意力(Attention)。為什么我喜歡它呢?很多年前,我跟權(quán)龍老師讀博時(shí),他就說,視覺識別領(lǐng)域最重要的就是兩個(gè)點(diǎn),一個(gè)是特征,一個(gè)是匹配。而 Attention 天然就是干這個(gè)事兒的。Attention本身就是一個(gè)搜索、匹配的過程。同時(shí),在 Transformer 里面,它也是學(xué)習(xí)特征的過程。我自己看好Transformer 的一個(gè)很大的原因是,它把特征與匹配完美地融合到了 Attention 機(jī)制里。所以我覺得將來它有可能成為網(wǎng)絡(luò)結(jié)構(gòu)統(tǒng)一的助推。
另外,Attention 非常直觀、可解釋性強(qiáng)。以前大家都說 CNN 要往可解釋性的方向走,要能解釋一些網(wǎng)絡(luò)結(jié)構(gòu),要費(fèi)很多功夫去解釋。但 Attention 可以直接告訴你,它本來就是可解釋的,是非常直觀的。
Transformer 作為 Backbone(骨干網(wǎng)絡(luò)),真的比CNN有優(yōu)勢嗎?這是個(gè)值得思考的問題。我們?nèi)ツ晟习肽曜隽艘恍┕ぷ?,分析?transformer 中 local (window) attention 跟卷積神經(jīng)網(wǎng)絡(luò)(特別是depth-wise convolution)之間的關(guān)系。
論文地址:https://arxiv.org/pdf/2106.04263.pdf
后來發(fā)表在今年的 ICLR(機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)重要會議)。這項(xiàng)工作應(yīng)用了矩陣分析里面的一些知識,當(dāng)你把 local attention跟 depth-wise convolution 寫成矩陣的形式,就會發(fā)現(xiàn)它們很相像,某種意義上是等價(jià)的。我們這項(xiàng)工作表明,基于 local attention 的 Transformer,在結(jié)果和效率上跟卷積很類似,沒有誰強(qiáng)誰弱。雷峰網(wǎng)
前幾年,我們還做過一個(gè)工作,提出了一個(gè)方法「OCRNet」(不是「光學(xué)字符識別」)。在這個(gè)工作中,我們就用了一個(gè) attention 的機(jī)制去做分割,后來我們研究目標(biāo)的檢測方法 DERT,提出了 Conditional DERT 方法,發(fā)現(xiàn)其實(shí) attention 工作的原理跟人去做目標(biāo)檢測的原理是一樣的。
什么意思呢?我們在做目標(biāo)檢測時(shí),直觀上也要找到目標(biāo)的 bounding box,即最上面一條邊、最左邊一條邊、最下面一條邊和最右邊一條邊,那我們怎么去找?我們?nèi)斯と?biāo)注的時(shí)候是會找你最上面、最下面、最左邊、最右邊的那個(gè)點(diǎn)分別在哪,而 Conditional DERT 在檢測時(shí)也是這樣做的。這非常有意思,這也是為什么我覺得 Transformer 在視覺識別領(lǐng)域有可能成為一個(gè)統(tǒng)一框架的原因之一。
雷峰網(wǎng):您覺得在百度研究視覺有什么獨(dú)特的機(jī)會與優(yōu)勢?
王井東:我談?wù)勎易约旱囊恍└惺?,每個(gè)人的感受可能是不太一樣的。
對我來講,我覺得,首先你在公司做計(jì)算機(jī)視覺,得有一個(gè)很好的應(yīng)用背景,百度正好提供了非常豐富的應(yīng)用需求。雷峰網(wǎng)
其次,百度在計(jì)算機(jī)視覺上有很好的積累,2012年成立了多媒體部,2013年成立了深度學(xué)習(xí)研究院(IDL),百度有很強(qiáng)的技術(shù)積累。計(jì)算機(jī)視覺在今天離不開深度學(xué)習(xí),而百度有很強(qiáng)的深度學(xué)習(xí)平臺(Paddle Paddle),還有深度學(xué)習(xí)技術(shù)與應(yīng)用國家工程研究中心。雷峰網(wǎng)
第三點(diǎn),就是百度有很強(qiáng)、很濃厚的技術(shù)基因,對技術(shù)有信仰??赡懿粌H僅是計(jì)算機(jī)視覺的技術(shù),其他技術(shù)也是一樣,很多有技術(shù)理想的人去做事情,這是我目前看到的一些特點(diǎn)。
雷峰網(wǎng):談?wù)勀嗄陙碜隹蒲械母惺堋?/strong>
王井東:科研創(chuàng)新是搜索的過程??蒲袆?chuàng)新本質(zhì)上不是在創(chuàng)造新東西,事實(shí)上那些東西本來就在,只是被發(fā)現(xiàn)了??蒲袆?chuàng)新是尋找的過程,就像捉迷藏,只有不停的找,才可能找到答案。
勤于思考。創(chuàng)新就是做些未知的東西,沒有現(xiàn)成的可以參考。這個(gè)時(shí)候需要思考,通過寫作來深度思考、完善思考、修改思考,分享寫作的內(nèi)容以得到更加有效的反饋,最終提升做事的效率。做事要夠狠。
更多的是對自己要狠,要有把事情徹底搞清楚的勇氣和自己能夠搞清楚的信心。也是跟自己過不去,在做一些自己不知道答案是什么、甚至可能沒有答案的事情,這是一個(gè)經(jīng)歷無數(shù)次失敗后才可以看到成功的過程。
持續(xù)關(guān)注有突出研究貢獻(xiàn)的科學(xué)家與他們的工作,對該系列內(nèi)容感興趣的讀者可以添加微信 Fiona190913 進(jìn)一步交流。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。