百度計(jì)算機(jī)視覺(jué)首席科學(xué)家王井東：在視覺(jué)的競(jìng)技場(chǎng)，研究與落地沒(méi)有明顯的界限

本文作者：陳彩嫻

2022-08-15 11:57

導(dǎo)語(yǔ)：在王井東看來(lái)，百度搜索引擎、自動(dòng)駕駛、智能云、小度等等不同的業(yè)務(wù)線中，有共同的視覺(jué)研究難題。

去年年底，2022年 IEEE Fellow（全球電子與電氣工程領(lǐng)域最高榮譽(yù)）名單發(fā)布，有人在知乎上評(píng)論：

「王井東老師終于當(dāng)選了，實(shí)至名歸?！?/p>

在中國(guó)計(jì)算機(jī)視覺(jué)領(lǐng)域，王井東是一個(gè)無(wú)人不知、無(wú)人不曉的研究者。在學(xué)術(shù)圈，人們會(huì)討論他在 2019 年視覺(jué)算法數(shù)不勝數(shù)之際仍能占據(jù)群雄的 HRNet（一個(gè)用于視覺(jué)識(shí)別的高分辨率神經(jīng)網(wǎng)絡(luò)）；在工業(yè)界，他在微軟亞洲研究院（MSRA）視覺(jué)計(jì)算組的工作多年，后加入百度，負(fù)責(zé)視覺(jué)領(lǐng)域的技術(shù)研究工作，為百度的多線業(yè)務(wù)提供視覺(jué)技術(shù)支持。

百度計(jì)算機(jī)視覺(jué)首席科學(xué)家王井東：在視覺(jué)的競(jìng)技場(chǎng)，研究與落地沒(méi)有明顯的界限

圖注：王井東

無(wú)論在學(xué)術(shù)研究還是技術(shù)落地上，王井東都取得了不錯(cuò)的成就。至今，他的谷歌學(xué)術(shù)被引數(shù)超過(guò)三萬(wàn)次，對(duì)于主要為解決產(chǎn)品問(wèn)題而開(kāi)展科研工作、發(fā)論文只是「茶余飯后」之消遣的企業(yè)科學(xué)家來(lái)說(shuō)，這是一個(gè)相當(dāng)難得的成績(jī)。

據(jù)雷峰網(wǎng)近日與王井東的交談，王井東認(rèn)為，百度的搜索引擎、自動(dòng)駕駛、語(yǔ)音助手等等不同業(yè)務(wù)線雖然場(chǎng)景應(yīng)用有所差異，但彼此之間也存在共通的視覺(jué)問(wèn)題。他從微軟離開(kāi)，加入百度，一方面便是看中了百度這個(gè)能夠研究貫穿不同場(chǎng)景的獨(dú)一視覺(jué)問(wèn)題的平臺(tái)。

王井東憑什么引領(lǐng)百度的視覺(jué)研究？百度的視覺(jué)布局又將朝著什么樣的方向發(fā)展？

1、與天才同行

江蘇人王井東是一個(gè)名副其實(shí)的理工科學(xué)霸。

他的本科與碩士就讀于清華大學(xué)自動(dòng)化系（國(guó)內(nèi)最早研究人工智能的院系之一），碩士導(dǎo)師為張長(zhǎng)水，張長(zhǎng)水的學(xué)生里就包括目前的阿里巴巴技術(shù)副總裁賈揚(yáng)清。博士階段，他就讀于香港科技大學(xué)計(jì)算機(jī)視覺(jué)與圖形實(shí)驗(yàn)室，該實(shí)驗(yàn)室走出來(lái)的視覺(jué)大拿包括思謀科技創(chuàng)始人賈佳亞、曠視前上海研究院院長(zhǎng)危夷晨、AutoX 創(chuàng)始人肖健雄、阿里巴巴前計(jì)算機(jī)視覺(jué)首席科學(xué)家譚平等人。

走出校園后，他加入微軟亞洲研究院。從微軟亞洲研究院出來(lái)的知名視覺(jué)研究者包括沈向洋、湯曉鷗、孫劍、馬毅、屠卓文、華剛、何愷明等人。到微軟亞研實(shí)習(xí)的青年學(xué)生對(duì)王井東的評(píng)價(jià)是：「井東老師對(duì)細(xì)節(jié)要求非常嚴(yán)格，是一個(gè)非常嚴(yán)謹(jǐn)?shù)目蒲泄ぷ髡??！?/p>

在談到當(dāng)初為何會(huì)選擇研究計(jì)算機(jī)視覺(jué)時(shí)，王井東就告訴雷峰網(wǎng)，那時(shí)一個(gè)主要的契機(jī)是2003年他在微軟亞研跟著沈向洋實(shí)習(xí)時(shí)，盡管視覺(jué)的熱浪還未在中國(guó)掀起，但周圍許多優(yōu)秀的人都在研究視覺(jué)，這使他自然而然地覺(jué)得：在未來(lái)，計(jì)算機(jī)視覺(jué)一定是一個(gè)潛力無(wú)限的發(fā)展方向。

所以，2004 年碩士畢業(yè)后，在沈向洋的推薦下，他就去了香港科技大學(xué)讀博，師從權(quán)龍做視覺(jué)研究。

值得一提的是，權(quán)龍與沈向洋都是早期進(jìn)入視覺(jué)領(lǐng)域的中國(guó)科學(xué)家。權(quán)龍?jiān)缒暝诜▏?guó)國(guó)家信息與自動(dòng)化研究所取得博士學(xué)位，法國(guó)是歐洲視覺(jué)研究最重要的發(fā)源地之一，權(quán)龍得天獨(dú)厚，吸收了許多前沿的視覺(jué)知識(shí)，在 2001 年回到香港科技大學(xué)建立視覺(jué)實(shí)驗(yàn)室（即 VisGraph），該實(shí)驗(yàn)室與湯曉鷗在香港中文大學(xué)建立的多媒體實(shí)驗(yàn)室（MMLab）是早期代表中國(guó)學(xué)者參與國(guó)際視覺(jué)頂會(huì)的中堅(jiān)力量。

百度計(jì)算機(jī)視覺(jué)首席科學(xué)家王井東：在視覺(jué)的競(jìng)技場(chǎng)，研究與落地沒(méi)有明顯的界限

圖注：王井東（右）與博士導(dǎo)師權(quán)龍（左）

王井東告訴雷峰網(wǎng)，他在清華與港科大的兩段學(xué)習(xí)經(jīng)歷都對(duì)他產(chǎn)生了較大的影響。

1997年，王井東考入清華大學(xué)自動(dòng)化系，本碩連讀。自動(dòng)化與視覺(jué)研究在外界看起來(lái)似乎毫無(wú)關(guān)聯(lián)，但據(jù)王井東介紹，視覺(jué)與自動(dòng)化及控制的淵源十分深厚，這體現(xiàn)在兩方面：一是機(jī)器人等硬件控制中視覺(jué)對(duì)識(shí)別、定位與導(dǎo)航的重要作用（近年來(lái)如日中天的自動(dòng)駕駛離不開(kāi)視覺(jué)感知算法便是一個(gè)典型的例子）；二是清華自動(dòng)化系早期有許多研究模式識(shí)別的學(xué)者，王井東的碩士導(dǎo)師張長(zhǎng)水便是其中之一，而張長(zhǎng)水的導(dǎo)師是中國(guó)科學(xué)院技術(shù)科學(xué)部委員（院士）常迥教授。

據(jù)王井東介紹，在他讀碩士期間，神經(jīng)網(wǎng)絡(luò)還沒(méi)火，但他的導(dǎo)師張長(zhǎng)水就已經(jīng)在神經(jīng)網(wǎng)絡(luò)方向做了許多出色的工作。2000 年，張長(zhǎng)水與閻平凡合著出版了《人工神經(jīng)網(wǎng)絡(luò)與模擬進(jìn)化計(jì)算》一書(shū)。張長(zhǎng)水還曾邀請(qǐng)一些國(guó)外的學(xué)者到清華全英文講授神經(jīng)網(wǎng)絡(luò)的前沿課程，王井東由此第一次了解到用來(lái)訓(xùn)練多層神經(jīng)網(wǎng)絡(luò)的反向傳播算法及其工作機(jī)制。

2004年，王井東和同學(xué)李建國(guó)就在張長(zhǎng)水、邊肇祺的指導(dǎo)下，在人工智能國(guó)際頂會(huì) ICML 上發(fā)表了“Probabilistic Tangent Subspace: A Unified View”一文。要知道，當(dāng)時(shí)能在 ICML 之類頂會(huì)上留名的人，可是屈指可數(shù)。

王井東告訴雷峰網(wǎng)，那時(shí)他在模式識(shí)別方向?qū)W到的許多知識(shí)，對(duì)他如今做研究仍有重要影響。例如，當(dāng)時(shí)模式識(shí)別中一統(tǒng)天下的「核方法」（Kernel Method），如今雖然已經(jīng)很少用于視覺(jué)研究，但「核方法的思想仍然存在于今天的深度學(xué)習(xí)中，人工智能領(lǐng)域現(xiàn)在用得比較多的 Transformer 架構(gòu)在某種意義上也與之相關(guān)」。再如矩陣分析方法，如今被用在注意力加速的任務(wù)中，王井東本人也用矩陣分析來(lái)研究將平方級(jí)的復(fù)雜度變?yōu)榫€性的復(fù)雜度的方法，來(lái)優(yōu)化速度。

去了港科大讀博后，王井東的直觀體驗(yàn)到的一個(gè)變化是，與清華的實(shí)驗(yàn)室側(cè)重機(jī)器學(xué)習(xí)不同，港科大的VisGraph實(shí)驗(yàn)室最大的特色是：應(yīng)用。實(shí)驗(yàn)室的研究方向都是計(jì)算機(jī)視覺(jué)或計(jì)算機(jī)圖形學(xué)。在這樣的環(huán)境中，王井東對(duì)視覺(jué)的理解也有了更多新的思考。

博士三年，王井東主要研究機(jī)器學(xué)習(xí)與計(jì)算機(jī)視覺(jué)，用圖、半監(jiān)督等方法處理圖像分割問(wèn)題。那時(shí)，雖然人在香港，但他與清華、微軟亞研的伙伴都保持著密切的研究交流。2006 年，王井東與沈向洋等微軟研究員的合作（“Picture Collage”），以及他與張長(zhǎng)水的工作（“Semi-Supervised Classification Using Linear Neighborhood Propagation”），就一同被視覺(jué)頂會(huì) CVPR 2006 接收。

當(dāng)年的 CVPR 在美國(guó)紐約召開(kāi)，王井東記得那時(shí)參會(huì)的中國(guó)學(xué)者已經(jīng)不少。CVPR 是六月舉行。印象中，許多中國(guó)學(xué)者吃不慣西餐，于是他們一行人就匯集了來(lái)參會(huì)的中國(guó)學(xué)者和當(dāng)時(shí)在國(guó)外的中國(guó)教授和學(xué)生，大家一起去找中餐館吃飯、聊研究與參會(huì)的見(jiàn)聞。

王井東是站在視覺(jué)騰飛的起點(diǎn)、并見(jiàn)證視覺(jué)在全球走向輝煌發(fā)展的一批研究者中的一員。在回憶中，他告訴雷峰網(wǎng)，那時(shí)選擇計(jì)算機(jī)視覺(jué)真的并不見(jiàn)得是一個(gè)明智的選擇。從大的視角回看，王井東無(wú)疑是一個(gè)少數(shù)者，但一個(gè)人的生活并不觸及太廣的半徑，所以對(duì)青年王井東來(lái)說(shuō)，他在視覺(jué)研究上并不孤獨(dú)。

2、微軟十四年：視覺(jué)技術(shù)落地

2007 年，王井東博士畢業(yè)，回到了北京，加入微軟亞洲研究院。

王井東將他在微軟亞研的研究分為兩個(gè)階段，也就是「7+7」（王井東一共在微軟亞研工作了十四年）：第一個(gè)七年，他主要研究計(jì)算機(jī)視覺(jué)在多媒體搜索的應(yīng)用；第二個(gè)七年，他的研究則聚焦在了深度學(xué)習(xí)和計(jì)算機(jī)視覺(jué)核心問(wèn)題上。

第一個(gè)七年

2007年，多媒體搜索剛剛展示出需求與輪廓，當(dāng)時(shí)的必應(yīng)還是一個(gè)尚待開(kāi)發(fā)的業(yè)務(wù)，沈向洋被分派到必應(yīng)的研發(fā)團(tuán)隊(duì)負(fù)責(zé)技術(shù)。由于擅長(zhǎng)計(jì)算機(jī)視覺(jué)，王井東被派去了解決多媒體搜索中的圖像檢索難題。

王井東向雷峰網(wǎng)介紹，那時(shí)圖像搜索功能不盡如人意，如果用戶想搜索一張「藍(lán)天白云下，一只狗臥在綠色的草地上」的圖像，在搜索欄里敲下這樣一串文字時(shí)，搜索引擎大概率無(wú)法理解用戶的搜索意圖。為了解決這個(gè)問(wèn)題，他與團(tuán)隊(duì)研發(fā)了基于草圖的圖像檢索技術(shù)和開(kāi)發(fā)一個(gè)用戶交互的工具：用戶可以畫(huà)一個(gè)顏色草圖，如用綠色來(lái)表達(dá)草地這一搜索意圖，相比純文本搜索方法取得了明顯的效果提升。

這個(gè)思路并不新，早在上世紀(jì)就有基于草圖的多媒體搜索方法，但用在商業(yè)搜索引擎上還是第一次。

王井東的一個(gè)體會(huì)是，在企業(yè)做研究，只有更好，沒(méi)有最好。就拿上述這個(gè)例子來(lái)說(shuō)，第一代用戶交互方式還是繁瑣，為了更簡(jiǎn)化，他和團(tuán)隊(duì)又繼續(xù)開(kāi)發(fā)了一種顏色過(guò)濾器來(lái)使用戶交互更加簡(jiǎn)單：例如，如果你希望圖片中的狗是藍(lán)色的，那么就可以設(shè)置顏色篩選來(lái)獲得包含藍(lán)色的狗的圖片。這項(xiàng)功能至今仍被應(yīng)用于必應(yīng)中。

圍繞圖像搜索，王井東從應(yīng)用轉(zhuǎn)向基礎(chǔ)關(guān)鍵算法研究，取得了更大的成績(jī)。

在搜索中，一個(gè)圖像（即一個(gè)查詢項(xiàng)）通常會(huì)被轉(zhuǎn)化為一個(gè)向量，數(shù)據(jù)庫(kù)中包含著成百上千億的向量，如何快速搜索就成了一個(gè)問(wèn)題。自 2009 年起，王井東開(kāi)始研究搜索應(yīng)用中的基礎(chǔ)問(wèn)題之一近似最近鄰算法（Approximate Nearest Neighbor，ANN）。

ANN 搜索的目標(biāo)是在一個(gè)定義的距離度量下，從數(shù)據(jù)庫(kù)中尋找出離查詢項(xiàng)的距離最近項(xiàng)。王井東觀察到一個(gè)有趣的事實(shí)：如果一個(gè)向量靠近查詢項(xiàng)的向量，那么這個(gè)向量的相鄰向量也可能靠近查詢項(xiàng)的向量。這個(gè)思路跟「六度分割理論」（小世界理論）類似，即世界上任何互不相識(shí)的兩人，只需要很少的中間人就能夠建立起聯(lián)系。

受此啟發(fā)，王井東設(shè)計(jì)了一種 ANN 搜索算法，以近鄰圖（Neighborhood Graph）作為索引來(lái)進(jìn)行圖像搜索。結(jié)果，該算法帶來(lái)的搜索效果非常驚艷。王井東回憶，當(dāng)時(shí)他還以為是測(cè)試出了問(wèn)題，連忙又重復(fù)核查了一下，最終他驚喜地發(fā)現(xiàn)，這個(gè)辦法比當(dāng)時(shí)號(hào)稱效果最佳的其他同樣基于kd-trees的方法要好很多。2014年，這個(gè)算法已經(jīng)應(yīng)用在必應(yīng)的圖像搜索和廣告中，是第一個(gè)在商業(yè)產(chǎn)品中成功應(yīng)用基于近鄰圖的最近鄰搜索算法。后來(lái)，微軟的許多產(chǎn)品包括網(wǎng)頁(yè)搜索也采用了該算法作為核心組件。目前，許多商業(yè)搜索以及推薦產(chǎn)品都采用了基于近鄰圖的近似最近鄰搜索算法。

第二個(gè)七年

2014 年，在多媒體搜索上研究多年后，王井東將目光投向了另一個(gè)發(fā)展正熱的新方向——深度學(xué)習(xí)。

事實(shí)上，據(jù)王井東回憶，早在 2005 年，他就已經(jīng)試過(guò)用人工智能來(lái)解決實(shí)際問(wèn)題。那一年，王井東還在香港讀博時(shí)，他的一位清華師兄回國(guó)創(chuàng)業(yè)，將卷積神經(jīng)網(wǎng)絡(luò)（CNN）用于車牌識(shí)別，他在實(shí)習(xí)時(shí)也參與了其中。

探索初期，王井東的主要工作是把深度學(xué)習(xí)算法的端到端（end-to-end）性質(zhì)拓展到一些新的應(yīng)用上。不過(guò)很快，他就發(fā)現(xiàn)了一個(gè)更重要的研究課題：視覺(jué)網(wǎng)絡(luò)架構(gòu)的設(shè)計(jì)。網(wǎng)絡(luò)架構(gòu)的設(shè)計(jì)是深度學(xué)習(xí)的核心問(wèn)題之一。當(dāng)時(shí)許多人都在思考：如何讓神經(jīng)網(wǎng)絡(luò)變得更深。

王井東從2015年開(kāi)始，則思考利用神經(jīng)網(wǎng)絡(luò)解決分類以外的視覺(jué)問(wèn)題。

2015年前后，視覺(jué)領(lǐng)域的普遍做法是使用圖像分類的網(wǎng)絡(luò)來(lái)解決分類以外的分割、檢測(cè)、姿態(tài)估計(jì)等問(wèn)題，如 2012 年的 AlexNet、2014 年的 GoogleNet、2015 年的ResNet等架構(gòu)。但他發(fā)現(xiàn)，分類網(wǎng)絡(luò)存在一個(gè)顯而易見(jiàn)但始終未被提出的弊端：分類網(wǎng)絡(luò)結(jié)構(gòu)在學(xué)習(xí)高分辨率表示時(shí)，先將分辨率慢慢變小，然后通過(guò)上采樣的方法在分割等任務(wù)中逐步從低分辨率恢復(fù)高分辨率，這種方法所獲得的特征空間精度很低。

對(duì)此，王井東提出了自己的疑問(wèn)：能不能不降分辨率而保持高分辨率？能不能不依賴分類網(wǎng)絡(luò)？

那時(shí)大家未必沒(méi)有同樣的疑問(wèn)，保持高分辨率的想法也并不復(fù)雜，但考慮到分類的網(wǎng)絡(luò)已經(jīng)訓(xùn)練得很好，用到其他任務(wù)中更容易訓(xùn)練，所以學(xué)術(shù)界與工業(yè)界都沒(méi)有人邁出改變的一步。但是，不破不立，王井東心想，若能直接學(xué)習(xí)高分辨率的表示，一定能大幅改進(jìn)視覺(jué)任務(wù)的解決。

經(jīng)過(guò)兩三年的思路醞釀，2018 年，王井東感到萬(wàn)事俱備，便領(lǐng)導(dǎo)團(tuán)隊(duì)開(kāi)始著手設(shè)計(jì)一個(gè)學(xué)習(xí)高分辨率表示的通用視覺(jué)架構(gòu)。2019年，HRNet 在 CVPR 上橫空出世，驚艷眾人。它是王井東在視覺(jué)研究上的又一大高峰，引用數(shù)在短短三年內(nèi)超過(guò)了3000次。

百度計(jì)算機(jī)視覺(jué)首席科學(xué)家王井東：在視覺(jué)的競(jìng)技場(chǎng)，研究與落地沒(méi)有明顯的界限

論文地址：https://jingdongwang2017.github.io/Pubs/TPAMI-HRNet.pdf

HRNet 不再沿用以往的分類架構(gòu)從低分辨率恢復(fù)到高分辨率的設(shè)計(jì)規(guī)則，而是讓高中低分辨率不停交互融合，使高分辨率可以獲得低分辨率語(yǔ)義信息較強(qiáng)的表征，低分辨率可以獲得高分辨率的空間精度比較強(qiáng)的表征，能夠從頭就保持高分辨率。同時(shí)，由于 HRNet 不以分類任務(wù)出發(fā)點(diǎn)，所以也具有更強(qiáng)的通用性，廣泛適用于分割、檢測(cè)、姿態(tài)估計(jì)等位置敏感的一般視覺(jué)任務(wù)。這項(xiàng)工作發(fā)布以后，在學(xué)術(shù)界與工業(yè)界都引起了廣泛的討論。

王井東告訴雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))，HRNet 與他之前所提出的網(wǎng)絡(luò)架構(gòu)看起來(lái)相似。從 2015 年開(kāi)始，他就采用多路（ Multi-branch）方法設(shè)計(jì)出了 DFN（Deeply-fused nets，深度融合網(wǎng)絡(luò)）、IGC（Interleaved Group Convolution，交錯(cuò)組卷積）等視覺(jué)網(wǎng)絡(luò)架構(gòu)，HRNet 也同樣采用了多路方法，所以有相通之處，但本質(zhì)上，HRNet 展示了一種研究思維上的轉(zhuǎn)變。

后來(lái)，HRNet 視覺(jué)網(wǎng)絡(luò)架構(gòu)被微軟在內(nèi)的許多公司采用，拿去解決實(shí)際問(wèn)題，如自動(dòng)駕駛、3D點(diǎn)云識(shí)別、人體姿態(tài)估計(jì)、衛(wèi)星圖像分割、OCR表單識(shí)別與檢測(cè)等等?？梢哉f(shuō)，HRNet 兼顧了學(xué)術(shù)研究突破的優(yōu)雅與解決實(shí)際問(wèn)題的效用，是仰望天空，也是腳踏實(shí)地。

王井東雖然身處產(chǎn)業(yè)界，但并不受實(shí)際問(wèn)題的約束。相反，他的例子證明，在工業(yè)界，杰出的研究者也能有科研上的創(chuàng)新，「工程師」也能成為「科學(xué)家」。他入選 2022 年 IEEE Fellow 的理由，就是對(duì)視覺(jué)內(nèi)容理解與檢索的杰出貢獻(xiàn)。

截至發(fā)稿，王井東一共有 6 篇谷歌學(xué)術(shù)引用過(guò)千的論文，但他談道：「在企業(yè)做研究，我們都是圍繞實(shí)際問(wèn)題出發(fā)，在解決問(wèn)題的過(guò)程提出新的方法、新的思路。我更享受我的研究能夠解決實(shí)際的問(wèn)題?！?/p>

他還提到，在計(jì)算機(jī)視覺(jué)領(lǐng)域，近年來(lái)許多偉大的工作都是來(lái)源于工業(yè)界，而不是學(xué)術(shù)界。這說(shuō)明，視覺(jué)領(lǐng)域的研究，也包含所謂的「感知智能」，要取得大的突破，必須要與實(shí)際的應(yīng)用問(wèn)題緊密結(jié)合，用實(shí)際需求指導(dǎo)學(xué)術(shù)研究。

3、走進(jìn)百度視覺(jué)

從微軟離開(kāi)后，王井東選擇加入國(guó)內(nèi)人工智能研發(fā)實(shí)力最強(qiáng)的平臺(tái)之一：百度。

作為國(guó)內(nèi)最早押注 AI 技術(shù)的互聯(lián)網(wǎng)企業(yè)，百度在多個(gè)熱門的人工智能賽道都有布局：語(yǔ)言、語(yǔ)音、視覺(jué)……同時(shí)，百度的搜索引擎、自動(dòng)駕駛、智能云、小度等等不同業(yè)務(wù)線，也為每一項(xiàng)技術(shù)提供了豐富的落地場(chǎng)景。

王井東向雷峰網(wǎng)坦誠(chéng)道，他對(duì)不同方向里面的共性問(wèn)題最感興趣，比如，視覺(jué)研究中的檢測(cè)與分割是 OCR 與自動(dòng)駕駛都關(guān)注的問(wèn)題，表征學(xué)習(xí)又是檢測(cè)、分割、搜索等問(wèn)題里的核心。盡管每個(gè)任務(wù)都有一些小的差異，但一旦從不同任務(wù)的共性問(wèn)題中提取出基礎(chǔ)技術(shù)，這項(xiàng)技術(shù)就能支撐多個(gè)應(yīng)用。

他直接隸屬于百度的技術(shù)中臺(tái)，他的團(tuán)隊(duì)對(duì)內(nèi)支持百度搜索、自動(dòng)駕駛、智能云、小度等多個(gè)業(yè)務(wù)部門的視覺(jué)應(yīng)用，對(duì)外通過(guò)飛槳和智能云賦能工業(yè)制造、智慧城市、智慧金融等產(chǎn)業(yè)領(lǐng)域，這一點(diǎn)很吸引王井東。他告訴雷峰網(wǎng)，「一干多支」，這也是他加入百度后開(kāi)展視覺(jué)研究的基本思路。

從去年9月到現(xiàn)在，王井東在百度的時(shí)間不到一年，但在帶領(lǐng)百度視覺(jué)發(fā)展上已經(jīng)卓有成就。

作為一個(gè)浸潤(rùn)于卓越中成長(zhǎng)的領(lǐng)軍者，王井東對(duì)百度視覺(jué)目前最大的影響，可能就是對(duì)前沿研究趨勢(shì)的把握與緊跟時(shí)代的實(shí)踐，比如主推學(xué)術(shù)界與工業(yè)界都密切關(guān)注的、減少對(duì)數(shù)據(jù)依賴的自監(jiān)督學(xué)習(xí)方法、以及視覺(jué)大模型。

在實(shí)際應(yīng)用中，自監(jiān)督學(xué)習(xí)帶來(lái)的好處是顯然的：它可以減少人工對(duì)數(shù)據(jù)的標(biāo)注，降低勞動(dòng)力成本，提升研發(fā)效率。在 2020 年的 ICLR 大會(huì)上，圖靈獎(jiǎng)得主 Yann LeCun 和 Yoshua Bengio 就曾搖旗吶喊「自監(jiān)督學(xué)習(xí)是 AI 的未來(lái)」。王井東對(duì)自監(jiān)督也表現(xiàn)出很大的興趣和信心，他認(rèn)為，自監(jiān)督學(xué)習(xí)能夠從未標(biāo)注的數(shù)據(jù)中學(xué)到知識(shí)，這給了大家無(wú)限的想象力。

加入百度后，他帶領(lǐng)百度團(tuán)隊(duì)與北京大學(xué)、香港大學(xué)合作，提出一種自監(jiān)督表征學(xué)習(xí)算法：CAE（Context Autoencoder）、新型掩碼圖像建模（MIM）方法，這項(xiàng)工作已經(jīng)開(kāi)源在百度飛漿平臺(tái)上。在百度 OCR 識(shí)別技術(shù)中，就采用了自監(jiān)督學(xué)習(xí)算法 CAE，效果上取得了突破性的提升。

「自監(jiān)督在 OCR 中的應(yīng)用只是第一步，我們希望對(duì)通用的圖像自監(jiān)督學(xué)習(xí)有更深刻的理解?！雇蹙畺|正在努力推進(jìn)的一個(gè)方向，是對(duì)自監(jiān)督學(xué)習(xí)做數(shù)據(jù)規(guī)?；瑥拇罅繑?shù)據(jù)中學(xué)到有用的知識(shí)，這也是整個(gè)業(yè)界關(guān)注的問(wèn)題。在將來(lái)，他希望能夠在因果關(guān)系、預(yù)測(cè)等更高級(jí)的認(rèn)知學(xué)習(xí)方面有所進(jìn)展。

王井東加入百度后的另一個(gè)成就，是打造通用的視覺(jué)大模型。在今年的 WAVE SUMMIT 深度學(xué)習(xí)開(kāi)發(fā)者峰會(huì)上，他領(lǐng)導(dǎo)團(tuán)隊(duì)開(kāi)發(fā)的視覺(jué)大模型發(fā)布，在百度文心大模型的版圖中強(qiáng)化了視覺(jué)的一角。

在自動(dòng)駕駛領(lǐng)域，王井東也帶領(lǐng)團(tuán)隊(duì)開(kāi)展了一些工作。例如，今年，王井東帶領(lǐng)的百度視覺(jué)團(tuán)隊(duì)就與華中科技大學(xué)的研究人員合作，從端到端方案中的一個(gè)代表即 BEV（Birds-Eye-View）語(yǔ)義分割出發(fā)，提出了一個(gè) GitNet 架構(gòu)來(lái)解決自動(dòng)駕駛中的感知問(wèn)題。這項(xiàng)工作發(fā)表在了今年的視覺(jué)頂會(huì) ECCV 上。

盡管加入百度的時(shí)間還不長(zhǎng)，但上述的工作已足以詮釋王井東在企業(yè)做研究「仰望星空、腳踏實(shí)地」的經(jīng)驗(yàn)與精神。王井東本人也對(duì)雷峰網(wǎng)表示，在企業(yè)里做研究，有的人會(huì)說(shuō)產(chǎn)品需求是一種制約，有的人也會(huì)說(shuō)這是一種可以利用的資源，關(guān)鍵在于個(gè)人如何看待。

而從王井東的履歷來(lái)看，顯然他是看向了后者。

以下是雷峰網(wǎng)與王井東探討視覺(jué)發(fā)展技術(shù)的部分問(wèn)答整理：

雷峰網(wǎng)：基于未來(lái)幾年的計(jì)算機(jī)視覺(jué)發(fā)展趨勢(shì)，您在百度的研究規(guī)劃是什么？您重點(diǎn)關(guān)注什么？

王井東：第一，從方法上講，大家越來(lái)越趨于 Transformer 這個(gè)方向。Transformer 幾乎統(tǒng)一了自然語(yǔ)言、視覺(jué)、語(yǔ)音等等不同的信號(hào)，大家都希望有一個(gè)統(tǒng)一的框架出現(xiàn)，這是我們關(guān)注的。

第二是規(guī)?；?。你要處理更多的數(shù)據(jù)，那么你能不能從海量的數(shù)據(jù)中學(xué)到你想要的知識(shí)。歸納起來(lái)，就是數(shù)據(jù)量給你的知識(shí)規(guī)模，同時(shí)也包括模型參數(shù)的規(guī)模化。規(guī)?；俏磥?lái)視覺(jué)里備受關(guān)注的一個(gè)方向。

第三個(gè)就是我剛才討論的自監(jiān)督，因?yàn)樗o大家?guī)?lái)了無(wú)限的想象力。

雷峰網(wǎng)：您怎么看「通用人工智能」（GAI）？

王井東：我其實(shí)覺(jué)得現(xiàn)在談通用人工智能還是有點(diǎn)太早了。從我們的路徑來(lái)講，我們希望一步一個(gè)腳印，把每個(gè)環(huán)節(jié)都弄透了，我們認(rèn)為可以的時(shí)候，再朝著通用人工智能的方向走。當(dāng)然每個(gè)人的觀點(diǎn)是不一樣的。

我自己很喜歡 Transformer。Transformer 里面最關(guān)鍵的是注意力（Attention）。為什么我喜歡它呢？很多年前，我跟權(quán)龍老師讀博時(shí)，他就說(shuō)，視覺(jué)識(shí)別領(lǐng)域最重要的就是兩個(gè)點(diǎn)，一個(gè)是特征，一個(gè)是匹配。而 Attention 天然就是干這個(gè)事兒的。Attention本身就是一個(gè)搜索、匹配的過(guò)程。同時(shí)，在 Transformer 里面，它也是學(xué)習(xí)特征的過(guò)程。我自己看好Transformer 的一個(gè)很大的原因是，它把特征與匹配完美地融合到了 Attention 機(jī)制里。所以我覺(jué)得將來(lái)它有可能成為網(wǎng)絡(luò)結(jié)構(gòu)統(tǒng)一的助推。

另外，Attention 非常直觀、可解釋性強(qiáng)。以前大家都說(shuō) CNN 要往可解釋性的方向走，要能解釋一些網(wǎng)絡(luò)結(jié)構(gòu)，要費(fèi)很多功夫去解釋。但 Attention 可以直接告訴你，它本來(lái)就是可解釋的，是非常直觀的。

Transformer 作為 Backbone（骨干網(wǎng)絡(luò)），真的比CNN有優(yōu)勢(shì)嗎？這是個(gè)值得思考的問(wèn)題。我們?nèi)ツ晟习肽曜隽艘恍┕ぷ?，分析?transformer 中 local (window) attention 跟卷積神經(jīng)網(wǎng)絡(luò)（特別是depth-wise convolution）之間的關(guān)系。

百度計(jì)算機(jī)視覺(jué)首席科學(xué)家王井東：在視覺(jué)的競(jìng)技場(chǎng)，研究與落地沒(méi)有明顯的界限

論文地址：https://arxiv.org/pdf/2106.04263.pdf

后來(lái)發(fā)表在今年的 ICLR（機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)重要會(huì)議）。這項(xiàng)工作應(yīng)用了矩陣分析里面的一些知識(shí)，當(dāng)你把 local attention跟 depth-wise convolution 寫(xiě)成矩陣的形式，就會(huì)發(fā)現(xiàn)它們很相像，某種意義上是等價(jià)的。我們這項(xiàng)工作表明，基于 local attention 的 Transformer，在結(jié)果和效率上跟卷積很類似，沒(méi)有誰(shuí)強(qiáng)誰(shuí)弱。雷峰網(wǎng)

前幾年，我們還做過(guò)一個(gè)工作，提出了一個(gè)方法「OCRNet」（不是「光學(xué)字符識(shí)別」）。在這個(gè)工作中，我們就用了一個(gè) attention 的機(jī)制去做分割，后來(lái)我們研究目標(biāo)的檢測(cè)方法 DERT，提出了 Conditional DERT 方法，發(fā)現(xiàn)其實(shí) attention 工作的原理跟人去做目標(biāo)檢測(cè)的原理是一樣的。

什么意思呢？我們?cè)谧瞿繕?biāo)檢測(cè)時(shí)，直觀上也要找到目標(biāo)的 bounding box，即最上面一條邊、最左邊一條邊、最下面一條邊和最右邊一條邊，那我們?cè)趺慈フ?？我們?nèi)斯と?biāo)注的時(shí)候是會(huì)找你最上面、最下面、最左邊、最右邊的那個(gè)點(diǎn)分別在哪，而 Conditional DERT 在檢測(cè)時(shí)也是這樣做的。這非常有意思，這也是為什么我覺(jué)得 Transformer 在視覺(jué)識(shí)別領(lǐng)域有可能成為一個(gè)統(tǒng)一框架的原因之一。

雷峰網(wǎng)：您覺(jué)得在百度研究視覺(jué)有什么獨(dú)特的機(jī)會(huì)與優(yōu)勢(shì)？

王井東：我談?wù)勎易约旱囊恍└惺?，每個(gè)人的感受可能是不太一樣的。

對(duì)我來(lái)講，我覺(jué)得，首先你在公司做計(jì)算機(jī)視覺(jué)，得有一個(gè)很好的應(yīng)用背景，百度正好提供了非常豐富的應(yīng)用需求。雷峰網(wǎng)

其次，百度在計(jì)算機(jī)視覺(jué)上有很好的積累，2012年成立了多媒體部，2013年成立了深度學(xué)習(xí)研究院（IDL），百度有很強(qiáng)的技術(shù)積累。計(jì)算機(jī)視覺(jué)在今天離不開(kāi)深度學(xué)習(xí)，而百度有很強(qiáng)的深度學(xué)習(xí)平臺(tái)（Paddle Paddle），還有深度學(xué)習(xí)技術(shù)與應(yīng)用國(guó)家工程研究中心。雷峰網(wǎng)

第三點(diǎn)，就是百度有很強(qiáng)、很濃厚的技術(shù)基因，對(duì)技術(shù)有信仰?？赡懿粌H僅是計(jì)算機(jī)視覺(jué)的技術(shù)，其他技術(shù)也是一樣，很多有技術(shù)理想的人去做事情，這是我目前看到的一些特點(diǎn)。

雷峰網(wǎng)：談?wù)勀嗄陙?lái)做科研的感受。

王井東：科研創(chuàng)新是搜索的過(guò)程?？蒲袆?chuàng)新本質(zhì)上不是在創(chuàng)造新東西，事實(shí)上那些東西本來(lái)就在，只是被發(fā)現(xiàn)了?？蒲袆?chuàng)新是尋找的過(guò)程，就像捉迷藏，只有不停的找，才可能找到答案。

勤于思考。創(chuàng)新就是做些未知的東西，沒(méi)有現(xiàn)成的可以參考。這個(gè)時(shí)候需要思考，通過(guò)寫(xiě)作來(lái)深度思考、完善思考、修改思考，分享寫(xiě)作的內(nèi)容以得到更加有效的反饋，最終提升做事的效率。做事要夠狠。

更多的是對(duì)自己要狠，要有把事情徹底搞清楚的勇氣和自己能夠搞清楚的信心。也是跟自己過(guò)不去，在做一些自己不知道答案是什么、甚至可能沒(méi)有答案的事情，這是一個(gè)經(jīng)歷無(wú)數(shù)次失敗后才可以看到成功的過(guò)程。

持續(xù)關(guān)注有突出研究貢獻(xiàn)的科學(xué)家與他們的工作，對(duì)該系列內(nèi)容感興趣的讀者可以添加微信 Fiona190913 進(jìn)一步交流。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

陳彩嫻

編輯

發(fā)私信

當(dāng)月熱門文章