丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給陳彩嫻
發(fā)送

0

百度計(jì)算機(jī)視覺(jué)首席科學(xué)家王井東:在視覺(jué)的競(jìng)技場(chǎng),研究與落地沒(méi)有明顯的界限

本文作者: 陳彩嫻 2022-08-15 11:57
導(dǎo)語(yǔ):在王井東看來(lái),百度搜索引擎、自動(dòng)駕駛、智能云、小度等等不同的業(yè)務(wù)線中,有共同的視覺(jué)研究難題。

去年年底,2022年 IEEE Fellow(全球電子與電氣工程領(lǐng)域最高榮譽(yù))名單發(fā)布,有人在知乎上評(píng)論:

「王井東老師終于當(dāng)選了,實(shí)至名歸。」

在中國(guó)計(jì)算機(jī)視覺(jué)領(lǐng)域,王井東是一個(gè)無(wú)人不知、無(wú)人不曉的研究者。在學(xué)術(shù)圈,人們會(huì)討論他在 2019 年視覺(jué)算法數(shù)不勝數(shù)之際仍能占據(jù)群雄的 HRNet(一個(gè)用于視覺(jué)識(shí)別的高分辨率神經(jīng)網(wǎng)絡(luò));在工業(yè)界,他在微軟亞洲研究院(MSRA)視覺(jué)計(jì)算組的工作多年,后加入百度,負(fù)責(zé)視覺(jué)領(lǐng)域的技術(shù)研究工作,為百度的多線業(yè)務(wù)提供視覺(jué)技術(shù)支持。

百度計(jì)算機(jī)視覺(jué)首席科學(xué)家王井東:在視覺(jué)的競(jìng)技場(chǎng),研究與落地沒(méi)有明顯的界限

圖注:王井東

無(wú)論在學(xué)術(shù)研究還是技術(shù)落地上,王井東都取得了不錯(cuò)的成就。至今,他的谷歌學(xué)術(shù)被引數(shù)超過(guò)三萬(wàn)次,對(duì)于主要為解決產(chǎn)品問(wèn)題而開(kāi)展科研工作、發(fā)論文只是「茶余飯后」之消遣的企業(yè)科學(xué)家來(lái)說(shuō),這是一個(gè)相當(dāng)難得的成績(jī)。

據(jù)雷峰網(wǎng)近日與王井東的交談,王井東認(rèn)為,百度的搜索引擎、自動(dòng)駕駛、語(yǔ)音助手等等不同業(yè)務(wù)線雖然場(chǎng)景應(yīng)用有所差異,但彼此之間也存在共通的視覺(jué)問(wèn)題。他從微軟離開(kāi),加入百度,一方面便是看中了百度這個(gè)能夠研究貫穿不同場(chǎng)景的獨(dú)一視覺(jué)問(wèn)題的平臺(tái)。

王井東憑什么引領(lǐng)百度的視覺(jué)研究?百度的視覺(jué)布局又將朝著什么樣的方向發(fā)展?


1、與天才同行

江蘇人王井東是一個(gè)名副其實(shí)的理工科學(xué)霸。

他的本科與碩士就讀于清華大學(xué)自動(dòng)化系(國(guó)內(nèi)最早研究人工智能的院系之一),碩士導(dǎo)師為張長(zhǎng)水,張長(zhǎng)水的學(xué)生里就包括目前的阿里巴巴技術(shù)副總裁賈揚(yáng)清。博士階段,他就讀于香港科技大學(xué)計(jì)算機(jī)視覺(jué)與圖形實(shí)驗(yàn)室,該實(shí)驗(yàn)室走出來(lái)的視覺(jué)大拿包括思謀科技創(chuàng)始人賈佳亞、曠視前上海研究院院長(zhǎng)危夷晨、AutoX 創(chuàng)始人肖健雄、阿里巴巴前計(jì)算機(jī)視覺(jué)首席科學(xué)家譚平等人。

走出校園后,他加入微軟亞洲研究院。從微軟亞洲研究院出來(lái)的知名視覺(jué)研究者包括沈向洋、湯曉鷗、孫劍、馬毅、屠卓文、華剛、何愷明等人。到微軟亞研實(shí)習(xí)的青年學(xué)生對(duì)王井東的評(píng)價(jià)是:「井東老師對(duì)細(xì)節(jié)要求非常嚴(yán)格,是一個(gè)非常嚴(yán)謹(jǐn)?shù)目蒲泄ぷ髡??!?/p>

在談到當(dāng)初為何會(huì)選擇研究計(jì)算機(jī)視覺(jué)時(shí),王井東就告訴雷峰網(wǎng),那時(shí)一個(gè)主要的契機(jī)是2003年他在微軟亞研跟著沈向洋實(shí)習(xí)時(shí),盡管視覺(jué)的熱浪還未在中國(guó)掀起,但周?chē)S多優(yōu)秀的人都在研究視覺(jué),這使他自然而然地覺(jué)得:在未來(lái),計(jì)算機(jī)視覺(jué)一定是一個(gè)潛力無(wú)限的發(fā)展方向。

所以,2004 年碩士畢業(yè)后,在沈向洋的推薦下,他就去了香港科技大學(xué)讀博,師從權(quán)龍做視覺(jué)研究。

值得一提的是,權(quán)龍與沈向洋都是早期進(jìn)入視覺(jué)領(lǐng)域的中國(guó)科學(xué)家。權(quán)龍?jiān)缒暝诜▏?guó)國(guó)家信息與自動(dòng)化研究所取得博士學(xué)位,法國(guó)是歐洲視覺(jué)研究最重要的發(fā)源地之一,權(quán)龍得天獨(dú)厚,吸收了許多前沿的視覺(jué)知識(shí),在 2001 年回到香港科技大學(xué)建立視覺(jué)實(shí)驗(yàn)室(即 VisGraph),該實(shí)驗(yàn)室與湯曉鷗在香港中文大學(xué)建立的多媒體實(shí)驗(yàn)室(MMLab)是早期代表中國(guó)學(xué)者參與國(guó)際視覺(jué)頂會(huì)的中堅(jiān)力量。

百度計(jì)算機(jī)視覺(jué)首席科學(xué)家王井東:在視覺(jué)的競(jìng)技場(chǎng),研究與落地沒(méi)有明顯的界限

圖注:王井東(右)與博士導(dǎo)師權(quán)龍(左)

王井東告訴雷峰網(wǎng),他在清華與港科大的兩段學(xué)習(xí)經(jīng)歷都對(duì)他產(chǎn)生了較大的影響。

1997年,王井東考入清華大學(xué)自動(dòng)化系,本碩連讀。自動(dòng)化與視覺(jué)研究在外界看起來(lái)似乎毫無(wú)關(guān)聯(lián),但據(jù)王井東介紹,視覺(jué)與自動(dòng)化及控制的淵源十分深厚,這體現(xiàn)在兩方面:一是機(jī)器人等硬件控制中視覺(jué)對(duì)識(shí)別、定位與導(dǎo)航的重要作用(近年來(lái)如日中天的自動(dòng)駕駛離不開(kāi)視覺(jué)感知算法便是一個(gè)典型的例子);二是清華自動(dòng)化系早期有許多研究模式識(shí)別的學(xué)者,王井東的碩士導(dǎo)師張長(zhǎng)水便是其中之一,而張長(zhǎng)水的導(dǎo)師是中國(guó)科學(xué)院技術(shù)科學(xué)部委員(院士)常迥教授。

據(jù)王井東介紹,在他讀碩士期間,神經(jīng)網(wǎng)絡(luò)還沒(méi)火,但他的導(dǎo)師張長(zhǎng)水就已經(jīng)在神經(jīng)網(wǎng)絡(luò)方向做了許多出色的工作。2000 年,張長(zhǎng)水與閻平凡合著出版了《人工神經(jīng)網(wǎng)絡(luò)與模擬進(jìn)化計(jì)算》一書(shū)。張長(zhǎng)水還曾邀請(qǐng)一些國(guó)外的學(xué)者到清華全英文講授神經(jīng)網(wǎng)絡(luò)的前沿課程,王井東由此第一次了解到用來(lái)訓(xùn)練多層神經(jīng)網(wǎng)絡(luò)的反向傳播算法及其工作機(jī)制。

2004年,王井東和同學(xué)李建國(guó)就在張長(zhǎng)水、邊肇祺的指導(dǎo)下,在人工智能?chē)?guó)際頂會(huì) ICML 上發(fā)表了“Probabilistic Tangent Subspace: A Unified View”一文。要知道,當(dāng)時(shí)能在 ICML 之類頂會(huì)上留名的人,可是屈指可數(shù)。

王井東告訴雷峰網(wǎng),那時(shí)他在模式識(shí)別方向?qū)W到的許多知識(shí),對(duì)他如今做研究仍有重要影響。例如,當(dāng)時(shí)模式識(shí)別中一統(tǒng)天下的「核方法」(Kernel Method),如今雖然已經(jīng)很少用于視覺(jué)研究,但「核方法的思想仍然存在于今天的深度學(xué)習(xí)中,人工智能領(lǐng)域現(xiàn)在用得比較多的 Transformer 架構(gòu)在某種意義上也與之相關(guān)」。再如矩陣分析方法,如今被用在注意力加速的任務(wù)中,王井東本人也用矩陣分析來(lái)研究將平方級(jí)的復(fù)雜度變?yōu)榫€性的復(fù)雜度的方法,來(lái)優(yōu)化速度。

去了港科大讀博后,王井東的直觀體驗(yàn)到的一個(gè)變化是,與清華的實(shí)驗(yàn)室側(cè)重機(jī)器學(xué)習(xí)不同,港科大的VisGraph實(shí)驗(yàn)室最大的特色是:應(yīng)用。實(shí)驗(yàn)室的研究方向都是計(jì)算機(jī)視覺(jué)或計(jì)算機(jī)圖形學(xué)。在這樣的環(huán)境中,王井東對(duì)視覺(jué)的理解也有了更多新的思考。

博士三年,王井東主要研究機(jī)器學(xué)習(xí)與計(jì)算機(jī)視覺(jué),用圖、半監(jiān)督等方法處理圖像分割問(wèn)題。那時(shí),雖然人在香港,但他與清華、微軟亞研的伙伴都保持著密切的研究交流。2006 年,王井東與沈向洋等微軟研究員的合作(“Picture Collage”),以及他與張長(zhǎng)水的工作(“Semi-Supervised Classification Using Linear Neighborhood Propagation”),就一同被視覺(jué)頂會(huì) CVPR 2006 接收。

當(dāng)年的 CVPR 在美國(guó)紐約召開(kāi),王井東記得那時(shí)參會(huì)的中國(guó)學(xué)者已經(jīng)不少。CVPR 是六月舉行。印象中,許多中國(guó)學(xué)者吃不慣西餐,于是他們一行人就匯集了來(lái)參會(huì)的中國(guó)學(xué)者和當(dāng)時(shí)在國(guó)外的中國(guó)教授和學(xué)生,大家一起去找中餐館吃飯、聊研究與參會(huì)的見(jiàn)聞。

王井東是站在視覺(jué)騰飛的起點(diǎn)、并見(jiàn)證視覺(jué)在全球走向輝煌發(fā)展的一批研究者中的一員。在回憶中,他告訴雷峰網(wǎng),那時(shí)選擇計(jì)算機(jī)視覺(jué)真的并不見(jiàn)得是一個(gè)明智的選擇。從大的視角回看,王井東無(wú)疑是一個(gè)少數(shù)者,但一個(gè)人的生活并不觸及太廣的半徑,所以對(duì)青年王井東來(lái)說(shuō),他在視覺(jué)研究上并不孤獨(dú)。


2、微軟十四年:視覺(jué)技術(shù)落地

2007 年,王井東博士畢業(yè),回到了北京,加入微軟亞洲研究院。

王井東將他在微軟亞研的研究分為兩個(gè)階段,也就是「7+7」(王井東一共在微軟亞研工作了十四年):第一個(gè)七年,他主要研究計(jì)算機(jī)視覺(jué)在多媒體搜索的應(yīng)用;第二個(gè)七年,他的研究則聚焦在了深度學(xué)習(xí)和計(jì)算機(jī)視覺(jué)核心問(wèn)題上。

第一個(gè)七年

2007年,多媒體搜索剛剛展示出需求與輪廓,當(dāng)時(shí)的必應(yīng)還是一個(gè)尚待開(kāi)發(fā)的業(yè)務(wù),沈向洋被分派到必應(yīng)的研發(fā)團(tuán)隊(duì)負(fù)責(zé)技術(shù)。由于擅長(zhǎng)計(jì)算機(jī)視覺(jué),王井東被派去了解決多媒體搜索中的圖像檢索難題。

王井東向雷峰網(wǎng)介紹,那時(shí)圖像搜索功能不盡如人意,如果用戶想搜索一張「藍(lán)天白云下,一只狗臥在綠色的草地上」的圖像,在搜索欄里敲下這樣一串文字時(shí),搜索引擎大概率無(wú)法理解用戶的搜索意圖。為了解決這個(gè)問(wèn)題,他與團(tuán)隊(duì)研發(fā)了基于草圖的圖像檢索技術(shù)和開(kāi)發(fā)一個(gè)用戶交互的工具:用戶可以畫(huà)一個(gè)顏色草圖,如用綠色來(lái)表達(dá)草地這一搜索意圖,相比純文本搜索方法取得了明顯的效果提升。

這個(gè)思路并不新,早在上世紀(jì)就有基于草圖的多媒體搜索方法,但用在商業(yè)搜索引擎上還是第一次。

王井東的一個(gè)體會(huì)是,在企業(yè)做研究,只有更好,沒(méi)有最好。就拿上述這個(gè)例子來(lái)說(shuō),第一代用戶交互方式還是繁瑣,為了更簡(jiǎn)化,他和團(tuán)隊(duì)又繼續(xù)開(kāi)發(fā)了一種顏色過(guò)濾器來(lái)使用戶交互更加簡(jiǎn)單:例如,如果你希望圖片中的狗是藍(lán)色的,那么就可以設(shè)置顏色篩選來(lái)獲得包含藍(lán)色的狗的圖片。這項(xiàng)功能至今仍被應(yīng)用于必應(yīng)中。

圍繞圖像搜索,王井東從應(yīng)用轉(zhuǎn)向基礎(chǔ)關(guān)鍵算法研究,取得了更大的成績(jī)。

在搜索中,一個(gè)圖像(即一個(gè)查詢項(xiàng))通常會(huì)被轉(zhuǎn)化為一個(gè)向量,數(shù)據(jù)庫(kù)中包含著成百上千億的向量,如何快速搜索就成了一個(gè)問(wèn)題。自 2009 年起,王井東開(kāi)始研究搜索應(yīng)用中的基礎(chǔ)問(wèn)題之一近似最近鄰算法(Approximate Nearest Neighbor,ANN)。

ANN 搜索的目標(biāo)是在一個(gè)定義的距離度量下,從數(shù)據(jù)庫(kù)中尋找出離查詢項(xiàng)的距離最近項(xiàng)。王井東觀察到一個(gè)有趣的事實(shí):如果一個(gè)向量靠近查詢項(xiàng)的向量,那么這個(gè)向量的相鄰向量也可能靠近查詢項(xiàng)的向量。這個(gè)思路跟「六度分割理論」(小世界理論)類似,即世界上任何互不相識(shí)的兩人,只需要很少的中間人就能夠建立起聯(lián)系。

受此啟發(fā),王井東設(shè)計(jì)了一種 ANN 搜索算法,以近鄰圖(Neighborhood Graph)作為索引來(lái)進(jìn)行圖像搜索。結(jié)果,該算法帶來(lái)的搜索效果非常驚艷。王井東回憶,當(dāng)時(shí)他還以為是測(cè)試出了問(wèn)題,連忙又重復(fù)核查了一下,最終他驚喜地發(fā)現(xiàn),這個(gè)辦法比當(dāng)時(shí)號(hào)稱效果最佳的其他同樣基于kd-trees的方法要好很多。2014年,這個(gè)算法已經(jīng)應(yīng)用在必應(yīng)的圖像搜索和廣告中,是第一個(gè)在商業(yè)產(chǎn)品中成功應(yīng)用基于近鄰圖的最近鄰搜索算法。后來(lái),微軟的許多產(chǎn)品包括網(wǎng)頁(yè)搜索也采用了該算法作為核心組件。目前,許多商業(yè)搜索以及推薦產(chǎn)品都采用了基于近鄰圖的近似最近鄰搜索算法。

第二個(gè)七年

2014 年,在多媒體搜索上研究多年后,王井東將目光投向了另一個(gè)發(fā)展正熱的新方向——深度學(xué)習(xí)。

事實(shí)上,據(jù)王井東回憶,早在 2005 年,他就已經(jīng)試過(guò)用人工智能來(lái)解決實(shí)際問(wèn)題。那一年,王井東還在香港讀博時(shí),他的一位清華師兄回國(guó)創(chuàng)業(yè),將卷積神經(jīng)網(wǎng)絡(luò)(CNN)用于車(chē)牌識(shí)別,他在實(shí)習(xí)時(shí)也參與了其中。

探索初期,王井東的主要工作是把深度學(xué)習(xí)算法的端到端(end-to-end)性質(zhì)拓展到一些新的應(yīng)用上。不過(guò)很快,他就發(fā)現(xiàn)了一個(gè)更重要的研究課題:視覺(jué)網(wǎng)絡(luò)架構(gòu)的設(shè)計(jì)。網(wǎng)絡(luò)架構(gòu)的設(shè)計(jì)是深度學(xué)習(xí)的核心問(wèn)題之一。當(dāng)時(shí)許多人都在思考:如何讓神經(jīng)網(wǎng)絡(luò)變得更深。

王井東從2015年開(kāi)始,則思考利用神經(jīng)網(wǎng)絡(luò)解決分類以外的視覺(jué)問(wèn)題。

2015年前后,視覺(jué)領(lǐng)域的普遍做法是使用圖像分類的網(wǎng)絡(luò)來(lái)解決分類以外的分割、檢測(cè)、姿態(tài)估計(jì)等問(wèn)題,如 2012 年的 AlexNet、2014 年的 GoogleNet、2015 年的ResNet等架構(gòu)。但他發(fā)現(xiàn),分類網(wǎng)絡(luò)存在一個(gè)顯而易見(jiàn)但始終未被提出的弊端:分類網(wǎng)絡(luò)結(jié)構(gòu)在學(xué)習(xí)高分辨率表示時(shí),先將分辨率慢慢變小,然后通過(guò)上采樣的方法在分割等任務(wù)中逐步從低分辨率恢復(fù)高分辨率,這種方法所獲得的特征空間精度很低。

對(duì)此,王井東提出了自己的疑問(wèn):能不能不降分辨率而保持高分辨率?能不能不依賴分類網(wǎng)絡(luò)?

那時(shí)大家未必沒(méi)有同樣的疑問(wèn),保持高分辨率的想法也并不復(fù)雜,但考慮到分類的網(wǎng)絡(luò)已經(jīng)訓(xùn)練得很好,用到其他任務(wù)中更容易訓(xùn)練,所以學(xué)術(shù)界與工業(yè)界都沒(méi)有人邁出改變的一步。但是,不破不立,王井東心想,若能直接學(xué)習(xí)高分辨率的表示,一定能大幅改進(jìn)視覺(jué)任務(wù)的解決。

經(jīng)過(guò)兩三年的思路醞釀,2018 年,王井東感到萬(wàn)事俱備,便領(lǐng)導(dǎo)團(tuán)隊(duì)開(kāi)始著手設(shè)計(jì)一個(gè)學(xué)習(xí)高分辨率表示的通用視覺(jué)架構(gòu)。2019年,HRNet 在 CVPR 上橫空出世,驚艷眾人。它是王井東在視覺(jué)研究上的又一大高峰,引用數(shù)在短短三年內(nèi)超過(guò)了3000次。

百度計(jì)算機(jī)視覺(jué)首席科學(xué)家王井東:在視覺(jué)的競(jìng)技場(chǎng),研究與落地沒(méi)有明顯的界限

論文地址:https://jingdongwang2017.github.io/Pubs/TPAMI-HRNet.pdf

HRNet 不再沿用以往的分類架構(gòu)從低分辨率恢復(fù)到高分辨率的設(shè)計(jì)規(guī)則,而是讓高中低分辨率不停交互融合,使高分辨率可以獲得低分辨率語(yǔ)義信息較強(qiáng)的表征,低分辨率可以獲得高分辨率的空間精度比較強(qiáng)的表征,能夠從頭就保持高分辨率。同時(shí),由于 HRNet 不以分類任務(wù)出發(fā)點(diǎn),所以也具有更強(qiáng)的通用性,廣泛適用于分割、檢測(cè)、姿態(tài)估計(jì)等位置敏感的一般視覺(jué)任務(wù)。這項(xiàng)工作發(fā)布以后,在學(xué)術(shù)界與工業(yè)界都引起了廣泛的討論。

王井東告訴雷峰網(wǎng),HRNet 與他之前所提出的網(wǎng)絡(luò)架構(gòu)看起來(lái)相似。從 2015 年開(kāi)始,他就采用多路( Multi-branch)方法設(shè)計(jì)出了 DFN(Deeply-fused nets,深度融合網(wǎng)絡(luò))、IGC(Interleaved Group Convolution,交錯(cuò)組卷積)等視覺(jué)網(wǎng)絡(luò)架構(gòu),HRNet 也同樣采用了多路方法,所以有相通之處,但本質(zhì)上,HRNet 展示了一種研究思維上的轉(zhuǎn)變。

后來(lái),HRNet 視覺(jué)網(wǎng)絡(luò)架構(gòu)被微軟在內(nèi)的許多公司采用,拿去解決實(shí)際問(wèn)題,如自動(dòng)駕駛、3D點(diǎn)云識(shí)別、人體姿態(tài)估計(jì)、衛(wèi)星圖像分割、OCR表單識(shí)別與檢測(cè)等等??梢哉f(shuō),HRNet 兼顧了學(xué)術(shù)研究突破的優(yōu)雅與解決實(shí)際問(wèn)題的效用,是仰望天空,也是腳踏實(shí)地。

王井東雖然身處產(chǎn)業(yè)界,但并不受實(shí)際問(wèn)題的約束。相反,他的例子證明,在工業(yè)界,杰出的研究者也能有科研上的創(chuàng)新,「工程師」也能成為「科學(xué)家」。他入選 2022 年 IEEE Fellow 的理由,就是對(duì)視覺(jué)內(nèi)容理解與檢索的杰出貢獻(xiàn)。

截至發(fā)稿,王井東一共有 6 篇谷歌學(xué)術(shù)引用過(guò)千的論文,但他談道:「在企業(yè)做研究,我們都是圍繞實(shí)際問(wèn)題出發(fā),在解決問(wèn)題的過(guò)程提出新的方法、新的思路。我更享受我的研究能夠解決實(shí)際的問(wèn)題。」

他還提到,在計(jì)算機(jī)視覺(jué)領(lǐng)域,近年來(lái)許多偉大的工作都是來(lái)源于工業(yè)界,而不是學(xué)術(shù)界。這說(shuō)明,視覺(jué)領(lǐng)域的研究,也包含所謂的「感知智能」,要取得大的突破,必須要與實(shí)際的應(yīng)用問(wèn)題緊密結(jié)合,用實(shí)際需求指導(dǎo)學(xué)術(shù)研究。


3、走進(jìn)百度視覺(jué)

從微軟離開(kāi)后,王井東選擇加入國(guó)內(nèi)人工智能研發(fā)實(shí)力最強(qiáng)的平臺(tái)之一:百度。

作為國(guó)內(nèi)最早押注 AI 技術(shù)的互聯(lián)網(wǎng)企業(yè),百度在多個(gè)熱門(mén)的人工智能賽道都有布局:語(yǔ)言、語(yǔ)音、視覺(jué)……同時(shí),百度的搜索引擎、自動(dòng)駕駛、智能云、小度等等不同業(yè)務(wù)線,也為每一項(xiàng)技術(shù)提供了豐富的落地場(chǎng)景。

王井東向雷峰網(wǎng)坦誠(chéng)道,他對(duì)不同方向里面的共性問(wèn)題最感興趣,比如,視覺(jué)研究中的檢測(cè)與分割是 OCR 與自動(dòng)駕駛都關(guān)注的問(wèn)題,表征學(xué)習(xí)又是檢測(cè)、分割、搜索等問(wèn)題里的核心。盡管每個(gè)任務(wù)都有一些小的差異,但一旦從不同任務(wù)的共性問(wèn)題中提取出基礎(chǔ)技術(shù),這項(xiàng)技術(shù)就能支撐多個(gè)應(yīng)用。

他直接隸屬于百度的技術(shù)中臺(tái),他的團(tuán)隊(duì)對(duì)內(nèi)支持百度搜索、自動(dòng)駕駛、智能云、小度等多個(gè)業(yè)務(wù)部門(mén)的視覺(jué)應(yīng)用,對(duì)外通過(guò)飛槳和智能云賦能工業(yè)制造、智慧城市、智慧金融等產(chǎn)業(yè)領(lǐng)域,這一點(diǎn)很吸引王井東。他告訴雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng)),「一干多支」,這也是他加入百度后開(kāi)展視覺(jué)研究的基本思路。

從去年9月到現(xiàn)在,王井東在百度的時(shí)間不到一年,但在帶領(lǐng)百度視覺(jué)發(fā)展上已經(jīng)卓有成就。

作為一個(gè)浸潤(rùn)于卓越中成長(zhǎng)的領(lǐng)軍者,王井東對(duì)百度視覺(jué)目前最大的影響,可能就是對(duì)前沿研究趨勢(shì)的把握與緊跟時(shí)代的實(shí)踐,比如主推學(xué)術(shù)界與工業(yè)界都密切關(guān)注的、減少對(duì)數(shù)據(jù)依賴的自監(jiān)督學(xué)習(xí)方法、以及視覺(jué)大模型。

在實(shí)際應(yīng)用中,自監(jiān)督學(xué)習(xí)帶來(lái)的好處是顯然的:它可以減少人工對(duì)數(shù)據(jù)的標(biāo)注,降低勞動(dòng)力成本,提升研發(fā)效率。在 2020 年的 ICLR 大會(huì)上,圖靈獎(jiǎng)得主 Yann LeCun 和 Yoshua Bengio 就曾搖旗吶喊「自監(jiān)督學(xué)習(xí)是 AI 的未來(lái)」。王井東對(duì)自監(jiān)督也表現(xiàn)出很大的興趣和信心,他認(rèn)為,自監(jiān)督學(xué)習(xí)能夠從未標(biāo)注的數(shù)據(jù)中學(xué)到知識(shí),這給了大家無(wú)限的想象力。

加入百度后,他帶領(lǐng)百度團(tuán)隊(duì)與北京大學(xué)、香港大學(xué)合作,提出一種自監(jiān)督表征學(xué)習(xí)算法:CAE(Context Autoencoder)、新型掩碼圖像建模(MIM)方法,這項(xiàng)工作已經(jīng)開(kāi)源在百度飛漿平臺(tái)上。在百度 OCR 識(shí)別技術(shù)中,就采用了自監(jiān)督學(xué)習(xí)算法 CAE,效果上取得了突破性的提升。

「自監(jiān)督在 OCR 中的應(yīng)用只是第一步,我們希望對(duì)通用的圖像自監(jiān)督學(xué)習(xí)有更深刻的理解。」王井東正在努力推進(jìn)的一個(gè)方向,是對(duì)自監(jiān)督學(xué)習(xí)做數(shù)據(jù)規(guī)模化,從大量數(shù)據(jù)中學(xué)到有用的知識(shí),這也是整個(gè)業(yè)界關(guān)注的問(wèn)題。在將來(lái),他希望能夠在因果關(guān)系、預(yù)測(cè)等更高級(jí)的認(rèn)知學(xué)習(xí)方面有所進(jìn)展。

王井東加入百度后的另一個(gè)成就,是打造通用的視覺(jué)大模型。在今年的 WAVE SUMMIT 深度學(xué)習(xí)開(kāi)發(fā)者峰會(huì)上,他領(lǐng)導(dǎo)團(tuán)隊(duì)開(kāi)發(fā)的視覺(jué)大模型發(fā)布,在百度文心大模型的版圖中強(qiáng)化了視覺(jué)的一角。

在自動(dòng)駕駛領(lǐng)域,王井東也帶領(lǐng)團(tuán)隊(duì)開(kāi)展了一些工作。例如,今年,王井東帶領(lǐng)的百度視覺(jué)團(tuán)隊(duì)就與華中科技大學(xué)的研究人員合作,從端到端方案中的一個(gè)代表即 BEV(Birds-Eye-View)語(yǔ)義分割出發(fā),提出了一個(gè) GitNet 架構(gòu)來(lái)解決自動(dòng)駕駛中的感知問(wèn)題。這項(xiàng)工作發(fā)表在了今年的視覺(jué)頂會(huì) ECCV 上。

盡管加入百度的時(shí)間還不長(zhǎng),但上述的工作已足以詮釋王井東在企業(yè)做研究「仰望星空、腳踏實(shí)地」的經(jīng)驗(yàn)與精神。王井東本人也對(duì)雷峰網(wǎng)表示,在企業(yè)里做研究,有的人會(huì)說(shuō)產(chǎn)品需求是一種制約,有的人也會(huì)說(shuō)這是一種可以利用的資源,關(guān)鍵在于個(gè)人如何看待。

而從王井東的履歷來(lái)看,顯然他是看向了后者。

以下是雷峰網(wǎng)與王井東探討視覺(jué)發(fā)展技術(shù)的部分問(wèn)答整理:

雷峰網(wǎng):基于未來(lái)幾年的計(jì)算機(jī)視覺(jué)發(fā)展趨勢(shì),您在百度的研究規(guī)劃是什么?您重點(diǎn)關(guān)注什么?

王井東:第一,從方法上講,大家越來(lái)越趨于 Transformer 這個(gè)方向。Transformer 幾乎統(tǒng)一了自然語(yǔ)言、視覺(jué)、語(yǔ)音等等不同的信號(hào),大家都希望有一個(gè)統(tǒng)一的框架出現(xiàn),這是我們關(guān)注的。

第二是規(guī)模化。你要處理更多的數(shù)據(jù),那么你能不能從海量的數(shù)據(jù)中學(xué)到你想要的知識(shí)。歸納起來(lái),就是數(shù)據(jù)量給你的知識(shí)規(guī)模,同時(shí)也包括模型參數(shù)的規(guī)?;?。規(guī)?;俏磥?lái)視覺(jué)里備受關(guān)注的一個(gè)方向。

第三個(gè)就是我剛才討論的自監(jiān)督,因?yàn)樗o大家?guī)?lái)了無(wú)限的想象力。

雷峰網(wǎng):您怎么看「通用人工智能」(GAI)?

王井東:我其實(shí)覺(jué)得現(xiàn)在談通用人工智能還是有點(diǎn)太早了。從我們的路徑來(lái)講,我們希望一步一個(gè)腳印,把每個(gè)環(huán)節(jié)都弄透了,我們認(rèn)為可以的時(shí)候,再朝著通用人工智能的方向走。當(dāng)然每個(gè)人的觀點(diǎn)是不一樣的。

我自己很喜歡 Transformer。Transformer 里面最關(guān)鍵的是注意力(Attention)。為什么我喜歡它呢?很多年前,我跟權(quán)龍老師讀博時(shí),他就說(shuō),視覺(jué)識(shí)別領(lǐng)域最重要的就是兩個(gè)點(diǎn),一個(gè)是特征,一個(gè)是匹配。而 Attention 天然就是干這個(gè)事兒的。Attention本身就是一個(gè)搜索、匹配的過(guò)程。同時(shí),在 Transformer 里面,它也是學(xué)習(xí)特征的過(guò)程。我自己看好Transformer 的一個(gè)很大的原因是,它把特征與匹配完美地融合到了 Attention 機(jī)制里。所以我覺(jué)得將來(lái)它有可能成為網(wǎng)絡(luò)結(jié)構(gòu)統(tǒng)一的助推。

另外,Attention 非常直觀、可解釋性強(qiáng)。以前大家都說(shuō) CNN 要往可解釋性的方向走,要能解釋一些網(wǎng)絡(luò)結(jié)構(gòu),要費(fèi)很多功夫去解釋。但 Attention 可以直接告訴你,它本來(lái)就是可解釋的,是非常直觀的。

Transformer 作為 Backbone(骨干網(wǎng)絡(luò)),真的比CNN有優(yōu)勢(shì)嗎?這是個(gè)值得思考的問(wèn)題。我們?nèi)ツ晟习肽曜隽艘恍┕ぷ?,分析?transformer 中 local (window) attention 跟卷積神經(jīng)網(wǎng)絡(luò)(特別是depth-wise convolution)之間的關(guān)系。

百度計(jì)算機(jī)視覺(jué)首席科學(xué)家王井東:在視覺(jué)的競(jìng)技場(chǎng),研究與落地沒(méi)有明顯的界限

論文地址:https://arxiv.org/pdf/2106.04263.pdf

后來(lái)發(fā)表在今年的 ICLR(機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)重要會(huì)議)。這項(xiàng)工作應(yīng)用了矩陣分析里面的一些知識(shí),當(dāng)你把 local  attention跟 depth-wise convolution 寫(xiě)成矩陣的形式,就會(huì)發(fā)現(xiàn)它們很相像,某種意義上是等價(jià)的。我們這項(xiàng)工作表明,基于 local  attention 的 Transformer,在結(jié)果和效率上跟卷積很類似,沒(méi)有誰(shuí)強(qiáng)誰(shuí)弱。雷峰網(wǎng)

前幾年,我們還做過(guò)一個(gè)工作,提出了一個(gè)方法「OCRNet」(不是「光學(xué)字符識(shí)別」)。在這個(gè)工作中,我們就用了一個(gè) attention 的機(jī)制去做分割,后來(lái)我們研究目標(biāo)的檢測(cè)方法 DERT,提出了 Conditional DERT 方法,發(fā)現(xiàn)其實(shí) attention 工作的原理跟人去做目標(biāo)檢測(cè)的原理是一樣的。

什么意思呢?我們?cè)谧瞿繕?biāo)檢測(cè)時(shí),直觀上也要找到目標(biāo)的 bounding box,即最上面一條邊、最左邊一條邊、最下面一條邊和最右邊一條邊,那我們?cè)趺慈フ??我們?nèi)斯と?biāo)注的時(shí)候是會(huì)找你最上面、最下面、最左邊、最右邊的那個(gè)點(diǎn)分別在哪,而 Conditional DERT 在檢測(cè)時(shí)也是這樣做的。這非常有意思,這也是為什么我覺(jué)得 Transformer 在視覺(jué)識(shí)別領(lǐng)域有可能成為一個(gè)統(tǒng)一框架的原因之一。

雷峰網(wǎng):您覺(jué)得在百度研究視覺(jué)有什么獨(dú)特的機(jī)會(huì)與優(yōu)勢(shì)?

王井東:我談?wù)勎易约旱囊恍└惺?,每個(gè)人的感受可能是不太一樣的。

對(duì)我來(lái)講,我覺(jué)得,首先你在公司做計(jì)算機(jī)視覺(jué),得有一個(gè)很好的應(yīng)用背景,百度正好提供了非常豐富的應(yīng)用需求。雷峰網(wǎng)

其次,百度在計(jì)算機(jī)視覺(jué)上有很好的積累,2012年成立了多媒體部,2013年成立了深度學(xué)習(xí)研究院(IDL),百度有很強(qiáng)的技術(shù)積累。計(jì)算機(jī)視覺(jué)在今天離不開(kāi)深度學(xué)習(xí),而百度有很強(qiáng)的深度學(xué)習(xí)平臺(tái)(Paddle Paddle),還有深度學(xué)習(xí)技術(shù)與應(yīng)用國(guó)家工程研究中心。雷峰網(wǎng)

第三點(diǎn),就是百度有很強(qiáng)、很濃厚的技術(shù)基因,對(duì)技術(shù)有信仰。可能不僅僅是計(jì)算機(jī)視覺(jué)的技術(shù),其他技術(shù)也是一樣,很多有技術(shù)理想的人去做事情,這是我目前看到的一些特點(diǎn)。

雷峰網(wǎng):談?wù)勀嗄陙?lái)做科研的感受。

王井東:科研創(chuàng)新是搜索的過(guò)程。科研創(chuàng)新本質(zhì)上不是在創(chuàng)造新東西,事實(shí)上那些東西本來(lái)就在,只是被發(fā)現(xiàn)了??蒲袆?chuàng)新是尋找的過(guò)程,就像捉迷藏,只有不停的找,才可能找到答案。

勤于思考。創(chuàng)新就是做些未知的東西,沒(méi)有現(xiàn)成的可以參考。這個(gè)時(shí)候需要思考,通過(guò)寫(xiě)作來(lái)深度思考、完善思考、修改思考,分享寫(xiě)作的內(nèi)容以得到更加有效的反饋,最終提升做事的效率。做事要夠狠。

更多的是對(duì)自己要狠,要有把事情徹底搞清楚的勇氣和自己能夠搞清楚的信心。也是跟自己過(guò)不去,在做一些自己不知道答案是什么、甚至可能沒(méi)有答案的事情,這是一個(gè)經(jīng)歷無(wú)數(shù)次失敗后才可以看到成功的過(guò)程。

持續(xù)關(guān)注有突出研究貢獻(xiàn)的科學(xué)家與他們的工作,對(duì)該系列內(nèi)容感興趣的讀者可以添加微信 Fiona190913 進(jìn)一步交流。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)