田奇：華為計算機視覺研究計劃與進展丨CCF-GAIR 2020

本文作者：張棟

2020-08-20 10:16

專題：CCF-GAIR 2020 全球人工智能與機器人峰會

導(dǎo)語：一文讀懂華為人工智能的星辰大海。

華為云人工智能領(lǐng)域首席科學(xué)家、IEEE Fellow 田奇

2020 年 8 月 7 日，第五屆全球人工智能與機器人峰會（CCF-GAIR 2020）在深圳正式開幕。

CCF-GAIR 2020 峰會由中國計算機學(xué)會（CCF）主辦，雷鋒網(wǎng)、香港中文大學(xué)（深圳）聯(lián)合承辦，鵬城實驗室、深圳市人工智能與機器人研究院協(xié)辦。

作為中國最具影響力和前瞻性的前沿科技活動之一，CCF-GAIR 大會已經(jīng)度過了四次精彩而又輝煌的歷程。在大會第二天的「視覺智能?城市物聯(lián)」專場上，華為云人工智能領(lǐng)域首席科學(xué)家、IEEE Fellow田奇教授登臺發(fā)表精彩演講，分享了華為在人工智能領(lǐng)域的理解與實踐。

田奇介紹了華為在人工智能領(lǐng)域的十大愿景，華為為了實現(xiàn)這個戰(zhàn)略目標(biāo)，從中梳理出深耕基礎(chǔ)研究、打造全棧方案、投資開放生態(tài)和人才培養(yǎng)、解決方案增強、內(nèi)部效率提升五大方向，以此打造無所不及的AI，構(gòu)建萬物互聯(lián)的智能世界。

華為計算機視覺基礎(chǔ)研究以數(shù)據(jù)高效和能耗高效為核心，覆蓋從2D視覺到3D視覺的技術(shù)和應(yīng)用，主要包含底層視覺、語義理解、三維視覺、數(shù)據(jù)生成、視覺計算、視覺多模態(tài)等方面。在此方向上，華為將基礎(chǔ)研究進一步聚焦到數(shù)據(jù)、模型和知識三大挑戰(zhàn)：

1、數(shù)據(jù)上，如何從海量的數(shù)據(jù)中挖掘有用的信息。田奇以生成數(shù)據(jù)訓(xùn)練和不同模態(tài)數(shù)據(jù)對齊這兩個應(yīng)用場景為例，介紹了華為如何使用知識蒸餾與自動數(shù)據(jù)擴增結(jié)合的方法讓AI模型高效地挖掘數(shù)據(jù)中的有用信息。

2、模型上，怎樣設(shè)計高效的視覺模型。田奇認為在深度學(xué)習(xí)年代，視覺模型主要包含神經(jīng)網(wǎng)絡(luò)模型設(shè)計和神經(jīng)網(wǎng)絡(luò)模型加速兩個場景。具體地，田奇介紹了華為如何通過局部連接思路解決網(wǎng)絡(luò)冗余問題、如何加入邊正則化思想來解決局部連接帶來的不穩(wěn)定性等等。

3、知識上，如何定義視覺預(yù)訓(xùn)練模型、如何通過虛擬環(huán)境學(xué)習(xí)知識、如何表達并存儲知識。為了實現(xiàn)華為打造通用視覺模型的目標(biāo)，田奇認為推理預(yù)測是從視覺感知到認知的關(guān)鍵步驟。雖然預(yù)訓(xùn)練方法目前在視覺領(lǐng)域的應(yīng)用還不成熟，但是近期自監(jiān)督學(xué)習(xí)的成果為視覺通用模型的發(fā)展注入了新活力，這也將成為常識學(xué)習(xí)的必經(jīng)之路。

基于三大挑戰(zhàn)，田奇提出華為視覺六大研究計劃：數(shù)據(jù)冰山計劃、數(shù)據(jù)魔方計劃、模型摸高計劃、模型瘦身計劃、萬物預(yù)視計劃、虛實合一計劃，來幫助每一位AI開發(fā)者。

以下是田奇教授的大會演講全文，雷鋒網(wǎng)作了不改變原意的整理與編輯：

尊敬的各位嘉賓、各位老師、各位朋友，大家下午好！我是田奇，現(xiàn)任華為云人工智能領(lǐng)域首席科學(xué)家。非常感謝大會的邀請，很榮幸能在這里為大家介紹華為計算機視覺計劃。

首先，我會簡單介紹一下華為人工智能的研究背景和在計算機視覺領(lǐng)域的基礎(chǔ)研究。然后，我會從模型、數(shù)據(jù)和知識三個核心點出發(fā)，來重點介紹華為視覺六大研究計劃。最后，我會介紹一下華為云人工智能在人才培養(yǎng)方面的理念。

田奇：華為計算機視覺研究計劃與進展丨CCF-GAIR 2020

近年來，AI的發(fā)展如火如荼，正在改變各行各業(yè)。華為預(yù)計：到2025年左右，97%的大企業(yè)都會上云，其中77%的企業(yè)云服務(wù)都會涉及到AI。

因此，在云上，AI是一個關(guān)鍵的競爭點。如果把大企業(yè)的智能化升級比作一個賽道，那么AI、IoT、5G就是提高發(fā)展速度和商業(yè)高度的重要引擎。

田奇：華為計算機視覺研究計劃與進展丨CCF-GAIR 2020

以前我們的董事長徐直軍闡述過華為在人工智能領(lǐng)域的十大愿景，這里我簡單介紹幾點。

過去，長達數(shù)年的分析時間，未來會是分鐘級的訓(xùn)練耗時；

過去，需要天量的資源消耗，未來將是高性能的計算；

過去，計算主要集中在云端，未來主要是云端+終端；

過去，是大量的人工標(biāo)注，未來將是自動標(biāo)注、半自動標(biāo)注的舞臺；

過去，專業(yè)人員才能用AI，未來是面向普通人的一站式開發(fā)平臺。

基于這樣的愿景，華為的AI發(fā)展戰(zhàn)略就是打造無所不及的AI，構(gòu)建萬物互聯(lián)的智能世界。

田奇：華為計算機視覺研究計劃與進展丨CCF-GAIR 2020

華為將從以下五個方向進行研究或者投資。

第一：深耕基礎(chǔ)研究，在計算機視覺、自然語言處理、決策推理等領(lǐng)域，構(gòu)筑數(shù)據(jù)高效、能耗高效、安全可信、自動自治的機器學(xué)習(xí)的基礎(chǔ)能力。

第二：打造全棧方案，面向云、邊、端等全場景，全棧的解決方案，提供充裕的、經(jīng)濟的算力資源。

第三：投資開放生態(tài)和人才培養(yǎng)，將面向全球，持續(xù)與學(xué)術(shù)界、產(chǎn)業(yè)界和行業(yè)伙伴進行廣泛的合作。

第四：把AI的思維和技術(shù)引入現(xiàn)有的產(chǎn)品和服務(wù)，實現(xiàn)更大的價值、更強的競爭力。

第五：提升內(nèi)部的運營效率。

田奇：華為計算機視覺研究計劃與進展丨CCF-GAIR 2020

華為云Cloud&AI的定位就是圍繞鯤鵬、昇騰和華為云構(gòu)建生態(tài)，打造黑土地，成為數(shù)字世界的底座。為了實現(xiàn)這個目標(biāo)，華為云提出了一云兩翼雙引擎+開放的生態(tài)目標(biāo)。

田奇：華為計算機視覺研究計劃與進展丨CCF-GAIR 2020

就像這架飛機一樣，雙引擎是基于鯤鵬和昇騰構(gòu)建的基礎(chǔ)芯片架構(gòu)；兩翼是計算以及數(shù)據(jù)存儲和機器視覺；一云是華為云，提供安全可靠的混合云，成為生態(tài)伙伴的黑土地，為世界提供普惠的算力。開放的生態(tài)是指硬件開放、軟件開源，使能我們的合作伙伴。

田奇：華為計算機視覺研究計劃與進展丨CCF-GAIR 2020

華為云主要面向八大行業(yè)使能AI技術(shù)。到2019年底，我們已經(jīng)提供了60種服務(wù)、170多種功能，所涉及的行業(yè)包括：城市、互聯(lián)網(wǎng)、家庭、車聯(lián)網(wǎng)、物流、金融、園區(qū)、制造等等。

以上是對華為AI的簡單介紹，下面將介紹我們在計算機視覺領(lǐng)域的一些基礎(chǔ)研究。

田奇：華為計算機視覺研究計劃與進展丨CCF-GAIR 2020

眾所周知，人類對外部世界的感知80%以上來自于視覺信號。近年來，隨著視覺終端設(shè)備的不斷普及，如何讓機器像人類一樣擁有感知視覺信號的能力是計算機視覺的終極目標(biāo)。

田奇：華為計算機視覺研究計劃與進展丨CCF-GAIR 2020

計算機視覺已在智能汽車、智能手機、無人機、智能眼鏡等諸多行業(yè)得到了廣泛應(yīng)用。

田奇：華為計算機視覺研究計劃與進展丨CCF-GAIR 2020

總的來說，視覺研究可以分以下幾個部分：

首先是基礎(chǔ)理論，例如統(tǒng)計學(xué)習(xí)、優(yōu)化方法、深度學(xué)習(xí)技術(shù)等；

接下來考慮底層視覺，如超分辨、圖象增強、去模糊、去噪聲、去反光等等；

再到中高層的語義理解，包括場景理解、物體分類與檢測、人臉、手勢、人體姿態(tài)的識別、分割和分組等等。

除了二維視覺以外，三維視覺的研究也有著極其重要的地位，包括三維重建、點云處理和分析、景深感知分析等等。

同時，在人工智能時代，數(shù)據(jù)生成的方法研究也是一項有價值的任務(wù)。在一些工業(yè)場景中，視覺計算借助海量算力來做一些神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索的研究，以及模型壓縮與量化。

最后是視覺與其他模態(tài)的結(jié)合，比如視覺與語言的結(jié)合，視覺與圖形學(xué)結(jié)合，這都是計算機視覺領(lǐng)域的一些基礎(chǔ)性的研究課題。

田奇：華為計算機視覺研究計劃與進展丨CCF-GAIR 2020

華為的基礎(chǔ)研究就是圍繞底層視覺、語義理解、三維視覺、數(shù)據(jù)生成、視覺計算、視覺+多模態(tài)等方面，構(gòu)建數(shù)據(jù)高效、能耗高效的機器學(xué)習(xí)能力。

田奇：華為計算機視覺研究計劃與進展丨CCF-GAIR 2020

華為對底層視覺的研究涉及諸多方面，這些技術(shù)有著廣泛應(yīng)用場景，比如，為了提升手機端的圖片質(zhì)量，我們對照片進行超分辨和去噪處理，并提出了一系列有針對性的算法以面對從Raw域到sRGB域去噪，來提高照片的清晰度。

田奇：華為計算機視覺研究計劃與進展丨CCF-GAIR 2020

在語義理解方面，由于圖像視頻包括豐富的語義信息，如何有效理解并分析它們是一項富有挑戰(zhàn)性的課題。以下舉幾個例子來說明：

挑戰(zhàn)之一：同一內(nèi)容的視覺特征的差異性。比如說擁抱這個動作，雖然是內(nèi)容相同，但視覺表征可能非常不同，我們稱其為類內(nèi)差異性。

挑戰(zhàn)之二：不同內(nèi)容的視覺特征十分相似，我們稱其為類間相似性。比如上圖的兩個男子，從圖像上看，他們的視覺特征非常相似。但是放到場景中，一個是在排隊，一個是在對話，這直觀地解釋了不同類間具有很高的類間相似性。

挑戰(zhàn)之三：如何區(qū)分正常事件與異常事件。比如一群人在晨跑和一群人在斗毆，這往往會造成邊界模糊。

田奇：華為計算機視覺研究計劃與進展丨CCF-GAIR 2020

對于3D視覺而言，雖然三維數(shù)據(jù)比二維數(shù)據(jù)攜帶著更豐富的信息，但與之而來的是諸多挑戰(zhàn)。

比如在醫(yī)學(xué)領(lǐng)域，獲取具有精準(zhǔn)標(biāo)注的醫(yī)療數(shù)據(jù)，往往需要專家的協(xié)助，這是困難并且昂貴的；同時，因為一些醫(yī)療影像通常是在一些很細微的地方有差異，所以區(qū)分正常樣本和異常樣本的難度非常大；此外，視頻數(shù)據(jù)也存在大量的冗余，如何去除冗余并提取有效信息也很具挑戰(zhàn)性。

最后，準(zhǔn)確檢測和追蹤物體也極具挑戰(zhàn)并值得進一步探索。

田奇：華為計算機視覺研究計劃與進展丨CCF-GAIR 2020

數(shù)據(jù)生成同樣是一個熱門研究方向。我們認為數(shù)據(jù)是視覺算法研究的保障和基石，在深度學(xué)習(xí)時代，大多數(shù)場景數(shù)據(jù)的收集越來越昂貴，所以數(shù)據(jù)生成具有直接的應(yīng)用價值。

比如在安防企業(yè)中基于姿態(tài)的行人數(shù)據(jù)生成；在無人駕駛中街景數(shù)據(jù)的生成以及人臉數(shù)據(jù)的生成等。但目前該領(lǐng)域仍存在一些挑戰(zhàn)：

挑戰(zhàn)之一：通過人機交互對人臉特征的選擇與標(biāo)注需要大量的人力成本；

挑戰(zhàn)之二：如何生成高質(zhì)量的圖像以及視頻數(shù)據(jù)仍是巨大挑戰(zhàn)；

挑戰(zhàn)之三：生成數(shù)據(jù)同質(zhì)化嚴重，數(shù)據(jù)多樣性有待提高；

挑戰(zhàn)之四：算法復(fù)雜度也制約著數(shù)據(jù)生成的性能，特別是視頻數(shù)據(jù)生成這類對算力有著較高要求的任務(wù)。

田奇：華為計算機視覺研究計劃與進展丨CCF-GAIR 2020

下一個基礎(chǔ)研究是視覺計算，我們認為視覺計算是深度學(xué)習(xí)算法應(yīng)用落地的關(guān)鍵一環(huán)。

它主要集中在兩個方面：一個是模型的壓縮與加速，這對機器視覺在端側(cè)的部署具有重大的意義；另一個就是神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計。

但是視覺計算目前仍然面臨一些挑戰(zhàn)。第一，邊緣計算缺乏統(tǒng)一的平臺，用戶調(diào)用不便；第二，缺乏針對其它特定視覺任務(wù)的網(wǎng)絡(luò)壓縮與加速的算法；第三，網(wǎng)絡(luò)結(jié)構(gòu)搜索在性能和搜索的效率上都有待進一步提高。

田奇：華為計算機視覺研究計劃與進展丨CCF-GAIR 2020

最后一個研究領(lǐng)域是視覺與多模態(tài)。真實世界的數(shù)據(jù)是多模態(tài)的，比如在自動駕駛中，除了攝像頭的輸入，還有激光雷達的點云數(shù)據(jù)；在圖片、視頻的描述中，從圖片、視頻到文字的映射等。

它們存在的挑戰(zhàn)，包括數(shù)據(jù)融合的問題、數(shù)據(jù)對齊的問題、數(shù)據(jù)異質(zhì)性的問題、主觀性和不確定性的問題、還有協(xié)作方面的問題，都有待研究。

以上是華為計算機視覺基礎(chǔ)研究的一些方向，下面介紹一下我們從這些基礎(chǔ)研究中，進一步提出的華為視覺研究計劃。

田奇：華為計算機視覺研究計劃與進展丨CCF-GAIR 2020

我們認為計算機視覺實際上面臨三大挑戰(zhàn)：從數(shù)據(jù)到模型、到知識。從數(shù)據(jù)來講，舉個例子，每分鐘上傳到Y(jié)ouTube的視頻數(shù)據(jù)已經(jīng)超過500小時，如何從這些海量的數(shù)據(jù)中挖掘有用的信息，這是第一個挑戰(zhàn)。

從模型來講，人類能夠識別的物體類別已經(jīng)超過2萬類，計算機如何借助于深度神經(jīng)網(wǎng)絡(luò)來構(gòu)建識別高效的視覺識別模型，這是第二個挑戰(zhàn)。

從知識來講，在計算機視覺里面如何表達并存儲知識，這是第三個挑戰(zhàn)。

因此我們提出的第一個研究方向：如何從海量的數(shù)據(jù)中挖掘有效的信息？有兩個主要應(yīng)用場景，一是如何利用生成數(shù)據(jù)訓(xùn)練模型；第二是如何對齊不同模態(tài)的數(shù)據(jù)。

田奇：華為計算機視覺研究計劃與進展丨CCF-GAIR 2020

深度學(xué)習(xí)主要是監(jiān)督學(xué)習(xí)的范式，需要大量人工標(biāo)注的數(shù)據(jù)，而人工標(biāo)注的成本越來越高，比如無人駕駛，數(shù)據(jù)標(biāo)注成本可能成百上千萬，因此華為也花了很大的人力物力來研究數(shù)據(jù)生成技術(shù)。

我們把數(shù)據(jù)生成技術(shù)主要分為三類：第一類是數(shù)據(jù)擴增；第二類是利用生成對抗網(wǎng)絡(luò)GAN來合成更多的數(shù)據(jù)；第三種方法是利用計算機圖形學(xué)技術(shù)來生成虛擬場景，從而生成我們所需要的虛擬數(shù)據(jù)。

在這三方面，華為在ICLR20、CVPR2018和CVPR2019都有一些相關(guān)論文發(fā)表，數(shù)據(jù)生成主要應(yīng)用的領(lǐng)域在智慧城市、智能駕駛方面。

田奇：華為計算機視覺研究計劃與進展丨CCF-GAIR 2020

在這里，介紹一個我們最新的工作。我們提出知識蒸餾與自動數(shù)據(jù)擴增結(jié)合的方法，在不使用額外數(shù)據(jù)的情況下，可以達到業(yè)界領(lǐng)先精度：在ImageNet-1000 Top-1準(zhǔn)確率為85.8%。之前幾年都是谷歌最強，它在ImageNet-1000上最高精度是85.5%。

田奇：華為計算機視覺研究計劃與進展丨CCF-GAIR 2020

數(shù)據(jù)的第二方面是多模態(tài)學(xué)習(xí)。例如無人駕駛有圖像、GPS、激光雷達信息。相對于單模態(tài)，多模態(tài)具有天然的互補性，因此是場景理解的主要手段。

當(dāng)然也面臨很多挑戰(zhàn)，比如多模態(tài)的信息表示、融合、對齊、協(xié)同學(xué)習(xí)等等。我們認為多模態(tài)學(xué)習(xí)是未來機器視覺的主流方式，在自動駕駛、智能多媒體方面有著廣泛應(yīng)用前景。

田奇：華為計算機視覺研究計劃與進展丨CCF-GAIR 2020

在多模態(tài)學(xué)習(xí)方面，介紹一個我們在2019年的ACM多媒體會議上獲得最佳論文提名的工作，該工作主要是面對電商(服裝)設(shè)計了一個人機對話系統(tǒng)。

具體而言，系統(tǒng)會依據(jù)用戶需求生成不同的模態(tài)響應(yīng)，使用一個統(tǒng)一模型以編碼不同形式領(lǐng)域信息。最后在圖像選擇、文本響應(yīng)都取得了很好的結(jié)果，右邊的二維碼是相關(guān)論文的鏈接。

田奇：華為計算機視覺研究計劃與進展丨CCF-GAIR 2020

第二個研究方向是：怎樣設(shè)計高效的視覺識別模型？同樣有兩個應(yīng)用場景，第一個是在深度學(xué)習(xí)時代，如何設(shè)計神經(jīng)網(wǎng)絡(luò)模型。第二是如何加速神經(jīng)網(wǎng)絡(luò)的計算。

田奇：華為計算機視覺研究計劃與進展丨CCF-GAIR 2020

在神經(jīng)網(wǎng)絡(luò)設(shè)計方面有很多優(yōu)秀的模型誕生，從2012年的AlexNet到VGGNet、GoogleNet、MobileNet，然而，手工網(wǎng)絡(luò)模型設(shè)計進入瓶頸期。

2018年以來，自動網(wǎng)絡(luò)架構(gòu)搜索進入快速發(fā)展的階段，包括今年華為的PC-DARTS在業(yè)界都取得了很好的效果。但是自動網(wǎng)絡(luò)架構(gòu)搜索真能替代手工經(jīng)驗嗎？

主要面臨以下幾個挑戰(zhàn)：第一是搜索空間需要人工經(jīng)驗定義；第二是待搜的算子也是人工設(shè)計的；第三是它相比手工設(shè)計的網(wǎng)絡(luò)可遷移性比較差，抗攻擊能力也比較差。

田奇：華為計算機視覺研究計劃與進展丨CCF-GAIR 2020

在這里介紹一下我們在ICLR2020提出的一個目前業(yè)界搜索速度最快的自動網(wǎng)絡(luò)架構(gòu)搜索技術(shù)PC-DARTS，它主要包含兩個思想：一是采用局部連接的思想，隨機地選擇1/K的通道進行連接，可以解決冗余的問題；另一個是提出了邊正則化的思想以保證網(wǎng)絡(luò)穩(wěn)定。

圖片展示了這是Darts系列方法首次在ImageNet上完成的搜索，相較于之前的模型，搜索的效果更好，速度更快。右邊二維碼是相關(guān)論文鏈接。

田奇：華為計算機視覺研究計劃與進展丨CCF-GAIR 2020

模型的另外一個研究方向是模型加速以及小型化。

對于早期的ResNet、DenseNet到最新的EfficientNet，由于云側(cè)大模型無法適配端側(cè)的有限算力，所以自2016年以來，業(yè)界提出了眾多模型小型化的解決方案。

然而這些方法在實際應(yīng)用中存在各種問題。比如，低比特量化精度受限；在實現(xiàn)的時候，如果用混合比特來表示響應(yīng)和權(quán)重，這種混合比特的網(wǎng)絡(luò)實現(xiàn)對硬件并不友好；此外，新型的算子也并沒有得到一些充分的驗證。

田奇：華為計算機視覺研究計劃與進展丨CCF-GAIR 2020

在CVPR2020，我們作了一個口頭報告。該報告介紹了一個新型算子加速卷積網(wǎng)絡(luò)，該算子的核心思想是在CNN中采用加法計算替代乘法運算。

從原理上講，我們是用曼哈頓距離取代夾角距離。該方法用加法代替乘法運算，同時用8比特的整數(shù)計算，對硬件實現(xiàn)更加友好，功耗更低。

在ImageNet數(shù)據(jù)集上的結(jié)果表明，加法網(wǎng)絡(luò)達到了基本媲美乘法網(wǎng)絡(luò)的效果。雖然精度大概損失1%到2%，但其在功耗上具有顯著優(yōu)勢。此外，二維碼展示了開源代碼以及論文鏈接。

田奇：華為計算機視覺研究計劃與進展丨CCF-GAIR 2020

第三個研究方向是通用智能，我們稱其為知識抽取?？珊喴爬閮蓚€場景，第一個是如何定義通用的視覺模型，打造我們的視覺預(yù)訓(xùn)練模型；第二是如何通過虛擬環(huán)境來學(xué)習(xí)、表達和存儲知識。

田奇：華為計算機視覺研究計劃與進展丨CCF-GAIR 2020

我們的目標(biāo)是構(gòu)建一個通用視覺模型，類似于自然語言處理領(lǐng)域存在的預(yù)訓(xùn)練模型BERT、GPT-3，可以為下游的任務(wù)提供高效的初始化，滿足系統(tǒng)所需要的泛化性和魯棒性。

就監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)而言，監(jiān)督學(xué)習(xí)需要海量的樣本，模型無法泛化到不同的任務(wù)；而強化學(xué)習(xí)需要海量的試錯，同樣缺少可重復(fù)性、可復(fù)用性以及系統(tǒng)需要的魯棒性。

雖然強化學(xué)習(xí)在一些游戲中，例如圍棋、星際爭霸等取得很好的效果，但是在一些簡單的任務(wù)比如搭積木，效果就比較差。所以我們認為要學(xué)會推理預(yù)測，才能實現(xiàn)從視覺感知到認知。

從當(dāng)下研究主流來看，自監(jiān)督學(xué)習(xí)是成為常識學(xué)習(xí)的必經(jīng)之路，但是目前的自監(jiān)督學(xué)習(xí)缺乏有效的預(yù)訓(xùn)練任務(wù)，其在視覺領(lǐng)域的應(yīng)用還不成熟。

田奇：華為計算機視覺研究計劃與進展丨CCF-GAIR 2020

上圖展示了我們在CVPR2019通過自監(jiān)督學(xué)習(xí)來學(xué)習(xí)完成拼圖游戲。具體而言，拼圖游戲把一個圖像分成3×3的9個小塊，再把它的位置隨機打亂，通過自監(jiān)督學(xué)習(xí)來恢復(fù)圖像原始的構(gòu)成。

該任務(wù)能改進自監(jiān)督學(xué)習(xí)性能，使網(wǎng)絡(luò)能夠處理任意拼圖布局，從而更好地學(xué)習(xí)空間上下文提供的語義信息。我們把它在ImageNet上學(xué)習(xí)的結(jié)果遷移到別的地方，同樣也取得了很好的結(jié)果。左下角二維碼是我們的開源代碼鏈接。

田奇：華為計算機視覺研究計劃與進展丨CCF-GAIR 2020

最后一個研究方向是構(gòu)造虛擬場景來學(xué)習(xí)常識？因為深度學(xué)習(xí)需要大量的數(shù)據(jù)標(biāo)注，這存在諸多問題：首先是標(biāo)注成本特別高；其次是數(shù)據(jù)標(biāo)注存在一個致命的問題，即知識表達不準(zhǔn)確。

比如在無人駕駛場景中，我們有許多像素級分割的標(biāo)注，但是并不知道這樣的標(biāo)注對無人駕駛的識別任務(wù)是最有效的，這一點難以證明。

第三是基于數(shù)據(jù)標(biāo)注，必然導(dǎo)致常識的缺失，而人類對外部世界的認識很多依賴于常識。

田奇：華為計算機視覺研究計劃與進展丨CCF-GAIR 2020

我們在CVPR2019上提出用計算機圖形學(xué)的技術(shù)生成虛擬場景，從虛擬場景中學(xué)習(xí)模型控制無感知的機械臂。

具體而言，我們只需要一個攝像頭和一臺計算機即可以控制沒有裝備其它感知設(shè)備的機械臂以完成復(fù)雜的搬運動作。因為這是從虛擬的環(huán)境中搜集的數(shù)據(jù)，因此標(biāo)注的代價幾乎為零。

此外，利用域遷移算法，所以幾乎沒有性能損失。如果融合強化學(xué)習(xí)，還能實現(xiàn)其它的多種任務(wù)，右邊二維碼是相關(guān)的代碼和論文。

田奇：華為計算機視覺研究計劃與進展丨CCF-GAIR 2020

基于以上對數(shù)據(jù)、模型和知識方面的總結(jié)，我們提出了華為的視覺研究計劃，希望能夠助力每一位AI開發(fā)者。

我們的計劃包括六個子計劃，與數(shù)據(jù)相關(guān)的是數(shù)據(jù)冰山計劃、數(shù)據(jù)魔方計劃；與模型相關(guān)的是模型摸高計劃、模型瘦身計劃；與知識抽取相關(guān)的則是萬物預(yù)視計劃，也就是我們的通用預(yù)訓(xùn)練模型計劃，此外還有虛實合一計劃。

田奇：華為計算機視覺研究計劃與進展丨CCF-GAIR 2020

關(guān)于數(shù)據(jù)冰山計劃，我們希望用數(shù)據(jù)生成方法真正代替手工標(biāo)注。我們共有三個研究子課題，第一個子課題是希望數(shù)據(jù)的生成質(zhì)量更高。

第二個研究課題是數(shù)據(jù)生成的點石成金計劃，我們希望生成的數(shù)據(jù)能夠自動挑選高質(zhì)量的數(shù)據(jù)，讓模型隨著生成數(shù)據(jù)的變多而真正的變好。

第三個課題是通用自動數(shù)據(jù)生成，我們希望根據(jù)不同的任務(wù)自動生成它所需的數(shù)據(jù)，讓數(shù)據(jù)生成具備普惠的能力。

田奇：華為計算機視覺研究計劃與進展丨CCF-GAIR 2020

第二個數(shù)據(jù)計劃是魔方計劃，關(guān)注多模態(tài)數(shù)據(jù)量化、對齊、融合策略的研究，構(gòu)建下一代的智能視覺。

田奇：華為計算機視覺研究計劃與進展丨CCF-GAIR 2020

模型摸高計劃考慮云側(cè)大模型，刷新各類視覺任務(wù)性能上限。這包含了三個子課題：第一個是全空間網(wǎng)絡(luò)架構(gòu)搜索，希望不受算子、搜索網(wǎng)絡(luò)的限制，真正實現(xiàn)自主自治，真正自動搜索。

第二個是新型算子搜索，希望設(shè)計與芯片相關(guān)的算子，讓算子從復(fù)用到創(chuàng)造。

第三個是搜索模型的普適能力提升，之前提到搜索設(shè)計的模型與手工設(shè)計的模型相比普適性較差，我們希望將來的網(wǎng)絡(luò)搜索能夠真正的安全可用。

田奇：華為計算機視覺研究計劃與進展丨CCF-GAIR 2020

模型瘦身計劃則針對端側(cè)小模型，助力各種芯片完成復(fù)雜推理。其同樣包含三個子課題：第一個小課題是自動搜索小型化，將硬件的約束融入自動設(shè)計，比如說功耗、時延的約束等。

第二個小課題研究低比特網(wǎng)絡(luò)量化，尤其是一比特網(wǎng)絡(luò)量化，追求極致的性能。

第三是構(gòu)建新型的加法網(wǎng)絡(luò)，探索高效計算的新途徑。

田奇：華為計算機視覺研究計劃與進展丨CCF-GAIR 2020

最后兩個計劃跟知識相關(guān)，第一個是萬物預(yù)視計劃，主要目標(biāo)是定義預(yù)訓(xùn)練任務(wù)以構(gòu)建通用的視覺模型。

田奇：華為計算機視覺研究計劃與進展丨CCF-GAIR 2020

第二個是虛實合一計劃，其主要目標(biāo)是解決數(shù)據(jù)標(biāo)注瓶頸的問題，希望在虛擬的場景下不通過數(shù)據(jù)標(biāo)注，直接訓(xùn)練智能行為本身。

該領(lǐng)域早期的研究并不多，如何定義知識，如何構(gòu)筑虛擬世界，如何模擬用戶行為，如何在虛擬的場景中保證智能體的安全，比如說在虛擬的場景中做無人駕駛的訓(xùn)練，相信這是真正通向通用人工智能的一個有益的方向。

我們的視覺研究計劃歡迎全球的AI研究者加入我們，這是基于昇騰AI計算平臺，加速計算機視覺基礎(chǔ)研究。

最后介紹一下我們的研究進展，以及華為云AI培養(yǎng)人才的理念。華為云AI希望打造一支世界一流的AI研究團隊，主要從開放、創(chuàng)新、培養(yǎng)六個字踐行，我們需要打造的是一個具有華為特色的人工智能軍團。

田奇：華為計算機視覺研究計劃與進展丨CCF-GAIR 2020

眾所周知，在計算機視覺領(lǐng)域有三大頂會：CVPR、ECCV和ICCV。CVPR一年一次，ECCV和ICCV每兩年一次。CVPR在本領(lǐng)域的會議中排名第一，在所有的計算機和非計算機學(xué)科中排名第10，具有廣泛的影響力。

田奇：華為計算機視覺研究計劃與進展丨CCF-GAIR 2020

我們希望在各種頂會中取得更好的成績，2019年我們的視覺團隊在國際頂會發(fā)表論文60多篇，今年的CVPR有34篇論文，基礎(chǔ)研究的論文發(fā)表已經(jīng)躋身國際國內(nèi)第一集團。

我們大量的工作也是通過我們的實習(xí)生和高校老師聯(lián)合完成的，比如說P-DARTS，去年這項工作已經(jīng)被納入微軟的開源平臺，作為標(biāo)準(zhǔn)算法進行提供。

第二個是CenterNet，也是單階段性能最強的目標(biāo)檢測算法之一，在GitHub開源收獲了很高的評價。還有一個是AdderNet提出了全新的神經(jīng)網(wǎng)絡(luò)計算架構(gòu)，為下一代芯片架構(gòu)指出了新方向。

第二方面是開放，我們希望與頂級的高校老師合作，華為的視覺團隊過去1-2年中有100多位C9高校和其它的高校的實習(xí)生，他們不僅做出了杰出的貢獻，而且也形成了與高校之間有力的紐帶。

第三是從培養(yǎng)的角度出發(fā)，視覺團隊制作了計算機視覺精品課程，同時也撰寫了計算機視覺白皮書，希望下一步成為AI系列教材，最后對內(nèi)外部宣講。

田奇：華為計算機視覺研究計劃與進展丨CCF-GAIR 2020

最后把我們半年來的視覺領(lǐng)域的進展與各位分享一下，我們的目標(biāo)是希望在各項視覺基礎(chǔ)任務(wù)中打造性能最強的計算模型，積極投入D+M生態(tài)建設(shè)。

在全監(jiān)督學(xué)習(xí)方面，把全空間、網(wǎng)絡(luò)架構(gòu)搜索和數(shù)據(jù)擴增技術(shù)結(jié)合，在ImageNet達到85.8%的精度，打破谷歌三年的壟斷。

另外，在自研的數(shù)據(jù)增強技術(shù)方面，在MS-COCO這樣一個業(yè)界具有挑戰(zhàn)的測試集，目前不管是單模型還是多模型，我們都達到業(yè)界第一，其中多模型達到58.8%的檢測精度，也打破了微軟多年的壟斷。

在多模態(tài)學(xué)習(xí)方面，目前在自動駕駛數(shù)據(jù)集Nuscenes Challenge上取得業(yè)界第一的檢測精度，擊敗來自全球92支隊伍并大幅度領(lǐng)先第二名達3.1%。

最后，在弱監(jiān)督方面，我們在2020年的圖象識別競賽WebVision達到業(yè)界第一的精度。在無監(jiān)督方面，我們在無標(biāo)簽ImageNet-1000數(shù)據(jù)集上達到了業(yè)界領(lǐng)先的75.5%的精度，大大超過了Facebook保持的71.1%的精度。

未來希望我們的無監(jiān)督學(xué)習(xí)能逼近甚至超越監(jiān)督學(xué)習(xí)的極限。

以上就是華為視覺計劃的一些介紹和進展，謝謝大家。雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章