0
| 本文作者: 張棟 | 2020-08-20 10:16 | 專題:CCF-GAIR 2020 全球人工智能與機器人峰會 |

華為云人工智能領域首席科學家、IEEE Fellow 田奇
2020 年 8 月 7 日,第五屆全球人工智能與機器人峰會(CCF-GAIR 2020)在深圳正式開幕。
CCF-GAIR 2020 峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)聯(lián)合承辦,鵬城實驗室、深圳市人工智能與機器人研究院協(xié)辦。
作為中國最具影響力和前瞻性的前沿科技活動之一,CCF-GAIR 大會已經度過了四次精彩而又輝煌的歷程。在大會第二天的「視覺智能?城市物聯(lián)」專場上,華為云人工智能領域首席科學家、IEEE Fellow田奇教授登臺發(fā)表精彩演講,分享了華為在人工智能領域的理解與實踐。
田奇介紹了華為在人工智能領域的十大愿景,華為為了實現(xiàn)這個戰(zhàn)略目標,從中梳理出深耕基礎研究、打造全棧方案、投資開放生態(tài)和人才培養(yǎng)、解決方案增強、內部效率提升五大方向,以此打造無所不及的AI,構建萬物互聯(lián)的智能世界。
華為計算機視覺基礎研究以數(shù)據高效和能耗高效為核心,覆蓋從2D視覺到3D視覺的技術和應用,主要包含底層視覺、語義理解、三維視覺、數(shù)據生成、視覺計算、視覺多模態(tài)等方面。在此方向上,華為將基礎研究進一步聚焦到數(shù)據、模型和知識三大挑戰(zhàn):
1、數(shù)據上,如何從海量的數(shù)據中挖掘有用的信息。田奇以生成數(shù)據訓練和不同模態(tài)數(shù)據對齊這兩個應用場景為例,介紹了華為如何使用知識蒸餾與自動數(shù)據擴增結合的方法讓AI模型高效地挖掘數(shù)據中的有用信息。
2、模型上,怎樣設計高效的視覺模型。田奇認為在深度學習年代,視覺模型主要包含神經網絡模型設計和神經網絡模型加速兩個場景。具體地,田奇介紹了華為如何通過局部連接思路解決網絡冗余問題、如何加入邊正則化思想來解決局部連接帶來的不穩(wěn)定性等等。
3、知識上,如何定義視覺預訓練模型、如何通過虛擬環(huán)境學習知識、如何表達并存儲知識。為了實現(xiàn)華為打造通用視覺模型的目標,田奇認為推理預測是從視覺感知到認知的關鍵步驟。雖然預訓練方法目前在視覺領域的應用還不成熟,但是近期自監(jiān)督學習的成果為視覺通用模型的發(fā)展注入了新活力,這也將成為常識學習的必經之路。
基于三大挑戰(zhàn),田奇提出華為視覺六大研究計劃:數(shù)據冰山計劃、數(shù)據魔方計劃、模型摸高計劃、模型瘦身計劃、萬物預視計劃、虛實合一計劃,來幫助每一位AI開發(fā)者。
以下是田奇教授的大會演講全文,雷鋒網作了不改變原意的整理與編輯:
尊敬的各位嘉賓、各位老師、各位朋友,大家下午好!我是田奇,現(xiàn)任華為云人工智能領域首席科學家。非常感謝大會的邀請,很榮幸能在這里為大家介紹華為計算機視覺計劃。
首先,我會簡單介紹一下華為人工智能的研究背景和在計算機視覺領域的基礎研究。然后,我會從模型、數(shù)據和知識三個核心點出發(fā),來重點介紹華為視覺六大研究計劃。最后,我會介紹一下華為云人工智能在人才培養(yǎng)方面的理念。

近年來,AI的發(fā)展如火如荼,正在改變各行各業(yè)。華為預計:到2025年左右,97%的大企業(yè)都會上云,其中77%的企業(yè)云服務都會涉及到AI。
因此,在云上,AI是一個關鍵的競爭點。如果把大企業(yè)的智能化升級比作一個賽道,那么AI、IoT、5G就是提高發(fā)展速度和商業(yè)高度的重要引擎。

以前我們的董事長徐直軍闡述過華為在人工智能領域的十大愿景,這里我簡單介紹幾點。
過去,長達數(shù)年的分析時間,未來會是分鐘級的訓練耗時;
過去,需要天量的資源消耗,未來將是高性能的計算;
過去,計算主要集中在云端,未來主要是云端+終端;
過去,是大量的人工標注,未來將是自動標注、半自動標注的舞臺;
過去,專業(yè)人員才能用AI,未來是面向普通人的一站式開發(fā)平臺。
基于這樣的愿景,華為的AI發(fā)展戰(zhàn)略就是打造無所不及的AI,構建萬物互聯(lián)的智能世界。

華為將從以下五個方向進行研究或者投資。
第一:深耕基礎研究,在計算機視覺、自然語言處理、決策推理等領域,構筑數(shù)據高效、能耗高效、安全可信、自動自治的機器學習的基礎能力。
第二:打造全棧方案,面向云、邊、端等全場景,全棧的解決方案,提供充裕的、經濟的算力資源。
第三:投資開放生態(tài)和人才培養(yǎng),將面向全球,持續(xù)與學術界、產業(yè)界和行業(yè)伙伴進行廣泛的合作。
第四:把AI的思維和技術引入現(xiàn)有的產品和服務,實現(xiàn)更大的價值、更強的競爭力。
第五:提升內部的運營效率。

華為云Cloud&AI的定位就是圍繞鯤鵬、昇騰和華為云構建生態(tài),打造黑土地,成為數(shù)字世界的底座。為了實現(xiàn)這個目標,華為云提出了一云兩翼雙引擎+開放的生態(tài)目標。

就像這架飛機一樣,雙引擎是基于鯤鵬和昇騰構建的基礎芯片架構;兩翼是計算以及數(shù)據存儲和機器視覺;一云是華為云,提供安全可靠的混合云,成為生態(tài)伙伴的黑土地,為世界提供普惠的算力。開放的生態(tài)是指硬件開放、軟件開源,使能我們的合作伙伴。

華為云主要面向八大行業(yè)使能AI技術。到2019年底,我們已經提供了60種服務、170多種功能,所涉及的行業(yè)包括:城市、互聯(lián)網、家庭、車聯(lián)網、物流、金融、園區(qū)、制造等等。
以上是對華為AI的簡單介紹,下面將介紹我們在計算機視覺領域的一些基礎研究。

眾所周知,人類對外部世界的感知80%以上來自于視覺信號。近年來,隨著視覺終端設備的不斷普及,如何讓機器像人類一樣擁有感知視覺信號的能力是計算機視覺的終極目標。

計算機視覺已在智能汽車、智能手機、無人機、智能眼鏡等諸多行業(yè)得到了廣泛應用。

總的來說,視覺研究可以分以下幾個部分:
首先是基礎理論,例如統(tǒng)計學習、優(yōu)化方法、深度學習技術等;
接下來考慮底層視覺,如超分辨、圖象增強、去模糊、去噪聲、去反光等等;
再到中高層的語義理解,包括場景理解、物體分類與檢測、人臉、手勢、人體姿態(tài)的識別、分割和分組等等。
除了二維視覺以外,三維視覺的研究也有著極其重要的地位,包括三維重建、點云處理和分析、景深感知分析等等。
同時,在人工智能時代,數(shù)據生成的方法研究也是一項有價值的任務。在一些工業(yè)場景中,視覺計算借助海量算力來做一些神經網絡架構搜索的研究,以及模型壓縮與量化。
最后是視覺與其他模態(tài)的結合,比如視覺與語言的結合,視覺與圖形學結合,這都是計算機視覺領域的一些基礎性的研究課題。

華為的基礎研究就是圍繞底層視覺、語義理解、三維視覺、數(shù)據生成、視覺計算、視覺+多模態(tài)等方面,構建數(shù)據高效、能耗高效的機器學習能力。

華為對底層視覺的研究涉及諸多方面,這些技術有著廣泛應用場景,比如,為了提升手機端的圖片質量,我們對照片進行超分辨和去噪處理,并提出了一系列有針對性的算法以面對從Raw域到sRGB域去噪,來提高照片的清晰度。

在語義理解方面,由于圖像視頻包括豐富的語義信息,如何有效理解并分析它們是一項富有挑戰(zhàn)性的課題。以下舉幾個例子來說明:
挑戰(zhàn)之一:同一內容的視覺特征的差異性。比如說擁抱這個動作,雖然是內容相同,但視覺表征可能非常不同,我們稱其為類內差異性。
挑戰(zhàn)之二:不同內容的視覺特征十分相似,我們稱其為類間相似性。比如上圖的兩個男子,從圖像上看,他們的視覺特征非常相似。但是放到場景中,一個是在排隊,一個是在對話,這直觀地解釋了不同類間具有很高的類間相似性。
挑戰(zhàn)之三:如何區(qū)分正常事件與異常事件。比如一群人在晨跑和一群人在斗毆,這往往會造成邊界模糊。

對于3D視覺而言,雖然三維數(shù)據比二維數(shù)據攜帶著更豐富的信息,但與之而來的是諸多挑戰(zhàn)。
比如在醫(yī)學領域,獲取具有精準標注的醫(yī)療數(shù)據,往往需要專家的協(xié)助,這是困難并且昂貴的;同時,因為一些醫(yī)療影像通常是在一些很細微的地方有差異,所以區(qū)分正常樣本和異常樣本的難度非常大;此外,視頻數(shù)據也存在大量的冗余,如何去除冗余并提取有效信息也很具挑戰(zhàn)性。
最后,準確檢測和追蹤物體也極具挑戰(zhàn)并值得進一步探索。

數(shù)據生成同樣是一個熱門研究方向。我們認為數(shù)據是視覺算法研究的保障和基石,在深度學習時代,大多數(shù)場景數(shù)據的收集越來越昂貴,所以數(shù)據生成具有直接的應用價值。
比如在安防企業(yè)中基于姿態(tài)的行人數(shù)據生成;在無人駕駛中街景數(shù)據的生成以及人臉數(shù)據的生成等。但目前該領域仍存在一些挑戰(zhàn):
挑戰(zhàn)之一:通過人機交互對人臉特征的選擇與標注需要大量的人力成本;
挑戰(zhàn)之二:如何生成高質量的圖像以及視頻數(shù)據仍是巨大挑戰(zhàn);
挑戰(zhàn)之三:生成數(shù)據同質化嚴重,數(shù)據多樣性有待提高;
挑戰(zhàn)之四:算法復雜度也制約著數(shù)據生成的性能,特別是視頻數(shù)據生成這類對算力有著較高要求的任務。

下一個基礎研究是視覺計算,我們認為視覺計算是深度學習算法應用落地的關鍵一環(huán)。
它主要集中在兩個方面:一個是模型的壓縮與加速,這對機器視覺在端側的部署具有重大的意義;另一個就是神經網絡架構設計。
但是視覺計算目前仍然面臨一些挑戰(zhàn)。第一,邊緣計算缺乏統(tǒng)一的平臺,用戶調用不便;第二,缺乏針對其它特定視覺任務的網絡壓縮與加速的算法;第三,網絡結構搜索在性能和搜索的效率上都有待進一步提高。

最后一個研究領域是視覺與多模態(tài)。真實世界的數(shù)據是多模態(tài)的,比如在自動駕駛中,除了攝像頭的輸入,還有激光雷達的點云數(shù)據;在圖片、視頻的描述中,從圖片、視頻到文字的映射等。
它們存在的挑戰(zhàn),包括數(shù)據融合的問題、數(shù)據對齊的問題、數(shù)據異質性的問題、主觀性和不確定性的問題、還有協(xié)作方面的問題,都有待研究。
以上是華為計算機視覺基礎研究的一些方向,下面介紹一下我們從這些基礎研究中,進一步提出的華為視覺研究計劃。

我們認為計算機視覺實際上面臨三大挑戰(zhàn):從數(shù)據到模型、到知識。 從數(shù)據來講,舉個例子,每分鐘上傳到YouTube的視頻數(shù)據已經超過500小時,如何從這些海量的數(shù)據中挖掘有用的信息,這是第一個挑戰(zhàn)。
從模型來講,人類能夠識別的物體類別已經超過2萬類,計算機如何借助于深度神經網絡來構建識別高效的視覺識別模型,這是第二個挑戰(zhàn)。
從知識來講,在計算機視覺里面如何表達并存儲知識,這是第三個挑戰(zhàn)。
因此我們提出的第一個研究方向:如何從海量的數(shù)據中挖掘有效的信息?有兩個主要應用場景,一是如何利用生成數(shù)據訓練模型;第二是如何對齊不同模態(tài)的數(shù)據。

深度學習主要是監(jiān)督學習的范式,需要大量人工標注的數(shù)據,而人工標注的成本越來越高,比如無人駕駛,數(shù)據標注成本可能成百上千萬,因此華為也花了很大的人力物力來研究數(shù)據生成技術。
我們把數(shù)據生成技術主要分為三類:第一類是數(shù)據擴增;第二類是利用生成對抗網絡GAN來合成更多的數(shù)據;第三種方法是利用計算機圖形學技術來生成虛擬場景,從而生成我們所需要的虛擬數(shù)據。
在這三方面,華為在ICLR20、CVPR2018和CVPR2019都有一些相關論文發(fā)表,數(shù)據生成主要應用的領域在智慧城市、智能駕駛方面。

在這里,介紹一個我們最新的工作。我們提出知識蒸餾與自動數(shù)據擴增結合的方法,在不使用額外數(shù)據的情況下,可以達到業(yè)界領先精度:在ImageNet-1000 Top-1準確率為85.8%。之 前幾年都是谷歌最強,它在ImageNet-1000上最高精度是85.5%。

數(shù)據的第二方面是多模態(tài)學習。例如無人駕駛有圖像、GPS、激光雷達信息。相對于單模態(tài),多模態(tài)具有天然的互補性,因此是場景理解的主要手段。
當然也面臨很多挑戰(zhàn),比如多模態(tài)的信息表示、融合、對齊、協(xié)同學習等等。我們認為多模態(tài)學習是未來機器視覺的主流方式,在自動駕駛、智能多媒體方面有著廣泛應用前景。

在多模態(tài)學習方面,介紹一個我們在2019年的ACM多媒體會議上獲得最佳論文提名的工作,該工作主要是面對電商(服裝)設計了一個人機對話系統(tǒng)。
具體而言,系統(tǒng)會依據用戶需求生成不同的模態(tài)響應,使用一個統(tǒng)一模型以編碼不同形式領域信息。最后在圖像選擇、文本響應都取得了很好的結果,右邊的二維碼是相關論文的鏈接。

第二個研究方向是:怎樣設計高效的視覺識別模型?同樣有兩個應用場景,第一個是在深度學習時代,如何設計神經網絡模型。第二是如何加速神經網絡的計算。

在神經網絡設計方面有很多優(yōu)秀的模型誕生,從2012年的AlexNet到VGGNet、GoogleNet、MobileNet,然而,手工網絡模型設計進入瓶頸期。
2018年以來,自動網絡架構搜索進入快速發(fā)展的階段,包括今年華為的PC-DARTS在業(yè)界都取得了很好的效果。但是自動網絡架構搜索真能替代手工經驗嗎?
主要面臨以下幾個挑戰(zhàn):第一是搜索空間需要人工經驗定義;第二是待搜的算子也是人工設計的;第三是它相比手工設計的網絡可遷移性比較差,抗攻擊能力也比較差。

在這里介紹一下我們在ICLR2020提出的一個目前業(yè)界搜索速度最快的自動網絡架構搜索技術PC-DARTS,它主要包含兩個思想:一是采用局部連接的思想,隨機地選擇1/K的通道進行連接,可以解決冗余的問題;另一個是提出了邊正則化的思想以保證網絡穩(wěn)定。
圖片展示了這是Darts系列方法首次在ImageNet上完成的搜索,相較于之前的模型,搜索的效果更好,速度更快。右邊二維碼是相關論文鏈接。

模型的另外一個研究方向是模型加速以及小型化。
對于早期的ResNet、DenseNet到最新的EfficientNet,由于云側大模型無法適配端側的有限算力,所以自2016年以來,業(yè)界提出了眾多模型小型化的解決方案。
然而這些方法在實際應用中存在各種問題。比如,低比特量化精度受限;在實現(xiàn)的時候,如果用混合比特來表示響應和權重,這種混合比特的網絡實現(xiàn)對硬件并不友好;此外,新型的算子也并沒有得到一些充分的驗證。

在CVPR2020,我們作了一個口頭報告。該報告介紹了一個新型算子加速卷積網絡,該算子的核心思想是在CNN中采用加法計算替代乘法運算。
從原理上講,我們是用曼哈頓距離取代夾角距離。該方法用加法代替乘法運算,同時用8比特的整數(shù)計算,對硬件實現(xiàn)更加友好,功耗更低。
在ImageNet數(shù)據集上的結果表明,加法網絡達到了基本媲美乘法網絡的效果。雖然精度大概損失1%到2%,但其在功耗上具有顯著優(yōu)勢。此外,二維碼展示了開源代碼以及論文鏈接。

第三個研究方向是通用智能,我們稱其為知識抽取。可簡要概括為兩個場景,第一個是如何定義通用的視覺模型,打造我們的視覺預訓練模型;第二是如何通過虛擬環(huán)境來學習、表達和存儲知識。

我們的目標是構建一個通用視覺模型,類似于自然語言處理領域存在的預訓練模型BERT、GPT-3,可以為下游的任務提供高效的初始化,滿足系統(tǒng)所需要的泛化性和魯棒性。
就監(jiān)督學習和強化學習而言,監(jiān)督學習需要海量的樣本,模型無法泛化到不同的任務;而強化學習需要海量的試錯,同樣缺少可重復性、可復用性以及系統(tǒng)需要的魯棒性。
雖然強化學習在一些游戲中,例如圍棋、星際爭霸等取得很好的效果,但是在一些簡單的任務比如搭積木,效果就比較差。所以我們認為要學會推理預測,才能實現(xiàn)從視覺感知到認知。
從當下研究主流來看,自監(jiān)督學習是成為常識學習的必經之路,但是目前的自監(jiān)督學習缺乏有效的預訓練任務,其在視覺領域的應用還不成熟。

上圖展示了我們在CVPR2019通過自監(jiān)督學習來學習完成拼圖游戲。具體而言,拼圖游戲把一個圖像分成3×3的9個小塊,再把它的位置隨機打亂,通過自監(jiān)督學習來恢復圖像原始的構成。
該任務能改進自監(jiān)督學習性能,使網絡能夠處理任意拼圖布局,從而更好地學習空間上下文提供的語義信息。我們把它在ImageNet上學習的結果遷移到別的地方,同樣也取得了很好的結果。左下角二維碼是我們的開源代碼鏈接。

最后一個研究方向是構造虛擬場景來學習常識?因為深度學習需要大量的數(shù)據標注,這存在諸多問題:首先是標注成本特別高;其次是數(shù)據標注存在一個致命的問題,即知識表達不準確。
比如在無人駕駛場景中,我們有許多像素級分割的標注,但是并不知道這樣的標注對無人駕駛的識別任務是最有效的,這一點難以證明。
第三是基于數(shù)據標注,必然導致常識的缺失,而人類對外部世界的認識很多依賴于常識。

我們在CVPR2019上提出用計算機圖形學的技術生成虛擬場景,從虛擬場景中學習模型控制無感知的機械臂。
具體而言,我們只需要一個攝像頭和一臺計算機即可以控制沒有裝備其它感知設備的機械臂以完成復雜的搬運動作。因為這是從虛擬的環(huán)境中搜集的數(shù)據,因此標注的代價幾乎為零。
此外,利用域遷移算法,所以幾乎沒有性能損失。如果融合強化學習,還能實現(xiàn)其它的多種任務,右邊二維碼是相關的代碼和論文。

基于以上對數(shù)據、模型和知識方面的總結,我們提出了華為的視覺研究計劃,希望能夠助力每一位AI開發(fā)者。
我們的計劃包括六個子計劃,與數(shù)據相關的是數(shù)據冰山計劃、數(shù)據魔方計劃;與模型相關的是模型摸高計劃、模型瘦身計劃;與知識抽取相關的則是萬物預視計劃,也就是我們的通用預訓練模型計劃,此外還有虛實合一計劃。

關于數(shù)據冰山計劃,我們希望用數(shù)據生成方法真正代替手工標注。我們共有三個研究子課題,第一個子課題是希望數(shù)據的生成質量更高。
第二個研究課題是數(shù)據生成的點石成金計劃,我們希望生成的數(shù)據能夠自動挑選高質量的數(shù)據,讓模型隨著生成數(shù)據的變多而真正的變好。
第三個課題是通用自動數(shù)據生成,我們希望根據不同的任務自動生成它所需的數(shù)據,讓數(shù)據生成具備普惠的能力。

第二個數(shù)據計劃是魔方計劃,關注多模態(tài)數(shù)據量化、對齊、融合策略的研究,構建下一代的智能視覺。

模型摸高計劃考慮云側大模型,刷新各類視覺任務性能上限。這包含了三個子課題:第一個是全空間網絡架構搜索,希望不受算子、搜索網絡的限制,真正實現(xiàn)自主自治,真正自動搜索。
第二個是新型算子搜索,希望設計與芯片相關的算子,讓算子從復用到創(chuàng)造。
第三個是搜索模型的普適能力提升,之前提到搜索設計的模型與手工設計的模型相比普適性較差,我們希望將來的網絡搜索能夠真正的安全可用。

模型瘦身計劃則針對端側小模型,助力各種芯片完成復雜推理。其同樣包含三個子課題:第一個小課題是自動搜索小型化,將硬件的約束融入自動設計,比如說功耗、時延的約束等。
第二個小課題研究低比特網絡量化,尤其是一比特網絡量化,追求極致的性能。
第三是構建新型的加法網絡,探索高效計算的新途徑。

最后兩個計劃跟知識相關,第一個是萬物預視計劃,主要目標是定義預訓練任務以構建通用的視覺模型。

第二個是虛實合一計劃,其主要目標是解決數(shù)據標注瓶頸的問題,希望在虛擬的場景下不通過數(shù)據標注,直接訓練智能行為本身。
該領域早期的研究并不多,如何定義知識,如何構筑虛擬世界,如何模擬用戶行為,如何在虛擬的場景中保證智能體的安全,比如說在虛擬的場景中做無人駕駛的訓練,相信這是真正通向通用人工智能的一個有益的方向。
我們的視覺研究計劃歡迎全球的AI研究者加入我們,這是基于昇騰AI計算平臺,加速計算機視覺基礎研究。
最后介紹一下我們的研究進展,以及華為云AI培養(yǎng)人才的理念。華為云AI希望打造一支世界一流的AI研究團隊,主要從開放、創(chuàng)新、培養(yǎng)六個字踐行,我們需要打造的是一個具有華為特色的人工智能軍團。

眾所周知,在計算機視覺領域有三大頂會:CVPR、ECCV和ICCV。CVPR一年一次,ECCV和ICCV每兩年一次。CVPR在本領域的會議中排名第一,在所有的計算機和非計算機學科中排名第10,具有廣泛的影響力。

我們希望在各種頂會中取得更好的成績,2019年我們的視覺團隊在國際頂會發(fā)表論文60多篇,今年的CVPR有34篇論文,基礎研究的論文發(fā)表已經躋身國際國內第一集團。
我們大量的工作也是通過我們的實習生和高校老師聯(lián)合完成的,比如說P-DARTS,去年這項工作已經被納入微軟的開源平臺,作為標準算法進行提供。
第二個是CenterNet,也是單階段性能最強的目標檢測算法之一,在GitHub開源收獲了很高的評價。還有一個是AdderNet提出了全新的神經網絡計算架構,為下一代芯片架構指出了新方向。
第二方面是開放,我們希望與頂級的高校老師合作,華為的視覺團隊過去1-2年中有100多位C9高校和其它的高校的實習生,他們不僅做出了杰出的貢獻,而且也形成了與高校之間有力的紐帶。
第三是從培養(yǎng)的角度出發(fā),視覺團隊制作了計算機視覺精品課程,同時也撰寫了計算機視覺白皮書,希望下一步成為AI系列教材,最后對內外部宣講。

最后把我們半年來的視覺領域的進展與各位分享一下,我們的目標是希望在各項視覺基礎任務中打造性能最強的計算模型,積極投入D+M生態(tài)建設。
在全監(jiān)督學習方面,把全空間、網絡架構搜索和數(shù)據擴增技術結合,在ImageNet達到85.8%的精度,打破谷歌三年的壟斷。
另外,在自研的數(shù)據增強技術方面,在MS-COCO這樣一個業(yè)界具有挑戰(zhàn)的測試集,目前不管是單模型還是多模型,我們都達到業(yè)界第一,其中多模型達到58.8%的檢測精度,也打破了微軟多年的壟斷。
在多模態(tài)學習方面,目前在自動駕駛數(shù)據集Nuscenes Challenge上取得業(yè)界第一的檢測精度,擊敗來自全球92支隊伍并大幅度領先第二名達3.1%。
最后,在弱監(jiān)督方面,我們在2020年的圖象識別競賽WebVision達到業(yè)界第一的精度。在無監(jiān)督方面,我們在無標簽ImageNet-1000數(shù)據集上達到了業(yè)界領先的75.5%的精度,大大超過了Facebook保持的71.1%的精度。
未來希望我們的無監(jiān)督學習能逼近甚至超越監(jiān)督學習的極限。
以上就是華為視覺計劃的一些介紹和進展,謝謝大家。雷鋒網雷鋒網雷鋒網
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。
本專題其他文章