0
本文作者: 張棟 | 2020-08-20 10:16 | 專題:CCF-GAIR 2020 全球人工智能與機(jī)器人峰會(huì) |
華為云人工智能領(lǐng)域首席科學(xué)家、IEEE Fellow 田奇
2020 年 8 月 7 日,第五屆全球人工智能與機(jī)器人峰會(huì)(CCF-GAIR 2020)在深圳正式開幕。
CCF-GAIR 2020 峰會(huì)由中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)主辦,雷鋒網(wǎng)、香港中文大學(xué)(深圳)聯(lián)合承辦,鵬城實(shí)驗(yàn)室、深圳市人工智能與機(jī)器人研究院協(xié)辦。
作為中國(guó)最具影響力和前瞻性的前沿科技活動(dòng)之一,CCF-GAIR 大會(huì)已經(jīng)度過(guò)了四次精彩而又輝煌的歷程。在大會(huì)第二天的「視覺(jué)智能?城市物聯(lián)」專場(chǎng)上,華為云人工智能領(lǐng)域首席科學(xué)家、IEEE Fellow田奇教授登臺(tái)發(fā)表精彩演講,分享了華為在人工智能領(lǐng)域的理解與實(shí)踐。
田奇介紹了華為在人工智能領(lǐng)域的十大愿景,華為為了實(shí)現(xiàn)這個(gè)戰(zhàn)略目標(biāo),從中梳理出深耕基礎(chǔ)研究、打造全棧方案、投資開放生態(tài)和人才培養(yǎng)、解決方案增強(qiáng)、內(nèi)部效率提升五大方向,以此打造無(wú)所不及的AI,構(gòu)建萬(wàn)物互聯(lián)的智能世界。
華為計(jì)算機(jī)視覺(jué)基礎(chǔ)研究以數(shù)據(jù)高效和能耗高效為核心,覆蓋從2D視覺(jué)到3D視覺(jué)的技術(shù)和應(yīng)用,主要包含底層視覺(jué)、語(yǔ)義理解、三維視覺(jué)、數(shù)據(jù)生成、視覺(jué)計(jì)算、視覺(jué)多模態(tài)等方面。在此方向上,華為將基礎(chǔ)研究進(jìn)一步聚焦到數(shù)據(jù)、模型和知識(shí)三大挑戰(zhàn):
1、數(shù)據(jù)上,如何從海量的數(shù)據(jù)中挖掘有用的信息。田奇以生成數(shù)據(jù)訓(xùn)練和不同模態(tài)數(shù)據(jù)對(duì)齊這兩個(gè)應(yīng)用場(chǎng)景為例,介紹了華為如何使用知識(shí)蒸餾與自動(dòng)數(shù)據(jù)擴(kuò)增結(jié)合的方法讓AI模型高效地挖掘數(shù)據(jù)中的有用信息。
2、模型上,怎樣設(shè)計(jì)高效的視覺(jué)模型。田奇認(rèn)為在深度學(xué)習(xí)年代,視覺(jué)模型主要包含神經(jīng)網(wǎng)絡(luò)模型設(shè)計(jì)和神經(jīng)網(wǎng)絡(luò)模型加速兩個(gè)場(chǎng)景。具體地,田奇介紹了華為如何通過(guò)局部連接思路解決網(wǎng)絡(luò)冗余問(wèn)題、如何加入邊正則化思想來(lái)解決局部連接帶來(lái)的不穩(wěn)定性等等。
3、知識(shí)上,如何定義視覺(jué)預(yù)訓(xùn)練模型、如何通過(guò)虛擬環(huán)境學(xué)習(xí)知識(shí)、如何表達(dá)并存儲(chǔ)知識(shí)。為了實(shí)現(xiàn)華為打造通用視覺(jué)模型的目標(biāo),田奇認(rèn)為推理預(yù)測(cè)是從視覺(jué)感知到認(rèn)知的關(guān)鍵步驟。雖然預(yù)訓(xùn)練方法目前在視覺(jué)領(lǐng)域的應(yīng)用還不成熟,但是近期自監(jiān)督學(xué)習(xí)的成果為視覺(jué)通用模型的發(fā)展注入了新活力,這也將成為常識(shí)學(xué)習(xí)的必經(jīng)之路。
基于三大挑戰(zhàn),田奇提出華為視覺(jué)六大研究計(jì)劃:數(shù)據(jù)冰山計(jì)劃、數(shù)據(jù)魔方計(jì)劃、模型摸高計(jì)劃、模型瘦身計(jì)劃、萬(wàn)物預(yù)視計(jì)劃、虛實(shí)合一計(jì)劃,來(lái)幫助每一位AI開發(fā)者。
以下是田奇教授的大會(huì)演講全文,雷鋒網(wǎng)作了不改變?cè)獾恼砼c編輯:
尊敬的各位嘉賓、各位老師、各位朋友,大家下午好!我是田奇,現(xiàn)任華為云人工智能領(lǐng)域首席科學(xué)家。非常感謝大會(huì)的邀請(qǐng),很榮幸能在這里為大家介紹華為計(jì)算機(jī)視覺(jué)計(jì)劃。
首先,我會(huì)簡(jiǎn)單介紹一下華為人工智能的研究背景和在計(jì)算機(jī)視覺(jué)領(lǐng)域的基礎(chǔ)研究。然后,我會(huì)從模型、數(shù)據(jù)和知識(shí)三個(gè)核心點(diǎn)出發(fā),來(lái)重點(diǎn)介紹華為視覺(jué)六大研究計(jì)劃。最后,我會(huì)介紹一下華為云人工智能在人才培養(yǎng)方面的理念。
近年來(lái),AI的發(fā)展如火如荼,正在改變各行各業(yè)。華為預(yù)計(jì):到2025年左右,97%的大企業(yè)都會(huì)上云,其中77%的企業(yè)云服務(wù)都會(huì)涉及到AI。
因此,在云上,AI是一個(gè)關(guān)鍵的競(jìng)爭(zhēng)點(diǎn)。如果把大企業(yè)的智能化升級(jí)比作一個(gè)賽道,那么AI、IoT、5G就是提高發(fā)展速度和商業(yè)高度的重要引擎。
以前我們的董事長(zhǎng)徐直軍闡述過(guò)華為在人工智能領(lǐng)域的十大愿景,這里我簡(jiǎn)單介紹幾點(diǎn)。
過(guò)去,長(zhǎng)達(dá)數(shù)年的分析時(shí)間,未來(lái)會(huì)是分鐘級(jí)的訓(xùn)練耗時(shí);
過(guò)去,需要天量的資源消耗,未來(lái)將是高性能的計(jì)算;
過(guò)去,計(jì)算主要集中在云端,未來(lái)主要是云端+終端;
過(guò)去,是大量的人工標(biāo)注,未來(lái)將是自動(dòng)標(biāo)注、半自動(dòng)標(biāo)注的舞臺(tái);
過(guò)去,專業(yè)人員才能用AI,未來(lái)是面向普通人的一站式開發(fā)平臺(tái)。
基于這樣的愿景,華為的AI發(fā)展戰(zhàn)略就是打造無(wú)所不及的AI,構(gòu)建萬(wàn)物互聯(lián)的智能世界。
華為將從以下五個(gè)方向進(jìn)行研究或者投資。
第一:深耕基礎(chǔ)研究,在計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、決策推理等領(lǐng)域,構(gòu)筑數(shù)據(jù)高效、能耗高效、安全可信、自動(dòng)自治的機(jī)器學(xué)習(xí)的基礎(chǔ)能力。
第二:打造全棧方案,面向云、邊、端等全場(chǎng)景,全棧的解決方案,提供充裕的、經(jīng)濟(jì)的算力資源。
第三:投資開放生態(tài)和人才培養(yǎng),將面向全球,持續(xù)與學(xué)術(shù)界、產(chǎn)業(yè)界和行業(yè)伙伴進(jìn)行廣泛的合作。
第四:把AI的思維和技術(shù)引入現(xiàn)有的產(chǎn)品和服務(wù),實(shí)現(xiàn)更大的價(jià)值、更強(qiáng)的競(jìng)爭(zhēng)力。
第五:提升內(nèi)部的運(yùn)營(yíng)效率。
華為云Cloud&AI的定位就是圍繞鯤鵬、昇騰和華為云構(gòu)建生態(tài),打造黑土地,成為數(shù)字世界的底座。為了實(shí)現(xiàn)這個(gè)目標(biāo),華為云提出了一云兩翼雙引擎+開放的生態(tài)目標(biāo)。
就像這架飛機(jī)一樣,雙引擎是基于鯤鵬和昇騰構(gòu)建的基礎(chǔ)芯片架構(gòu);兩翼是計(jì)算以及數(shù)據(jù)存儲(chǔ)和機(jī)器視覺(jué);一云是華為云,提供安全可靠的混合云,成為生態(tài)伙伴的黑土地,為世界提供普惠的算力。開放的生態(tài)是指硬件開放、軟件開源,使能我們的合作伙伴。
華為云主要面向八大行業(yè)使能AI技術(shù)。到2019年底,我們已經(jīng)提供了60種服務(wù)、170多種功能,所涉及的行業(yè)包括:城市、互聯(lián)網(wǎng)、家庭、車聯(lián)網(wǎng)、物流、金融、園區(qū)、制造等等。
以上是對(duì)華為AI的簡(jiǎn)單介紹,下面將介紹我們?cè)谟?jì)算機(jī)視覺(jué)領(lǐng)域的一些基礎(chǔ)研究。
眾所周知,人類對(duì)外部世界的感知80%以上來(lái)自于視覺(jué)信號(hào)。近年來(lái),隨著視覺(jué)終端設(shè)備的不斷普及,如何讓機(jī)器像人類一樣擁有感知視覺(jué)信號(hào)的能力是計(jì)算機(jī)視覺(jué)的終極目標(biāo)。
計(jì)算機(jī)視覺(jué)已在智能汽車、智能手機(jī)、無(wú)人機(jī)、智能眼鏡等諸多行業(yè)得到了廣泛應(yīng)用。
總的來(lái)說(shuō),視覺(jué)研究可以分以下幾個(gè)部分:
首先是基礎(chǔ)理論,例如統(tǒng)計(jì)學(xué)習(xí)、優(yōu)化方法、深度學(xué)習(xí)技術(shù)等;
接下來(lái)考慮底層視覺(jué),如超分辨、圖象增強(qiáng)、去模糊、去噪聲、去反光等等;
再到中高層的語(yǔ)義理解,包括場(chǎng)景理解、物體分類與檢測(cè)、人臉、手勢(shì)、人體姿態(tài)的識(shí)別、分割和分組等等。
除了二維視覺(jué)以外,三維視覺(jué)的研究也有著極其重要的地位,包括三維重建、點(diǎn)云處理和分析、景深感知分析等等。
同時(shí),在人工智能時(shí)代,數(shù)據(jù)生成的方法研究也是一項(xiàng)有價(jià)值的任務(wù)。在一些工業(yè)場(chǎng)景中,視覺(jué)計(jì)算借助海量算力來(lái)做一些神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索的研究,以及模型壓縮與量化。
最后是視覺(jué)與其他模態(tài)的結(jié)合,比如視覺(jué)與語(yǔ)言的結(jié)合,視覺(jué)與圖形學(xué)結(jié)合,這都是計(jì)算機(jī)視覺(jué)領(lǐng)域的一些基礎(chǔ)性的研究課題。
華為的基礎(chǔ)研究就是圍繞底層視覺(jué)、語(yǔ)義理解、三維視覺(jué)、數(shù)據(jù)生成、視覺(jué)計(jì)算、視覺(jué)+多模態(tài)等方面,構(gòu)建數(shù)據(jù)高效、能耗高效的機(jī)器學(xué)習(xí)能力。
華為對(duì)底層視覺(jué)的研究涉及諸多方面,這些技術(shù)有著廣泛應(yīng)用場(chǎng)景,比如,為了提升手機(jī)端的圖片質(zhì)量,我們對(duì)照片進(jìn)行超分辨和去噪處理,并提出了一系列有針對(duì)性的算法以面對(duì)從Raw域到sRGB域去噪,來(lái)提高照片的清晰度。
在語(yǔ)義理解方面,由于圖像視頻包括豐富的語(yǔ)義信息,如何有效理解并分析它們是一項(xiàng)富有挑戰(zhàn)性的課題。以下舉幾個(gè)例子來(lái)說(shuō)明:
挑戰(zhàn)之一:同一內(nèi)容的視覺(jué)特征的差異性。比如說(shuō)擁抱這個(gè)動(dòng)作,雖然是內(nèi)容相同,但視覺(jué)表征可能非常不同,我們稱其為類內(nèi)差異性。
挑戰(zhàn)之二:不同內(nèi)容的視覺(jué)特征十分相似,我們稱其為類間相似性。比如上圖的兩個(gè)男子,從圖像上看,他們的視覺(jué)特征非常相似。但是放到場(chǎng)景中,一個(gè)是在排隊(duì),一個(gè)是在對(duì)話,這直觀地解釋了不同類間具有很高的類間相似性。
挑戰(zhàn)之三:如何區(qū)分正常事件與異常事件。比如一群人在晨跑和一群人在斗毆,這往往會(huì)造成邊界模糊。
對(duì)于3D視覺(jué)而言,雖然三維數(shù)據(jù)比二維數(shù)據(jù)攜帶著更豐富的信息,但與之而來(lái)的是諸多挑戰(zhàn)。
比如在醫(yī)學(xué)領(lǐng)域,獲取具有精準(zhǔn)標(biāo)注的醫(yī)療數(shù)據(jù),往往需要專家的協(xié)助,這是困難并且昂貴的;同時(shí),因?yàn)橐恍┽t(yī)療影像通常是在一些很細(xì)微的地方有差異,所以區(qū)分正常樣本和異常樣本的難度非常大;此外,視頻數(shù)據(jù)也存在大量的冗余,如何去除冗余并提取有效信息也很具挑戰(zhàn)性。
最后,準(zhǔn)確檢測(cè)和追蹤物體也極具挑戰(zhàn)并值得進(jìn)一步探索。
數(shù)據(jù)生成同樣是一個(gè)熱門研究方向。我們認(rèn)為數(shù)據(jù)是視覺(jué)算法研究的保障和基石,在深度學(xué)習(xí)時(shí)代,大多數(shù)場(chǎng)景數(shù)據(jù)的收集越來(lái)越昂貴,所以數(shù)據(jù)生成具有直接的應(yīng)用價(jià)值。
比如在安防企業(yè)中基于姿態(tài)的行人數(shù)據(jù)生成;在無(wú)人駕駛中街景數(shù)據(jù)的生成以及人臉數(shù)據(jù)的生成等。但目前該領(lǐng)域仍存在一些挑戰(zhàn):
挑戰(zhàn)之一:通過(guò)人機(jī)交互對(duì)人臉特征的選擇與標(biāo)注需要大量的人力成本;
挑戰(zhàn)之二:如何生成高質(zhì)量的圖像以及視頻數(shù)據(jù)仍是巨大挑戰(zhàn);
挑戰(zhàn)之三:生成數(shù)據(jù)同質(zhì)化嚴(yán)重,數(shù)據(jù)多樣性有待提高;
挑戰(zhàn)之四:算法復(fù)雜度也制約著數(shù)據(jù)生成的性能,特別是視頻數(shù)據(jù)生成這類對(duì)算力有著較高要求的任務(wù)。
下一個(gè)基礎(chǔ)研究是視覺(jué)計(jì)算,我們認(rèn)為視覺(jué)計(jì)算是深度學(xué)習(xí)算法應(yīng)用落地的關(guān)鍵一環(huán)。
它主要集中在兩個(gè)方面:一個(gè)是模型的壓縮與加速,這對(duì)機(jī)器視覺(jué)在端側(cè)的部署具有重大的意義;另一個(gè)就是神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)。
但是視覺(jué)計(jì)算目前仍然面臨一些挑戰(zhàn)。第一,邊緣計(jì)算缺乏統(tǒng)一的平臺(tái),用戶調(diào)用不便;第二,缺乏針對(duì)其它特定視覺(jué)任務(wù)的網(wǎng)絡(luò)壓縮與加速的算法;第三,網(wǎng)絡(luò)結(jié)構(gòu)搜索在性能和搜索的效率上都有待進(jìn)一步提高。
最后一個(gè)研究領(lǐng)域是視覺(jué)與多模態(tài)。真實(shí)世界的數(shù)據(jù)是多模態(tài)的,比如在自動(dòng)駕駛中,除了攝像頭的輸入,還有激光雷達(dá)的點(diǎn)云數(shù)據(jù);在圖片、視頻的描述中,從圖片、視頻到文字的映射等。
它們存在的挑戰(zhàn),包括數(shù)據(jù)融合的問(wèn)題、數(shù)據(jù)對(duì)齊的問(wèn)題、數(shù)據(jù)異質(zhì)性的問(wèn)題、主觀性和不確定性的問(wèn)題、還有協(xié)作方面的問(wèn)題,都有待研究。
以上是華為計(jì)算機(jī)視覺(jué)基礎(chǔ)研究的一些方向,下面介紹一下我們從這些基礎(chǔ)研究中,進(jìn)一步提出的華為視覺(jué)研究計(jì)劃。
我們認(rèn)為計(jì)算機(jī)視覺(jué)實(shí)際上面臨三大挑戰(zhàn):從數(shù)據(jù)到模型、到知識(shí)。 從數(shù)據(jù)來(lái)講,舉個(gè)例子,每分鐘上傳到Y(jié)ouTube的視頻數(shù)據(jù)已經(jīng)超過(guò)500小時(shí),如何從這些海量的數(shù)據(jù)中挖掘有用的信息,這是第一個(gè)挑戰(zhàn)。
從模型來(lái)講,人類能夠識(shí)別的物體類別已經(jīng)超過(guò)2萬(wàn)類,計(jì)算機(jī)如何借助于深度神經(jīng)網(wǎng)絡(luò)來(lái)構(gòu)建識(shí)別高效的視覺(jué)識(shí)別模型,這是第二個(gè)挑戰(zhàn)。
從知識(shí)來(lái)講,在計(jì)算機(jī)視覺(jué)里面如何表達(dá)并存儲(chǔ)知識(shí),這是第三個(gè)挑戰(zhàn)。
因此我們提出的第一個(gè)研究方向:如何從海量的數(shù)據(jù)中挖掘有效的信息?有兩個(gè)主要應(yīng)用場(chǎng)景,一是如何利用生成數(shù)據(jù)訓(xùn)練模型;第二是如何對(duì)齊不同模態(tài)的數(shù)據(jù)。
深度學(xué)習(xí)主要是監(jiān)督學(xué)習(xí)的范式,需要大量人工標(biāo)注的數(shù)據(jù),而人工標(biāo)注的成本越來(lái)越高,比如無(wú)人駕駛,數(shù)據(jù)標(biāo)注成本可能成百上千萬(wàn),因此華為也花了很大的人力物力來(lái)研究數(shù)據(jù)生成技術(shù)。
我們把數(shù)據(jù)生成技術(shù)主要分為三類:第一類是數(shù)據(jù)擴(kuò)增;第二類是利用生成對(duì)抗網(wǎng)絡(luò)GAN來(lái)合成更多的數(shù)據(jù);第三種方法是利用計(jì)算機(jī)圖形學(xué)技術(shù)來(lái)生成虛擬場(chǎng)景,從而生成我們所需要的虛擬數(shù)據(jù)。
在這三方面,華為在ICLR20、CVPR2018和CVPR2019都有一些相關(guān)論文發(fā)表,數(shù)據(jù)生成主要應(yīng)用的領(lǐng)域在智慧城市、智能駕駛方面。
在這里,介紹一個(gè)我們最新的工作。我們提出知識(shí)蒸餾與自動(dòng)數(shù)據(jù)擴(kuò)增結(jié)合的方法,在不使用額外數(shù)據(jù)的情況下,可以達(dá)到業(yè)界領(lǐng)先精度:在ImageNet-1000 Top-1準(zhǔn)確率為85.8%。之 前幾年都是谷歌最強(qiáng),它在ImageNet-1000上最高精度是85.5%。
數(shù)據(jù)的第二方面是多模態(tài)學(xué)習(xí)。例如無(wú)人駕駛有圖像、GPS、激光雷達(dá)信息。相對(duì)于單模態(tài),多模態(tài)具有天然的互補(bǔ)性,因此是場(chǎng)景理解的主要手段。
當(dāng)然也面臨很多挑戰(zhàn),比如多模態(tài)的信息表示、融合、對(duì)齊、協(xié)同學(xué)習(xí)等等。我們認(rèn)為多模態(tài)學(xué)習(xí)是未來(lái)機(jī)器視覺(jué)的主流方式,在自動(dòng)駕駛、智能多媒體方面有著廣泛應(yīng)用前景。
在多模態(tài)學(xué)習(xí)方面,介紹一個(gè)我們?cè)?019年的ACM多媒體會(huì)議上獲得最佳論文提名的工作,該工作主要是面對(duì)電商(服裝)設(shè)計(jì)了一個(gè)人機(jī)對(duì)話系統(tǒng)。
具體而言,系統(tǒng)會(huì)依據(jù)用戶需求生成不同的模態(tài)響應(yīng),使用一個(gè)統(tǒng)一模型以編碼不同形式領(lǐng)域信息。最后在圖像選擇、文本響應(yīng)都取得了很好的結(jié)果,右邊的二維碼是相關(guān)論文的鏈接。
第二個(gè)研究方向是:怎樣設(shè)計(jì)高效的視覺(jué)識(shí)別模型?同樣有兩個(gè)應(yīng)用場(chǎng)景,第一個(gè)是在深度學(xué)習(xí)時(shí)代,如何設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)模型。第二是如何加速神經(jīng)網(wǎng)絡(luò)的計(jì)算。
在神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)方面有很多優(yōu)秀的模型誕生,從2012年的AlexNet到VGGNet、GoogleNet、MobileNet,然而,手工網(wǎng)絡(luò)模型設(shè)計(jì)進(jìn)入瓶頸期。
2018年以來(lái),自動(dòng)網(wǎng)絡(luò)架構(gòu)搜索進(jìn)入快速發(fā)展的階段,包括今年華為的PC-DARTS在業(yè)界都取得了很好的效果。但是自動(dòng)網(wǎng)絡(luò)架構(gòu)搜索真能替代手工經(jīng)驗(yàn)嗎?
主要面臨以下幾個(gè)挑戰(zhàn):第一是搜索空間需要人工經(jīng)驗(yàn)定義;第二是待搜的算子也是人工設(shè)計(jì)的;第三是它相比手工設(shè)計(jì)的網(wǎng)絡(luò)可遷移性比較差,抗攻擊能力也比較差。
在這里介紹一下我們?cè)贗CLR2020提出的一個(gè)目前業(yè)界搜索速度最快的自動(dòng)網(wǎng)絡(luò)架構(gòu)搜索技術(shù)PC-DARTS,它主要包含兩個(gè)思想:一是采用局部連接的思想,隨機(jī)地選擇1/K的通道進(jìn)行連接,可以解決冗余的問(wèn)題;另一個(gè)是提出了邊正則化的思想以保證網(wǎng)絡(luò)穩(wěn)定。
圖片展示了這是Darts系列方法首次在ImageNet上完成的搜索,相較于之前的模型,搜索的效果更好,速度更快。右邊二維碼是相關(guān)論文鏈接。
模型的另外一個(gè)研究方向是模型加速以及小型化。
對(duì)于早期的ResNet、DenseNet到最新的EfficientNet,由于云側(cè)大模型無(wú)法適配端側(cè)的有限算力,所以自2016年以來(lái),業(yè)界提出了眾多模型小型化的解決方案。
然而這些方法在實(shí)際應(yīng)用中存在各種問(wèn)題。比如,低比特量化精度受限;在實(shí)現(xiàn)的時(shí)候,如果用混合比特來(lái)表示響應(yīng)和權(quán)重,這種混合比特的網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)硬件并不友好;此外,新型的算子也并沒(méi)有得到一些充分的驗(yàn)證。
在CVPR2020,我們作了一個(gè)口頭報(bào)告。該報(bào)告介紹了一個(gè)新型算子加速卷積網(wǎng)絡(luò),該算子的核心思想是在CNN中采用加法計(jì)算替代乘法運(yùn)算。
從原理上講,我們是用曼哈頓距離取代夾角距離。該方法用加法代替乘法運(yùn)算,同時(shí)用8比特的整數(shù)計(jì)算,對(duì)硬件實(shí)現(xiàn)更加友好,功耗更低。
在ImageNet數(shù)據(jù)集上的結(jié)果表明,加法網(wǎng)絡(luò)達(dá)到了基本媲美乘法網(wǎng)絡(luò)的效果。雖然精度大概損失1%到2%,但其在功耗上具有顯著優(yōu)勢(shì)。此外,二維碼展示了開源代碼以及論文鏈接。
第三個(gè)研究方向是通用智能,我們稱其為知識(shí)抽取??珊?jiǎn)要概括為兩個(gè)場(chǎng)景,第一個(gè)是如何定義通用的視覺(jué)模型,打造我們的視覺(jué)預(yù)訓(xùn)練模型;第二是如何通過(guò)虛擬環(huán)境來(lái)學(xué)習(xí)、表達(dá)和存儲(chǔ)知識(shí)。
我們的目標(biāo)是構(gòu)建一個(gè)通用視覺(jué)模型,類似于自然語(yǔ)言處理領(lǐng)域存在的預(yù)訓(xùn)練模型BERT、GPT-3,可以為下游的任務(wù)提供高效的初始化,滿足系統(tǒng)所需要的泛化性和魯棒性。
就監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)而言,監(jiān)督學(xué)習(xí)需要海量的樣本,模型無(wú)法泛化到不同的任務(wù);而強(qiáng)化學(xué)習(xí)需要海量的試錯(cuò),同樣缺少可重復(fù)性、可復(fù)用性以及系統(tǒng)需要的魯棒性。
雖然強(qiáng)化學(xué)習(xí)在一些游戲中,例如圍棋、星際爭(zhēng)霸等取得很好的效果,但是在一些簡(jiǎn)單的任務(wù)比如搭積木,效果就比較差。所以我們認(rèn)為要學(xué)會(huì)推理預(yù)測(cè),才能實(shí)現(xiàn)從視覺(jué)感知到認(rèn)知。
從當(dāng)下研究主流來(lái)看,自監(jiān)督學(xué)習(xí)是成為常識(shí)學(xué)習(xí)的必經(jīng)之路,但是目前的自監(jiān)督學(xué)習(xí)缺乏有效的預(yù)訓(xùn)練任務(wù),其在視覺(jué)領(lǐng)域的應(yīng)用還不成熟。
上圖展示了我們?cè)贑VPR2019通過(guò)自監(jiān)督學(xué)習(xí)來(lái)學(xué)習(xí)完成拼圖游戲。具體而言,拼圖游戲把一個(gè)圖像分成3×3的9個(gè)小塊,再把它的位置隨機(jī)打亂,通過(guò)自監(jiān)督學(xué)習(xí)來(lái)恢復(fù)圖像原始的構(gòu)成。
該任務(wù)能改進(jìn)自監(jiān)督學(xué)習(xí)性能,使網(wǎng)絡(luò)能夠處理任意拼圖布局,從而更好地學(xué)習(xí)空間上下文提供的語(yǔ)義信息。我們把它在ImageNet上學(xué)習(xí)的結(jié)果遷移到別的地方,同樣也取得了很好的結(jié)果。左下角二維碼是我們的開源代碼鏈接。
最后一個(gè)研究方向是構(gòu)造虛擬場(chǎng)景來(lái)學(xué)習(xí)常識(shí)?因?yàn)樯疃葘W(xué)習(xí)需要大量的數(shù)據(jù)標(biāo)注,這存在諸多問(wèn)題:首先是標(biāo)注成本特別高;其次是數(shù)據(jù)標(biāo)注存在一個(gè)致命的問(wèn)題,即知識(shí)表達(dá)不準(zhǔn)確。
比如在無(wú)人駕駛場(chǎng)景中,我們有許多像素級(jí)分割的標(biāo)注,但是并不知道這樣的標(biāo)注對(duì)無(wú)人駕駛的識(shí)別任務(wù)是最有效的,這一點(diǎn)難以證明。
第三是基于數(shù)據(jù)標(biāo)注,必然導(dǎo)致常識(shí)的缺失,而人類對(duì)外部世界的認(rèn)識(shí)很多依賴于常識(shí)。
我們?cè)贑VPR2019上提出用計(jì)算機(jī)圖形學(xué)的技術(shù)生成虛擬場(chǎng)景,從虛擬場(chǎng)景中學(xué)習(xí)模型控制無(wú)感知的機(jī)械臂。
具體而言,我們只需要一個(gè)攝像頭和一臺(tái)計(jì)算機(jī)即可以控制沒(méi)有裝備其它感知設(shè)備的機(jī)械臂以完成復(fù)雜的搬運(yùn)動(dòng)作。因?yàn)檫@是從虛擬的環(huán)境中搜集的數(shù)據(jù),因此標(biāo)注的代價(jià)幾乎為零。
此外,利用域遷移算法,所以幾乎沒(méi)有性能損失。如果融合強(qiáng)化學(xué)習(xí),還能實(shí)現(xiàn)其它的多種任務(wù),右邊二維碼是相關(guān)的代碼和論文。
基于以上對(duì)數(shù)據(jù)、模型和知識(shí)方面的總結(jié),我們提出了華為的視覺(jué)研究計(jì)劃,希望能夠助力每一位AI開發(fā)者。
我們的計(jì)劃包括六個(gè)子計(jì)劃,與數(shù)據(jù)相關(guān)的是數(shù)據(jù)冰山計(jì)劃、數(shù)據(jù)魔方計(jì)劃;與模型相關(guān)的是模型摸高計(jì)劃、模型瘦身計(jì)劃;與知識(shí)抽取相關(guān)的則是萬(wàn)物預(yù)視計(jì)劃,也就是我們的通用預(yù)訓(xùn)練模型計(jì)劃,此外還有虛實(shí)合一計(jì)劃。
關(guān)于數(shù)據(jù)冰山計(jì)劃,我們希望用數(shù)據(jù)生成方法真正代替手工標(biāo)注。我們共有三個(gè)研究子課題,第一個(gè)子課題是希望數(shù)據(jù)的生成質(zhì)量更高。
第二個(gè)研究課題是數(shù)據(jù)生成的點(diǎn)石成金計(jì)劃,我們希望生成的數(shù)據(jù)能夠自動(dòng)挑選高質(zhì)量的數(shù)據(jù),讓模型隨著生成數(shù)據(jù)的變多而真正的變好。
第三個(gè)課題是通用自動(dòng)數(shù)據(jù)生成,我們希望根據(jù)不同的任務(wù)自動(dòng)生成它所需的數(shù)據(jù),讓數(shù)據(jù)生成具備普惠的能力。
第二個(gè)數(shù)據(jù)計(jì)劃是魔方計(jì)劃,關(guān)注多模態(tài)數(shù)據(jù)量化、對(duì)齊、融合策略的研究,構(gòu)建下一代的智能視覺(jué)。
模型摸高計(jì)劃考慮云側(cè)大模型,刷新各類視覺(jué)任務(wù)性能上限。這包含了三個(gè)子課題:第一個(gè)是全空間網(wǎng)絡(luò)架構(gòu)搜索,希望不受算子、搜索網(wǎng)絡(luò)的限制,真正實(shí)現(xiàn)自主自治,真正自動(dòng)搜索。
第二個(gè)是新型算子搜索,希望設(shè)計(jì)與芯片相關(guān)的算子,讓算子從復(fù)用到創(chuàng)造。
第三個(gè)是搜索模型的普適能力提升,之前提到搜索設(shè)計(jì)的模型與手工設(shè)計(jì)的模型相比普適性較差,我們希望將來(lái)的網(wǎng)絡(luò)搜索能夠真正的安全可用。
模型瘦身計(jì)劃則針對(duì)端側(cè)小模型,助力各種芯片完成復(fù)雜推理。其同樣包含三個(gè)子課題:第一個(gè)小課題是自動(dòng)搜索小型化,將硬件的約束融入自動(dòng)設(shè)計(jì),比如說(shuō)功耗、時(shí)延的約束等。
第二個(gè)小課題研究低比特網(wǎng)絡(luò)量化,尤其是一比特網(wǎng)絡(luò)量化,追求極致的性能。
第三是構(gòu)建新型的加法網(wǎng)絡(luò),探索高效計(jì)算的新途徑。
最后兩個(gè)計(jì)劃跟知識(shí)相關(guān),第一個(gè)是萬(wàn)物預(yù)視計(jì)劃,主要目標(biāo)是定義預(yù)訓(xùn)練任務(wù)以構(gòu)建通用的視覺(jué)模型。
第二個(gè)是虛實(shí)合一計(jì)劃,其主要目標(biāo)是解決數(shù)據(jù)標(biāo)注瓶頸的問(wèn)題,希望在虛擬的場(chǎng)景下不通過(guò)數(shù)據(jù)標(biāo)注,直接訓(xùn)練智能行為本身。
該領(lǐng)域早期的研究并不多,如何定義知識(shí),如何構(gòu)筑虛擬世界,如何模擬用戶行為,如何在虛擬的場(chǎng)景中保證智能體的安全,比如說(shuō)在虛擬的場(chǎng)景中做無(wú)人駕駛的訓(xùn)練,相信這是真正通向通用人工智能的一個(gè)有益的方向。
我們的視覺(jué)研究計(jì)劃歡迎全球的AI研究者加入我們,這是基于昇騰AI計(jì)算平臺(tái),加速計(jì)算機(jī)視覺(jué)基礎(chǔ)研究。
最后介紹一下我們的研究進(jìn)展,以及華為云AI培養(yǎng)人才的理念。華為云AI希望打造一支世界一流的AI研究團(tuán)隊(duì),主要從開放、創(chuàng)新、培養(yǎng)六個(gè)字踐行,我們需要打造的是一個(gè)具有華為特色的人工智能軍團(tuán)。
眾所周知,在計(jì)算機(jī)視覺(jué)領(lǐng)域有三大頂會(huì):CVPR、ECCV和ICCV。CVPR一年一次,ECCV和ICCV每?jī)赡暌淮?。CVPR在本領(lǐng)域的會(huì)議中排名第一,在所有的計(jì)算機(jī)和非計(jì)算機(jī)學(xué)科中排名第10,具有廣泛的影響力。
我們希望在各種頂會(huì)中取得更好的成績(jī),2019年我們的視覺(jué)團(tuán)隊(duì)在國(guó)際頂會(huì)發(fā)表論文60多篇,今年的CVPR有34篇論文,基礎(chǔ)研究的論文發(fā)表已經(jīng)躋身國(guó)際國(guó)內(nèi)第一集團(tuán)。
我們大量的工作也是通過(guò)我們的實(shí)習(xí)生和高校老師聯(lián)合完成的,比如說(shuō)P-DARTS,去年這項(xiàng)工作已經(jīng)被納入微軟的開源平臺(tái),作為標(biāo)準(zhǔn)算法進(jìn)行提供。
第二個(gè)是CenterNet,也是單階段性能最強(qiáng)的目標(biāo)檢測(cè)算法之一,在GitHub開源收獲了很高的評(píng)價(jià)。還有一個(gè)是AdderNet提出了全新的神經(jīng)網(wǎng)絡(luò)計(jì)算架構(gòu),為下一代芯片架構(gòu)指出了新方向。
第二方面是開放,我們希望與頂級(jí)的高校老師合作,華為的視覺(jué)團(tuán)隊(duì)過(guò)去1-2年中有100多位C9高校和其它的高校的實(shí)習(xí)生,他們不僅做出了杰出的貢獻(xiàn),而且也形成了與高校之間有力的紐帶。
第三是從培養(yǎng)的角度出發(fā),視覺(jué)團(tuán)隊(duì)制作了計(jì)算機(jī)視覺(jué)精品課程,同時(shí)也撰寫了計(jì)算機(jī)視覺(jué)白皮書,希望下一步成為AI系列教材,最后對(duì)內(nèi)外部宣講。
最后把我們半年來(lái)的視覺(jué)領(lǐng)域的進(jìn)展與各位分享一下,我們的目標(biāo)是希望在各項(xiàng)視覺(jué)基礎(chǔ)任務(wù)中打造性能最強(qiáng)的計(jì)算模型,積極投入D+M生態(tài)建設(shè)。
在全監(jiān)督學(xué)習(xí)方面,把全空間、網(wǎng)絡(luò)架構(gòu)搜索和數(shù)據(jù)擴(kuò)增技術(shù)結(jié)合,在ImageNet達(dá)到85.8%的精度,打破谷歌三年的壟斷。
另外,在自研的數(shù)據(jù)增強(qiáng)技術(shù)方面,在MS-COCO這樣一個(gè)業(yè)界具有挑戰(zhàn)的測(cè)試集,目前不管是單模型還是多模型,我們都達(dá)到業(yè)界第一,其中多模型達(dá)到58.8%的檢測(cè)精度,也打破了微軟多年的壟斷。
在多模態(tài)學(xué)習(xí)方面,目前在自動(dòng)駕駛數(shù)據(jù)集Nuscenes Challenge上取得業(yè)界第一的檢測(cè)精度,擊敗來(lái)自全球92支隊(duì)伍并大幅度領(lǐng)先第二名達(dá)3.1%。
最后,在弱監(jiān)督方面,我們?cè)?020年的圖象識(shí)別競(jìng)賽WebVision達(dá)到業(yè)界第一的精度。在無(wú)監(jiān)督方面,我們?cè)跓o(wú)標(biāo)簽ImageNet-1000數(shù)據(jù)集上達(dá)到了業(yè)界領(lǐng)先的75.5%的精度,大大超過(guò)了Facebook保持的71.1%的精度。
未來(lái)希望我們的無(wú)監(jiān)督學(xué)習(xí)能逼近甚至超越監(jiān)督學(xué)習(xí)的極限。
以上就是華為視覺(jué)計(jì)劃的一些介紹和進(jìn)展,謝謝大家。雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。
本專題其他文章