0
雷鋒網(wǎng)AI科技評論按:昨天在華為開發(fā)者大會上,華為首席科學(xué)家陳雷發(fā)布的全場景AI計算框架MindSpore開源框架,引起業(yè)界廣泛關(guān)注,畢竟在短短一周之內(nèi),國內(nèi)相繼涌現(xiàn)出計圖(Jittor,清華)、天元(MegEngine,曠視)、MindSpore(華為)三個深度學(xué)習(xí)開源框架,可謂“2020年是深度學(xué)習(xí)框架井噴的一年”。
但在昨天的大會中,華為發(fā)布的另一項重要計劃卻似乎受到了忽視,這是由田奇博士主導(dǎo)的“華為計算視覺基礎(chǔ)研究進(jìn)展暨華為視覺計劃發(fā)布”。
田奇博士,計算機(jī)視覺領(lǐng)域的人士應(yīng)該都不陌生,畢業(yè)于清華電工系,后赴伊利諾伊大學(xué)香檳分校,師從計算視覺之父 Thomas S.Huang 教授。在2018年加入華為之前,一直在德克薩斯大學(xué)圣安東尼奧分校任教,是2016年多媒體領(lǐng)域 10 大最具影響力的學(xué)者,并于當(dāng)年入選IEEE Fellow。
田奇博士加入之后,華為諾亞方舟在計算機(jī)視覺領(lǐng)域的研究突飛猛進(jìn)。以論文來講,ICCV 2019、CVPR 2019 分別有 19篇和29篇入選論文,CVPR 2020上更是多達(dá) 33 篇,且不論他們在類似ICLR、ICML這類篇算法的頂會上發(fā)表的論文。
在這次“研究進(jìn)展&計劃發(fā)布”上,田奇博士將他們的研究內(nèi)容梳理為三大方向,即
數(shù)據(jù):如何從數(shù)據(jù)中挖掘有效信息?
模型:怎樣設(shè)計高效的視覺識別模型?
知識:如何表達(dá)并存儲知識?
在此基礎(chǔ)上,他提出了華為諾亞的六大視覺計劃:數(shù)據(jù)冰山計劃、數(shù)據(jù)魔方計劃、模型摸高計劃、模型瘦身計劃、萬物預(yù)視計劃、虛實合一計劃。
每個計劃聽著都很帶感,其中邏輯是什么?各自代表了什么?
田奇博士在演講中,將當(dāng)下計算機(jī)視覺面臨的挑戰(zhàn)分為三大方向,分別為數(shù)據(jù)、模型和知識表達(dá)。(為什么沒有算力?畢竟這不是做視覺的人所能決定的,其實對算力的考慮包含在模型里面)
在信息時代,做計算機(jī)視覺其實面臨一個尷尬的事情,即互聯(lián)網(wǎng)上存在著海量的視覺數(shù)據(jù),甚至已經(jīng)遠(yuǎn)遠(yuǎn)超過了人類處理的極限;標(biāo)注數(shù)據(jù),無論規(guī)模多大,都只是視覺大數(shù)據(jù)中的“滄海一粟”。如何從海量數(shù)據(jù)中挖掘出有效的信息,依舊是一個很大的挑戰(zhàn)。
華為在這方面提出了兩個典型的場景,一是如何利用生成數(shù)據(jù)訓(xùn)練模型;二是如何對齊多模態(tài)數(shù)據(jù)。
首先是生成數(shù)據(jù),華為在這方面投入了大量的研究。具體來說,分為三部分。
第一,自動數(shù)據(jù)擴(kuò)充。這個以發(fā)表在ICLR 2020 上的 「Adversarial AutoAugment」為代表,這篇文章針對以前NAS(例如 AutoAugment)做數(shù)據(jù)增強(qiáng)計算開銷大、policy是靜態(tài)的問題,借用 GAN 的“對抗”思想,引入了 adversarial loss,這樣一方面大大減少了訓(xùn)練所需的時間;另一方面,可以認(rèn)為policy generator 在不斷產(chǎn)生難樣本,從而能幫助分類器學(xué)到 robust features,從而學(xué)的更好。(ICLR 2020 | 華為諾亞:巧妙思想,NAS與「對抗」結(jié)合,速率提高11倍 )
第二,利用GAN來模擬更多的數(shù)據(jù)。這個以發(fā)表在CVPR 2018 上的PTGAN 和 CSGAN 為代表。前者(「Person Transfer GAN to Bridge Domain Gap for Person Re-Identification」)是針對行人重識別問題的生成對抗網(wǎng)絡(luò),使用GAN將一個數(shù)據(jù)集的行人遷移到另一個數(shù)據(jù)集當(dāng)中。后者(「Compressed sensing using generative models」)是針對感知的GAN壓縮,換句話來說,即利用GAN來重構(gòu)出“原始數(shù)據(jù)”,相比于其他的重構(gòu)算法來講,CSGAN在更少的測量(可理解為采樣后的數(shù)據(jù))情況下能夠重構(gòu)出很好的原始數(shù)據(jù)。
第三,利用計算機(jī)圖形學(xué)技術(shù)來生成虛擬數(shù)據(jù)。這個以發(fā)表在CVPR 2019 上的「CRAVES: Controlling Robotic Arm with a Vision-based, Economic System」為代表。在CRAVES這篇工作中,他們設(shè)計了一套基于虛擬數(shù)據(jù)生成和域遷移的訓(xùn)練流程,機(jī)械臂只需要借助一個額外的攝像頭,便可以完成抓取骰子并放置在指定位置的任務(wù)。注意,這里的數(shù)據(jù)是基于CG技術(shù)生成的,對機(jī)械臂的訓(xùn)練完全不需要提供額外的監(jiān)督數(shù)據(jù)。
田奇也介紹了他們在數(shù)據(jù)生成方面最近的一項工作,這是一項基于知識蒸餾與自動數(shù)據(jù)擴(kuò)增結(jié)合的方法。我們知道,自動數(shù)據(jù)擴(kuò)充(AutoAugment,以下簡寫為 AA)來源于對數(shù)據(jù)集的全局優(yōu)化。對每個圖片,AA可能帶來圖像語義的混淆。
如左邊的圖所示,原圖是一只狐貍;如果對它進(jìn)行亮度變化,它看起來會更像一只狗;如果對它進(jìn)行反轉(zhuǎn),這個時候看起來像一只貓。因此在訓(xùn)練模型的時候,如果仍然使用原來的硬標(biāo)簽(“fox”)顯然是不合適的。
為了解決這個問題,華為提出了知識蒸餾的辦法,通過預(yù)訓(xùn)練的模型,對AA的圖片,產(chǎn)生軟標(biāo)簽,再用軟標(biāo)簽指導(dǎo)圖形的訓(xùn)練。上圖便是知識蒸餾后產(chǎn)生的軟標(biāo)簽。
從結(jié)果上來看,這種知識蒸餾與自動數(shù)據(jù)擴(kuò)增相結(jié)合的方法,在ImageNet上能夠取得85.8%的效果。
針對第二個場景,多模態(tài)數(shù)據(jù),田奇博士認(rèn)為多模態(tài)學(xué)習(xí)將成為未來計算機(jī)視覺領(lǐng)域的主流學(xué)習(xí)模式,因此非常重要,他們也將在這個領(lǐng)域進(jìn)行重點布局。當(dāng)前多模態(tài)學(xué)習(xí)面臨的挑戰(zhàn)包括:多模態(tài)信息表示,模態(tài)間的聯(lián)合映射,模態(tài)對齊,模態(tài)融合,多模態(tài)協(xié)同學(xué)習(xí)。
針對這方面的工作,即如何對齊多模態(tài)數(shù)據(jù),田奇重點介紹了他們在ACM MM 2019 上獲得最佳論文提名的論文「Multimodal Dialog System: Generating Responses via Adaptive Decoders」。他們稱之為“魔術(shù)模型”,論文本身是針對電子商務(wù)場景,用戶在與機(jī)器克服對話過程中存在輸入文本或圖片的需求。他們針對這一問題,使用了一個統(tǒng)一的模型來編碼不同模態(tài)的信息,從而能夠根據(jù)上下文來反饋文字或圖片。
田奇博士提出,華為諾亞在視覺模型方面的主要研究在于如何設(shè)計出高效的神經(jīng)網(wǎng)絡(luò)模型以及如何加速/小型化神經(jīng)網(wǎng)絡(luò)計算。換句話來說,即模型如何更快、更小、更高效。
神經(jīng)網(wǎng)絡(luò)模型的設(shè)計,最初都是手工設(shè)計,但現(xiàn)階段手工網(wǎng)絡(luò)模型設(shè)計已經(jīng)進(jìn)入了瓶頸期。而作為對應(yīng),從2017年開始,自動網(wǎng)絡(luò)架構(gòu)搜索(NAS)迅猛發(fā)展,盡管只有三年時間,卻已經(jīng)取得了可喜的進(jìn)展。
田奇博士認(rèn)為,NAS目前存在三大挑戰(zhàn),分別為:1)搜索空間仍需人工經(jīng)驗定義;2)待搜算子需要人工設(shè)計;3)相較手工設(shè)計網(wǎng)絡(luò),可遷移性較差。
田奇博士在這方面僅舉了他們的一個工作,發(fā)表在ICLR 2020 上的「PC-DARTS: Partial Channel Connections for Memory-Efficient Architecture Search」。PC-DARTS針對現(xiàn)有DARTS模型訓(xùn)練時需要 large memory and computing 問題,提出了局部連接和邊正則化的技術(shù),分別解決了網(wǎng)絡(luò)冗余問題和局部連接帶來的不穩(wěn)定性。這個模型能夠在性能無損的情況下,做到更快(與同類相比快一倍)。
針對如何加速神經(jīng)網(wǎng)絡(luò)及模型小型化,田奇博士是這樣思考的。目前大的網(wǎng)絡(luò)模型發(fā)展如火如荼,但這樣的模型更適合配置在云側(cè),而無法適配端側(cè)。從2016年起,業(yè)界便開始探索模型加速和小型化的研究,也提出了大量小型化方案。但這些方案在實際中面臨著諸多問題,包括:1)低比特量化使得精度受限;2)混合比特網(wǎng)絡(luò)對硬件卻并不友好;3)新型算子并沒有得到充分的驗證。
田奇博士同樣舉了他們最近的一項工作,是CVPR 2020 上的一篇 Oral:「AdderNet: Do We Really Need Multiplications in Deep Learning?」。在計算機(jī)中,浮點運(yùn)算復(fù)雜度相比加法要高很多,但神經(jīng)網(wǎng)絡(luò)中存在大量的乘法運(yùn)算,這就限制了模型在移動設(shè)備上大規(guī)模使用的可能性。那么是否能設(shè)計一種基于加法的網(wǎng)絡(luò)呢?華為的這篇文章正是對這一問題的回答,他們將卷積網(wǎng)絡(luò)中的乘法規(guī)則變成加法,并對網(wǎng)絡(luò)中的多種規(guī)則進(jìn)行修改:1)使用曼哈頓距離(取代夾角距離)作為各層卷積核與輸入特征之間輸出的計算方法;2)為AdderNet設(shè)計了一種改進(jìn)的帶正則梯度的反向傳播算法;3)提出一種針對神經(jīng)網(wǎng)絡(luò)每一層數(shù)量級不同的適應(yīng)性學(xué)習(xí)率調(diào)整策略。實驗結(jié)果上表明,AdderNet能夠取得媲美于乘法網(wǎng)絡(luò)的效果,且在計算功耗上具有明顯的優(yōu)勢。
田奇表示,華為的目標(biāo)是打造下一代視覺感知的通用視覺模型,并把該算法遷移到下游任務(wù)進(jìn)行模型復(fù)用。
那么,何為“通用視覺模型”?其核心思想事實上就是如何表達(dá)并存儲知識。
田奇博士提出兩種場景。首先是目前比較熱的預(yù)訓(xùn)練的方式,通過預(yù)訓(xùn)練獲得的模型來表達(dá)和存儲知識;其次是通過虛擬環(huán)境,在基本不需要標(biāo)注數(shù)據(jù)的情況下來學(xué)習(xí)知識。
針對預(yù)訓(xùn)練模型,田奇博士提到了他們在CVPR 2019上發(fā)表的工作:「Iterative Reorganization with Weak Spatial Constraints: Solving Arbitrary Jigsaw Puzzles for Unsupervised Representation Learning」。這篇文章提出了一種適用于處理任意維度拼圖問題的自監(jiān)督學(xué)習(xí)方法。
拼圖問題將無標(biāo)簽圖像按網(wǎng)格分割為圖像塊,并打亂它們的順序,通過網(wǎng)絡(luò)恢復(fù)正確的圖像塊布局,來達(dá)到從無標(biāo)簽圖像數(shù)據(jù)中學(xué)習(xí)語義信息的目的。這篇文章提出,以迭代的方式逐步調(diào)整圖像塊的順序直到收斂。在ImageNet上能夠取得非常好的性能。
深度學(xué)習(xí)大量依賴于可標(biāo)注的數(shù)據(jù),但是很多場景下,數(shù)據(jù)標(biāo)注成本很高。同時,標(biāo)注數(shù)據(jù)也存在一個致命的問題,即知識表達(dá)不準(zhǔn)確——比如在自動駕駛中,我們有大量的標(biāo)注信息,但這些標(biāo)注數(shù)據(jù)是否真的“最適合”自動駕駛?cè)蝿?wù)呢?此外,人類對外界的感知依賴于常識,而依賴于標(biāo)注數(shù)據(jù)來訓(xùn)練的模型則存在缺乏常識的問題。
針對這一問題,田奇博士提出了用虛擬場景構(gòu)建虛擬場景來學(xué)習(xí)常識的方法。田奇博士舉了他們發(fā)表在CVPR 2019 的文章(CRAVES),主要是通過虛擬場景來訓(xùn)練機(jī)械臂抓骰子。我們在前面已經(jīng)提到,這里就不再贅述。
延續(xù)以上提到的研究內(nèi)容,田奇在隨后發(fā)布了「華為視覺計劃」。簡單來說包括六個子計劃:
與數(shù)據(jù)相關(guān)的:數(shù)據(jù)冰山計劃、數(shù)據(jù)魔方計劃;
與模型相關(guān)的:模型摸高計劃、模型瘦身計劃;
與知識相關(guān)的:萬物預(yù)視計劃、虛實合一計劃。
該計劃是為了解決數(shù)據(jù)標(biāo)注瓶頸問題,讓數(shù)據(jù)生成真正代替手工標(biāo)注。這里包含三個子課題,分別為:
子課題一:數(shù)據(jù)生成質(zhì)量拔高。即通過一到兩年時間,解決生成數(shù)據(jù)質(zhì)量差和不真實的問題;
子課題二:數(shù)據(jù)生成點石成金。即設(shè)計數(shù)據(jù)自動挑選的算法,在海量的生成數(shù)據(jù)中,挑選高質(zhì)量的數(shù)據(jù);
子課題三:通用自動數(shù)據(jù)生成。即對不同的子任務(wù)設(shè)計不同的生成數(shù)據(jù)方式,讓數(shù)據(jù)生成具備普惠能力。
該計劃主要解決多模態(tài)數(shù)據(jù)量化、對齊和融合的問題,從而構(gòu)建下一代智能視覺。包括構(gòu)建多模態(tài)數(shù)據(jù)量化指標(biāo),從而全面評估性能;多模態(tài)數(shù)據(jù)對應(yīng)策略研究;多模態(tài)數(shù)據(jù)融合方案等。
該計劃主要是構(gòu)建云側(cè)大模型,來刷新各類視覺任務(wù)的性能上限。同樣包括三個子課題:
子課題一:全空間網(wǎng)絡(luò)架構(gòu)搜索。即突破神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索空間受限的約束,搜索更多的范式、更多網(wǎng)絡(luò)空間結(jié)構(gòu)的變化,讓神經(jīng)網(wǎng)絡(luò)架構(gòu)真正實現(xiàn)自動搜索。
子課題二:新型算子搜索。即讓算子的設(shè)計從手工復(fù)用到創(chuàng)造新的算子。
子課題三:搜索模型普適能力的提升。目前搜索出的網(wǎng)絡(luò)泛化性能、抗攻擊性、遷移性都比較差,該子課題希望能夠提升網(wǎng)絡(luò)架構(gòu)索索的這些性能。
開發(fā)端側(cè)小模型,助力各種芯片完成復(fù)雜推理,是一個重要的研究方向。華為在這個領(lǐng)域中的目標(biāo)是,打造高效的端側(cè)視覺計算模型。該計劃包含三個子課題:
子課題一:自動搜索小型化網(wǎng)絡(luò)。即將硬件的約束融入自動設(shè)計中,使得算法能夠適配不同的硬件。
子課題二:一比特網(wǎng)絡(luò)量化。即設(shè)計一比特網(wǎng)絡(luò),使一比特網(wǎng)絡(luò)能達(dá)到全精度網(wǎng)絡(luò)的性能,目標(biāo)是追求極致的性能。
子課題三:構(gòu)建新型加法網(wǎng)絡(luò)。即在卷積網(wǎng)絡(luò)中,用加法運(yùn)算代替所有的乘法運(yùn)算,同時與芯片計算相結(jié)合,探索高效計算的新路徑。
所謂萬物預(yù)視,即定義預(yù)訓(xùn)練任務(wù),構(gòu)建通用視覺模型。具體做法是搜集大量公開無標(biāo)簽的億級數(shù)量級的圖片,完成知識的抽取與整理。
該計劃的目標(biāo)是在虛擬場景下,不通過標(biāo)注數(shù)據(jù),直接訓(xùn)練智能行為本身。目前業(yè)界在這個領(lǐng)域的研究非常還有限。這里涉及如何定義知識、如何構(gòu)筑虛擬場景、如何模擬用戶的真實行為、如何確保數(shù)據(jù)與智能體的安全等問題。雖然這個計劃極具挑戰(zhàn)性,但田奇認(rèn)為這才是通向真正的人工智能的道路。
雷鋒網(wǎng)報道。
雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。