0
本文作者: camel | 2020-03-30 16:13 |
雷鋒網(wǎng)AI科技評(píng)論按:昨天在華為開(kāi)發(fā)者大會(huì)上,華為首席科學(xué)家陳雷發(fā)布的全場(chǎng)景AI計(jì)算框架MindSpore開(kāi)源框架,引起業(yè)界廣泛關(guān)注,畢竟在短短一周之內(nèi),國(guó)內(nèi)相繼涌現(xiàn)出計(jì)圖(Jittor,清華)、天元(MegEngine,曠視)、MindSpore(華為)三個(gè)深度學(xué)習(xí)開(kāi)源框架,可謂“2020年是深度學(xué)習(xí)框架井噴的一年”。
但在昨天的大會(huì)中,華為發(fā)布的另一項(xiàng)重要計(jì)劃卻似乎受到了忽視,這是由田奇博士主導(dǎo)的“華為計(jì)算視覺(jué)基礎(chǔ)研究進(jìn)展暨華為視覺(jué)計(jì)劃發(fā)布”。
田奇博士,計(jì)算機(jī)視覺(jué)領(lǐng)域的人士應(yīng)該都不陌生,畢業(yè)于清華電工系,后赴伊利諾伊大學(xué)香檳分校,師從計(jì)算視覺(jué)之父 Thomas S.Huang 教授。在2018年加入華為之前,一直在德克薩斯大學(xué)圣安東尼奧分校任教,是2016年多媒體領(lǐng)域 10 大最具影響力的學(xué)者,并于當(dāng)年入選IEEE Fellow。
田奇博士加入之后,華為諾亞方舟在計(jì)算機(jī)視覺(jué)領(lǐng)域的研究突飛猛進(jìn)。以論文來(lái)講,ICCV 2019、CVPR 2019 分別有 19篇和29篇入選論文,CVPR 2020上更是多達(dá) 33 篇,且不論他們?cè)陬?lèi)似ICLR、ICML這類(lèi)篇算法的頂會(huì)上發(fā)表的論文。
在這次“研究進(jìn)展&計(jì)劃發(fā)布”上,田奇博士將他們的研究?jī)?nèi)容梳理為三大方向,即
數(shù)據(jù):如何從數(shù)據(jù)中挖掘有效信息?
模型:怎樣設(shè)計(jì)高效的視覺(jué)識(shí)別模型?
知識(shí):如何表達(dá)并存儲(chǔ)知識(shí)?
在此基礎(chǔ)上,他提出了華為諾亞的六大視覺(jué)計(jì)劃:數(shù)據(jù)冰山計(jì)劃、數(shù)據(jù)魔方計(jì)劃、模型摸高計(jì)劃、模型瘦身計(jì)劃、萬(wàn)物預(yù)視計(jì)劃、虛實(shí)合一計(jì)劃。
每個(gè)計(jì)劃聽(tīng)著都很帶感,其中邏輯是什么?各自代表了什么?
田奇博士在演講中,將當(dāng)下計(jì)算機(jī)視覺(jué)面臨的挑戰(zhàn)分為三大方向,分別為數(shù)據(jù)、模型和知識(shí)表達(dá)。(為什么沒(méi)有算力?畢竟這不是做視覺(jué)的人所能決定的,其實(shí)對(duì)算力的考慮包含在模型里面)
在信息時(shí)代,做計(jì)算機(jī)視覺(jué)其實(shí)面臨一個(gè)尷尬的事情,即互聯(lián)網(wǎng)上存在著海量的視覺(jué)數(shù)據(jù),甚至已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)了人類(lèi)處理的極限;標(biāo)注數(shù)據(jù),無(wú)論規(guī)模多大,都只是視覺(jué)大數(shù)據(jù)中的“滄海一粟”。如何從海量數(shù)據(jù)中挖掘出有效的信息,依舊是一個(gè)很大的挑戰(zhàn)。
華為在這方面提出了兩個(gè)典型的場(chǎng)景,一是如何利用生成數(shù)據(jù)訓(xùn)練模型;二是如何對(duì)齊多模態(tài)數(shù)據(jù)。
首先是生成數(shù)據(jù),華為在這方面投入了大量的研究。具體來(lái)說(shuō),分為三部分。
第一,自動(dòng)數(shù)據(jù)擴(kuò)充。這個(gè)以發(fā)表在ICLR 2020 上的 「Adversarial AutoAugment」為代表,這篇文章針對(duì)以前NAS(例如 AutoAugment)做數(shù)據(jù)增強(qiáng)計(jì)算開(kāi)銷(xiāo)大、policy是靜態(tài)的問(wèn)題,借用 GAN 的“對(duì)抗”思想,引入了 adversarial loss,這樣一方面大大減少了訓(xùn)練所需的時(shí)間;另一方面,可以認(rèn)為policy generator 在不斷產(chǎn)生難樣本,從而能幫助分類(lèi)器學(xué)到 robust features,從而學(xué)的更好。(ICLR 2020 | 華為諾亞:巧妙思想,NAS與「對(duì)抗」結(jié)合,速率提高11倍 )
第二,利用GAN來(lái)模擬更多的數(shù)據(jù)。這個(gè)以發(fā)表在CVPR 2018 上的PTGAN 和 CSGAN 為代表。前者(「Person Transfer GAN to Bridge Domain Gap for Person Re-Identification」)是針對(duì)行人重識(shí)別問(wèn)題的生成對(duì)抗網(wǎng)絡(luò),使用GAN將一個(gè)數(shù)據(jù)集的行人遷移到另一個(gè)數(shù)據(jù)集當(dāng)中。后者(「Compressed sensing using generative models」)是針對(duì)感知的GAN壓縮,換句話來(lái)說(shuō),即利用GAN來(lái)重構(gòu)出“原始數(shù)據(jù)”,相比于其他的重構(gòu)算法來(lái)講,CSGAN在更少的測(cè)量(可理解為采樣后的數(shù)據(jù))情況下能夠重構(gòu)出很好的原始數(shù)據(jù)。
第三,利用計(jì)算機(jī)圖形學(xué)技術(shù)來(lái)生成虛擬數(shù)據(jù)。這個(gè)以發(fā)表在CVPR 2019 上的「CRAVES: Controlling Robotic Arm with a Vision-based, Economic System」為代表。在CRAVES這篇工作中,他們?cè)O(shè)計(jì)了一套基于虛擬數(shù)據(jù)生成和域遷移的訓(xùn)練流程,機(jī)械臂只需要借助一個(gè)額外的攝像頭,便可以完成抓取骰子并放置在指定位置的任務(wù)。注意,這里的數(shù)據(jù)是基于CG技術(shù)生成的,對(duì)機(jī)械臂的訓(xùn)練完全不需要提供額外的監(jiān)督數(shù)據(jù)。
田奇也介紹了他們?cè)跀?shù)據(jù)生成方面最近的一項(xiàng)工作,這是一項(xiàng)基于知識(shí)蒸餾與自動(dòng)數(shù)據(jù)擴(kuò)增結(jié)合的方法。我們知道,自動(dòng)數(shù)據(jù)擴(kuò)充(AutoAugment,以下簡(jiǎn)寫(xiě)為 AA)來(lái)源于對(duì)數(shù)據(jù)集的全局優(yōu)化。對(duì)每個(gè)圖片,AA可能帶來(lái)圖像語(yǔ)義的混淆。
如左邊的圖所示,原圖是一只狐貍;如果對(duì)它進(jìn)行亮度變化,它看起來(lái)會(huì)更像一只狗;如果對(duì)它進(jìn)行反轉(zhuǎn),這個(gè)時(shí)候看起來(lái)像一只貓。因此在訓(xùn)練模型的時(shí)候,如果仍然使用原來(lái)的硬標(biāo)簽(“fox”)顯然是不合適的。
為了解決這個(gè)問(wèn)題,華為提出了知識(shí)蒸餾的辦法,通過(guò)預(yù)訓(xùn)練的模型,對(duì)AA的圖片,產(chǎn)生軟標(biāo)簽,再用軟標(biāo)簽指導(dǎo)圖形的訓(xùn)練。上圖便是知識(shí)蒸餾后產(chǎn)生的軟標(biāo)簽。
從結(jié)果上來(lái)看,這種知識(shí)蒸餾與自動(dòng)數(shù)據(jù)擴(kuò)增相結(jié)合的方法,在ImageNet上能夠取得85.8%的效果。
針對(duì)第二個(gè)場(chǎng)景,多模態(tài)數(shù)據(jù),田奇博士認(rèn)為多模態(tài)學(xué)習(xí)將成為未來(lái)計(jì)算機(jī)視覺(jué)領(lǐng)域的主流學(xué)習(xí)模式,因此非常重要,他們也將在這個(gè)領(lǐng)域進(jìn)行重點(diǎn)布局。當(dāng)前多模態(tài)學(xué)習(xí)面臨的挑戰(zhàn)包括:多模態(tài)信息表示,模態(tài)間的聯(lián)合映射,模態(tài)對(duì)齊,模態(tài)融合,多模態(tài)協(xié)同學(xué)習(xí)。
針對(duì)這方面的工作,即如何對(duì)齊多模態(tài)數(shù)據(jù),田奇重點(diǎn)介紹了他們?cè)贏CM MM 2019 上獲得最佳論文提名的論文「Multimodal Dialog System: Generating Responses via Adaptive Decoders」。他們稱(chēng)之為“魔術(shù)模型”,論文本身是針對(duì)電子商務(wù)場(chǎng)景,用戶(hù)在與機(jī)器克服對(duì)話過(guò)程中存在輸入文本或圖片的需求。他們針對(duì)這一問(wèn)題,使用了一個(gè)統(tǒng)一的模型來(lái)編碼不同模態(tài)的信息,從而能夠根據(jù)上下文來(lái)反饋文字或圖片。
田奇博士提出,華為諾亞在視覺(jué)模型方面的主要研究在于如何設(shè)計(jì)出高效的神經(jīng)網(wǎng)絡(luò)模型以及如何加速/小型化神經(jīng)網(wǎng)絡(luò)計(jì)算。換句話來(lái)說(shuō),即模型如何更快、更小、更高效。
神經(jīng)網(wǎng)絡(luò)模型的設(shè)計(jì),最初都是手工設(shè)計(jì),但現(xiàn)階段手工網(wǎng)絡(luò)模型設(shè)計(jì)已經(jīng)進(jìn)入了瓶頸期。而作為對(duì)應(yīng),從2017年開(kāi)始,自動(dòng)網(wǎng)絡(luò)架構(gòu)搜索(NAS)迅猛發(fā)展,盡管只有三年時(shí)間,卻已經(jīng)取得了可喜的進(jìn)展。
田奇博士認(rèn)為,NAS目前存在三大挑戰(zhàn),分別為:1)搜索空間仍需人工經(jīng)驗(yàn)定義;2)待搜算子需要人工設(shè)計(jì);3)相較手工設(shè)計(jì)網(wǎng)絡(luò),可遷移性較差。
田奇博士在這方面僅舉了他們的一個(gè)工作,發(fā)表在ICLR 2020 上的「PC-DARTS: Partial Channel Connections for Memory-Efficient Architecture Search」。PC-DARTS針對(duì)現(xiàn)有DARTS模型訓(xùn)練時(shí)需要 large memory and computing 問(wèn)題,提出了局部連接和邊正則化的技術(shù),分別解決了網(wǎng)絡(luò)冗余問(wèn)題和局部連接帶來(lái)的不穩(wěn)定性。這個(gè)模型能夠在性能無(wú)損的情況下,做到更快(與同類(lèi)相比快一倍)。
針對(duì)如何加速神經(jīng)網(wǎng)絡(luò)及模型小型化,田奇博士是這樣思考的。目前大的網(wǎng)絡(luò)模型發(fā)展如火如荼,但這樣的模型更適合配置在云側(cè),而無(wú)法適配端側(cè)。從2016年起,業(yè)界便開(kāi)始探索模型加速和小型化的研究,也提出了大量小型化方案。但這些方案在實(shí)際中面臨著諸多問(wèn)題,包括:1)低比特量化使得精度受限;2)混合比特網(wǎng)絡(luò)對(duì)硬件卻并不友好;3)新型算子并沒(méi)有得到充分的驗(yàn)證。
田奇博士同樣舉了他們最近的一項(xiàng)工作,是CVPR 2020 上的一篇 Oral:「AdderNet: Do We Really Need Multiplications in Deep Learning?」。在計(jì)算機(jī)中,浮點(diǎn)運(yùn)算復(fù)雜度相比加法要高很多,但神經(jīng)網(wǎng)絡(luò)中存在大量的乘法運(yùn)算,這就限制了模型在移動(dòng)設(shè)備上大規(guī)模使用的可能性。那么是否能設(shè)計(jì)一種基于加法的網(wǎng)絡(luò)呢?華為的這篇文章正是對(duì)這一問(wèn)題的回答,他們將卷積網(wǎng)絡(luò)中的乘法規(guī)則變成加法,并對(duì)網(wǎng)絡(luò)中的多種規(guī)則進(jìn)行修改:1)使用曼哈頓距離(取代夾角距離)作為各層卷積核與輸入特征之間輸出的計(jì)算方法;2)為AdderNet設(shè)計(jì)了一種改進(jìn)的帶正則梯度的反向傳播算法;3)提出一種針對(duì)神經(jīng)網(wǎng)絡(luò)每一層數(shù)量級(jí)不同的適應(yīng)性學(xué)習(xí)率調(diào)整策略。實(shí)驗(yàn)結(jié)果上表明,AdderNet能夠取得媲美于乘法網(wǎng)絡(luò)的效果,且在計(jì)算功耗上具有明顯的優(yōu)勢(shì)。
田奇表示,華為的目標(biāo)是打造下一代視覺(jué)感知的通用視覺(jué)模型,并把該算法遷移到下游任務(wù)進(jìn)行模型復(fù)用。
那么,何為“通用視覺(jué)模型”?其核心思想事實(shí)上就是如何表達(dá)并存儲(chǔ)知識(shí)。
田奇博士提出兩種場(chǎng)景。首先是目前比較熱的預(yù)訓(xùn)練的方式,通過(guò)預(yù)訓(xùn)練獲得的模型來(lái)表達(dá)和存儲(chǔ)知識(shí);其次是通過(guò)虛擬環(huán)境,在基本不需要標(biāo)注數(shù)據(jù)的情況下來(lái)學(xué)習(xí)知識(shí)。
針對(duì)預(yù)訓(xùn)練模型,田奇博士提到了他們?cè)贑VPR 2019上發(fā)表的工作:「Iterative Reorganization with Weak Spatial Constraints: Solving Arbitrary Jigsaw Puzzles for Unsupervised Representation Learning」。這篇文章提出了一種適用于處理任意維度拼圖問(wèn)題的自監(jiān)督學(xué)習(xí)方法。
拼圖問(wèn)題將無(wú)標(biāo)簽圖像按網(wǎng)格分割為圖像塊,并打亂它們的順序,通過(guò)網(wǎng)絡(luò)恢復(fù)正確的圖像塊布局,來(lái)達(dá)到從無(wú)標(biāo)簽圖像數(shù)據(jù)中學(xué)習(xí)語(yǔ)義信息的目的。這篇文章提出,以迭代的方式逐步調(diào)整圖像塊的順序直到收斂。在ImageNet上能夠取得非常好的性能。
深度學(xué)習(xí)大量依賴(lài)于可標(biāo)注的數(shù)據(jù),但是很多場(chǎng)景下,數(shù)據(jù)標(biāo)注成本很高。同時(shí),標(biāo)注數(shù)據(jù)也存在一個(gè)致命的問(wèn)題,即知識(shí)表達(dá)不準(zhǔn)確——比如在自動(dòng)駕駛中,我們有大量的標(biāo)注信息,但這些標(biāo)注數(shù)據(jù)是否真的“最適合”自動(dòng)駕駛?cè)蝿?wù)呢?此外,人類(lèi)對(duì)外界的感知依賴(lài)于常識(shí),而依賴(lài)于標(biāo)注數(shù)據(jù)來(lái)訓(xùn)練的模型則存在缺乏常識(shí)的問(wèn)題。
針對(duì)這一問(wèn)題,田奇博士提出了用虛擬場(chǎng)景構(gòu)建虛擬場(chǎng)景來(lái)學(xué)習(xí)常識(shí)的方法。田奇博士舉了他們發(fā)表在CVPR 2019 的文章(CRAVES),主要是通過(guò)虛擬場(chǎng)景來(lái)訓(xùn)練機(jī)械臂抓骰子。我們?cè)谇懊嬉呀?jīng)提到,這里就不再贅述。
延續(xù)以上提到的研究?jī)?nèi)容,田奇在隨后發(fā)布了「華為視覺(jué)計(jì)劃」。簡(jiǎn)單來(lái)說(shuō)包括六個(gè)子計(jì)劃:
與數(shù)據(jù)相關(guān)的:數(shù)據(jù)冰山計(jì)劃、數(shù)據(jù)魔方計(jì)劃;
與模型相關(guān)的:模型摸高計(jì)劃、模型瘦身計(jì)劃;
與知識(shí)相關(guān)的:萬(wàn)物預(yù)視計(jì)劃、虛實(shí)合一計(jì)劃。
該計(jì)劃是為了解決數(shù)據(jù)標(biāo)注瓶頸問(wèn)題,讓數(shù)據(jù)生成真正代替手工標(biāo)注。這里包含三個(gè)子課題,分別為:
子課題一:數(shù)據(jù)生成質(zhì)量拔高。即通過(guò)一到兩年時(shí)間,解決生成數(shù)據(jù)質(zhì)量差和不真實(shí)的問(wèn)題;
子課題二:數(shù)據(jù)生成點(diǎn)石成金。即設(shè)計(jì)數(shù)據(jù)自動(dòng)挑選的算法,在海量的生成數(shù)據(jù)中,挑選高質(zhì)量的數(shù)據(jù);
子課題三:通用自動(dòng)數(shù)據(jù)生成。即對(duì)不同的子任務(wù)設(shè)計(jì)不同的生成數(shù)據(jù)方式,讓數(shù)據(jù)生成具備普惠能力。
該計(jì)劃主要解決多模態(tài)數(shù)據(jù)量化、對(duì)齊和融合的問(wèn)題,從而構(gòu)建下一代智能視覺(jué)。包括構(gòu)建多模態(tài)數(shù)據(jù)量化指標(biāo),從而全面評(píng)估性能;多模態(tài)數(shù)據(jù)對(duì)應(yīng)策略研究;多模態(tài)數(shù)據(jù)融合方案等。
該計(jì)劃主要是構(gòu)建云側(cè)大模型,來(lái)刷新各類(lèi)視覺(jué)任務(wù)的性能上限。同樣包括三個(gè)子課題:
子課題一:全空間網(wǎng)絡(luò)架構(gòu)搜索。即突破神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索空間受限的約束,搜索更多的范式、更多網(wǎng)絡(luò)空間結(jié)構(gòu)的變化,讓神經(jīng)網(wǎng)絡(luò)架構(gòu)真正實(shí)現(xiàn)自動(dòng)搜索。
子課題二:新型算子搜索。即讓算子的設(shè)計(jì)從手工復(fù)用到創(chuàng)造新的算子。
子課題三:搜索模型普適能力的提升。目前搜索出的網(wǎng)絡(luò)泛化性能、抗攻擊性、遷移性都比較差,該子課題希望能夠提升網(wǎng)絡(luò)架構(gòu)索索的這些性能。
開(kāi)發(fā)端側(cè)小模型,助力各種芯片完成復(fù)雜推理,是一個(gè)重要的研究方向。華為在這個(gè)領(lǐng)域中的目標(biāo)是,打造高效的端側(cè)視覺(jué)計(jì)算模型。該計(jì)劃包含三個(gè)子課題:
子課題一:自動(dòng)搜索小型化網(wǎng)絡(luò)。即將硬件的約束融入自動(dòng)設(shè)計(jì)中,使得算法能夠適配不同的硬件。
子課題二:一比特網(wǎng)絡(luò)量化。即設(shè)計(jì)一比特網(wǎng)絡(luò),使一比特網(wǎng)絡(luò)能達(dá)到全精度網(wǎng)絡(luò)的性能,目標(biāo)是追求極致的性能。
子課題三:構(gòu)建新型加法網(wǎng)絡(luò)。即在卷積網(wǎng)絡(luò)中,用加法運(yùn)算代替所有的乘法運(yùn)算,同時(shí)與芯片計(jì)算相結(jié)合,探索高效計(jì)算的新路徑。
所謂萬(wàn)物預(yù)視,即定義預(yù)訓(xùn)練任務(wù),構(gòu)建通用視覺(jué)模型。具體做法是搜集大量公開(kāi)無(wú)標(biāo)簽的億級(jí)數(shù)量級(jí)的圖片,完成知識(shí)的抽取與整理。
該計(jì)劃的目標(biāo)是在虛擬場(chǎng)景下,不通過(guò)標(biāo)注數(shù)據(jù),直接訓(xùn)練智能行為本身。目前業(yè)界在這個(gè)領(lǐng)域的研究非常還有限。這里涉及如何定義知識(shí)、如何構(gòu)筑虛擬場(chǎng)景、如何模擬用戶(hù)的真實(shí)行為、如何確保數(shù)據(jù)與智能體的安全等問(wèn)題。雖然這個(gè)計(jì)劃極具挑戰(zhàn)性,但田奇認(rèn)為這才是通向真正的人工智能的道路。
雷鋒網(wǎng)報(bào)道。
雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。