丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

IEEE Fellow梅濤:視覺計(jì)算的前沿進(jìn)展與挑戰(zhàn)

本文作者: 我在思考中 2021-12-14 17:40
導(dǎo)語:創(chuàng)造出具有智慧的機(jī)器,邁向通用AI是人類長期以來的夢想。

IEEE Fellow梅濤:視覺計(jì)算的前沿進(jìn)展與挑戰(zhàn)

創(chuàng)造出具有智慧的機(jī)器,邁向通用AI是人類長期以來的夢想。當(dāng)下的AI發(fā)展到了哪個(gè)階段?
作者 | 維克多

編輯 | 青暮

今年12月9日,第六屆全球人工智能與機(jī)器人大會(GAIR 2021)在深圳正式啟幕,140余位產(chǎn)學(xué)領(lǐng)袖、30位Fellow聚首,從AI技術(shù)、產(chǎn)品、行業(yè)、人文、組織等維度切入,以理性分析與感性洞察為軸,共同攀登人工智能與數(shù)字化的浪潮之巔。

大會次日,IEEE/IAPR Fellow,京東集團(tuán)副總裁,京東探索研究院副院長梅濤在GAIR大會上做了《從感知智能到認(rèn)知智能的視覺計(jì)算》的報(bào)告,他指出視覺計(jì)算的感知研究雖然已經(jīng)相對成熟,某些人工智能(AI)任務(wù)已經(jīng)能夠通過圖靈測試,例如在內(nèi)容合成與圖像識別,但在視頻分析領(lǐng)域,視頻數(shù)據(jù)內(nèi)容多樣化以及視頻語義的不清晰等原因?qū)е略擃I(lǐng)域還存在大量挑戰(zhàn)性問題。

同時(shí),在認(rèn)知領(lǐng)域,視覺計(jì)算已經(jīng)有一些進(jìn)展,例如Visual Genome、VCR等數(shù)據(jù)集已經(jīng)布局結(jié)構(gòu)知識建模;而在推理層面,國內(nèi)學(xué)者已經(jīng)嘗試通過聯(lián)合解譯和認(rèn)知推理深入理解場景或事件。

以下是演講全文,AI科技評論做了不改變原意的整理: 

IEEE Fellow梅濤:視覺計(jì)算的前沿進(jìn)展與挑戰(zhàn)

今天的演講題目是《從感知智能到認(rèn)知智能的視覺計(jì)算》。在開始之前,先用兩個(gè)圖靈測試的例子大致說明AI的進(jìn)展。

首先計(jì)算機(jī)視覺不僅在識別領(lǐng)域,在內(nèi)容合成領(lǐng)域已經(jīng)達(dá)到通過圖靈測試的標(biāo)準(zhǔn)。正如上圖所示,人類已經(jīng)很難在一組圖片中將兩張機(jī)器合成的圖片挑選出來。

IEEE Fellow梅濤:視覺計(jì)算的前沿進(jìn)展與挑戰(zhàn)

另外一個(gè)圖靈測試的例子是“看圖說話”:給定一張圖片,描述圖片的內(nèi)容。下面兩句話分別由人(第一句)和機(jī)器(第二句)生成。很顯然,如果不仔細(xì)看圖片,可能會潛意識的認(rèn)為機(jī)器比人寫的詳細(xì)。

1.a dog is lifted among the flowers

2. a dog wearing a hat sitting within a bunch of yellow flowers

如果仔細(xì)觀察圖片,就會發(fā)現(xiàn)確實(shí)有一只手把小狗舉了起來。這也說明:不太經(jīng)常發(fā)生的現(xiàn)象,機(jī)器很難描述,其原因和機(jī)器學(xué)習(xí)的內(nèi)容相關(guān),以及機(jī)器沒有邏輯推理能力。

通過上述兩個(gè)例子我們可以看出:在感知領(lǐng)域,AI已經(jīng)超越人類;而在認(rèn)知領(lǐng)域,它還欠缺一些火候。



1

計(jì)算機(jī)視覺的進(jìn)展與挑戰(zhàn)

IEEE Fellow梅濤:視覺計(jì)算的前沿進(jìn)展與挑戰(zhàn)

上圖是計(jì)算機(jī)視覺在過去五六十年取得的進(jìn)展,2012年深度學(xué)習(xí)“大火”之前,計(jì)算機(jī)完成視覺任務(wù)通常有兩個(gè)步驟:特征工程和模型學(xué)習(xí)。

特征工程的特點(diǎn)是完全依靠人類智慧,例如設(shè)計(jì)Canny edge、Snak、Eigenfaces等參數(shù)特征,同時(shí)這些方法已經(jīng)獲得了大量的引用,Canny已經(jīng)被引用了38000次,Snak 18000次,SIFT更是已經(jīng)超過了64000次。

2012年之后,深度學(xué)習(xí)興起,顛覆了幾乎所有的計(jì)算機(jī)視覺任務(wù)。其特點(diǎn)是將傳統(tǒng)的特征工程和模型學(xué)習(xí)合為一體,即能夠在學(xué)習(xí)的過程中進(jìn)行特征設(shè)計(jì)。

深度學(xué)習(xí)火熱的另一個(gè)標(biāo)志是每年有大量的論文投到計(jì)算機(jī)視覺頂會(CVPR、ICCV、ECCV等),同時(shí)如果這些方法表現(xiàn)“杰出”,就能夠獲得大量的流量,例如GoogleNet VGG在不到8年的時(shí)間里獲得了10萬次引用;2015年的ResNet更是在更短的時(shí)間獲得了接近10萬次的引用。

這說明深度學(xué)習(xí)領(lǐng)域在飛速發(fā)展,而且進(jìn)入這個(gè)領(lǐng)域的人越來越多。一方面不僅深度學(xué)習(xí)網(wǎng)絡(luò)在不斷“更新?lián)Q代”,圖像、視頻等數(shù)據(jù)集也在不斷增長,甚至有些數(shù)據(jù)集規(guī)模已經(jīng)過億。

其中,深度學(xué)習(xí)的一個(gè)趨勢是“跨界”。在2019年,Transformer在自然語言處理領(lǐng)域的性能被證明“一枝獨(dú)秀”,現(xiàn)在已經(jīng)有大量學(xué)者開始研究如何將其納入視覺領(lǐng)域,例如微軟亞洲研究院swin transformer相關(guān)工作獲得了ICCV的最佳論文獎。

IEEE Fellow梅濤:視覺計(jì)算的前沿進(jìn)展與挑戰(zhàn)

上圖展示了隨著研究范式的變化,數(shù)據(jù)集的變化趨勢。無論是數(shù)據(jù)集的類別還是數(shù)據(jù)集的規(guī)模都在不斷增大,有些數(shù)據(jù)集更是超過了10億級別。目前類別最多的是UCF101數(shù)據(jù)集,其中包括101個(gè)類。同時(shí),大規(guī)模也帶來了一個(gè)弊端:一些高校和小型實(shí)驗(yàn)室無法進(jìn)行模型訓(xùn)練。

IEEE Fellow梅濤:視覺計(jì)算的前沿進(jìn)展與挑戰(zhàn)

特定領(lǐng)域進(jìn)展如何?在圖像識別領(lǐng)域,最廣為人知莫過于ImageNet競賽。其任務(wù)是給定一張圖,預(yù)測出五個(gè)相關(guān)的標(biāo)簽。隨著深度學(xué)習(xí)網(wǎng)絡(luò)的層數(shù)越來越深,識別的錯(cuò)誤率越來越低,到2015年, ResNet已經(jīng)它達(dá)到了152層,并且已經(jīng)超過了人類識別圖像的能力。

IEEE Fellow梅濤:視覺計(jì)算的前沿進(jìn)展與挑戰(zhàn)

在視頻分析領(lǐng)域。Kinetics-400 視頻分析任務(wù)反應(yīng)了該領(lǐng)域的進(jìn)展,從2017年和2019年出現(xiàn)了各種適合視頻任務(wù)的神經(jīng)網(wǎng)絡(luò),其網(wǎng)絡(luò)大小、深度并不一致,而且從準(zhǔn)確率、識別精度上看,也沒有一致的結(jié)果。換句話說,該領(lǐng)域存在大量的潛力(open question)。至于原因,個(gè)人認(rèn)為有兩種:

1.視頻內(nèi)容非常多樣化,而且是時(shí)空連續(xù)的數(shù)據(jù)。

2.同樣的語義,在視頻中會有不同的含義。例如不同語氣和不同表情下對同一個(gè)詞的輸出。

IEEE Fellow梅濤:視覺計(jì)算的前沿進(jìn)展與挑戰(zhàn)

過去10~20年,視覺感知領(lǐng)域存在很多主題。如上圖所示,從最小力度的像素級別到視頻級別,基本上可以歸為幾大研究領(lǐng)域:語義分隔、物體檢測、視頻動作行為識別、圖像分類、Vision and language。其中,Vision and language最近五年比較火熱,其要求不僅從圖視頻內(nèi)容里面生成文字描述,并且也可以反過來從文字描述生成視頻或者圖片的內(nèi)容。

總結(jié)起來,目前視覺研究的主要方向還是進(jìn)行RGB視頻和圖像研究,在不遠(yuǎn)的將來,成像的方式會發(fā)生變化,那時(shí)研究的數(shù)據(jù)將不僅是2D,更會過渡3D,甚至更多的多模態(tài)的數(shù)據(jù)。

在視覺理解領(lǐng)域,通用的視覺理解非常簡單:例如區(qū)分貓和狗,區(qū)分車和人。但在自然界里,要真正的做到對世界的理解,其實(shí)要做到非常精細(xì)的粒度的圖像識別。一個(gè)直觀的例子是鳥類識別,理想中的機(jī)器需要識別10萬種鳥類,才能達(dá)到人類對“理解世界”的要求。如果再精細(xì)一些,需要達(dá)到商品SKU細(xì)粒度識別。

注:一瓶200毫升和300毫升的礦泉水就是不同粒度的SKU。

過去幾年,京東在這方面做了一些探索。探索路徑包括:detection的方式,detection結(jié)合attention的方式,以及自監(jiān)督的方式。涉及論文包括CVPR2019 的“Destruction and Construction Learning ”以及CVPR 2020的“Self-supervised”相關(guān)工作。

IEEE Fellow梅濤:視覺計(jì)算的前沿進(jìn)展與挑戰(zhàn)

CVPR 2019:Destruction and Construction Learning for Fine-grained Image Recognition

論文地址:https://openaccess.thecvf.com/content_CVPR_2019/papers/Chen_Destruction_and_Construction_Learning_for_Fine-Grained_Image_Recognition_CVPR_2019_paper.pdf

IEEE Fellow梅濤:視覺計(jì)算的前沿進(jìn)展與挑戰(zhàn)

CVPR 2020:Look-into-Object: Self-supervised Structure Modeling for Object Recognition

論文地址:https://arxiv.org/abs/2003.14142

視頻領(lǐng)域非常有挑戰(zhàn),當(dāng)年我想借鑒ResNet,畢竟在圖像識別領(lǐng)域它是非常有創(chuàng)新的網(wǎng)絡(luò),因?yàn)槠淅锩姘瑂kip level的調(diào)整。因此,當(dāng)時(shí)我想把2D的CNN直接應(yīng)用到3D領(lǐng)域。

其實(shí),相關(guān)工作已經(jīng)有人嘗試,但存在一定的困難。例如Facebook發(fā)現(xiàn),如果沿著xyz三個(gè)軸進(jìn)行卷積,參數(shù)會爆炸,所以很難提高模型性能。因此在2015年,F(xiàn)acebook只設(shè)計(jì)了一個(gè)11層的3D卷積網(wǎng)絡(luò)。

IEEE Fellow梅濤:視覺計(jì)算的前沿進(jìn)展與挑戰(zhàn)

我的嘗試是基于ResNet進(jìn)行3D卷積設(shè)計(jì),但也遇到了和Facebook同樣的困難,即參數(shù)爆炸。因此,在CVPR 2017年的一項(xiàng)工作中,我利用一個(gè)1*3*3的二維空間卷積和3*1*1的一維時(shí)域卷積來模擬常用的3*3*3三維卷積。

通過簡化,相比于同樣深度的二維卷積神經(jīng)網(wǎng)絡(luò)僅僅增添了一定數(shù)量的一維卷積,在參數(shù)數(shù)量、運(yùn)行速度等方面并不會產(chǎn)生過度的增長。與此同時(shí),由于其中的二維卷積核可以使用圖像數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,對于已標(biāo)注視頻數(shù)據(jù)的需求也會大大減少。目前該論文引用超過1000次,得到了行業(yè)的認(rèn)可。

IEEE Fellow梅濤:視覺計(jì)算的前沿進(jìn)展與挑戰(zhàn)

CVPR 2017:Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks

論文地址:https://arxiv.org/abs/1711.10305

IEEE Fellow梅濤:視覺計(jì)算的前沿進(jìn)展與挑戰(zhàn)

其他研究領(lǐng)域也有很多問題有待開發(fā)。例如在3D視覺研究方面,不僅需要語義分割,還需要估計(jì)物體的姿態(tài);在Image to Language研究中,不僅需要給定一張圖片生成一段描述文字,還需要知道物體之間的空間關(guān)系語義關(guān)系。



2

視覺感知的應(yīng)用

IEEE Fellow梅濤:視覺計(jì)算的前沿進(jìn)展與挑戰(zhàn)

AI一直被認(rèn)為是改變工業(yè)界的范式,2019年P(guān)WC(麥肯錫)曾經(jīng)發(fā)布過一個(gè)報(bào)告:AI對整個(gè)全球的經(jīng)濟(jì)的貢獻(xiàn),在2030年之前,每一年會是14%的提升。并且在中國,增長空間是26%。

將AI應(yīng)用到工業(yè)界,基本需要滿足三個(gè)條件中的任何一個(gè):降低成本、提高效率、提升用戶體驗(yàn)。市值萬億美金級別的公司,例如微軟和蘋果,其共同的特點(diǎn)在于企業(yè)會全面、大規(guī)模、一次性的推廣AI技術(shù)。

大規(guī)模推廣AI技術(shù)時(shí),誕生了許多很有意思的應(yīng)用,例如“拍照購物”,核心技術(shù)是Photo-to-search,該領(lǐng)域已被深耕多年,但真正能發(fā)揮的場景是電商。以京東為例,它的拍照購物準(zhǔn)確率以經(jīng)比四年前提高許多,用戶轉(zhuǎn)化率提升了十幾倍。

另一個(gè)電商零售中的例子是“智能搭配”,其目的不僅是讓AI推薦同款商品,還要讓AI提供穿搭建議。例如當(dāng)用戶購買上衣時(shí),AI自動搭配一個(gè)裙子或者一雙鞋,并且生成一段描述,告訴用戶“為何如此搭配”。該功能上線之后,其帶來的點(diǎn)擊率超過了人工搭配。

IEEE Fellow梅濤:視覺計(jì)算的前沿進(jìn)展與挑戰(zhàn)

智能導(dǎo)播應(yīng)用也是AI比較擅長的。例如足球比賽中會有很多固定的相機(jī),相機(jī)中的視頻會傳遞到轉(zhuǎn)播車,然后會有20~30個(gè)工作人員不斷的制作視頻,提供轉(zhuǎn)播流,每個(gè)人看到的轉(zhuǎn)播流都是相同的。所謂智能導(dǎo)播是指:用AI學(xué)習(xí)人類導(dǎo)播的方式,然后根據(jù)每個(gè)用戶的喜好,輸出相應(yīng)的內(nèi)容。喜歡足球的用戶會著重推送精彩的射門、動作;喜歡球星的用戶會著重推薦球員的特寫,從而達(dá)到千人千面的效果。

IEEE Fellow梅濤:視覺計(jì)算的前沿進(jìn)展與挑戰(zhàn)

智能導(dǎo)播涉及的技術(shù)比較廣泛,例如:動作/事件識別、人臉識別、姿態(tài)估計(jì)、高光檢測、相機(jī)視圖切換等等。值得一提的是,二十年前,我在微軟實(shí)習(xí)時(shí)候,導(dǎo)師就安排過相應(yīng)的任務(wù),但是由于數(shù)據(jù)和算力的限制,沒有做到很好的效果。兩年前,我們才在京東上線該功能。

元宇宙的概念很火熱,京東也在數(shù)字人方面做了一些嘗試。日前也憑借跨模態(tài)分析技術(shù)、多模態(tài)交互數(shù)字人技術(shù)分別斬獲ACM國際多媒體頂級會議的最佳演示獎(Demo)。

傳統(tǒng)的數(shù)字人只能進(jìn)行“文字交互”,而今天的數(shù)字人希望能夠模擬真人進(jìn)行對話,其特點(diǎn)在于形象、逼真、實(shí)時(shí)反應(yīng)等等。目前,數(shù)字人技術(shù)已經(jīng)成功在市長熱線中部署。



3

邁向通用AI

通用AI一直是人類的夢想,邁向通用AI的過程中,在視覺方面必須要從感知過度到認(rèn)知,如此智能視覺系統(tǒng)才能進(jìn)行決策。

IEEE Fellow梅濤:視覺計(jì)算的前沿進(jìn)展與挑戰(zhàn)

但其中會遇到很多挑戰(zhàn),例如魯棒性,直接表現(xiàn)在自動駕駛領(lǐng)域,汽車相撞、識別錯(cuò)誤等等都表明系統(tǒng)不夠魯棒。模型和數(shù)據(jù)偏見也是學(xué)界經(jīng)常討論的焦點(diǎn),前段時(shí)間AI領(lǐng)域的大牛Yann LeCun在推特上因?yàn)椤捌妬碜詳?shù)據(jù)還是來自模型”的發(fā)言被diss退網(wǎng)。

IEEE Fellow梅濤:視覺計(jì)算的前沿進(jìn)展與挑戰(zhàn)

認(rèn)知智能和感知智能的區(qū)別主要有兩點(diǎn),在目標(biāo)層面,傳統(tǒng)AI希望增強(qiáng)人類思維并提供準(zhǔn)確結(jié)果,而認(rèn)知AI希望模仿人類行為和推理;而在能力層面,傳統(tǒng)AI希望找到學(xué)習(xí)模式或揭示隱藏信息;而認(rèn)知AI希望能夠模型人類思維從而找到解決方案。顯然,認(rèn)知AI將來會有很多用途,例如可信系統(tǒng)、模型解釋等等。

IEEE Fellow梅濤:視覺計(jì)算的前沿進(jìn)展與挑戰(zhàn)

實(shí)現(xiàn)認(rèn)知AI,有三個(gè)核心問題要解決:第一,需要考慮如何對結(jié)構(gòu)知識進(jìn)行建模;第二,如何讓模型可解釋;第三,如何讓系統(tǒng)擁有推理能力。

針對結(jié)構(gòu)知識建模,學(xué)界目前已經(jīng)有一些嘗試,例如斯坦福大學(xué)李飛飛開發(fā)的Visual Genome數(shù)據(jù)集,華盛頓大學(xué)發(fā)布的VCR數(shù)據(jù)集等等。

IEEE Fellow梅濤:視覺計(jì)算的前沿進(jìn)展與挑戰(zhàn)

推理方面進(jìn)展如何?北京通用AI研究院朱松純教授最近在《中國工程院院刊》中發(fā)表論文稱:通過 對一張簡單圖片的分解,計(jì)算機(jī)視覺系統(tǒng)應(yīng)該能夠同時(shí)進(jìn)行以下工作:1.重建3D場景估算相機(jī)參數(shù)、材料和照明條件;2.以屬性、流態(tài)和關(guān)系對場景進(jìn)行層次分析;3.推理智能體(如本例中的人和狗)的意圖和信念;4.預(yù)測它們在時(shí)序上的行為;5.恢復(fù)不可見的元素,如水和不可觀測的物體狀態(tài)等。

IEEE Fellow梅濤:視覺計(jì)算的前沿進(jìn)展與挑戰(zhàn)

論文題目:Dark, Beyond Deep: A Paradigm Shift to Cognitive AI with Humanlike Common Sense

論文地址:https://arxiv.org/abs/2004.09044

IEEE Fellow梅濤:視覺計(jì)算的前沿進(jìn)展與挑戰(zhàn)

最后,以gartner的一張趨勢預(yù)見圖結(jié)束演講。每一個(gè)技術(shù)的開始都會經(jīng)歷缺口、泡沫、泡沫破滅以及谷底、理性回歸等幾個(gè)階段。正如上圖所示,通用AI里面的可解釋性、可信任都還在爬升階段,而計(jì)算機(jī)視覺已經(jīng)到了第四階段的尾聲,這意味著未來的兩三年,計(jì)算機(jī)視覺會邁向技術(shù)成熟階段,而且會得到大規(guī)模的商用,普惠人類生活。


雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

IEEE Fellow梅濤:視覺計(jì)算的前沿進(jìn)展與挑戰(zhàn)

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說