丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
智慧安防 正文
發(fā)私信給張棟
發(fā)送

0

權(quán)龍、孫劍、林達(dá)華的視覺(jué)求索丨CCF-GAIR 2019

本文作者: 張棟 2019-07-06 07:17 專(zhuān)題:CCF-GAIR 2019
導(dǎo)語(yǔ):計(jì)算機(jī)視覺(jué)正在深刻改變著整個(gè)社會(huì)的信息資源使用觀念和方式。

權(quán)龍、孫劍、林達(dá)華的視覺(jué)求索丨CCF-GAIR 2019

計(jì)算機(jī)視覺(jué)正在深刻改變著整個(gè)社會(huì)的信息資源使用觀念和方式。

7 月 12 - 7 月 14 日,CCF-GAIR 全球人工智能與機(jī)器人峰會(huì)將開(kāi)設(shè)「 智慧城市·視覺(jué)智能 」專(zhuān)場(chǎng)。

本專(zhuān)場(chǎng)將全面圍繞“未來(lái)城市級(jí)視覺(jué)AI的發(fā)展方向”這一主題展開(kāi),其中,騰訊賈佳亞、曠視孫劍、商湯王曉剛、云從溫浩、澎思馬原、千視通胡大鵬等知名專(zhuān)家,將為從業(yè)者分享前瞻的技術(shù)研究 & 產(chǎn)品經(jīng)營(yíng)方法論。

而在去年 CCF-GAIR 的「計(jì)算機(jī)視覺(jué)論壇 」中,權(quán)龍、孫劍、林達(dá)華等人,講述了自己對(duì)計(jì)算機(jī)視覺(jué)研究和工程化落地的思考:

CVPR 大會(huì)主席權(quán)龍:計(jì)算機(jī)視覺(jué)下一步將走向三維重建

人工智能的核心是視覺(jué),但現(xiàn)在的視覺(jué)仍局限在二維識(shí)別層面,未來(lái)三維視覺(jué)重建將會(huì)成為最重要的任務(wù)。

現(xiàn)在的計(jì)算機(jī)視覺(jué)就是基于卷積神經(jīng)網(wǎng)絡(luò)而來(lái),整個(gè) CNN 的架構(gòu)非常簡(jiǎn)單,能做的事其實(shí)也沒(méi)那么多,它提取了高維的特征,然后要結(jié)合其它方法解決視覺(jué)問(wèn)題。

如果你有足夠的數(shù)據(jù)并且能夠明確定義你想要的東西,CNN 的效果很好,但是它有沒(méi)有智能?其實(shí)沒(méi)有。

你說(shuō)它蠢,它跟以前一樣蠢。它能識(shí)別出貓和狗,但我們要知道貓和狗的分類(lèi)都是我們?nèi)祟?lèi)自己定義的,我們可以把貓和狗分開(kāi),也可以把復(fù)雜的狗類(lèi)動(dòng)物進(jìn)行聚合和分類(lèi),這些東西本質(zhì)上來(lái)說(shuō)并不是客觀的,而是主觀的。

我們做計(jì)算機(jī)視覺(jué)研究的理想,是讓機(jī)器進(jìn)行理解圖像。如何讓它進(jìn)行理解?這非常的困難,直到現(xiàn)在也沒(méi)有人知道它怎么去進(jìn)行理解。現(xiàn)在它能做的,只能做到認(rèn)知。我們研究計(jì)算機(jī)視覺(jué)的目的是得到視覺(jué)特征,有了視覺(jué)特征后才能開(kāi)展一系列工作。

為什么視覺(jué)特征如此重要?在語(yǔ)音識(shí)別領(lǐng)域,語(yǔ)音的特征已經(jīng)定義得非常清晰——音素。但如果我們拿來(lái)一個(gè)圖像,問(wèn)它最重要的視覺(jué)特征是什么,答案并不明確。大家知道圖像包含像素,但像素并不是真正的特征。像素只是一個(gè)數(shù)字化的載體,將圖像進(jìn)行了數(shù)字化的表述。計(jì)算機(jī)視覺(jué)的終極目標(biāo)就是尋找行之有效的視覺(jué)特征。

在這樣一個(gè)擁有視覺(jué)特征前提之下,計(jì)算機(jī)視覺(jué)也只有兩個(gè)現(xiàn)實(shí)目的,一個(gè)是識(shí)別,另一個(gè)是三維重建。

它們的英文單詞都以“re”做前綴,說(shuō)明這是一個(gè)反向的問(wèn)題。

計(jì)算機(jī)視覺(jué)不是一個(gè)很好定義(ill-posed)的問(wèn)題,沒(méi)有一個(gè)完美的答案或方法。

這一輪的卷積神經(jīng)網(wǎng)絡(luò)最本質(zhì)的一件事是重新定義了計(jì)算機(jī)視覺(jué)的特征。在此之前,所有的特征都是人工設(shè)計(jì)的。今天CNN學(xué)來(lái)的東西,它學(xué)到特征的維度動(dòng)輒幾百萬(wàn),在以前沒(méi)有這類(lèi)網(wǎng)絡(luò)的情況下是根本做不到的。

縱使CNN的特征提取能力極其強(qiáng),但是我們不要忘記建立在 CNN 基礎(chǔ)上的計(jì)算機(jī)視覺(jué)是單目識(shí)別,而人類(lèi)是雙目。我們的現(xiàn)實(shí)世界是在一個(gè)三維空間,我們要和三維打交道。拿著二維圖像去做識(shí)別,這遠(yuǎn)遠(yuǎn)不夠。

雙目視覺(jué)對(duì)整個(gè)生物世界的等級(jí)劃分是非常嚴(yán)格的。大家知道馬的眼睛往外看,對(duì)角的部分才有可能得到一部分三維信息,但它的三維視角非常小,不像人類(lèi)。魚(yú)的眼睛也是往兩邊看的,它的主要視線范圍是單目的,它能看到的雙目視區(qū)也是非常狹窄的一部分。

人類(lèi)有兩只眼睛,通過(guò)兩只眼睛才能得到有深度的三維信息。當(dāng)然,通過(guò)一只移動(dòng)的眼睛,也可以獲得有深度的信息。

獲取深度信息的挑戰(zhàn)很大,它本質(zhì)上是一個(gè)三角測(cè)量問(wèn)題。第一步需要將兩幅圖像或兩只眼睛感知到的東西進(jìn)行匹配,也就是識(shí)別。這里的“識(shí)別”和前面有所不同,前面提到的是有標(biāo)注情況下的識(shí)別,這里的“識(shí)別”是兩幅圖像之間的識(shí)別,沒(méi)有數(shù)據(jù)庫(kù)。它不僅要識(shí)別物體,還要識(shí)別每一個(gè)像素,所以對(duì)計(jì)算量要求非常高。

在生物世界里,雙目視覺(jué)非常重要,哺乳動(dòng)物都有雙目視覺(jué),而且越兇猛的食肉的動(dòng)物雙目重疊的區(qū)域越大,用雙目獲得的深度信息去主動(dòng)捕捉獵物。吃草的或被吃的動(dòng)物視覺(jué)單目視覺(jué),視野很寬,只有識(shí)別而無(wú)深度,目的是被進(jìn)攻時(shí)跑得快!

在這一輪的CNN之前,計(jì)算機(jī)視覺(jué)里面研究最多的是三維重建這樣的問(wèn)題,在CNN之前有非常好的人工設(shè)計(jì)的視覺(jué)特征,這些東西本質(zhì)上最早都是為三維重建而設(shè)計(jì),例如SIFT特征。而在這之后的“識(shí)別”,只是把它放在一個(gè)沒(méi)有結(jié)構(gòu)的圖像數(shù)據(jù)庫(kù)里去搜索而已。 由此可見(jiàn),現(xiàn)代三維視覺(jué)是由三維重建所定義。CNN誕生之前,它曾是視覺(jué)發(fā)展的主要?jiǎng)恿υ从趲缀?,因?yàn)樗亩x相對(duì)清晰。

計(jì)算機(jī)視覺(jué)中的三維重建包含三大問(wèn)題:一、定位置。假如我給出一張照片,計(jì)算機(jī)視覺(jué)要知道這張照片是在什么位置拍的。二、多目。通過(guò)多目的視差獲取三維信息,識(shí)別每一個(gè)像素并進(jìn)行匹配,進(jìn)行三維重建。三、語(yǔ)義識(shí)別。完成幾何三維重建后,要對(duì)這個(gè)三維信息進(jìn)行語(yǔ)義識(shí)別,這是重建的最終目的。

這里我再?gòu)?qiáng)調(diào)下,我們要把三維場(chǎng)景重新捕捉,但三維重建不是最終的目的,而是要把識(shí)別加進(jìn)去,所以說(shuō)最終的應(yīng)用肯定要把三維重建和識(shí)別融為一體。

曠視首席科學(xué)家孫劍:如何打造云、端、芯上的視覺(jué)計(jì)算

ResNet 為什么能夠工作呢?

到今天也沒(méi)有一個(gè)明確答案,當(dāng)然有很多解釋。最直觀的解釋是說(shuō)當(dāng)你的非線性變換層數(shù)非常多,相鄰兩層變換的差別就非常小,與其直接學(xué)習(xí)這個(gè)映射,不如學(xué)習(xí)映射的變化,這樣的方式就讓整個(gè)學(xué)習(xí)過(guò)程,特別是訓(xùn)練優(yōu)化過(guò)程變得更容易。

還有一個(gè)解釋來(lái)自該論文的第二作者張祥雨,他認(rèn)為 ResNet 的整個(gè)學(xué)習(xí)過(guò)程是一個(gè)由淺到深的動(dòng)態(tài)過(guò)程,在訓(xùn)練初期等效訓(xùn)練一個(gè)淺層網(wǎng)絡(luò),在訓(xùn)練后期等效訓(xùn)練一個(gè)深層網(wǎng)絡(luò)。

論文第一作者何愷明有另外一個(gè)更“科學(xué)”的解釋?zhuān)J(rèn)為整個(gè)訓(xùn)練過(guò)程相當(dāng)于深度學(xué)習(xí)的梯度下降過(guò)程中,最為困難的梯度消失問(wèn)題被 ResNet 解決了,該解釋也發(fā)表在 ECCV 2016 的一篇論文(Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Identity Mapping in Deep Residual Networks. ECCV 2016.)中,并在該論文中第一次訓(xùn)練了一個(gè) 1001 層的神經(jīng)網(wǎng)絡(luò)。

還有一些同行提出的解釋。一種是把 ResNet 和 RNN 關(guān)聯(lián)起來(lái),認(rèn)為如果有 Weight Share, ResNet 可以看作是一種 RNN。還有一種解釋把 ResNet 看成是指數(shù)多個(gè)不同深度網(wǎng)絡(luò)的集成。用“集成”這個(gè)詞其實(shí)有些問(wèn)題,因?yàn)橐话阄覀冏黾伤惴ú宦?lián)合訓(xùn)練,但這里面整個(gè) ResNet 里指數(shù)多個(gè)網(wǎng)絡(luò)是聯(lián)合訓(xùn)練的,所以很難定義它是不是集成。

我個(gè)人比較認(rèn)同的一種解釋是 Iterative Refinement,它是說(shuō)網(wǎng)絡(luò)初期的層學(xué)習(xí)表示,后期很多層不斷迭代和 Refine 這個(gè)表示。這跟人理解看圖識(shí)字很相似,一個(gè)不容易理解的東西你要看一會(huì),是基于當(dāng)前一些已看內(nèi)容的理解,反復(fù)看才能看懂。

還有從從優(yōu)化觀點(diǎn)的解釋?zhuān)绻挥?ResNet 這種構(gòu)造,系統(tǒng)的損失函數(shù)會(huì)非??涌油萃莺透叩筒黄剑院茈y優(yōu)化。我們知道整個(gè)網(wǎng)絡(luò)訓(xùn)練是非凸的優(yōu)化問(wèn)題,如果是這種不光滑的損失函數(shù),訓(xùn)練很難跳出局部極小;如果是上圖右邊使用 ResNet 的情況,就可以比較容易地達(dá)一個(gè)很好的局部極小。最近研究表明,局部極小區(qū)域的面積和平坦性和一個(gè)方法的推廣能力非常強(qiáng)相關(guān)。

多層 ResNet 學(xué)習(xí)高度非線性映射的能力非常強(qiáng)。去年,ResNet 成功應(yīng)用于 DeepMind 的 AlphaGo Zero 系統(tǒng)中,用 一個(gè)40 或 80 層的網(wǎng)絡(luò)就可以學(xué)到從棋盤(pán)圖像到落子位置這樣一個(gè)高度復(fù)雜的映射,這非常讓人吃驚。

?2012 年開(kāi)始有各種各樣的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)出現(xiàn)。如果從計(jì)算平臺(tái)的角度看這些工作,大概可以分成三類(lèi):第一類(lèi)是在“云”上,像 GoogleNet、ResNet,其目標(biāo)是向著最高精度方向走,有 GPU、TPU 可以訓(xùn)練非常大的模型,來(lái)探知我們的認(rèn)知邊界;

第二類(lèi)平臺(tái)是在“端”上,特別是一些嵌入式設(shè)備,這些設(shè)備上的計(jì)算能力,內(nèi)存訪問(wèn)都有限制,但很多真實(shí)的場(chǎng)景就是如此,那你怎么去做這上面的研究工作呢?谷歌在去年提出 MobileNet 運(yùn)行在移動(dòng)端設(shè)備上,曠視科技去年提出 ShuffleNet,其目標(biāo)是說(shuō)如何在一個(gè)給定計(jì)算量的設(shè)備上得到最好的效果。

一個(gè)網(wǎng)絡(luò)的最基本結(jié)構(gòu)是多個(gè) 3×3 的卷積,ResNet 加了一個(gè)跳轉(zhuǎn)連接,我們?cè)?ResNet 中還引入一個(gè) Bottleneck 結(jié)構(gòu),先做 1×1,再做 3×3,再回到 1×1,這樣可以提高卷積的效率。

去年何愷明有一項(xiàng)工作叫 ResNeXt。

權(quán)龍、孫劍、林達(dá)華的視覺(jué)求索丨CCF-GAIR 2019

它在 3x3 的基礎(chǔ)上引入分組卷積的方法,可以很好地提高卷積的有效性;谷歌的 MobileNet 是一個(gè) 3x3 分層卷積的方式,每個(gè)層各卷各的,這種方式非常有效,特別是在低端設(shè)備上。ShuffleNet 結(jié)合分組卷積和分層卷積的思想,對(duì) 1×1 Conv 分組;但是如果只分組的話,組間的信息不會(huì)交換,這樣會(huì)影響特征學(xué)習(xí),因此我們通過(guò)引入 Shuffle 操作,讓不同分組的信息更好地交換,然后做 3×3 的分層卷積,再回到 1×1 分組卷積,這就是 ShuffleNet 的核心思想。和其它方法相比,在相同的精度下,ShuffleNet 在真實(shí)設(shè)備上的速度要比 AlexNet 快 20 倍左右。

我們?nèi)ツ陮?zhuān)為手機(jī)設(shè)計(jì)的 ShuffleNet,它在 CPU/ARM 上效果非常好;如果在 GPU 上,它的性能并不好,因?yàn)?CPU 和 GPU 的特性不太一樣,這里面有很多原因,比如卷積的設(shè)計(jì),Group 卷積等等,我就不贅述了。

權(quán)龍、孫劍、林達(dá)華的視覺(jué)求索丨CCF-GAIR 2019

今年我們?cè)O(shè)計(jì)了 ShuffleNet v2,也就是第二版,拋棄分組卷積的思想,引入 Channel Split 和 Channel Shuffle 組合的新方法。這個(gè)方法把 Channel 先一分為二,并把每個(gè)分支用非常簡(jiǎn)單的結(jié)構(gòu)來(lái)做,然后在用 Shuffle 操作合并 Channel,這樣做的根源是我們?cè)诰W(wǎng)絡(luò)設(shè)計(jì)中發(fā)現(xiàn)的一些基本指導(dǎo)原則,比如說(shuō)我們需要平衡的卷積而不是稀疏的卷積,更加規(guī)整的卷積而不是零亂的卷積。

這項(xiàng)工作目前在 CPU 和 GPU 上都獲得了最好的精度和速度;不光在小模型,在大模型上同樣取得了非常好的效果,上圖最后一行是說(shuō) ShuffleNet v2 目前在計(jì)算量只有 12.7G Flops 情況下在 ImageNet 上取得了非常高的精度。

我們還需要將神經(jīng)網(wǎng)絡(luò)運(yùn)行在芯片上,這不光對(duì)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)有要求,還要對(duì)網(wǎng)絡(luò)內(nèi)部精度的表示做限制,現(xiàn)在最流行的方法是做低精度化,比如 BNN 和 XNOR Net,還有曠視科技提出的 DorefaNet。低精度方法是指神經(jīng)網(wǎng)絡(luò)的權(quán)重或激活值用低精度表示,比如 1 位,2 位,4 位。如果可以用低精度表示兩個(gè)向量,那么卷積計(jì)算就可以通過(guò)芯片上非常簡(jiǎn)單的位運(yùn)算完成計(jì)算。

我們提出的 DorefaNet 是第一個(gè)對(duì)梯度也做量化的研究工作,從而可以讓我們?cè)?FPGA 甚至 ASIC 上訓(xùn)練。在這些設(shè)備上計(jì)算量是一方面,但是它的內(nèi)存訪問(wèn)限制更大,DorefaNet 這種方法可以做到更好。上圖是我們?cè)?ImageNet 上得到的 1 位,2 位,4 位和 6 位量化精度下的最好分類(lèi)結(jié)果。

上述分類(lèi)問(wèn)題網(wǎng)絡(luò)設(shè)計(jì)需要考慮不同的平臺(tái),其它問(wèn)題多是以分類(lèi)為基礎(chǔ),比如說(shuō)檢測(cè),上圖是檢測(cè)最近幾年的發(fā)展路程,從 R-CNN 到我們提出的 SPP-Net,到 Fast R-CNN,再到我們提出的 Faster R-CNN,它們都是先應(yīng)用基礎(chǔ)分類(lèi)網(wǎng)絡(luò),然后構(gòu)建不同的物體檢測(cè)框架。

再往下應(yīng)該怎么做呢?今天我們是分平臺(tái),根據(jù)平臺(tái)的特性設(shè)計(jì)不同的網(wǎng)絡(luò)。我們相信下一代會(huì)有一個(gè)“MetaNet”,統(tǒng)一解決各個(gè)平臺(tái)上的神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)和優(yōu)化的問(wèn)題。

商湯科技聯(lián)合創(chuàng)始人林達(dá)華:摒棄粗放式的計(jì)算機(jī)視覺(jué)研究,我談三點(diǎn)思考

深度學(xué)習(xí)開(kāi)啟了計(jì)算機(jī)視覺(jué)發(fā)展的黃金時(shí)代,這幾年里計(jì)算機(jī)視覺(jué)取得了長(zhǎng)足發(fā)展,但這種發(fā)展是粗放式的,是用數(shù)據(jù)和計(jì)算資源堆出來(lái)的,這種發(fā)展模式是否可以持續(xù),值得深思。

隨著計(jì)算機(jī)視覺(jué)在準(zhǔn)確率方面觸頂,行業(yè)應(yīng)該尋求更多層面的發(fā)展。商湯主要嘗試從三大方面提升:一、提高計(jì)算資源的使用效率;二、降低數(shù)據(jù)資源的標(biāo)注成本;三、提高人工智能的品質(zhì)。

一、如何提高效率

目前大多數(shù)玩家現(xiàn)在走的是粗放型發(fā)展路線,是靠堆積數(shù)據(jù)和計(jì)算資源來(lái)?yè)Q取高性能,這是資源而不是效率的競(jìng)賽。

行業(yè)發(fā)展到今天,制定標(biāo)準(zhǔn)的公司賺取了大部分利潤(rùn),面對(duì)這種情況,未來(lái)該如何發(fā)展?

要回答這個(gè)問(wèn)題,首先要回顧現(xiàn)在的模型和技術(shù)模式,看是否還有優(yōu)化的空間,優(yōu)化的原理非常簡(jiǎn)單,就是把好鋼用在刀刃上。

兩年前商湯開(kāi)始進(jìn)入視頻領(lǐng)域,視頻對(duì)效率的要求非常高,因?yàn)橐曨l的數(shù)據(jù)量非常龐大,一秒鐘視頻有 24 幀,一分鐘就是 1500 幀,相當(dāng)于一個(gè)中型數(shù)據(jù)庫(kù),用傳統(tǒng)處理圖像的方式處理視頻顯然不合適。

2013、2014 年的時(shí)候,大部分視頻分析方法都比較簡(jiǎn)單粗暴:把每一幀都拿出來(lái)跑一個(gè)卷積網(wǎng)絡(luò),最后把它們綜合到一起進(jìn)行判斷。

雖然說(shuō)過(guò)去幾年計(jì)算資源發(fā)展非??欤?GPU 的顯存還是有限的,如果每一層都放到CNN里去跑,GPU 顯存只能容納 10 幀到 20 幀左右,一秒鐘的視頻就把 GPU 占滿(mǎn)了,沒(méi)辦法長(zhǎng)時(shí)間對(duì)視頻進(jìn)行分析,這是一種非常低效的模式。

視頻相鄰幀之間的重復(fù)度非常高,如果每一幀都跑一次,其實(shí)大量計(jì)算資源都被浪費(fèi)了,意識(shí)到這種重復(fù)計(jì)算模式的低效后,他們對(duì)采樣方法進(jìn)行了改變,改用稀疏采樣:無(wú)論多長(zhǎng)的視頻,都劃分成等長(zhǎng)的段落,每個(gè)段落只取一幀。

這樣一來(lái)就能在時(shí)間上對(duì)視頻形成完整覆蓋,分析出的結(jié)果自然具有較高的可靠性和準(zhǔn)確性。

我們希望把這樣一個(gè)技術(shù)用在實(shí)際場(chǎng)景,得到實(shí)時(shí)性的物體檢測(cè)的框架。如果每一幀都是按剛才的方法處理,需要 140 毫秒,完全沒(méi)有辦法做到實(shí)時(shí)。但如果稀疏地去采,比如說(shuō)每20幀采一次,中間的幀怎么辦呢?

大家可能想到用插值的方法把它插出來(lái),但是他們發(fā)現(xiàn)這個(gè)方法對(duì)準(zhǔn)確度影響很大,隔 10 幀采一次,中間的準(zhǔn)確度差距很大。

在新提出的方法里,他們利用幀與幀之間相互的關(guān)系,通過(guò)一個(gè)代價(jià)小得多的網(wǎng)絡(luò)模塊,只需要花5毫秒,在幀與幀之間傳遞信息,就能很好地保持了檢測(cè)精度。

重新改變了做視頻分析的路徑之后,整體的代價(jià)就得到了大幅度的下降,這其中沒(méi)有什么新鮮的東西,網(wǎng)絡(luò)都是那些網(wǎng)絡(luò),只是說(shuō)重新去規(guī)劃了視頻分析的計(jì)算路徑,重新設(shè)計(jì)了整個(gè)框架。

自動(dòng)駕駛需要對(duì)駕駛過(guò)程中的場(chǎng)景自動(dòng)地進(jìn)行理解和語(yǔ)義分割,這也是一個(gè)非常成熟的領(lǐng)域。但大家一直沒(méi)關(guān)注到點(diǎn)子上,大家關(guān)注的是分割的準(zhǔn)確率,像素級(jí)的準(zhǔn)確率,這是沒(méi)有意義的。我們真正做自動(dòng)駕駛,關(guān)心的是人在你車(chē)前時(shí),你能以多快的速度判斷出有個(gè)人在那里,然后做出緊急處理。所以在自動(dòng)駕駛的場(chǎng)景,判斷的效率、判斷的速度是非常重要的。之前的方法處理一幀要 100 多毫秒,如果真有一個(gè)人出現(xiàn)在車(chē)前面,是來(lái)不及做出反應(yīng)的。

利用剛才所說(shuō)的方法,我們重新改造了一個(gè)模型,充分地使用了幀與幀之間的聯(lián)系,我們可以把每一幀處理的效能從 600 毫秒降低到 60 毫秒,大幅度地提高了這個(gè)技術(shù)對(duì)于突發(fā)情景響應(yīng)的速度。

二,如何降低數(shù)據(jù)標(biāo)注成本

人工智能是先有人工才有智能,有多少人工才有多少智能。人工智能有今天的繁榮,不能忘記背后默默奉獻(xiàn)的成千上萬(wàn)的數(shù)據(jù)標(biāo)注人員。今天商湯有近 800 名標(biāo)注員在日夜不斷地標(biāo)注數(shù)據(jù),一些大公司的標(biāo)注團(tuán)隊(duì)更是多達(dá)上萬(wàn)人,這也是一塊巨大的成本。

如何降低數(shù)據(jù)標(biāo)注的成本,是我們每天都在思考的事情。既然很多東西沒(méi)法通過(guò)人工標(biāo)注,是否可以換個(gè)思路,從數(shù)據(jù)、場(chǎng)景中尋找它本身就蘊(yùn)含的標(biāo)注信息?

我們?nèi)ツ甑囊豁?xiàng)研究成果,嘗試了一種全新的學(xué)習(xí)方式。過(guò)去圖片的標(biāo)注成本非常高,每張圖片不僅要標(biāo)注,還要把目標(biāo)物體框出來(lái)。比如學(xué)習(xí)識(shí)別動(dòng)物,需要人工把動(dòng)物標(biāo)出來(lái)。我們小時(shí)候?qū)W習(xí)辨認(rèn)動(dòng)物的過(guò)程不是這樣的,不是老師給我一個(gè)帶框的圖片去學(xué)習(xí),而是通過(guò)看《動(dòng)物世界》學(xué)習(xí)的。這促使我產(chǎn)生了一個(gè)想法:能否讓模型通過(guò)看《動(dòng)物世界》,把所有動(dòng)物識(shí)別出來(lái)?紀(jì)錄片中有字幕,如果把它跟視覺(jué)場(chǎng)景聯(lián)系在一起,模型是否就能自動(dòng)學(xué)習(xí)?為此我們?cè)O(shè)計(jì)了框架,建立起視覺(jué)與文本之間的聯(lián)系,最后得出了下圖中的結(jié)果。

我們?cè)跊](méi)有任何標(biāo)注和人工干預(yù)的情況下,靠看《動(dòng)物世界》和《國(guó)家地理》雜志,能夠精確識(shí)別的幾十種動(dòng)物。

此外,做人臉識(shí)別也需要標(biāo)注大量人臉數(shù)據(jù)。其中有一些數(shù)據(jù),比如我們的家庭相冊(cè),這些相冊(cè)雖然沒(méi)有標(biāo)注,但卻蘊(yùn)含很多信息。

大家看下面這張圖,這是電影《泰坦尼克號(hào)》中的一些場(chǎng)景。

權(quán)龍、孫劍、林達(dá)華的視覺(jué)求索丨CCF-GAIR 2019

左上角這個(gè)場(chǎng)景,如果光看人臉很難認(rèn)出這兩個(gè)人是誰(shuí)。再看右上角第一個(gè)場(chǎng)景,我們可以認(rèn)出左邊這個(gè)人是 Rose,但右邊這個(gè)穿西裝的人還是看不清。如果我們能識(shí)別出電影背后的場(chǎng)景,就會(huì)發(fā)現(xiàn) Jack 和 Rose 經(jīng)常出現(xiàn)在同一個(gè)場(chǎng)景?;谶@種社交互動(dòng)信息,我們可以推斷,那個(gè)穿黑西裝的男子可能是 Jack。這樣一來(lái),在不用標(biāo)注人臉的情況下,我們就獲取了大量有意義的數(shù)據(jù)。

我們還把這項(xiàng)技術(shù)用到了安防領(lǐng)域:一個(gè)人從深圳的街道這頭走到那頭,人臉圖像經(jīng)常會(huì)發(fā)生變化,但只要能追蹤到他的軌跡,我們就能判斷所拍攝到的人臉屬于同一個(gè)人,這對(duì)訓(xùn)練人臉模型是非常寶貴的信息。

三、如何提高人工智能質(zhì)量

人工智能的最終目的是為生活帶來(lái)便利,提高生活質(zhì)量。但最近幾年人工智能的發(fā)展好像步入了誤區(qū),認(rèn)為人工智能的質(zhì)量和準(zhǔn)確率掛鉤。我覺(jué)得人工智能的質(zhì)量是多方面、多層次的,不僅僅是準(zhǔn)確率。

給大家看幾個(gè)例子?!翱磮D說(shuō)話”是近幾年特別火的領(lǐng)域,即向計(jì)算機(jī)展示一張圖片,讓它自動(dòng)生成描述。下圖是我們用最新方法得出的結(jié)果。

大家發(fā)現(xiàn),我們向這個(gè)最好的模型展示三張不同的圖片,它會(huì)說(shuō)同一句話,這句話在標(biāo)準(zhǔn)測(cè)試中的得分非常高,沒(méi)有任何問(wèn)題。但我們把它和人類(lèi)的描述放在一起后發(fā)現(xiàn),人類(lèi)不是這樣說(shuō)話的。人類(lèi)描述一張圖片的時(shí)候,即使面對(duì)同一張圖片,不同人的表述是不一樣的。也就是說(shuō),人工智能在追求識(shí)別準(zhǔn)確度的時(shí)候忽略了其他的品質(zhì),包括語(yǔ)言的自然性和圖片的特征。

為了解決這個(gè)問(wèn)題,去年我們提出了一個(gè)新方法。它不再把內(nèi)容描述看成翻譯問(wèn)題,而是把它當(dāng)做一個(gè)概率采樣問(wèn)題。它承認(rèn)描述的多樣性,承認(rèn)每個(gè)人看到同一張圖片會(huì)說(shuō)不同的話。我們希望把這個(gè)采樣過(guò)程學(xué)習(xí)出來(lái)。

我們?cè)侔l(fā)散延伸一下:既然 AI 模型能生成一句話,那么是不是也能生成一段動(dòng)作?下圖展示了我們的一項(xiàng)最新研究,很多AI公司都在做這方面的研究,讓 AI 生成一段生動(dòng)的舞蹈。下面是一些簡(jiǎn)單的動(dòng)作,這些動(dòng)作都是計(jì)算機(jī)自動(dòng)生成的,不是我們用程序描述出來(lái)的。

權(quán)龍、孫劍、林達(dá)華的視覺(jué)求索丨CCF-GAIR 2019

最后,對(duì)前面的分享做一個(gè)總結(jié)。過(guò)去幾年,人工智能和深度學(xué)習(xí)都取得了突飛猛進(jìn)的發(fā)展,這種發(fā)展既體現(xiàn)在標(biāo)準(zhǔn)數(shù)據(jù)集上的準(zhǔn)確率提升,也體現(xiàn)在商業(yè)場(chǎng)景的落地。但回顧這一段發(fā)展歷程,我們發(fā)現(xiàn),朝著準(zhǔn)確率高歌猛進(jìn)的過(guò)程中我們也遺忘了很多東西。我們的效率是否足夠高?我們是否在透支數(shù)據(jù)標(biāo)注的成本?我們訓(xùn)練出的模型是否能夠滿(mǎn)足現(xiàn)實(shí)生活對(duì)品質(zhì)的要求?從這些角度來(lái)看,我覺(jué)得我們才剛剛起步。雖然我們實(shí)驗(yàn)室和世界上許多其他實(shí)驗(yàn)室取得了一些重要進(jìn)展,但我們?nèi)匀惶幵谄鸩诫A段,前面還有很長(zhǎng)的路要走。雷鋒網(wǎng)

「智慧城市·視覺(jué)智能」專(zhuān)場(chǎng)

計(jì)算機(jī)視覺(jué)技術(shù)應(yīng)用路上,道阻且長(zhǎng),尚有無(wú)數(shù)未知黑暗森林亟待探索。

歷史車(chē)輪滾滾勢(shì)不可擋,每隔一段時(shí)間都會(huì)有新的技術(shù)突破。

一年后,“MetaNet ”式能夠統(tǒng)一解決各個(gè)平臺(tái)上的神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)和優(yōu)化問(wèn)題的框架,是否有進(jìn)展?技術(shù)的迭代又匹配了哪些城市場(chǎng)景?而這是否又會(huì)帶來(lái)新一輪的市場(chǎng)洗牌?

六天后,雷鋒網(wǎng)AI掘金志將帶你共同見(jiàn)證「智慧城市·視覺(jué)智能」的未來(lái),尋找問(wèn)題的最優(yōu)解。雷鋒網(wǎng)

權(quán)龍、孫劍、林達(dá)華的視覺(jué)求索丨CCF-GAIR 2019

權(quán)龍、孫劍、林達(dá)華的視覺(jué)求索丨CCF-GAIR 2019

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

分享:
相關(guān)文章

編輯

關(guān)注AI+。(微信號(hào):ZDmatt)
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)