0
本文作者: 張棟 | 2019-07-06 07:17 | 專題:CCF-GAIR 2019 |
計算機(jī)視覺正在深刻改變著整個社會的信息資源使用觀念和方式。
7 月 12 - 7 月 14 日,CCF-GAIR 全球人工智能與機(jī)器人峰會將開設(shè)「 智慧城市·視覺智能 」專場。
本專場將全面圍繞“未來城市級視覺AI的發(fā)展方向”這一主題展開,其中,騰訊賈佳亞、曠視孫劍、商湯王曉剛、云從溫浩、澎思馬原、千視通胡大鵬等知名專家,將為從業(yè)者分享前瞻的技術(shù)研究 & 產(chǎn)品經(jīng)營方法論。
而在去年 CCF-GAIR 的「計算機(jī)視覺論壇 」中,權(quán)龍、孫劍、林達(dá)華等人,講述了自己對計算機(jī)視覺研究和工程化落地的思考:
人工智能的核心是視覺,但現(xiàn)在的視覺仍局限在二維識別層面,未來三維視覺重建將會成為最重要的任務(wù)。
現(xiàn)在的計算機(jī)視覺就是基于卷積神經(jīng)網(wǎng)絡(luò)而來,整個 CNN 的架構(gòu)非常簡單,能做的事其實也沒那么多,它提取了高維的特征,然后要結(jié)合其它方法解決視覺問題。
如果你有足夠的數(shù)據(jù)并且能夠明確定義你想要的東西,CNN 的效果很好,但是它有沒有智能?其實沒有。
你說它蠢,它跟以前一樣蠢。它能識別出貓和狗,但我們要知道貓和狗的分類都是我們?nèi)祟愖约憾x的,我們可以把貓和狗分開,也可以把復(fù)雜的狗類動物進(jìn)行聚合和分類,這些東西本質(zhì)上來說并不是客觀的,而是主觀的。
我們做計算機(jī)視覺研究的理想,是讓機(jī)器進(jìn)行理解圖像。如何讓它進(jìn)行理解?這非常的困難,直到現(xiàn)在也沒有人知道它怎么去進(jìn)行理解。現(xiàn)在它能做的,只能做到認(rèn)知。我們研究計算機(jī)視覺的目的是得到視覺特征,有了視覺特征后才能開展一系列工作。
為什么視覺特征如此重要?在語音識別領(lǐng)域,語音的特征已經(jīng)定義得非常清晰——音素。但如果我們拿來一個圖像,問它最重要的視覺特征是什么,答案并不明確。大家知道圖像包含像素,但像素并不是真正的特征。像素只是一個數(shù)字化的載體,將圖像進(jìn)行了數(shù)字化的表述。計算機(jī)視覺的終極目標(biāo)就是尋找行之有效的視覺特征。
在這樣一個擁有視覺特征前提之下,計算機(jī)視覺也只有兩個現(xiàn)實目的,一個是識別,另一個是三維重建。
它們的英文單詞都以“re”做前綴,說明這是一個反向的問題。
計算機(jī)視覺不是一個很好定義(ill-posed)的問題,沒有一個完美的答案或方法。
這一輪的卷積神經(jīng)網(wǎng)絡(luò)最本質(zhì)的一件事是重新定義了計算機(jī)視覺的特征。在此之前,所有的特征都是人工設(shè)計的。今天CNN學(xué)來的東西,它學(xué)到特征的維度動輒幾百萬,在以前沒有這類網(wǎng)絡(luò)的情況下是根本做不到的。
縱使CNN的特征提取能力極其強,但是我們不要忘記建立在 CNN 基礎(chǔ)上的計算機(jī)視覺是單目識別,而人類是雙目。我們的現(xiàn)實世界是在一個三維空間,我們要和三維打交道。拿著二維圖像去做識別,這遠(yuǎn)遠(yuǎn)不夠。
雙目視覺對整個生物世界的等級劃分是非常嚴(yán)格的。大家知道馬的眼睛往外看,對角的部分才有可能得到一部分三維信息,但它的三維視角非常小,不像人類。魚的眼睛也是往兩邊看的,它的主要視線范圍是單目的,它能看到的雙目視區(qū)也是非常狹窄的一部分。
人類有兩只眼睛,通過兩只眼睛才能得到有深度的三維信息。當(dāng)然,通過一只移動的眼睛,也可以獲得有深度的信息。
獲取深度信息的挑戰(zhàn)很大,它本質(zhì)上是一個三角測量問題。第一步需要將兩幅圖像或兩只眼睛感知到的東西進(jìn)行匹配,也就是識別。這里的“識別”和前面有所不同,前面提到的是有標(biāo)注情況下的識別,這里的“識別”是兩幅圖像之間的識別,沒有數(shù)據(jù)庫。它不僅要識別物體,還要識別每一個像素,所以對計算量要求非常高。
在生物世界里,雙目視覺非常重要,哺乳動物都有雙目視覺,而且越兇猛的食肉的動物雙目重疊的區(qū)域越大,用雙目獲得的深度信息去主動捕捉獵物。吃草的或被吃的動物視覺單目視覺,視野很寬,只有識別而無深度,目的是被進(jìn)攻時跑得快!
在這一輪的CNN之前,計算機(jī)視覺里面研究最多的是三維重建這樣的問題,在CNN之前有非常好的人工設(shè)計的視覺特征,這些東西本質(zhì)上最早都是為三維重建而設(shè)計,例如SIFT特征。而在這之后的“識別”,只是把它放在一個沒有結(jié)構(gòu)的圖像數(shù)據(jù)庫里去搜索而已。 由此可見,現(xiàn)代三維視覺是由三維重建所定義。CNN誕生之前,它曾是視覺發(fā)展的主要動力源于幾何,因為它的定義相對清晰。
計算機(jī)視覺中的三維重建包含三大問題:一、定位置。假如我給出一張照片,計算機(jī)視覺要知道這張照片是在什么位置拍的。二、多目。通過多目的視差獲取三維信息,識別每一個像素并進(jìn)行匹配,進(jìn)行三維重建。三、語義識別。完成幾何三維重建后,要對這個三維信息進(jìn)行語義識別,這是重建的最終目的。
這里我再強調(diào)下,我們要把三維場景重新捕捉,但三維重建不是最終的目的,而是要把識別加進(jìn)去,所以說最終的應(yīng)用肯定要把三維重建和識別融為一體。
ResNet 為什么能夠工作呢?
到今天也沒有一個明確答案,當(dāng)然有很多解釋。最直觀的解釋是說當(dāng)你的非線性變換層數(shù)非常多,相鄰兩層變換的差別就非常小,與其直接學(xué)習(xí)這個映射,不如學(xué)習(xí)映射的變化,這樣的方式就讓整個學(xué)習(xí)過程,特別是訓(xùn)練優(yōu)化過程變得更容易。
還有一個解釋來自該論文的第二作者張祥雨,他認(rèn)為 ResNet 的整個學(xué)習(xí)過程是一個由淺到深的動態(tài)過程,在訓(xùn)練初期等效訓(xùn)練一個淺層網(wǎng)絡(luò),在訓(xùn)練后期等效訓(xùn)練一個深層網(wǎng)絡(luò)。
論文第一作者何愷明有另外一個更“科學(xué)”的解釋,他認(rèn)為整個訓(xùn)練過程相當(dāng)于深度學(xué)習(xí)的梯度下降過程中,最為困難的梯度消失問題被 ResNet 解決了,該解釋也發(fā)表在 ECCV 2016 的一篇論文(Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Identity Mapping in Deep Residual Networks. ECCV 2016.)中,并在該論文中第一次訓(xùn)練了一個 1001 層的神經(jīng)網(wǎng)絡(luò)。
還有一些同行提出的解釋。一種是把 ResNet 和 RNN 關(guān)聯(lián)起來,認(rèn)為如果有 Weight Share, ResNet 可以看作是一種 RNN。還有一種解釋把 ResNet 看成是指數(shù)多個不同深度網(wǎng)絡(luò)的集成。用“集成”這個詞其實有些問題,因為一般我們做集成算法不聯(lián)合訓(xùn)練,但這里面整個 ResNet 里指數(shù)多個網(wǎng)絡(luò)是聯(lián)合訓(xùn)練的,所以很難定義它是不是集成。
我個人比較認(rèn)同的一種解釋是 Iterative Refinement,它是說網(wǎng)絡(luò)初期的層學(xué)習(xí)表示,后期很多層不斷迭代和 Refine 這個表示。這跟人理解看圖識字很相似,一個不容易理解的東西你要看一會,是基于當(dāng)前一些已看內(nèi)容的理解,反復(fù)看才能看懂。
還有從從優(yōu)化觀點的解釋,如果不用 ResNet 這種構(gòu)造,系統(tǒng)的損失函數(shù)會非??涌油萃莺透叩筒黄剑院茈y優(yōu)化。我們知道整個網(wǎng)絡(luò)訓(xùn)練是非凸的優(yōu)化問題,如果是這種不光滑的損失函數(shù),訓(xùn)練很難跳出局部極??;如果是上圖右邊使用 ResNet 的情況,就可以比較容易地達(dá)一個很好的局部極小。最近研究表明,局部極小區(qū)域的面積和平坦性和一個方法的推廣能力非常強相關(guān)。
多層 ResNet 學(xué)習(xí)高度非線性映射的能力非常強。去年,ResNet 成功應(yīng)用于 DeepMind 的 AlphaGo Zero 系統(tǒng)中,用 一個40 或 80 層的網(wǎng)絡(luò)就可以學(xué)到從棋盤圖像到落子位置這樣一個高度復(fù)雜的映射,這非常讓人吃驚。
?2012 年開始有各種各樣的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)出現(xiàn)。如果從計算平臺的角度看這些工作,大概可以分成三類:第一類是在“云”上,像 GoogleNet、ResNet,其目標(biāo)是向著最高精度方向走,有 GPU、TPU 可以訓(xùn)練非常大的模型,來探知我們的認(rèn)知邊界;
第二類平臺是在“端”上,特別是一些嵌入式設(shè)備,這些設(shè)備上的計算能力,內(nèi)存訪問都有限制,但很多真實的場景就是如此,那你怎么去做這上面的研究工作呢?谷歌在去年提出 MobileNet 運行在移動端設(shè)備上,曠視科技去年提出 ShuffleNet,其目標(biāo)是說如何在一個給定計算量的設(shè)備上得到最好的效果。
一個網(wǎng)絡(luò)的最基本結(jié)構(gòu)是多個 3×3 的卷積,ResNet 加了一個跳轉(zhuǎn)連接,我們在 ResNet 中還引入一個 Bottleneck 結(jié)構(gòu),先做 1×1,再做 3×3,再回到 1×1,這樣可以提高卷積的效率。
去年何愷明有一項工作叫 ResNeXt。
它在 3x3 的基礎(chǔ)上引入分組卷積的方法,可以很好地提高卷積的有效性;谷歌的 MobileNet 是一個 3x3 分層卷積的方式,每個層各卷各的,這種方式非常有效,特別是在低端設(shè)備上。ShuffleNet 結(jié)合分組卷積和分層卷積的思想,對 1×1 Conv 分組;但是如果只分組的話,組間的信息不會交換,這樣會影響特征學(xué)習(xí),因此我們通過引入 Shuffle 操作,讓不同分組的信息更好地交換,然后做 3×3 的分層卷積,再回到 1×1 分組卷積,這就是 ShuffleNet 的核心思想。和其它方法相比,在相同的精度下,ShuffleNet 在真實設(shè)備上的速度要比 AlexNet 快 20 倍左右。
我們?nèi)ツ陮槭謾C(jī)設(shè)計的 ShuffleNet,它在 CPU/ARM 上效果非常好;如果在 GPU 上,它的性能并不好,因為 CPU 和 GPU 的特性不太一樣,這里面有很多原因,比如卷積的設(shè)計,Group 卷積等等,我就不贅述了。
今年我們設(shè)計了 ShuffleNet v2,也就是第二版,拋棄分組卷積的思想,引入 Channel Split 和 Channel Shuffle 組合的新方法。這個方法把 Channel 先一分為二,并把每個分支用非常簡單的結(jié)構(gòu)來做,然后在用 Shuffle 操作合并 Channel,這樣做的根源是我們在網(wǎng)絡(luò)設(shè)計中發(fā)現(xiàn)的一些基本指導(dǎo)原則,比如說我們需要平衡的卷積而不是稀疏的卷積,更加規(guī)整的卷積而不是零亂的卷積。
這項工作目前在 CPU 和 GPU 上都獲得了最好的精度和速度;不光在小模型,在大模型上同樣取得了非常好的效果,上圖最后一行是說 ShuffleNet v2 目前在計算量只有 12.7G Flops 情況下在 ImageNet 上取得了非常高的精度。
我們還需要將神經(jīng)網(wǎng)絡(luò)運行在芯片上,這不光對網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計有要求,還要對網(wǎng)絡(luò)內(nèi)部精度的表示做限制,現(xiàn)在最流行的方法是做低精度化,比如 BNN 和 XNOR Net,還有曠視科技提出的 DorefaNet。低精度方法是指神經(jīng)網(wǎng)絡(luò)的權(quán)重或激活值用低精度表示,比如 1 位,2 位,4 位。如果可以用低精度表示兩個向量,那么卷積計算就可以通過芯片上非常簡單的位運算完成計算。
我們提出的 DorefaNet 是第一個對梯度也做量化的研究工作,從而可以讓我們在 FPGA 甚至 ASIC 上訓(xùn)練。在這些設(shè)備上計算量是一方面,但是它的內(nèi)存訪問限制更大,DorefaNet 這種方法可以做到更好。上圖是我們在 ImageNet 上得到的 1 位,2 位,4 位和 6 位量化精度下的最好分類結(jié)果。
上述分類問題網(wǎng)絡(luò)設(shè)計需要考慮不同的平臺,其它問題多是以分類為基礎(chǔ),比如說檢測,上圖是檢測最近幾年的發(fā)展路程,從 R-CNN 到我們提出的 SPP-Net,到 Fast R-CNN,再到我們提出的 Faster R-CNN,它們都是先應(yīng)用基礎(chǔ)分類網(wǎng)絡(luò),然后構(gòu)建不同的物體檢測框架。
再往下應(yīng)該怎么做呢?今天我們是分平臺,根據(jù)平臺的特性設(shè)計不同的網(wǎng)絡(luò)。我們相信下一代會有一個“MetaNet”,統(tǒng)一解決各個平臺上的神經(jīng)網(wǎng)絡(luò)設(shè)計和優(yōu)化的問題。
深度學(xué)習(xí)開啟了計算機(jī)視覺發(fā)展的黃金時代,這幾年里計算機(jī)視覺取得了長足發(fā)展,但這種發(fā)展是粗放式的,是用數(shù)據(jù)和計算資源堆出來的,這種發(fā)展模式是否可以持續(xù),值得深思。
隨著計算機(jī)視覺在準(zhǔn)確率方面觸頂,行業(yè)應(yīng)該尋求更多層面的發(fā)展。商湯主要嘗試從三大方面提升:一、提高計算資源的使用效率;二、降低數(shù)據(jù)資源的標(biāo)注成本;三、提高人工智能的品質(zhì)。
一、如何提高效率
目前大多數(shù)玩家現(xiàn)在走的是粗放型發(fā)展路線,是靠堆積數(shù)據(jù)和計算資源來換取高性能,這是資源而不是效率的競賽。
行業(yè)發(fā)展到今天,制定標(biāo)準(zhǔn)的公司賺取了大部分利潤,面對這種情況,未來該如何發(fā)展?
要回答這個問題,首先要回顧現(xiàn)在的模型和技術(shù)模式,看是否還有優(yōu)化的空間,優(yōu)化的原理非常簡單,就是把好鋼用在刀刃上。
兩年前商湯開始進(jìn)入視頻領(lǐng)域,視頻對效率的要求非常高,因為視頻的數(shù)據(jù)量非常龐大,一秒鐘視頻有 24 幀,一分鐘就是 1500 幀,相當(dāng)于一個中型數(shù)據(jù)庫,用傳統(tǒng)處理圖像的方式處理視頻顯然不合適。
2013、2014 年的時候,大部分視頻分析方法都比較簡單粗暴:把每一幀都拿出來跑一個卷積網(wǎng)絡(luò),最后把它們綜合到一起進(jìn)行判斷。
雖然說過去幾年計算資源發(fā)展非??欤?GPU 的顯存還是有限的,如果每一層都放到CNN里去跑,GPU 顯存只能容納 10 幀到 20 幀左右,一秒鐘的視頻就把 GPU 占滿了,沒辦法長時間對視頻進(jìn)行分析,這是一種非常低效的模式。
視頻相鄰幀之間的重復(fù)度非常高,如果每一幀都跑一次,其實大量計算資源都被浪費了,意識到這種重復(fù)計算模式的低效后,他們對采樣方法進(jìn)行了改變,改用稀疏采樣:無論多長的視頻,都劃分成等長的段落,每個段落只取一幀。
這樣一來就能在時間上對視頻形成完整覆蓋,分析出的結(jié)果自然具有較高的可靠性和準(zhǔn)確性。
我們希望把這樣一個技術(shù)用在實際場景,得到實時性的物體檢測的框架。如果每一幀都是按剛才的方法處理,需要 140 毫秒,完全沒有辦法做到實時。但如果稀疏地去采,比如說每20幀采一次,中間的幀怎么辦呢?
大家可能想到用插值的方法把它插出來,但是他們發(fā)現(xiàn)這個方法對準(zhǔn)確度影響很大,隔 10 幀采一次,中間的準(zhǔn)確度差距很大。
在新提出的方法里,他們利用幀與幀之間相互的關(guān)系,通過一個代價小得多的網(wǎng)絡(luò)模塊,只需要花5毫秒,在幀與幀之間傳遞信息,就能很好地保持了檢測精度。
重新改變了做視頻分析的路徑之后,整體的代價就得到了大幅度的下降,這其中沒有什么新鮮的東西,網(wǎng)絡(luò)都是那些網(wǎng)絡(luò),只是說重新去規(guī)劃了視頻分析的計算路徑,重新設(shè)計了整個框架。
自動駕駛需要對駕駛過程中的場景自動地進(jìn)行理解和語義分割,這也是一個非常成熟的領(lǐng)域。但大家一直沒關(guān)注到點子上,大家關(guān)注的是分割的準(zhǔn)確率,像素級的準(zhǔn)確率,這是沒有意義的。我們真正做自動駕駛,關(guān)心的是人在你車前時,你能以多快的速度判斷出有個人在那里,然后做出緊急處理。所以在自動駕駛的場景,判斷的效率、判斷的速度是非常重要的。之前的方法處理一幀要 100 多毫秒,如果真有一個人出現(xiàn)在車前面,是來不及做出反應(yīng)的。
利用剛才所說的方法,我們重新改造了一個模型,充分地使用了幀與幀之間的聯(lián)系,我們可以把每一幀處理的效能從 600 毫秒降低到 60 毫秒,大幅度地提高了這個技術(shù)對于突發(fā)情景響應(yīng)的速度。
二,如何降低數(shù)據(jù)標(biāo)注成本
人工智能是先有人工才有智能,有多少人工才有多少智能。人工智能有今天的繁榮,不能忘記背后默默奉獻(xiàn)的成千上萬的數(shù)據(jù)標(biāo)注人員。今天商湯有近 800 名標(biāo)注員在日夜不斷地標(biāo)注數(shù)據(jù),一些大公司的標(biāo)注團(tuán)隊更是多達(dá)上萬人,這也是一塊巨大的成本。
如何降低數(shù)據(jù)標(biāo)注的成本,是我們每天都在思考的事情。既然很多東西沒法通過人工標(biāo)注,是否可以換個思路,從數(shù)據(jù)、場景中尋找它本身就蘊含的標(biāo)注信息?
我們?nèi)ツ甑囊豁椦芯砍晒?,嘗試了一種全新的學(xué)習(xí)方式。過去圖片的標(biāo)注成本非常高,每張圖片不僅要標(biāo)注,還要把目標(biāo)物體框出來。比如學(xué)習(xí)識別動物,需要人工把動物標(biāo)出來。我們小時候?qū)W習(xí)辨認(rèn)動物的過程不是這樣的,不是老師給我一個帶框的圖片去學(xué)習(xí),而是通過看《動物世界》學(xué)習(xí)的。這促使我產(chǎn)生了一個想法:能否讓模型通過看《動物世界》,把所有動物識別出來?紀(jì)錄片中有字幕,如果把它跟視覺場景聯(lián)系在一起,模型是否就能自動學(xué)習(xí)?為此我們設(shè)計了框架,建立起視覺與文本之間的聯(lián)系,最后得出了下圖中的結(jié)果。
我們在沒有任何標(biāo)注和人工干預(yù)的情況下,靠看《動物世界》和《國家地理》雜志,能夠精確識別的幾十種動物。
此外,做人臉識別也需要標(biāo)注大量人臉數(shù)據(jù)。其中有一些數(shù)據(jù),比如我們的家庭相冊,這些相冊雖然沒有標(biāo)注,但卻蘊含很多信息。
大家看下面這張圖,這是電影《泰坦尼克號》中的一些場景。
左上角這個場景,如果光看人臉很難認(rèn)出這兩個人是誰。再看右上角第一個場景,我們可以認(rèn)出左邊這個人是 Rose,但右邊這個穿西裝的人還是看不清。如果我們能識別出電影背后的場景,就會發(fā)現(xiàn) Jack 和 Rose 經(jīng)常出現(xiàn)在同一個場景。基于這種社交互動信息,我們可以推斷,那個穿黑西裝的男子可能是 Jack。這樣一來,在不用標(biāo)注人臉的情況下,我們就獲取了大量有意義的數(shù)據(jù)。
我們還把這項技術(shù)用到了安防領(lǐng)域:一個人從深圳的街道這頭走到那頭,人臉圖像經(jīng)常會發(fā)生變化,但只要能追蹤到他的軌跡,我們就能判斷所拍攝到的人臉屬于同一個人,這對訓(xùn)練人臉模型是非常寶貴的信息。
三、如何提高人工智能質(zhì)量
人工智能的最終目的是為生活帶來便利,提高生活質(zhì)量。但最近幾年人工智能的發(fā)展好像步入了誤區(qū),認(rèn)為人工智能的質(zhì)量和準(zhǔn)確率掛鉤。我覺得人工智能的質(zhì)量是多方面、多層次的,不僅僅是準(zhǔn)確率。
給大家看幾個例子。“看圖說話”是近幾年特別火的領(lǐng)域,即向計算機(jī)展示一張圖片,讓它自動生成描述。下圖是我們用最新方法得出的結(jié)果。
大家發(fā)現(xiàn),我們向這個最好的模型展示三張不同的圖片,它會說同一句話,這句話在標(biāo)準(zhǔn)測試中的得分非常高,沒有任何問題。但我們把它和人類的描述放在一起后發(fā)現(xiàn),人類不是這樣說話的。人類描述一張圖片的時候,即使面對同一張圖片,不同人的表述是不一樣的。也就是說,人工智能在追求識別準(zhǔn)確度的時候忽略了其他的品質(zhì),包括語言的自然性和圖片的特征。
為了解決這個問題,去年我們提出了一個新方法。它不再把內(nèi)容描述看成翻譯問題,而是把它當(dāng)做一個概率采樣問題。它承認(rèn)描述的多樣性,承認(rèn)每個人看到同一張圖片會說不同的話。我們希望把這個采樣過程學(xué)習(xí)出來。
我們再發(fā)散延伸一下:既然 AI 模型能生成一句話,那么是不是也能生成一段動作?下圖展示了我們的一項最新研究,很多AI公司都在做這方面的研究,讓 AI 生成一段生動的舞蹈。下面是一些簡單的動作,這些動作都是計算機(jī)自動生成的,不是我們用程序描述出來的。
最后,對前面的分享做一個總結(jié)。過去幾年,人工智能和深度學(xué)習(xí)都取得了突飛猛進(jìn)的發(fā)展,這種發(fā)展既體現(xiàn)在標(biāo)準(zhǔn)數(shù)據(jù)集上的準(zhǔn)確率提升,也體現(xiàn)在商業(yè)場景的落地。但回顧這一段發(fā)展歷程,我們發(fā)現(xiàn),朝著準(zhǔn)確率高歌猛進(jìn)的過程中我們也遺忘了很多東西。我們的效率是否足夠高?我們是否在透支數(shù)據(jù)標(biāo)注的成本?我們訓(xùn)練出的模型是否能夠滿足現(xiàn)實生活對品質(zhì)的要求?從這些角度來看,我覺得我們才剛剛起步。雖然我們實驗室和世界上許多其他實驗室取得了一些重要進(jìn)展,但我們?nèi)匀惶幵谄鸩诫A段,前面還有很長的路要走。雷鋒網(wǎng)
計算機(jī)視覺技術(shù)應(yīng)用路上,道阻且長,尚有無數(shù)未知黑暗森林亟待探索。
歷史車輪滾滾勢不可擋,每隔一段時間都會有新的技術(shù)突破。
一年后,“MetaNet ”式能夠統(tǒng)一解決各個平臺上的神經(jīng)網(wǎng)絡(luò)設(shè)計和優(yōu)化問題的框架,是否有進(jìn)展?技術(shù)的迭代又匹配了哪些城市場景?而這是否又會帶來新一輪的市場洗牌?
六天后,雷鋒網(wǎng)AI掘金志將帶你共同見證「智慧城市·視覺智能」的未來,尋找問題的最優(yōu)解。雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章