0
本文作者: 張瑞 | 2019-03-29 10:08 | 專題:2019中國人工智能安防峰會(huì) |
3月23日,由雷鋒網(wǎng) & AI掘金志主辦的「第二屆中國人工智能安防峰會(huì)」在杭州召開。
峰會(huì)現(xiàn)場,王金橋教授以《AI中臺引擎:連接、計(jì)算與賦能》為主題,闡述了目前視頻系統(tǒng)存在的問題,以及AI中臺引擎如何助力AI場景化多元化落地。
王金橋是國內(nèi)知名計(jì)算機(jī)視覺與視頻分析專家、中國科學(xué)院自動(dòng)化研究所模式識別國家重點(diǎn)實(shí)驗(yàn)室研究員、同時(shí)作為中科視語董事長,對產(chǎn)學(xué)研的融合頗有心得。
王金橋指出,盡管智慧城市和智能安防的發(fā)展速度驚人,但其中仍然存在幾大問題:第一、當(dāng)前的視頻系統(tǒng)組網(wǎng)復(fù)雜,難以維護(hù),平臺不兼容的問題仍然明顯;第二、協(xié)議標(biāo)準(zhǔn)、數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一,設(shè)備的數(shù)據(jù)和編碼分散,兼容性非常差;第三、存在大量的信息孤島,無法統(tǒng)一管理;第四、AI芯片整體產(chǎn)能不足,分析效率有待提升。
“我們現(xiàn)有的數(shù)據(jù),以及我們未來對焦的數(shù)據(jù)平臺如何關(guān)聯(lián)、如何引用,是現(xiàn)在能力發(fā)展所遇到的困難。所以未來就更需要這種開放式的AI平臺?!被诖?,王金橋教授提出了AI中臺的概念。
“AI中臺引擎,有一個(gè)重要組成部分“AI智能盒”,也就是一個(gè)“AI中間件”,可以一鍵安裝實(shí)現(xiàn)多樣化的設(shè)備連接,無縫兼容多樣化的終端,簡單來說就是能夠連接一切視覺設(shè)備,同時(shí)通過AI中臺引擎的連接,中間件將各種數(shù)據(jù)傳到AI中臺,便可實(shí)現(xiàn)AI與各種云端相結(jié)合,形成連接智能的作用”,王教授說。他希望無論是什么類型的視覺數(shù)據(jù),中間件都能發(fā)揮“連接智能”的作用,在各種云端和AI相結(jié)合。其次,是希望中間件能夠兼容硬件設(shè)備,并且對視頻進(jìn)行有效傳輸,打破信息孤島,成為一個(gè)統(tǒng)一的協(xié)議出口。
王教授認(rèn)為,2018年是AI落地元年,2019年將是場景化AI場景化規(guī)?;涞氐拈_始。只有形成定制化的應(yīng)用,滿足用戶的需求,才能把算法和數(shù)據(jù)有效結(jié)合,去解決細(xì)分領(lǐng)域、細(xì)分場景的問題,這才能夠真正實(shí)現(xiàn)AI落地,實(shí)現(xiàn)百花齊放。
以下為王金橋的現(xiàn)場演講內(nèi)容,雷鋒網(wǎng)作了不改變原意的編輯及整理:
感謝雷鋒網(wǎng)的邀請。
前面很多嘉賓講了一人一檔、開放式平臺,我想給大家分享的主題是《AI中臺引擎》。我認(rèn)為,在智慧城市等各個(gè)領(lǐng)域,AI起到的其實(shí)是中臺引擎的作用,包含幾個(gè)方面:連接、計(jì)算與賦能。
我們知道,視頻數(shù)據(jù)正在呈爆發(fā)式增長。同時(shí),5G和AI芯片的到來給視頻數(shù)據(jù)的傳輸和計(jì)算增添了新的增長點(diǎn),給未來城市級的安防和監(jiān)控創(chuàng)造了許多新的產(chǎn)業(yè)機(jī)會(huì)。其中,AI起到的最重要的作用就是語義計(jì)算。
前面很多嘉賓講到智慧城市的發(fā)展。其實(shí),早在古代我們就開始了對城市的觀察、監(jiān)控和管理,并利用烽火臺進(jìn)行通訊。只不過,今天我們使用的技術(shù)已經(jīng)發(fā)展到了第四代視覺計(jì)算。第四代視覺計(jì)算的目標(biāo)是將過去的“被動(dòng)式防御”變成“主動(dòng)式預(yù)警”。
從“被動(dòng)式防御”變成“主動(dòng)式預(yù)警”就涉及到?jīng)Q策,而決策又涉及多種多樣的任務(wù)和需求。
今天,我們視頻系統(tǒng)的能力還存在許多不足:
第一、當(dāng)前的視頻系統(tǒng)組網(wǎng)復(fù)雜,難以維護(hù),平臺不兼容的問題仍然明顯;第二、協(xié)議標(biāo)準(zhǔn)、數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一,設(shè)備的數(shù)據(jù)和編碼分散,兼容性非常差;第三、存在大量的信息孤島,無法統(tǒng)一管理;第四、AI芯片整體產(chǎn)能不足,分析效率有待提升。
這給我們做一個(gè)開放式的、AI賦能的平臺帶來了許多障礙。未來,如何將現(xiàn)有的數(shù)據(jù)和新增的數(shù)據(jù)進(jìn)行關(guān)聯(lián)和引用是我們需要解決的問題。
我們知道,2014年AI就在人臉識別上超過了人類,但直到2018年這項(xiàng)技術(shù)才大規(guī)模落地,而且當(dāng)時(shí)主要用到的是1:1人臉比對。人臉識別技術(shù)的場景化經(jīng)歷了四五年,過程非常之艱難。但我認(rèn)為,2019年將是AI場景化、規(guī)?;蛘哒f百花齊放的一年。AI將在社區(qū)、考勤、門店、終端等各個(gè)場景實(shí)現(xiàn)定制化。只有定制化的應(yīng)用,才能把算法和數(shù)據(jù)有效結(jié)合,從而解決實(shí)際問題。
我們的“AI智能中臺”中有個(gè)硬件,叫做中間件。我們希望來自不同設(shè)備的、不同類型的視覺數(shù)據(jù),通過網(wǎng)口連接到這個(gè)中間件后,就能夠在業(yè)務(wù)層和云端的AI相結(jié)合。它起到的是連接智能的作用。
中間件主要可以解決幾個(gè)問題:一是開發(fā)的問題,不需要再針對現(xiàn)有的設(shè)備重新開發(fā)一套平臺;二是能夠兼容各種各樣的設(shè)備,插入之后在云端打開一個(gè)網(wǎng)址就能看到所有我想要的東西;三是通過4G和5G將視頻進(jìn)行有效傳輸,打破信息孤島;最后,我們希望這個(gè)中間件能夠變成數(shù)據(jù)的統(tǒng)一協(xié)議出口,對接后面的AI中臺。
我們的產(chǎn)品視接盒,它可以兼容目前大多數(shù)模擬和數(shù)字?jǐn)z像機(jī)。無論何種編碼格式的數(shù)據(jù)都可以在這里重新編碼、定位和傳輸,無縫對接AI、4G、北斗等等。這是一個(gè)全新的硬件。
我們還提供視頻匯聚中臺,支持?jǐn)?shù)據(jù)的定發(fā)、轉(zhuǎn)發(fā),將數(shù)據(jù)推到阿里云等各種業(yè)務(wù)應(yīng)用場景。我們提供的解決方案主要面向智慧城市——包括車輛、人臉識別,智能制造、新零售等場景。其中,智能制造是工業(yè)史上的一個(gè)新命題。
目前,視頻結(jié)構(gòu)化或者說目標(biāo)檢測,依舊是一個(gè)非常難的問題,比如人的跨鏡頭追蹤,在公開數(shù)據(jù)集中的準(zhǔn)確率只有88%,還有很長的路要走。
我們希望我們的中臺能夠支持多任務(wù)聯(lián)合計(jì)算。所謂多任務(wù)聯(lián)合計(jì)算,就是說一個(gè)神經(jīng)網(wǎng)絡(luò)能夠同時(shí)完成目標(biāo)檢測、場景解析和目標(biāo)識別。
下圖是我們?nèi)ツ陞⒓訜o人駕駛競賽的場景。在同一個(gè)模型上,我們能夠同時(shí)解決可行駛區(qū)域的解析,人、車、物的結(jié)構(gòu)化檢測,還有車牌、車距和交通標(biāo)志的識別。
在這個(gè)任務(wù)中,我們使用了基于耦合自學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)量化目標(biāo)檢測引擎。我們通過AutoL的模型,和華為、??怠⒈忍卮箨懙葟S商的芯片,打造了基于AI中臺的神經(jīng)網(wǎng)絡(luò)編譯器,能夠?qū)崿F(xiàn)4比特甚至2比特的快速神經(jīng)網(wǎng)絡(luò)計(jì)算,使它進(jìn)行無損壓縮和自動(dòng)量化,實(shí)現(xiàn)多重功能的聚合。
下圖展示了我們?nèi)ツ瓯荣惖慕Y(jié)果。在三項(xiàng)任務(wù)中,我們只用了一個(gè)10G算力的GPU,就達(dá)到了第二名4倍的總成績和10倍的計(jì)算速度。
我們的多任務(wù)同時(shí)優(yōu)化算法可以使一個(gè)普通CPU實(shí)現(xiàn)1080P的全視頻結(jié)構(gòu)化和檢測、追蹤。
下面介紹幾個(gè)具體的應(yīng)用場景。以大家經(jīng)常提的車輛識別為例,它跟人臉識別類似。我們經(jīng)過十多年的研發(fā),和交通部、公安部合作,取得了許多重大成果。
其實(shí)每輛車都有自己特定的身份。我們通常只知道自己車的款式,但依然能夠在茫茫車海中找到自己那輛,靠的就是車的身份識別。通過局部算法,我們能夠?qū)崿F(xiàn)對車的精細(xì)化特征——也就是車紋識別。我們在國際上做了一個(gè)目前最大的、針對電子警察和卡口的車輛數(shù)據(jù)集,叫Vehicle-1M。我們也將發(fā)布面向開放場景的更大的數(shù)據(jù)集,以實(shí)現(xiàn)在沒有車牌的情況下識別所有車的身份。
我們在神經(jīng)網(wǎng)絡(luò)上做過驗(yàn)證,發(fā)現(xiàn)每輛車的車窗部分都是有差異的。一輛車售出后,它的年檢標(biāo)、紙巾盒、掛件等就構(gòu)成了它在某個(gè)時(shí)間段的獨(dú)特身份。層級式注意力耦合網(wǎng)絡(luò)可以對它的這些特征進(jìn)行學(xué)習(xí),實(shí)現(xiàn)很好的識別效果。當(dāng)然這個(gè)過程也依賴于大數(shù)據(jù)的積累。
我們在全國大約6個(gè)省份推出了面向高速公路和靜態(tài)停車場的無感車輛收費(fèi)系統(tǒng)。無需借助車牌,就可以完成檢測、追蹤和收費(fèi)的整個(gè)過程。我們甚至還能精細(xì)刻畫每個(gè)車的噸位、排放,從而在大城市依據(jù)不同道路情況對車輛的噸位和排放進(jìn)行自動(dòng)治理。
車輛識別在交通罰款領(lǐng)域也應(yīng)用得非常多,不過還有很大的改善空間,需要跟場景進(jìn)一步結(jié)合。
舉兩個(gè)例子。一個(gè)是今天交管發(fā)的一條新聞,說有個(gè)人在開車的時(shí)候摸了一下頭發(fā),被誤認(rèn)為在打電話,被罰了款。如何精準(zhǔn)地區(qū)分摸頭發(fā)和打電話呢?這是個(gè)定制化的場景,目前誤報(bào)還非常多。
另一個(gè)是說,有輛車出了事故,拖車從應(yīng)急車道把它拖走。結(jié)果攝像頭拍到它占用應(yīng)急車道,也罰了款。
上面兩個(gè)例子說明,算法跟場景和業(yè)務(wù)必須深度結(jié)合。AI作為視覺中臺,可以有效地提供AI算法,讓做服務(wù)的公司專心做好服務(wù),做應(yīng)用的公司專心做好算法和場景的結(jié)合。
無人值守路測停車也是一種常見應(yīng)用,我們在雄安、通州和東莞都有落地。我們在一個(gè)桿子上裝上攝像頭,一個(gè)攝像頭可以看7-8個(gè)車位。車輛停進(jìn)去后我們拍一張照片,等它走的時(shí)候再拍一張照片,通過計(jì)算兩張照片中間的時(shí)間間隔,再連接上交管APP就可以實(shí)現(xiàn)自動(dòng)收費(fèi)。
人臉識別大家都很熟悉,但其實(shí)它是個(gè)非常難的技術(shù),尤其是在海量數(shù)據(jù)規(guī)模的情況下。算法在網(wǎng)絡(luò)數(shù)據(jù)集和實(shí)際場景中識別精度之間還存在著巨大的鴻溝。公開數(shù)據(jù)集中千萬分之一誤識率的算法,到了實(shí)際場景中識別精度可能只有66%。即使我們結(jié)合了身份等各種信息,算法在實(shí)際場景中的精度依舊很難提升。
人臉三維識別,也就是我們常說的側(cè)臉識別。近幾年通過GAN、渲染和幾何學(xué)的方法,三維數(shù)據(jù)有了爆炸式的增長。據(jù)我們驗(yàn)證,在根據(jù)側(cè)臉生成正臉方面,幾何學(xué)+渲染的方法要?jiǎng)龠^GAN。GAN對性能的提升其實(shí)非常有限,投入產(chǎn)出比很低,還不如派人力去采集大量數(shù)據(jù)。
此外,我們還結(jié)合了人體信息,相當(dāng)于人體和人臉的聯(lián)合學(xué)習(xí)。這種方法最大的缺陷在于人體的不可靠性。在比較理想的情況下,我們可以清晰判斷兩個(gè)圖像是不是同一個(gè)人。但在遠(yuǎn)距離、圖像比較小的情況下,數(shù)據(jù)標(biāo)注是非常大的挑戰(zhàn)。我們甚至還融入了步態(tài),將多種維度的信息進(jìn)行融合,我們稱之為多維立體感知,通過這種方法解決開放式場景的無感人員管理。這是目前行業(yè)內(nèi)的一大研究趨勢。
另外,我們還可以結(jié)合更多的信息,比如聯(lián)通和電信的數(shù)據(jù)、高鐵的數(shù)據(jù)、酒店的數(shù)據(jù),在全省范圍查詢某個(gè)人的軌跡。下圖展示了我們在河南和湖北用到的一些方案。
我們的中間件目前已經(jīng)推出,全國好多個(gè)地方都在用,我們希望它能夠在各個(gè)領(lǐng)域發(fā)揮巨大的價(jià)值。
在國家“雙創(chuàng)計(jì)劃”的鼓勵(lì)下,我們做科研的同時(shí),也自主創(chuàng)業(yè)成立了一家公司“視語科技”。我們公司的愿景就是,通過AI中臺讓這個(gè)世界更加溫暖。
由雷鋒網(wǎng) & AI掘金志主辦的「2019中國人工智能安防峰會(huì)」,是業(yè)內(nèi)極具影響力的AI安防論壇,致力于推動(dòng)中國“AI-安防”落地融合與“學(xué)術(shù)-產(chǎn)業(yè)”的應(yīng)用交叉。
延續(xù)上一屆峰會(huì)的高水準(zhǔn)、高人氣,2019中國人工智能安防峰會(huì)再度站在算法、工程和產(chǎn)品的最前沿,引導(dǎo)安防行業(yè)認(rèn)知再升級。這是???、大華、華為、阿里、騰訊以及多個(gè)AI獨(dú)角獸,因“AI安防”首次同臺,峰會(huì)現(xiàn)場也聚集了海內(nèi)外1000多位政企管理層和技術(shù)研究員,共同探討2019年的AI安防智能技術(shù)部署、前沿算法應(yīng)用與商業(yè)戰(zhàn)略布局。
本次峰會(huì)共設(shè)置“城市大腦與邊緣計(jì)算”、“世界頂尖算法應(yīng)用”、“前端動(dòng)態(tài)識別與智能視頻云”、“城市AIoT與邊緣智能引擎”四大議題,出席的15位演講嘉賓分別是:
上午場:阿里巴巴華先勝、??低暺质懒?、大華股份殷俊、地平線張永謙、深瞐科技陳瑞軍、商湯科技張果琲、浪潮商用機(jī)器張琪。
下午場:香港科技大學(xué)權(quán)龍、原松下(新加坡)研究院申省梅、華為余虎、觸景無限肖洪波、曠視科技安洋、千視通胡大鵬、騰訊李牧青、中科院自動(dòng)化所王金橋。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。