0
本文作者: 李雨晨 | 2019-11-04 10:17 | 專題:2019全球AI芯片·城市智能峰會 |
10月27日,由雷鋒網 & AI掘金志主辦的「全球AI芯片·城市智能峰會」,在深圳大中華喜來登酒店盛大召開。
延續(xù)雷鋒網大會一貫的高水準、高人氣,「全球AI芯片·城市智能峰會」以“城市視覺計算再進化”為主題,全面聚焦城市視覺與城市算力領域,是業(yè)內首個圍繞“算法+算力”展開的大型智能城市論壇。
峰會邀請到了業(yè)內極具代表性的14位業(yè)內知名專家,世界頂尖人工智能科學家、芯片創(chuàng)業(yè)大牛、產業(yè)巨頭首席技術高管、明星投資人齊聚,為行業(yè)資深從業(yè)者們分享前瞻的技術研究與商業(yè)模式方法論。
此次大會上,天地偉業(yè)總工程師楊清永發(fā)表了《AI 時代的安防新理念》的主題演講。
楊清永表示,安防行業(yè)分別經歷了三個時代的變遷:模擬時代、數字時代和智能時代。而數字時代,存儲成本高、數據可讀性差、取證難度大等弊端,決定了向智能時代的跨越是一條必經之路。
而在安防的智能時代,主要是為了實現身份識別和行為識別兩大目標。但楊清永認為,未來安防AI的發(fā)展方向將是全目標識別,“也就是在一個視頻里,所有能看到的東西都能夠進行身份識別、行為識別,最終讓攝像機能夠看懂世界?!?/p>
楊清永是安防行業(yè)的一名老兵。他說到,2015、16年時,每年安防展的人數都在縮減,安防行業(yè)進入了一個洗牌的時代。 但是這兩年,安防展越來越火,參展人數越來越多,這是AI給安防行業(yè)帶來的新活力,也給業(yè)內人士的實戰(zhàn)理念帶來了變化。
在他看來,AI時代的安防產品必須將產品和用戶的應用場景結合起來,針對用戶的痛點設計出一套解決方案,最終實現用戶的價值?!罢嬲闷饋?,用戶才會買你的東西。普通錄像機就可以錄像,為什么要買帶人臉識別的呢?”
楊清永在演講中表示,未來安防會向AI解決方案和AI產品兩種方向發(fā)展。兩種方式目前沒有分出勝負,而競爭力的核心和關鍵點在于成本,看誰的成本能夠做到最低、性價比做得更高。為了降低成本,則需要做到協同智能、高集成化、多模型開發(fā)和資源適配這四點。
“智能越前移,成本會越低,市場的量也會越大。最終在前端完成所有的智能功能,并且這些功能都固化,我認為這是發(fā)展的終極目標?!?/p>
以下是楊清永大會現場演講內容,雷鋒網做了不改變原意的整理及編輯:
楊清永:大家下午好。感謝雷鋒網給我這個機會和大家進行分享。
我在安防行業(yè)干了十五年,見證了這個行業(yè)的發(fā)展。有了AI技術之后,安防行業(yè)確實發(fā)生了一些變化。主要從兩個方向,一個是安防行業(yè)的過去、現在和未來,另一個是AI產品給安防行業(yè)帶來的理念與變化。
從事安防行業(yè)比較久的人都知道,在2006年以前,安防行業(yè)處于模擬時代。那時候的視頻監(jiān)控是模擬攝像機傳輸到監(jiān)控中心的監(jiān)視器顯示。這個時代有一些比較典型的產品,例如攝像機、視頻切換矩陣等等。從2006年到2016年,可以稱之為數字時代。那時候,視頻錄像的存儲是比較困難的,后來通過硬盤,把進行編碼后的視頻信號存儲下來。這是數字時代的典型特征。
從2016年開始,安防行業(yè)進入了智能時代。從數字時代發(fā)展到智能時代,是因為數字時代的安防行業(yè)產生了一些問題。
雖然,我們可以通過編碼把視頻存儲下來,但是占用空間非常大,存儲成本非常高,而且存儲下來的都是非結構化的視頻數據,這些數據沒有辦法檢索,取證比較困難。也就是說,在視頻監(jiān)控發(fā)展的這段時間,它的主要作用就是兩個,一是視頻錄像,二是視頻回放。一套監(jiān)控系統(tǒng)安裝之后就再也沒有人管了,除非有事件發(fā)生才會調取錄像。
進入智能時代后就不一樣了。舉個例子,普通攝像機的存儲空間有10T。如果用AI攝像機對視頻進行結構化處理后,它的存儲空間可以下降99%以上。
從檢索時間來看,如果是純視頻數據,要靠人為去看這些視頻;而在智能時代,視頻結構化后的檢索速度可以達到秒級。它的存儲空間有接近100倍的下降,檢索速度有1000倍的提升,這是安防行業(yè)從數字時代到智能時代的一條必經之路。
到現在為止,安防行業(yè)研究的工作無非是人和車,主要實現兩類目標:身份識別和行為識別。
人工智能發(fā)展的初期,首先是在視頻里面進行移動偵測,通過智能算法檢測出視頻目標的移動狀態(tài)。后來,又有了基本目標檢測,能夠檢測到視頻里面有一個目標在動,但是區(qū)分不出來這個目標是什么。我們把這個時代稱為基礎智能。有了基礎智能之后,對這些目標可以進行行為識別,比如絆線、周界、物品遺留等等,這是基礎時代的目標檢測和目標行為分析。
后來,有了車牌識別。攝像機可以識別車牌號碼、車牌屬性、車輛顏色,同時可以識別出車的行為,比如闖紅燈、壓實線、逆行等等。再后來,可以識別人的目標,同時又以人臉以及人體屬性的識別為特征,比如性別、年齡、身高、發(fā)型、胡須、眼鏡等等。
同時,在行為識別上,有了和人相關的行為識別,比如奔跑、跌倒、舉手、起立、睡著等等,包括表情的微笑、憤怒。
這是安防行業(yè)AI發(fā)展的現狀。那么,未來的方向在什么地方?全目標識別。
也就是在一個視頻里,所有能看到的東西都能夠進行身份識別,以及行為的識別,最終讓攝像機能夠看懂世界。攝像機做全結構化分析,可以做語義分析,這應該是人工智能在安防行業(yè)發(fā)展的終極目標,也是人們一直在追求的目標。
AI給安防行業(yè)帶來了一些變化。在人工智能興起之前,安防行業(yè)進入了瓶頸時期。
我記得2015年、2016年的時候,每年安防展的人數在縮減,安防行業(yè)進入了一個洗牌的時代,有幾家知名的大企業(yè)開始大規(guī)模擴張,而一些小企業(yè)基本上沒有什么生存空間。這兩年,大家能看到,每年的安防展越來越火,參展人數越來越多,這就是AI給安防行業(yè)帶來的新活力。
安防行業(yè)進入AI時代以后,我認為一個最大的變化是實戰(zhàn)化理念的變化。以前,作為一個錄像和回放系統(tǒng),視頻監(jiān)控是一個標準化的東西,可以放在門店、商場銷售,因為作用非常簡單,就是錄像和回放。
AI時代就不一樣了,如果你說你的攝像頭能人臉識別,那么用戶就會問,對我有什么用?能給我?guī)硎裁磧r值?也就是說,AI時代的安防產品必須要把產品和用戶的應用場景結合起來,能給用戶產生應用,能與他的應用系統(tǒng)相結合,甚至結合到OA辦公軟件里面。真正用起來,用戶才會買你的東西,否則不會買你的東西,普通錄像機就可以錄像,為什么要買帶人臉識別的呢?
所以,我們必須找到一個應用場景的痛點,針對用戶的痛點設計出一套解決方案,最終實現用戶的價值。如果不結合應用場景,AI時代的安防產品就很難得到推廣,這是一個很大的變化。
之所以有了這些應用場景的需求,所以,從監(jiān)控產品上就有了AI攝像機、AI球機、AI特色產品、AI大數據、AI服務器,從解決方案上有了智慧公安、智慧社區(qū)、智慧政法、智慧校園等等,在結合了大量應用以后,安防行業(yè)里面產生了非常非常多的創(chuàng)新企業(yè),這些企業(yè)像雨后般的春筍一樣發(fā)展起來。
所以現在的安防展會比原來更火爆,因為參加的人數和廠家多了,這些廠家可做的工作多了。只要選中一個場景,把這個場景做實戰(zhàn)、做應用,就可以生存下來。任何一家公司,包括現在的龍頭企業(yè),都不可能覆蓋所有的應用場景,因為應用場景是一個勞動密集型的工作,必須得結合這個應用場景里面的實際應用去做,把應用做深、做好用,這個工作量非常大,沒有任何一家企業(yè)可以獨霸天下。
現在安防行業(yè)基本上沿著兩個方向走,一個是AI解決方案,一個是AI產品。解決方案越來越專業(yè)、越來越實戰(zhàn),因為這個解決方案已經不再是簡單的標準化,而是要結合行業(yè)應用,做得不實戰(zhàn)、不易用,就沒有人買你的東西。
產品方面在沿著兩個方向發(fā)展,一個是向標準化和開放性發(fā)展,另外一個是向多樣性發(fā)展。這兩個方向有什么區(qū)別?
開放性方面,華為就提軟件定義攝像機,一個標準的攝像機硬件平臺,在里面灌輸什么算法就可以實現什么攝像機。這個攝像機用在什么場景、有什么功能,是由軟件定義的,攝像機只提供一個硬件開發(fā)平臺。華為倡導的軟件定義攝像機,走的是一條開放性、標準化的路。
多樣性是指針對一個行業(yè)的特殊應用需求專門制作這個行業(yè)特殊需要的產品,比如養(yǎng)豬場要做豬臉識別,針對特殊的應用場景,攝像機的外觀、形狀、大小、環(huán)境參數都不一樣,專門設計一套攝像機,可以讓攝像機成本達到最低、性價比達到最好。這是兩種發(fā)展理念。
這兩種發(fā)展理念誰好誰壞?現在還不好說,因為專業(yè)的攝像機達不到一定的量是沒有什么市場的。這兩種方向發(fā)展的競爭力核心或者發(fā)展的關鍵點在成本,看誰的成本能夠做到最低或者性價比做得更高。
在降成本的策略方面,我舉了幾個例子,這幾點應該是AI進入安防行業(yè)以來帶來的新策略和方向:
首先是協同智能,就拿人臉識別來說,最開始的智能系統(tǒng),前端是普通的攝像機,后端要通過智能服務器來做人臉檢測、識別和比對,它需要大量的視頻,需要很大的帶寬傳輸到計算中心。計算中心需要設置大量的服務器,對這些視頻進行解碼、智能分析,對數據進行結構化。
進入AI時代,前端的攝像機具備了一定的智能分析功能,比如人臉抓拍機,它已經不是普通的攝像機,它可以知道這個視頻里面哪個地方是人臉,可以把人臉圖片摳出來,只把人臉圖片傳輸給后端,這樣傳輸到后端的帶寬就可以大大降低,只需要很小的帶寬就可以把同樣數量攝像機的信息傳輸到后端。
同樣,后端服務器不需要用大量視頻進行解碼。大家都知道,用CPU解碼視頻需要很高的資源消耗,不需要解碼視頻了,服務器就可以接入更多的圖片。在中心端,只需要一臺服務器就可以把同樣數量的攝像機的人臉識別完成。這就是一個降成本的作用,通過系統(tǒng)層面來降低成本,也就是協同智能,完成一件智能分析是通過前端和后端協同來完成。
高集中度,大家比較容易理解,因為剛開始做智能相機的時候,當相機的主芯片不具備AI分析能力的時候,我們一般的策略是通過加一個協處理器、加一個AI芯片來完成。原來視頻監(jiān)控的主芯片可以完成處理編碼和網絡業(yè)務,AI功能由協處理器來完成。
發(fā)展到現在,海思出了一系列AI芯片,從視頻監(jiān)控的主業(yè)務里面整合了AI智能分析的功能,現在一個芯片可以完成所有的人工智能以及傳統(tǒng)的視頻監(jiān)控,這樣成本就會更低。從設計來講,系統(tǒng)方案的成本會更低。當然,高集中度不光是能降低成本,還可以提升產品的品質和效果。
這兩張對比圖片是FACE AE的對比圖片。當你的智能分析和前端采集集成到一個芯片里面,可做的東西就多了。比如原來前端攝像機采集的處理算法是不知道什么地方有人臉、不知道什么地方有目標。
但是集成了AI技術以后,同一個芯片就知道這個視頻里面你對人還是對車感興趣,或者是對一個什么物件感興趣,你就會針對這個目標來指導前端的SP算法,把目標的清晰度提高。
FACE AE是通過人臉檢測算法,檢測到視頻里面哪個地方有人臉,反過來調取前端圖像處理模塊,把有人臉的地方做特殊處理,比如曝光加強。在人臉抓拍攝像機里面,即便不用人臉抓拍功能,錄下來視頻中的人臉也比普通攝像機的人臉清楚。這是高集中度帶來的產品品質方面的提升。
多模型開發(fā),現在的硬件環(huán)境有CPU、GPU、DSP、ARM以及一些專門的智能處理芯片,對我們的算法就提出了更高的要求,因為不能一個算法通吃所有的硬件平臺,這些硬件平臺上算法的大小是不一樣的,有的算力大、有的算力小,有的分析要求復雜度高、有的分析要求復雜度小,要針對不同硬件平臺開發(fā)不同規(guī)模的算法模型來匹配。這就是從算法模型上匹配硬件算力,讓產品的性價比達到最高。
剛剛說到算力,這里有一個資源適配的問題。算力是不是越高越好?這要看你到底用這個算力來完成什么業(yè)務、應用。
我認為,算力不是越高越好,算力是越適配越好,因為算力也是要錢的,不管通過什么方式實現,肯定通過一定成本購買回來。要完成一件事情,一定要用最適合的算力完成,這叫資源適配。
舉個例子,大家最熟悉的是TESLA卡,這是大家做人工智能方面用的比較多的,不管是人臉識別、車輛識別以及其他分析。我們拿P4卡來舉例,P4卡的算力是22T,天地偉業(yè)也做了一個智能卡,用海思的3559做的,算力并不高,16T。舉個例子,如果大家對算力提取人臉特征不熟悉的話,英偉達的TX1可以做4路視頻的人臉特征提取,那是1T的算力。現在人臉識別里面最耗費算力的地方就是特征提取,22T用這個算力來計算,可以做88路人臉特征提取,這沒有問題。
但是它的解碼能力只有12路,現在普通視頻流已經達到1080P,卡本身的視頻解碼能力只有12路,現在很多家出的人臉識別服務器單卡只能分析12路的人臉識別,有的做得好的只到10幾路,為什么做不上去?是因為資源適配不好。
如果要分析好,必須用CPU對視頻進行解碼。要解碼64路1080P,5萬多塊錢的CPU必須配2個以上,這還是算比較好的。天地偉業(yè)的P5卡算力只有16T,但是它支持64路1080P的解碼。它的算力并不高,但是作為服務器上只插一個卡的硬件,能完成64路的視頻流的人臉識別,而P4卡只能完成12路人臉識別。
算力不是越高越好,而是要匹配應用場景。英偉達P4用在其他場景肯定有優(yōu)勢,我只是說在視頻監(jiān)控和人臉識別場景?,F在有人說,出了人臉抓拍機了,從前端傳到服務器的都是摳出來的人臉圖片,P5卡里面解1080P圖片是960張/秒。如果解人臉圖片會更多。理論上來計算,這張卡如果前端接的是人臉抓拍機,單張卡可以帶256路人臉識別。
做過人臉識別研發(fā)的同事應該知道,現在人臉識別服務器里面,比較耗費算力的是特征提取,另外一個是特征比對。人臉識別是一個很長時間的比較,很耗費算力。在英特爾高配的雙核CPU上做人臉特征比對的話,一臺服務器可以比2000-3000萬次/秒,這是頂配的CPU服務器。大家想一想,一臺服務器如果有256路人臉識別,放在公安網里面做人臉布控,正常是30萬張,每秒需要比對多少次?按照每一路攝像機每一秒傳一張人臉照片到服務器,服務器用這張照片和30萬張做比較,一臺256路人臉識別服務器一秒鐘需要比對7000萬次以上。很多廠商在后端機房里面做比對都是用專門的高配服務器集群做人臉特征比對。
這張卡里面帶16核DSP。雖然現在用在其他場景的非常少了,但是用在人臉特征比對,16核的DSP一秒鐘人臉比對可以達到1億次以上。
這兩張卡,前一張P4卡如果配普通的CPU,就只能完成12路人臉識別,如果要完成64路人臉識別,要配頂級的服務器,因為需要視頻解碼,不是頂級的不夠,因為要做特征比對,要有服務器集群才能完成64路。
用后面這張P5卡,用一個低配的服務器,CPU一般的就夠用,因為其他資源都配齊的,只要插一張卡,最高可以完成256路,這就是資源匹配的重要性。P4卡公開售價是1.4萬,如果客戶關系比較好的話可以拿到1.2萬。P5卡公開售價是6000元。
這是資源適配好了之后帶來的價值和成本方面的變化。
很多智能功能開始往前端推送,這應該是發(fā)展的一個必然趨勢,越往后發(fā)展,后端的服務器和后端的云更多處理的是大數據和關聯性的數據分析,而所有的智能檢測、智能分析相關的功能,或者單點視頻里能夠完成的功能,都會向前移,因為這會給整體系統(tǒng)成本帶來很大的降低。
智能越前移,成本會越低,市場的量也會越大。最終在前端完成所有的智能功能,并且這些功能都固化,我認為這是發(fā)展的終極目標。到了這個目標,前端的量才會非常大,后端的應用才能做得非常廣,這應該是AI時代安防行業(yè)發(fā)展的一個必然趨勢。
希望我們安防行業(yè)里面更多做應用的企業(yè)、更多做產品的企業(yè)在AI時代把安防行業(yè)推向一個新的高潮。謝謝大家!
「全球AI芯片·城市智能峰會」是雷鋒網 & AI掘金志安防團隊繼「中國人工智能安防峰會」、「CCF-GAIR視覺智能論壇」后,全力打造的又一大品牌活動。
在上述三大論壇中,組委會先后邀請到了高文、Demetri Terzopoulos、權龍、華先勝、賈佳亞、孫劍、顏水成、田奇、程浩、張鵬國、浦世亮、殷俊、余虎、李子青、申省梅、王曉剛、楊帆、陳寧、溫浩、陳瑞軍、張永謙、肖洪波、胡大鵬等在產學兩界享有盛譽的權威專家。
論壇內容圍繞「攝像機」這一介質入口展開,覆蓋AI安防產品、圖像與視覺智能算法、視頻芯片&服務器、投融資、商業(yè)模式等多個維度的主題,旨在打造業(yè)內最完整的智能城市論壇體系。
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。