0
本文作者: 張瑞 | 2019-07-16 14:29 | 專題:CCF-GAIR 2019 |
編者按:7月12日-7月14日,2019第四屆全球人工智能與機(jī)器人峰會(CCF-GAIR 2019)于深圳正式召開。峰會由中國計算機(jī)學(xué)會(CCF)主辦,雷鋒網(wǎng)、香港中文大學(xué)(深圳)承辦,深圳市人工智能與機(jī)器人研究院協(xié)辦,得到了深圳市政府的大力指導(dǎo),是國內(nèi)人工智能和機(jī)器人學(xué)術(shù)界、工業(yè)界及投資界三大領(lǐng)域的頂級交流博覽盛會,旨在打造國內(nèi)人工智能領(lǐng)域極具實力的跨界交流合作平臺。
7月14日,「智慧城市·視覺智能」專場正式拉開帷幕。本專場全面圍繞“未來城市級視覺AI的發(fā)展方向”這一主題展開。
其中,騰訊賈佳亞、曠視孫劍、商湯王曉剛、云從溫浩、澎思申省梅、加州大學(xué)洛杉磯分校Demetri Terzopoulos、千視通胡大鵬,從產(chǎn)學(xué)交叉的視角,提出了新的視覺智能技術(shù)研究方向與產(chǎn)品化方法論。
以下是本次大會的精彩回顧:
騰訊賈佳亞:《人工智能的多模態(tài)發(fā)展》
騰訊優(yōu)圖實驗室聯(lián)合負(fù)責(zé)人賈佳亞教授
人工智能的終極應(yīng)用離我們還有多久?
賈佳亞在演講中提出了這個問題,他給出的答案是可能還需要50-100年的發(fā)展路徑。
而人工智能學(xué)科發(fā)展與人類智能差距之一就是“多模態(tài)信息的智能化理解”。
人造信息量帶來了更大多樣性,視覺、聲音、符號語言、嗅覺和觸覺等信息,具有無限多樣性。
而多模態(tài)人工智能還存在不少基礎(chǔ)難點(diǎn):第一是數(shù)據(jù)模態(tài)多種多樣,包括2D圖像、3D模型、結(jié)構(gòu)化信息、文本、聲音及更多無法量化的數(shù)據(jù);第二是多模態(tài)數(shù)據(jù)的不對應(yīng),如從圖像到文字,從文字到圖像,都是“一對多”的過程,會有多種的描述和呈現(xiàn);第三是多模態(tài)數(shù)據(jù)的融合,一個軟件或算法的進(jìn)步較為容易,但多個算法一起,難度將幾何級上升,如“告訴機(jī)器人拿桌子左邊的瓶子”,會經(jīng)過語言模型、三維建模、自動尋路、圖像分析這些步驟;第四是多模態(tài)監(jiān)督,“如何告訴機(jī)器人拿錯了”“哪一步驟拿錯了”也是目前的難點(diǎn)。
而要解決這些多模態(tài)信息的難題,賈佳亞提出要更好研究嗅覺、味覺、觸覺、心理學(xué)等難以量化的信號問題,通過多模態(tài)數(shù)據(jù)使得計算成為可能,進(jìn)行協(xié)同學(xué)習(xí)、用一個資源豐富的模態(tài)信息輔助另一個資源貧瘠的模態(tài)。
多模態(tài)人工智能問題的解決,就會是人工智能更多落地的未來。
商湯王曉剛:《從學(xué)術(shù)到產(chǎn)業(yè)化的人工智能》
商湯科技聯(lián)合創(chuàng)始人、研究院院長王曉剛
王曉剛則回顧了人臉識別從學(xué)術(shù)到工業(yè)界逐步的進(jìn)步,以及人臉識別在智慧城市、智慧通行、手機(jī)、AR、游戲等具體場景的應(yīng)用。
王曉剛提出計算機(jī)視覺的研究有幾個重要的層次:
一是基礎(chǔ)層,包括芯片、AI超算平臺、深度學(xué)習(xí)平臺、AI平臺等基礎(chǔ)方面的研究,目前西方尤其是美國領(lǐng)先;二是應(yīng)用層,其中中國有很多豐富的場景,能給予反饋,是我國擅長的領(lǐng)域;三是工具鏈層,未來需要面臨的課題是如何讓普通的開發(fā)者、公測人員根據(jù)工具鏈迅速開發(fā)出人工智能的解決方案,使其生產(chǎn)力釋放出來。
而商湯以往、現(xiàn)在以及未來持續(xù)會做的就是,在算法精度不斷提升的前提下,拓展智慧城市從1到N的業(yè)務(wù)邊界、促進(jìn)2D的感知到3D世界的落地,以及現(xiàn)實到虛擬現(xiàn)實的融合。
2014年商湯團(tuán)隊發(fā)表DeepID系列人臉識別算法,使其全球首次超過人眼識別率,人臉識別超越肉眼突破工業(yè)應(yīng)用紅線,之后隨著技術(shù)的持續(xù)進(jìn)步,業(yè)務(wù)也不斷突破邊界,從相對簡單的1:1識別,向1:N進(jìn)發(fā)。
王曉剛列舉了數(shù)據(jù),在門禁、閘機(jī)等通行場景中,一棟大樓或公司有1、2萬人的數(shù)據(jù)庫,智慧城市的數(shù)據(jù)庫可能達(dá)到幾十萬的量級。商湯所做的就是從幾萬到幾十萬人中識別和分析所需要找的人與物。隨著場景不斷的拓展,王曉剛認(rèn)為人臉會逐漸成為人的身份標(biāo)志。
另外,在3D的應(yīng)用上,商湯的3D人臉識別方案也已經(jīng)在很多手機(jī)上得到應(yīng)用。王曉剛現(xiàn)場展示了手機(jī)上通過3D攝像頭拍攝的人臉、物體以及人體圖像進(jìn)行3D重建,未來2D的相冊還能拓展到3D相冊。人體的跟蹤上也從2D延伸到3D,目前商湯已將其應(yīng)用于體感游戲。
云從溫浩:《泛在智能城市下的人機(jī)協(xié)同平臺》
云從科技聯(lián)合創(chuàng)始人溫浩
人工智能如何落地?
溫浩提出一定要構(gòu)建“感知、認(rèn)知、決策”的智能經(jīng)濟(jì)的AI閉環(huán)。創(chuàng)業(yè)公司必須感知、認(rèn)知、決策環(huán)節(jié)都涉及。
而場景上,可分為邊緣場景和云端場景,但邊緣場景和云端要根據(jù)場景進(jìn)行智能的分配。
邊緣端和終端承載需要本地實時響應(yīng)的推理任務(wù),并獨(dú)立完成數(shù)據(jù)收集、環(huán)境感知、人機(jī)交互以及部分決策控制。邊緣端如自動駕駛場景中,斷網(wǎng)下進(jìn)行獨(dú)立的本地處理;智能安防中,要對超大數(shù)據(jù)量本地處理;移動互聯(lián)網(wǎng)場景,要保證低功耗和數(shù)據(jù)安全;智能家居和智能制造場景,要求異構(gòu)和實時響應(yīng)。
云端則負(fù)責(zé)承載智能數(shù)據(jù)分析、模型訓(xùn)練和部分對傳輸帶寬要求不高的推理任務(wù)。
溫浩認(rèn)為,目前AI還并不成熟,很多產(chǎn)業(yè)中的需求也很多樣。而為了解決這一問題,應(yīng)該實現(xiàn)“人機(jī)協(xié)同”。
人機(jī)協(xié)同有幾個階段,第一是要做人機(jī)交互,首先讓機(jī)器知道你是誰,這就是為什么要先做人臉識別的原因。
第二步做人機(jī)融合,如銀行的產(chǎn)品經(jīng)理,只能設(shè)計十幾種產(chǎn)品,但基于大數(shù)據(jù)和AI,他可以針對每個小微企業(yè)設(shè)計成百上千種AI的金融產(chǎn)品。
然后是人機(jī)共創(chuàng),未來就可以創(chuàng)造一些新的場景、新的業(yè)務(wù),新的服務(wù)、新的流程。如零售門店可以進(jìn)行二次陳列,和精準(zhǔn)引流,這就是人機(jī)共創(chuàng)。
曠視孫劍:《深度學(xué)習(xí)變革視覺計算》
曠視首席科學(xué)家孫劍
曠視首席科學(xué)家孫劍從視覺智能、計算機(jī)攝影學(xué)以及視覺計算等方面介紹了計算機(jī)視覺研究領(lǐng)域的變革。
孫劍也回顧了深度學(xué)習(xí)發(fā)展的歷史。他介紹道,深度學(xué)習(xí)發(fā)展到今天并不容易,過程中遇到兩個障礙:
第一,深度神經(jīng)網(wǎng)絡(luò)能否很好的被訓(xùn)練,在今天深度學(xué)習(xí)成功之前被很多人懷疑。相比傳統(tǒng)的機(jī)器學(xué)習(xí)理論,深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的參數(shù)要比數(shù)據(jù)還要大10倍甚至上百倍,如何很好地學(xué)習(xí)出來,很多人并不相信。
第二,當(dāng)時的訓(xùn)練過程非常不穩(wěn)定,論文即使給出了神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法,但其他研究者很難把結(jié)果復(fù)現(xiàn)出來。
這些障礙直到2012年開始慢慢被解除。
孫劍認(rèn)為,在很多實際中,深度學(xué)習(xí)和傳統(tǒng)機(jī)器學(xué)習(xí)最大的差別,就是隨著數(shù)據(jù)量越來越大,用更大的神經(jīng)網(wǎng)絡(luò)就有可能很大程度上超越人類的性能。
而具體到計算平臺上,包括云、端、芯上的很多智能硬件。目前的一個趨勢是如何自適應(yīng)地根據(jù)計算平臺做自動模型設(shè)計,最新的方式是用權(quán)重分享的方式。
在這方面,曠視提出了Single Path One-Shot Nas的新方法,分為兩步:第一步是訓(xùn)練一個SuperNet,是一個超網(wǎng)絡(luò),包含任何想搜索的子網(wǎng)絡(luò),先訓(xùn)SuperNet所有的權(quán)重;第二步是搜索sub-nets子網(wǎng)咯,好處是第二步不需要訓(xùn)練,非常高效,訓(xùn)練時間是正常訓(xùn)練時間快1.5-2倍,可以得到非常好的效果。目前在多個測試集上得到了領(lǐng)先的結(jié)果。
此外,為了構(gòu)建核心技術(shù),曠視還打造了自研的人工智能框架Brain++,包括具備多中心、強(qiáng)大算力的Brain++ Infrastructure,公司全員使用的深度學(xué)習(xí)引擎Brain++ Engine,以及整合最新模型搜索的AutoML技術(shù);同時,曠視還有人工智能數(shù)據(jù)管理平臺Data++,借助算法輔助數(shù)據(jù)清洗和標(biāo)注。
澎思申省梅:《后深度學(xué)習(xí)時代的智能視覺技術(shù)落地》
澎思科技首席科學(xué)家申省梅
作為人工智能領(lǐng)域嶄露頭角的公司,申省梅介紹道,澎思科技從傳感器-圖像處理到3D幾何,從機(jī)器學(xué)習(xí)到深度學(xué)習(xí),到增強(qiáng)學(xué)習(xí),從監(jiān)督學(xué)習(xí)到半監(jiān)督、無監(jiān)督學(xué)習(xí)都有布局,團(tuán)隊擁有計算機(jī)視覺全棧技術(shù),并在人臉檢測和識別、行人檢測和跟蹤、行人再識別、車輛識別、自動駕駛、移動操作機(jī)器人等多項大賽中拿到冠軍。
在限制條件下的人臉識別已經(jīng)取得了很好的成績,但對于如何提高非受限條件下的動態(tài)人臉識別效率,申省梅認(rèn)為除了在人臉識別技術(shù)上不斷提高外,還要從源端著手,采用圖像增強(qiáng)的方法,用AI圖像增強(qiáng),去除運(yùn)動模糊、降噪、去抖動、去霧、去雨、去云等。
另外,在視覺的落地上,申省梅認(rèn)為應(yīng)該堅持“以商業(yè)價值為導(dǎo)向的算法開發(fā)”。用“最有效的算法+最經(jīng)濟(jì)的軟硬體”解決客戶的剛需,更重要的是,算法-軟硬件變動更新速度,要快速對接客戶的不同需求,形成敏捷而有價值的運(yùn)營模式。
而要得到一個好的模型也并不容易。申省梅判斷,獲得最佳視覺模型最簡單的規(guī)則是,足夠多的平衡數(shù)據(jù)、足夠好的數(shù)據(jù)標(biāo)注、足夠深的網(wǎng)絡(luò)。隨著大量數(shù)據(jù)的生成,半監(jiān)督無監(jiān)督的探討有所突破,計算機(jī)視覺的未來發(fā)展十分樂觀。隨著工業(yè)界對計算機(jī)視覺的持續(xù)青睞,眾多企業(yè)將結(jié)合實際應(yīng)用場景來剪枝優(yōu)化遷移,不斷開拓新的應(yīng)用領(lǐng)域,人工智能行業(yè)的發(fā)展還遠(yuǎn)沒有到巔峰,還有眾多的落地機(jī)會。
英國皇家科學(xué)院Demetri Terzopoulos:《視覺智能的未來》
三院院士 Demetri Terzopoulos
Demetri Terzopoulos講解了虛擬視覺的應(yīng)用,及其在智慧城市中起到的作用。Demetri Terzopoulos認(rèn)為,虛擬視覺實際上包含了各種組合以描述感覺,計算機(jī)圖形、計算機(jī)視覺都是視覺計算的領(lǐng)域。
他所做的一項重要的工作就是虛擬人類生命的模型,然后基于物理的虛擬世界或現(xiàn)實的計算機(jī)圖形,渲染這些世界,用虛擬事實表現(xiàn)視覺。
Demetri Terzopoulos以其以往的實驗為例,這些實驗中包括對人體的肌肉和運(yùn)動的模擬,及體感游戲中對環(huán)境和游戲角色的模擬。這些虛擬視覺還能應(yīng)用于模擬多個攝像頭、對多個人體運(yùn)動的追蹤,體現(xiàn)攝像頭采用怎樣的拍攝角度對人進(jìn)行拍攝,多個攝像頭間如何形成更好的聯(lián)動。
虛擬視覺的優(yōu)勢在于,可以通過加速設(shè)計測試和科學(xué)方法應(yīng)用于這些系統(tǒng),從而對現(xiàn)實進(jìn)行演示。一直以來,虛擬系統(tǒng)正變得越來越現(xiàn)實。從長遠(yuǎn)來看,虛擬現(xiàn)實應(yīng)該和我們生活于其中的物理現(xiàn)實不再有區(qū)別。
Demetri Terzopoulos還對未來的工作進(jìn)行了展望,未來他們將構(gòu)建物理傳感器網(wǎng)絡(luò),將算法移植進(jìn)去,將它們部署到現(xiàn)實世界中的物理網(wǎng)絡(luò)中,當(dāng)然這還需要更好的虛擬攝像機(jī)。
而未來,更大的傳感器網(wǎng)絡(luò)可能在天空中,無人機(jī)等,甚至整個城市。
千視通胡大鵬:《千視通AIoT智慧社區(qū)無感通行》
千視通聯(lián)合創(chuàng)始人兼CTO胡大鵬
又一企業(yè)殺進(jìn)了智慧園區(qū)的市場。此前提出了“AIoT場景融合戰(zhàn)略”的千視通胡大鵬介紹道,千視通目前正專攻三維人臉,同時將Face-ID和ReID融合起來,打造“無感通行”。
二維視覺有什么問題?胡大鵬提出,二維人臉主要在非約束條件下存在問題,在角度比較大,強(qiáng)烈照度的情況下準(zhǔn)確度會不停下降,如側(cè)光、逆光、暗光等都會導(dǎo)致算法不準(zhǔn)。
而三維人臉的應(yīng)用優(yōu)勢,首先是可以防偽,適合對安全、保安標(biāo)準(zhǔn)比較重要的行業(yè),然后是光線、不同的人臉照度,以及化妝問題,都能有更好的解決。
什么是無感通行?胡大鵬提出希望利用不同攝像頭提取出關(guān)鍵的車、人、物等,將其都關(guān)聯(lián)起來。例如人進(jìn)入園區(qū),通過閘機(jī),去哪里都可以用人臉+ReID整合進(jìn)來。通過每個時間段的軌跡,分解出每一個人、車、物的屬性,可以做到無感出入、無感考勤、無感追蹤、無感布控等,在園區(qū)、社區(qū)、校園、零售等不同的場景應(yīng)用。
計算機(jī)視覺無疑是AI領(lǐng)域最熱門的研究與應(yīng)用方向,目前視覺智能技術(shù)已落地至手機(jī)、家居、交通、零售、安防等各個城市戶外場景與城市戶內(nèi)生活當(dāng)中。
但一方面智能視覺,在向著準(zhǔn)確率高歌猛進(jìn),另一方面,準(zhǔn)確率在多大程度上轉(zhuǎn)化成了應(yīng)用的效益,仍是個問題。
而計算機(jī)視覺起家,經(jīng)過打磨的AI企業(yè)們,也開始走自己的差異化路線以圖破局。
智能視覺企業(yè)們正逐步由以技術(shù)驅(qū)動業(yè)務(wù),拿“錘子找釘子”的狀態(tài)演進(jìn)成以“業(yè)務(wù)”為重心的發(fā)展模式:左手“技術(shù)的詩和遠(yuǎn)方”,研究更前沿的算法,使得AI具備更強(qiáng)大的識別精度和認(rèn)知能力;右手“經(jīng)營的田間地頭”,讓視覺產(chǎn)品在保證高精度的前提下,大幅降低前期研發(fā)與后期運(yùn)算成本。
腳踏實地,仰望星空,智能視覺企業(yè)們正探索更遠(yuǎn)大的方向,AI掘金志也將再度站在算法、工程和產(chǎn)品的最前沿,推動行業(yè)認(rèn)知升級。
我們將會在本次峰會后,在「AI投研邦」上線CCF GAIR 2019峰會完整視頻與各大主題專場白皮書,包括機(jī)器人前沿專場、智能交通專場、智慧城市專場、AI芯片專場、AI金融專場、AI醫(yī)療專場、智慧教育專場等。「AI投研邦」會員們可免費(fèi)觀看全年峰會視頻與研報內(nèi)容,掃碼進(jìn)入會員頁面了解更多。峰會期間專享立減399元福利,可進(jìn)入頁面直接領(lǐng)取,或私信助教小慕(微信:moocmm)咨詢。(最后一天50個名額,速搶。)雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章