0
本文作者: 余快 | 2020-08-11 09:36 | 專題:CCF-GAIR 2020 全球人工智能與機器人峰會 |
2020 年 8 月 7 日,全球人工智能和機器人峰會(CCF-GAIR 2020)正式開幕。CCF-GAIR 2020 峰會由中國計算機學會(CCF)主辦,雷鋒網(wǎng)、香港中文大學(深圳)聯(lián)合承辦,鵬城實驗室、深圳市人工智能與機器人研究院協(xié)辦。
作為粵港澳大灣區(qū)最具影響力和前瞻性的前沿科技活動,CCF-GAIR 大會已經(jīng)度過了四次精彩而又輝煌的歷程。
在大會第二日的「視覺智能·城市物聯(lián)」專場中,組委會特地邀請了這個行業(yè)里極少數(shù),能夠利用前沿技術,真正為產(chǎn)品和業(yè)務創(chuàng)造巨大價值的頂級專家。與他們一同站在高處,重新理解視覺智能與城市級商業(yè)場景的本質(zhì)。
今年出席的嘉賓,分別有華為云人工智能領域首席科學家田奇、京東集團技術副總裁梅濤、微軟亞洲研究院首席研究員王井東、商湯科技聯(lián)合創(chuàng)始人林達華、云天勵飛首席科學家王孝宇、澎思科技首席科學家申省梅、暗物智能CEO林倞。
主持人也不禁感慨到:連續(xù)四年主持此專場,作為局外人,自己親歷了計算機視覺最為激蕩的年代,也在CCF-GAIR的舞臺上親眼見證了商湯、曠視、云從、云天勵飛、澎思等企業(yè),從一個個初創(chuàng)公司,生長為現(xiàn)在的頭部獨角獸,實現(xiàn)了10多倍的增長。
這正是這個時代,給予前沿技術創(chuàng)新企業(yè)的最好饋贈。
華為云人工智能領域首席科學家田奇:華為視覺研究計劃與進展
田奇介紹了華為在人工智能領域的十大愿景和計算機視覺領域的基礎研究,從中梳理出深耕基礎研究、打造全棧方案、投資開放生態(tài)和人才培養(yǎng)、解決方案增強、內(nèi)部效率提升五大方向。以此打造無所不及的AI,構(gòu)建萬物互聯(lián)的智能世界。
華為計算機視覺以數(shù)據(jù)高效和能耗高效為核心,聚焦從2D視覺到3D視覺的技術和應用,其中基礎研究主要包含底層視覺、語義理解、三維視覺、數(shù)據(jù)生成、視覺多模態(tài)等等方面。在此方向上,華為將基礎研究聚焦到數(shù)據(jù)、模型和知識三大挑戰(zhàn):
1、數(shù)據(jù)上,如何從海量的數(shù)據(jù)中挖掘有用的信息。田奇從深層數(shù)據(jù)模型訓練和不同模態(tài)數(shù)據(jù)對齊這兩個應用場景為例,介紹了華為如何使用知識蒸餾與自動數(shù)據(jù)擴增結(jié)合的方法讓AI模型高效地挖掘數(shù)據(jù)中的有用信息。
2、模型上,怎樣設計高效的視覺模型。田奇認為在深度學習年代,視覺模型主要包含神經(jīng)網(wǎng)絡模型設計和神經(jīng)網(wǎng)絡模型加速兩個場景。具體地,田奇介紹了華為如何通過局部連接思路解決網(wǎng)絡冗余問題、如何加入邊正則化思想來解決局部連接帶來的不穩(wěn)定性等等。
3、知識上,如何定義視覺預訓練模型、如何通過虛擬環(huán)境學習知識、如何表達并存儲知識。為了實現(xiàn)華為打造通用視覺模型的目標,田奇認為推理預測是從視覺感知到認知的關鍵步驟。雖然預訓練方法目前在視覺領域的應用還不成熟,但是近期自監(jiān)督學習的成果為視覺通用模型的發(fā)展注入了新活力,這也將成為常識學習的必經(jīng)之路。
基于三大挑戰(zhàn),田奇提出華為視覺六大研究計劃:數(shù)據(jù)冰山計劃、數(shù)據(jù)魔方計劃、模型摸高計劃、模型瘦身計劃、萬物預視計劃、虛實合一計劃,來幫助每一位AI開發(fā)者。
京東AI研究院副院長梅濤:智能供應鏈中的機器視覺
梅濤認為供應鏈發(fā)展經(jīng)歷了三個階段:
第一階段,上世紀90年代,傳統(tǒng)供應鏈的信息技術將產(chǎn)業(yè)的上下游進行協(xié)同;第二階段,21世紀初期,互聯(lián)網(wǎng)工業(yè)階段,利用互聯(lián)網(wǎng)技術提高供應鏈的效率和敏捷性;第三階段,21世紀及未來,智能供應鏈階段,生產(chǎn)上更加協(xié)同,流通上更加敏捷,甚至可以通過用戶需求驅(qū)動生產(chǎn),又反過來創(chuàng)造需求。
梅濤指出,中國供應鏈水平仍處于第一階段向第二階段過渡時期。作為“以供應鏈為基礎的技術與服務企業(yè)”,京東在不斷夯實第一階段到第二階段轉(zhuǎn)型的同時,積極布局第三階段,基于人工智能,利用大數(shù)據(jù)、物聯(lián)網(wǎng)、區(qū)塊鏈等,打造基于各種技術與服務的供應鏈全鏈條。
京東在智能供應鏈領域的計算機視覺應用非常多。智能消費領域,通過SKU級別商品圖片理解,打造智能結(jié)算臺、京東拍照購、京東搭配購等應用。在實際場景中,通過硬件和軟件一體化,幫助線下門店進行一體化營銷。
智能流通領域,京東還推出了首個產(chǎn)業(yè)級通用目標重識別開源庫FastReID。
智能生產(chǎn)領域,應用于工業(yè)視覺質(zhì)檢,比如,印刷品包裝檢測中,通過內(nèi)容識別、設計校對、字號識別,以檢測包裝是否符合嚴格的標準,另外還有基于CMYK色彩控健康識別,缺陷監(jiān)測和尺寸識別。
梅濤提到,智能供應鏈需要全鏈條的生態(tài),京東擁有全行業(yè)最長的數(shù)據(jù)鏈條以及最全的供應鏈服務。京東不僅要服務于自己內(nèi)部的客戶,還基于人工智能開放平臺,開放技術,共建生態(tài)。
最后,梅濤分享了他對下一代視覺技術趨勢的看法,他認為計算機視覺經(jīng)歷過萌芽、爆炸、巔峰,現(xiàn)在回歸理性,未來將在數(shù)據(jù)、模型、學習機制和工具箱四個層面有長足進步。
云天勵飛首席科學家王孝宇:AI 在智慧城市中的應用
王孝宇認為,在經(jīng)歷了PC互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)時代后,現(xiàn)在人們正在進入AIoT時代。在AIoT時代,傳感器將遍布物理世界,人們將擁有無處不在的連接和智能化應用。而AIoT時代到來的前提,是業(yè)界能提供有效的數(shù)字化技術。在物理世界的行為,只有經(jīng)過數(shù)字化后,才能稱為“信息”,有了信息,機器才能更好地描述這個世界,并對物理世界作出反應。
根據(jù)AI技術發(fā)展升級的路徑,王孝宇將智慧城市分為四大階段。
第一階段是Sensing(感知),這個階段的智慧城市能做到的是描述物理社會的基本事實,比如識別圖像中的物體是車輛還是人、車牌號是多少、這個人有什么特征。第二階段是Cross Analysis(交叉分析),這個階段機器能夠在識別基本信息的基礎上,根據(jù)時間、空間等其他信息進行交叉分析,得出更豐富的信息,比如分析出圖片中的人之間的關系等。第三階段是Data Mining(數(shù)據(jù)挖掘),這個階段,機器能分析出造成事件的深層次原因,甚至預測事件的發(fā)生,比如預測某路段在某時間段的擁堵情況。第四階段是Decision Making(決策),即機器能夠幫助人作出某些決策,比如預測到某街區(qū)在某時間段可能發(fā)生某些事件后,進行智能的警員調(diào)度,充分安排有限的警力。
王孝宇還說到,盡管智慧城市不同階段能夠?qū)崿F(xiàn)的應用不同,但無論是在哪一階段,都離不開算法、算力和大數(shù)據(jù),這也是云天勵飛從創(chuàng)立之初就一直堅持在這三大方面投入大量研發(fā)工作的原因。目前,云天勵飛有Arctern算法平臺、Moss芯片平臺和Matrix大數(shù)據(jù)平臺,構(gòu)建了完整的AI技術鏈路,并聚焦公共安全、城市治理、新商業(yè)這三大方向打造產(chǎn)品和解決方案。
最后,王孝宇認為,中國經(jīng)歷過商貿(mào)造富、互聯(lián)網(wǎng)和房地產(chǎn)造富的時代,未來我們很可能迎來科技造富的時代,科技將成為新基建中的核心元素。新基建的提出,也將開啟中國新一輪智慧城市建設的“黃金時代”,新基建將會帶來“新四化”:居民數(shù)字化生活、企業(yè)數(shù)字化經(jīng)營、社區(qū)數(shù)字化治理、城市數(shù)字化孿生。
暗物智能CEO林倞 :從感知到認知 - 多模態(tài)人機互動的產(chǎn)業(yè)實踐
現(xiàn)在人工智能發(fā)展到了什么階段?
阿里巴巴達摩院今年年初給到的科技趨勢報告顯示,人工智能已經(jīng)在聽、說、看等感知領域達到甚至超越了人類的水平,但在需要外部知識,邏輯推理或領域遷移的認知智能領域還處于初期階段。
林倞指出,目前很多成功的人工智能應用大部分還是依賴于大數(shù)據(jù)計算泛式。不管是自監(jiān)督還是網(wǎng)絡搜索的方法,本質(zhì)上依靠大量的數(shù)據(jù),通過億萬參數(shù)的神經(jīng)網(wǎng)絡去學習和訓練,最后進行分類和回歸。某種意義上,人工智能的應用成本一直居高臨下。
同時,即便是感知層的智能,特別是計算機視覺,目前系統(tǒng)還有很大的局限性,一是成本問題,二是穩(wěn)定性、魯棒性并沒有達到或真正超越人的水平。
腦科學研究發(fā)現(xiàn),人的大腦皮層感知區(qū)和認知推理區(qū)域是不可分割的,視覺跟語言的大部分理解是依靠想象和推測的,并不是依靠大數(shù)據(jù)的感知,所以林倞提出一個觀點:感知智能和認知智能不可分割。
一個嬰兒12個月以后會說話,會推測他人的意圖。目前AI的智力水平不足12個月大的嬰兒,還遠未達到認知智能,AI系統(tǒng)欠缺的推測他人的意圖(能力)。
林倞的第三個觀點是,所謂的認知人工智能必須要理解人的意圖,懂因果,可解釋。
可以通過豐富的方式跟人交互,能看到,能聽懂,能回復,甚至能知道計算數(shù)學背后的因果邏輯,這樣才能實現(xiàn)從感知到認知的跨越,并且跟人進行高自然度的交互。
林倞介紹了暗物智能的五層技術架構(gòu):物聯(lián)網(wǎng)、感知行為、問題理解、思維和意圖、價值和常識。暗物智能沿著此技術架構(gòu)進行產(chǎn)業(yè)實踐。
澎思科技首席科學家申省梅:基于遷移學習的視覺智能發(fā)展與應用
申省梅從傳統(tǒng)機器學習的痛點、深度學習帶來的突破、深度遷移學習、遷移學習中用到的一些技術和實例方面進行了分享,并分析了遷移學習在視覺智能的需求。
傳統(tǒng)機器學習的痛點之一是泛化能力差,原因之一是它使用手工特征,靠設計者的經(jīng)驗得到,并無法掌握數(shù)據(jù)中的非線性變化,每種特征只能對特定的場景或特定的任務有效。泛化能力差導致魯棒性差,落地成本高,用戶滿意度差。
深度學習的特征是通過大量數(shù)據(jù),用深度神經(jīng)網(wǎng)絡自適應學習到的,可以完全掌握到數(shù)據(jù)當中的多種變化。深度學習模型為計算機視覺帶來的突破,也是在給定的數(shù)據(jù)集上訓練出來的,可以很好地反映給定數(shù)據(jù)的特點。
而給定的數(shù)據(jù)集僅僅代表了某一領域,某些應用場景,某種特定任務,比如CCTV監(jiān)控下的自然圖像領域,戶外場景,任務是人臉識別,或行人再識別,或行為分析。
盡管在這些特定數(shù)據(jù)集訓練的模型具有很高的準確性,遠遠超過傳統(tǒng)機器學習,但在新的場景下它的性能無法維持,并且在用于新任務的時候可能會導致性能顯著下降。深度學習的突破仍然取決于數(shù)據(jù)。
另外,申省梅還指出深度學習AI落地痛點:
1、感知環(huán)境及應用場景的千變?nèi)f化:天氣、光線、角度、遮擋等因素變化導致成像質(zhì)量不同并且質(zhì)量不佳;訓練數(shù)據(jù)與落地場景的不一致導致AI模型性能徒然下降;
2、重新訓練模型需要大量的AI專業(yè)人才來完成,周期長成本高見效慢,已經(jīng)成為AI普惠的障礙;
3、AI人才的短缺以及成本昂貴會阻礙企業(yè)采納人工智能以及它帶來的效益。
澎思的使命是“AI即服務”,可以解決痛點,實現(xiàn)普惠AI,澎思通過AIOT平臺生態(tài)技術部署,實現(xiàn)“AI服務在線+AI功能定制終端+自閉環(huán)生態(tài)”。
通用智能是下一代AI發(fā)展的必然趨勢,申省梅表示,澎思會在遷移學習、無監(jiān)督、自監(jiān)督學習、小樣本學習、多模態(tài)學習這幾個真正反映AI落地的實際情況下落地生根。
澎思的目標是在算法技術上走在國際計算機視覺的前沿,基于AI落地為主的前沿技術開發(fā),建設云端AI在線遷移學習平臺,加強端側(cè)AI輕量化的設計體系,推動以用戶價值為導向的To B/To C產(chǎn)品創(chuàng)新。
商湯科技聯(lián)合創(chuàng)始人林達華:人工智能的惠普與開放之路
林達華歸納了人工智能發(fā)展四個關鍵要素:科研、數(shù)據(jù)、算力、落地。
基礎研究和技術能力決定了產(chǎn)業(yè)化能走多遠、走多快。到了具體的領域,數(shù)據(jù)、算力、落地場景是三個最為關鍵的要素,當他們被連接在一起時,人工智能技術會泛化出巨大的力量,推動技術前進和產(chǎn)業(yè)升級。
商湯從底層到應用層都有自研的技術,在核心底層建立深度學習訓練平臺。
不斷建設底層技術的過程中,商湯充分認識到,對人工智能的發(fā)展來說,計算能力是必不可少的重要支撐和戰(zhàn)略基石。所以從2015年開始到現(xiàn)在,商湯持續(xù)建立以GPU為核心的人工智能超算平臺。
林達華介紹,到現(xiàn)在為止,已經(jīng)建立了超過2萬臺GPU的大型人工智能超算集群,其中最大的集群已經(jīng)連接了超過3000塊GPU,可以支持千億級模型訓練和上百億大型數(shù)據(jù)集模型訓練。其計算集群的總計算能力,可以比肩世界上的最高級別超算。
林達華表示,人工智能對社會的價值有三方面: 第一,經(jīng)濟角度。它可以提升生產(chǎn)的效率,通過自動化和人工智能技術變革產(chǎn)業(yè)經(jīng)濟,實現(xiàn)產(chǎn)業(yè)的升級。第二,通過人工智能技術進入社會生活的方方面面,給社會和人民大眾賦能百業(yè)。最后,創(chuàng)造美好生活,推動社會進步。
智慧城市除了安防以外,其實還有非常多的維度,隨著人工智能產(chǎn)業(yè)落地的深化,在整個社會很多的行業(yè),它其實都能受惠人工智能技術的進步和落地。
微軟亞洲研究院首席研究員王井東:高分辨率網(wǎng)絡:一種視覺識別的通用網(wǎng)絡架構(gòu)
從2012年以來,隨著AlexNet橫空出世,深度神經(jīng)網(wǎng)絡在計算機視覺領域成為主流的方法。2014年,谷歌發(fā)明出了GoogleNet,牛津大學發(fā)明了VGGNet,2015年微軟發(fā)明了ResNet,2016年康奈爾大學和清華大學發(fā)明了DenseNet,這幾個結(jié)構(gòu)都是圍繞分類任務而發(fā)明的網(wǎng)絡結(jié)構(gòu)。
除了分類以外,在計算機視覺里面還有其它的重要任務,比如圖像分割、人臉關鍵點的檢測、人體姿態(tài)估計、目標檢測等等。
下一代的網(wǎng)絡結(jié)構(gòu)是什么樣的呢?是否適用于更為廣泛的視覺識別問題?
王井東首先介紹了分類網(wǎng)絡結(jié)構(gòu),它是包括一系列減小表征空間大小的過程,最終得到一個低分辨率的表征,然后進行分類,但是分割等任務需要空間精度高的表征,即高分辨率表征。
學習高分辨率表征,有一種叫上采樣的通用方法,包括兩個步驟,第一個步驟是分類的網(wǎng)絡架構(gòu),表征開始比較大,然后慢慢變小。第二個步驟,通過上采樣的方法逐步從低分辨率恢復高分辨率。這樣的方法獲得的特征空間精度較弱。
而王井東團隊研發(fā)的高分辨率網(wǎng)絡架構(gòu)(HRNet)沒有沿用以前的分類架構(gòu),也不是從低分辨率恢復到高分辨率,自始至終維持高分辨率。
他們讓高中低分辨率不停地交互,使得高分辨率可以拿到低分辨率語義性比較強的表征,低分辨率可以拿到高分辨率的空間精度比較強的表征,不停地融合,最終取得更強的高分辨率表征。
在人體姿態(tài)、分割、人臉關鍵點檢測、目標檢測等任務中,HRNet從參數(shù)量、計算量以及最終結(jié)果看,高分辨率結(jié)構(gòu)都非常有優(yōu)勢。HRNet在人體姿態(tài)估計的任務上,已經(jīng)成為標準的方法;在分割任務上,由于其更好的性能,也被大家廣泛使用。雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章