視覺(jué)智能「產(chǎn)學(xué)融合」新十年｜CCF-GAIR 2020

本文作者：余快

2020-08-11 09:36

專(zhuān)題：CCF-GAIR 2020 全球人工智能與機(jī)器人峰會(huì)

導(dǎo)語(yǔ)：站在算力和算法頂端的7位大咖，探討視覺(jué)智能未來(lái)方向。

2020 年 8 月 7 日，全球人工智能和機(jī)器人峰會(huì)（CCF-GAIR 2020）正式開(kāi)幕。CCF-GAIR 2020 峰會(huì)由中國(guó)計(jì)算機(jī)學(xué)會(huì)（CCF）主辦，雷鋒網(wǎng)、香港中文大學(xué)（深圳）聯(lián)合承辦，鵬城實(shí)驗(yàn)室、深圳市人工智能與機(jī)器人研究院協(xié)辦。

作為粵港澳大灣區(qū)最具影響力和前瞻性的前沿科技活動(dòng)，CCF-GAIR 大會(huì)已經(jīng)度過(guò)了四次精彩而又輝煌的歷程。

在大會(huì)第二日的「視覺(jué)智能·城市物聯(lián)」專(zhuān)場(chǎng)中，組委會(huì)特地邀請(qǐng)了這個(gè)行業(yè)里極少數(shù)，能夠利用前沿技術(shù)，真正為產(chǎn)品和業(yè)務(wù)創(chuàng)造巨大價(jià)值的頂級(jí)專(zhuān)家。與他們一同站在高處，重新理解視覺(jué)智能與城市級(jí)商業(yè)場(chǎng)景的本質(zhì)。

今年出席的嘉賓，分別有華為云人工智能領(lǐng)域首席科學(xué)家田奇、京東集團(tuán)技術(shù)副總裁梅濤、微軟亞洲研究院首席研究員王井東、商湯科技聯(lián)合創(chuàng)始人林達(dá)華、云天勵(lì)飛首席科學(xué)家王孝宇、澎思科技首席科學(xué)家申省梅、暗物智能CEO林倞。

主持人也不禁感慨到：連續(xù)四年主持此專(zhuān)場(chǎng)，作為局外人，自己親歷了計(jì)算機(jī)視覺(jué)最為激蕩的年代，也在CCF-GAIR的舞臺(tái)上親眼見(jiàn)證了商湯、曠視、云從、云天勵(lì)飛、澎思等企業(yè)，從一個(gè)個(gè)初創(chuàng)公司，生長(zhǎng)為現(xiàn)在的頭部獨(dú)角獸，實(shí)現(xiàn)了10多倍的增長(zhǎng)。

這正是這個(gè)時(shí)代，給予前沿技術(shù)創(chuàng)新企業(yè)的最好饋贈(zèng)。

華為云人工智能領(lǐng)域首席科學(xué)家田奇：華為視覺(jué)研究計(jì)劃與進(jìn)展

視覺(jué)智能「產(chǎn)學(xué)融合」新十年｜CCF-GAIR 2020

田奇介紹了華為在人工智能領(lǐng)域的十大愿景和計(jì)算機(jī)視覺(jué)領(lǐng)域的基礎(chǔ)研究，從中梳理出深耕基礎(chǔ)研究、打造全棧方案、投資開(kāi)放生態(tài)和人才培養(yǎng)、解決方案增強(qiáng)、內(nèi)部效率提升五大方向。以此打造無(wú)所不及的AI，構(gòu)建萬(wàn)物互聯(lián)的智能世界。

華為計(jì)算機(jī)視覺(jué)以數(shù)據(jù)高效和能耗高效為核心，聚焦從2D視覺(jué)到3D視覺(jué)的技術(shù)和應(yīng)用，其中基礎(chǔ)研究主要包含底層視覺(jué)、語(yǔ)義理解、三維視覺(jué)、數(shù)據(jù)生成、視覺(jué)多模態(tài)等等方面。在此方向上，華為將基礎(chǔ)研究聚焦到數(shù)據(jù)、模型和知識(shí)三大挑戰(zhàn)：

1、數(shù)據(jù)上，如何從海量的數(shù)據(jù)中挖掘有用的信息。田奇從深層數(shù)據(jù)模型訓(xùn)練和不同模態(tài)數(shù)據(jù)對(duì)齊這兩個(gè)應(yīng)用場(chǎng)景為例，介紹了華為如何使用知識(shí)蒸餾與自動(dòng)數(shù)據(jù)擴(kuò)增結(jié)合的方法讓AI模型高效地挖掘數(shù)據(jù)中的有用信息。

2、模型上，怎樣設(shè)計(jì)高效的視覺(jué)模型。田奇認(rèn)為在深度學(xué)習(xí)年代，視覺(jué)模型主要包含神經(jīng)網(wǎng)絡(luò)模型設(shè)計(jì)和神經(jīng)網(wǎng)絡(luò)模型加速兩個(gè)場(chǎng)景。具體地，田奇介紹了華為如何通過(guò)局部連接思路解決網(wǎng)絡(luò)冗余問(wèn)題、如何加入邊正則化思想來(lái)解決局部連接帶來(lái)的不穩(wěn)定性等等。

3、知識(shí)上，如何定義視覺(jué)預(yù)訓(xùn)練模型、如何通過(guò)虛擬環(huán)境學(xué)習(xí)知識(shí)、如何表達(dá)并存儲(chǔ)知識(shí)。為了實(shí)現(xiàn)華為打造通用視覺(jué)模型的目標(biāo)，田奇認(rèn)為推理預(yù)測(cè)是從視覺(jué)感知到認(rèn)知的關(guān)鍵步驟。雖然預(yù)訓(xùn)練方法目前在視覺(jué)領(lǐng)域的應(yīng)用還不成熟，但是近期自監(jiān)督學(xué)習(xí)的成果為視覺(jué)通用模型的發(fā)展注入了新活力，這也將成為常識(shí)學(xué)習(xí)的必經(jīng)之路。

基于三大挑戰(zhàn)，田奇提出華為視覺(jué)六大研究計(jì)劃：數(shù)據(jù)冰山計(jì)劃、數(shù)據(jù)魔方計(jì)劃、模型摸高計(jì)劃、模型瘦身計(jì)劃、萬(wàn)物預(yù)視計(jì)劃、虛實(shí)合一計(jì)劃，來(lái)幫助每一位AI開(kāi)發(fā)者。

京東AI研究院副院長(zhǎng)梅濤：智能供應(yīng)鏈中的機(jī)器視覺(jué)

視覺(jué)智能「產(chǎn)學(xué)融合」新十年｜CCF-GAIR 2020

梅濤認(rèn)為供應(yīng)鏈發(fā)展經(jīng)歷了三個(gè)階段：

第一階段，上世紀(jì)90年代，傳統(tǒng)供應(yīng)鏈的信息技術(shù)將產(chǎn)業(yè)的上下游進(jìn)行協(xié)同；第二階段，21世紀(jì)初期，互聯(lián)網(wǎng)工業(yè)階段，利用互聯(lián)網(wǎng)技術(shù)提高供應(yīng)鏈的效率和敏捷性；第三階段，21世紀(jì)及未來(lái)，智能供應(yīng)鏈階段，生產(chǎn)上更加協(xié)同，流通上更加敏捷，甚至可以通過(guò)用戶(hù)需求驅(qū)動(dòng)生產(chǎn)，又反過(guò)來(lái)創(chuàng)造需求。

梅濤指出，中國(guó)供應(yīng)鏈水平仍處于第一階段向第二階段過(guò)渡時(shí)期。作為“以供應(yīng)鏈為基礎(chǔ)的技術(shù)與服務(wù)企業(yè)”，京東在不斷夯實(shí)第一階段到第二階段轉(zhuǎn)型的同時(shí)，積極布局第三階段，基于人工智能，利用大數(shù)據(jù)、物聯(lián)網(wǎng)、區(qū)塊鏈等，打造基于各種技術(shù)與服務(wù)的供應(yīng)鏈全鏈條。

京東在智能供應(yīng)鏈領(lǐng)域的計(jì)算機(jī)視覺(jué)應(yīng)用非常多。智能消費(fèi)領(lǐng)域，通過(guò)SKU級(jí)別商品圖片理解，打造智能結(jié)算臺(tái)、京東拍照購(gòu)、京東搭配購(gòu)等應(yīng)用。在實(shí)際場(chǎng)景中，通過(guò)硬件和軟件一體化，幫助線下門(mén)店進(jìn)行一體化營(yíng)銷(xiāo)。

智能流通領(lǐng)域，京東還推出了首個(gè)產(chǎn)業(yè)級(jí)通用目標(biāo)重識(shí)別開(kāi)源庫(kù)FastReID。

智能生產(chǎn)領(lǐng)域，應(yīng)用于工業(yè)視覺(jué)質(zhì)檢，比如，印刷品包裝檢測(cè)中，通過(guò)內(nèi)容識(shí)別、設(shè)計(jì)校對(duì)、字號(hào)識(shí)別，以檢測(cè)包裝是否符合嚴(yán)格的標(biāo)準(zhǔn)，另外還有基于CMYK色彩控健康識(shí)別，缺陷監(jiān)測(cè)和尺寸識(shí)別。

梅濤提到，智能供應(yīng)鏈需要全鏈條的生態(tài)，京東擁有全行業(yè)最長(zhǎng)的數(shù)據(jù)鏈條以及最全的供應(yīng)鏈服務(wù)。京東不僅要服務(wù)于自己內(nèi)部的客戶(hù)，還基于人工智能開(kāi)放平臺(tái)，開(kāi)放技術(shù)，共建生態(tài)。

最后，梅濤分享了他對(duì)下一代視覺(jué)技術(shù)趨勢(shì)的看法，他認(rèn)為計(jì)算機(jī)視覺(jué)經(jīng)歷過(guò)萌芽、爆炸、巔峰，現(xiàn)在回歸理性，未來(lái)將在數(shù)據(jù)、模型、學(xué)習(xí)機(jī)制和工具箱四個(gè)層面有長(zhǎng)足進(jìn)步。

云天勵(lì)飛首席科學(xué)家王孝宇：AI 在智慧城市中的應(yīng)用

王孝宇認(rèn)為，在經(jīng)歷了PC互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)時(shí)代后，現(xiàn)在人們正在進(jìn)入AIoT時(shí)代。在AIoT時(shí)代，傳感器將遍布物理世界，人們將擁有無(wú)處不在的連接和智能化應(yīng)用。而AIoT時(shí)代到來(lái)的前提，是業(yè)界能提供有效的數(shù)字化技術(shù)。在物理世界的行為，只有經(jīng)過(guò)數(shù)字化后，才能稱(chēng)為“信息”，有了信息，機(jī)器才能更好地描述這個(gè)世界，并對(duì)物理世界作出反應(yīng)。

根據(jù)AI技術(shù)發(fā)展升級(jí)的路徑，王孝宇將智慧城市分為四大階段。

第一階段是Sensing（感知），這個(gè)階段的智慧城市能做到的是描述物理社會(huì)的基本事實(shí)，比如識(shí)別圖像中的物體是車(chē)輛還是人、車(chē)牌號(hào)是多少、這個(gè)人有什么特征。第二階段是Cross Analysis（交叉分析），這個(gè)階段機(jī)器能夠在識(shí)別基本信息的基礎(chǔ)上，根據(jù)時(shí)間、空間等其他信息進(jìn)行交叉分析，得出更豐富的信息，比如分析出圖片中的人之間的關(guān)系等。第三階段是Data Mining（數(shù)據(jù)挖掘），這個(gè)階段，機(jī)器能分析出造成事件的深層次原因，甚至預(yù)測(cè)事件的發(fā)生，比如預(yù)測(cè)某路段在某時(shí)間段的擁堵情況。第四階段是Decision Making（決策），即機(jī)器能夠幫助人作出某些決策，比如預(yù)測(cè)到某街區(qū)在某時(shí)間段可能發(fā)生某些事件后，進(jìn)行智能的警員調(diào)度，充分安排有限的警力。

王孝宇還說(shuō)到，盡管智慧城市不同階段能夠?qū)崿F(xiàn)的應(yīng)用不同，但無(wú)論是在哪一階段，都離不開(kāi)算法、算力和大數(shù)據(jù)，這也是云天勵(lì)飛從創(chuàng)立之初就一直堅(jiān)持在這三大方面投入大量研發(fā)工作的原因。目前，云天勵(lì)飛有Arctern算法平臺(tái)、Moss芯片平臺(tái)和Matrix大數(shù)據(jù)平臺(tái)，構(gòu)建了完整的AI技術(shù)鏈路，并聚焦公共安全、城市治理、新商業(yè)這三大方向打造產(chǎn)品和解決方案。

最后，王孝宇認(rèn)為，中國(guó)經(jīng)歷過(guò)商貿(mào)造富、互聯(lián)網(wǎng)和房地產(chǎn)造富的時(shí)代，未來(lái)我們很可能迎來(lái)科技造富的時(shí)代，科技將成為新基建中的核心元素。新基建的提出，也將開(kāi)啟中國(guó)新一輪智慧城市建設(shè)的“黃金時(shí)代”，新基建將會(huì)帶來(lái)“新四化”：居民數(shù)字化生活、企業(yè)數(shù)字化經(jīng)營(yíng)、社區(qū)數(shù)字化治理、城市數(shù)字化孿生。

暗物智能CEO林倞：從感知到認(rèn)知 - 多模態(tài)人機(jī)互動(dòng)的產(chǎn)業(yè)實(shí)踐

現(xiàn)在人工智能發(fā)展到了什么階段？

阿里巴巴達(dá)摩院今年年初給到的科技趨勢(shì)報(bào)告顯示，人工智能已經(jīng)在聽(tīng)、說(shuō)、看等感知領(lǐng)域達(dá)到甚至超越了人類(lèi)的水平，但在需要外部知識(shí)，邏輯推理或領(lǐng)域遷移的認(rèn)知智能領(lǐng)域還處于初期階段。

林倞指出，目前很多成功的人工智能應(yīng)用大部分還是依賴(lài)于大數(shù)據(jù)計(jì)算泛式。不管是自監(jiān)督還是網(wǎng)絡(luò)搜索的方法，本質(zhì)上依靠大量的數(shù)據(jù)，通過(guò)億萬(wàn)參數(shù)的神經(jīng)網(wǎng)絡(luò)去學(xué)習(xí)和訓(xùn)練，最后進(jìn)行分類(lèi)和回歸。某種意義上，人工智能的應(yīng)用成本一直居高臨下。

同時(shí)，即便是感知層的智能，特別是計(jì)算機(jī)視覺(jué)，目前系統(tǒng)還有很大的局限性，一是成本問(wèn)題，二是穩(wěn)定性、魯棒性并沒(méi)有達(dá)到或真正超越人的水平。

腦科學(xué)研究發(fā)現(xiàn)，人的大腦皮層感知區(qū)和認(rèn)知推理區(qū)域是不可分割的，視覺(jué)跟語(yǔ)言的大部分理解是依靠想象和推測(cè)的，并不是依靠大數(shù)據(jù)的感知，所以林倞提出一個(gè)觀點(diǎn)：感知智能和認(rèn)知智能不可分割。

一個(gè)嬰兒12個(gè)月以后會(huì)說(shuō)話，會(huì)推測(cè)他人的意圖。目前AI的智力水平不足12個(gè)月大的嬰兒，還遠(yuǎn)未達(dá)到認(rèn)知智能，AI系統(tǒng)欠缺的推測(cè)他人的意圖（能力）。

林倞的第三個(gè)觀點(diǎn)是，所謂的認(rèn)知人工智能必須要理解人的意圖，懂因果，可解釋。

可以通過(guò)豐富的方式跟人交互，能看到，能聽(tīng)懂，能回復(fù)，甚至能知道計(jì)算數(shù)學(xué)背后的因果邏輯，這樣才能實(shí)現(xiàn)從感知到認(rèn)知的跨越，并且跟人進(jìn)行高自然度的交互。

林倞介紹了暗物智能的五層技術(shù)架構(gòu)：物聯(lián)網(wǎng)、感知行為、問(wèn)題理解、思維和意圖、價(jià)值和常識(shí)。暗物智能沿著此技術(shù)架構(gòu)進(jìn)行產(chǎn)業(yè)實(shí)踐。

澎思科技首席科學(xué)家申省梅：基于遷移學(xué)習(xí)的視覺(jué)智能發(fā)展與應(yīng)用

視覺(jué)智能「產(chǎn)學(xué)融合」新十年｜CCF-GAIR 2020

申省梅從傳統(tǒng)機(jī)器學(xué)習(xí)的痛點(diǎn)、深度學(xué)習(xí)帶來(lái)的突破、深度遷移學(xué)習(xí)、遷移學(xué)習(xí)中用到的一些技術(shù)和實(shí)例方面進(jìn)行了分享，并分析了遷移學(xué)習(xí)在視覺(jué)智能的需求。

傳統(tǒng)機(jī)器學(xué)習(xí)的痛點(diǎn)之一是泛化能力差，原因之一是它使用手工特征，靠設(shè)計(jì)者的經(jīng)驗(yàn)得到，并無(wú)法掌握數(shù)據(jù)中的非線性變化，每種特征只能對(duì)特定的場(chǎng)景或特定的任務(wù)有效。泛化能力差導(dǎo)致魯棒性差，落地成本高，用戶(hù)滿意度差。

深度學(xué)習(xí)的特征是通過(guò)大量數(shù)據(jù)，用深度神經(jīng)網(wǎng)絡(luò)自適應(yīng)學(xué)習(xí)到的，可以完全掌握到數(shù)據(jù)當(dāng)中的多種變化。深度學(xué)習(xí)模型為計(jì)算機(jī)視覺(jué)帶來(lái)的突破，也是在給定的數(shù)據(jù)集上訓(xùn)練出來(lái)的，可以很好地反映給定數(shù)據(jù)的特點(diǎn)。

而給定的數(shù)據(jù)集僅僅代表了某一領(lǐng)域，某些應(yīng)用場(chǎng)景，某種特定任務(wù)，比如CCTV監(jiān)控下的自然圖像領(lǐng)域，戶(hù)外場(chǎng)景，任務(wù)是人臉識(shí)別，或行人再識(shí)別，或行為分析。

盡管在這些特定數(shù)據(jù)集訓(xùn)練的模型具有很高的準(zhǔn)確性，遠(yuǎn)遠(yuǎn)超過(guò)傳統(tǒng)機(jī)器學(xué)習(xí)，但在新的場(chǎng)景下它的性能無(wú)法維持，并且在用于新任務(wù)的時(shí)候可能會(huì)導(dǎo)致性能顯著下降。深度學(xué)習(xí)的突破仍然取決于數(shù)據(jù)。

另外，申省梅還指出深度學(xué)習(xí)AI落地痛點(diǎn)：

1、感知環(huán)境及應(yīng)用場(chǎng)景的千變?nèi)f化：天氣、光線、角度、遮擋等因素變化導(dǎo)致成像質(zhì)量不同并且質(zhì)量不佳；訓(xùn)練數(shù)據(jù)與落地場(chǎng)景的不一致導(dǎo)致AI模型性能徒然下降；

2、重新訓(xùn)練模型需要大量的AI專(zhuān)業(yè)人才來(lái)完成，周期長(zhǎng)成本高見(jiàn)效慢，已經(jīng)成為AI普惠的障礙；

3、AI人才的短缺以及成本昂貴會(huì)阻礙企業(yè)采納人工智能以及它帶來(lái)的效益。

澎思的使命是“AI即服務(wù)”，可以解決痛點(diǎn)，實(shí)現(xiàn)普惠AI，澎思通過(guò)AIOT平臺(tái)生態(tài)技術(shù)部署，實(shí)現(xiàn)“AI服務(wù)在線+AI功能定制終端+自閉環(huán)生態(tài)”。

通用智能是下一代AI發(fā)展的必然趨勢(shì)，申省梅表示，澎思會(huì)在遷移學(xué)習(xí)、無(wú)監(jiān)督、自監(jiān)督學(xué)習(xí)、小樣本學(xué)習(xí)、多模態(tài)學(xué)習(xí)這幾個(gè)真正反映AI落地的實(shí)際情況下落地生根。

澎思的目標(biāo)是在算法技術(shù)上走在國(guó)際計(jì)算機(jī)視覺(jué)的前沿，基于AI落地為主的前沿技術(shù)開(kāi)發(fā)，建設(shè)云端AI在線遷移學(xué)習(xí)平臺(tái)，加強(qiáng)端側(cè)AI輕量化的設(shè)計(jì)體系，推動(dòng)以用戶(hù)價(jià)值為導(dǎo)向的To B/To C產(chǎn)品創(chuàng)新。

商湯科技聯(lián)合創(chuàng)始人林達(dá)華：人工智能的惠普與開(kāi)放之路

視覺(jué)智能「產(chǎn)學(xué)融合」新十年｜CCF-GAIR 2020

林達(dá)華歸納了人工智能發(fā)展四個(gè)關(guān)鍵要素：科研、數(shù)據(jù)、算力、落地。

基礎(chǔ)研究和技術(shù)能力決定了產(chǎn)業(yè)化能走多遠(yuǎn)、走多快。到了具體的領(lǐng)域，數(shù)據(jù)、算力、落地場(chǎng)景是三個(gè)最為關(guān)鍵的要素，當(dāng)他們被連接在一起時(shí)，人工智能技術(shù)會(huì)泛化出巨大的力量，推動(dòng)技術(shù)前進(jìn)和產(chǎn)業(yè)升級(jí)。

商湯從底層到應(yīng)用層都有自研的技術(shù)，在核心底層建立深度學(xué)習(xí)訓(xùn)練平臺(tái)。

不斷建設(shè)底層技術(shù)的過(guò)程中，商湯充分認(rèn)識(shí)到，對(duì)人工智能的發(fā)展來(lái)說(shuō)，計(jì)算能力是必不可少的重要支撐和戰(zhàn)略基石。所以從2015年開(kāi)始到現(xiàn)在，商湯持續(xù)建立以GPU為核心的人工智能超算平臺(tái)。

林達(dá)華介紹，到現(xiàn)在為止，已經(jīng)建立了超過(guò)2萬(wàn)臺(tái)GPU的大型人工智能超算集群，其中最大的集群已經(jīng)連接了超過(guò)3000塊GPU，可以支持千億級(jí)模型訓(xùn)練和上百億大型數(shù)據(jù)集模型訓(xùn)練。其計(jì)算集群的總計(jì)算能力，可以比肩世界上的最高級(jí)別超算。

林達(dá)華表示，人工智能對(duì)社會(huì)的價(jià)值有三方面：第一，經(jīng)濟(jì)角度。它可以提升生產(chǎn)的效率，通過(guò)自動(dòng)化和人工智能技術(shù)變革產(chǎn)業(yè)經(jīng)濟(jì)，實(shí)現(xiàn)產(chǎn)業(yè)的升級(jí)。第二，通過(guò)人工智能技術(shù)進(jìn)入社會(huì)生活的方方面面，給社會(huì)和人民大眾賦能百業(yè)。最后，創(chuàng)造美好生活，推動(dòng)社會(huì)進(jìn)步。

智慧城市除了安防以外，其實(shí)還有非常多的維度，隨著人工智能產(chǎn)業(yè)落地的深化，在整個(gè)社會(huì)很多的行業(yè)，它其實(shí)都能受惠人工智能技術(shù)的進(jìn)步和落地。

微軟亞洲研究院首席研究員王井東：高分辨率網(wǎng)絡(luò)：一種視覺(jué)識(shí)別的通用網(wǎng)絡(luò)架構(gòu)

視覺(jué)智能「產(chǎn)學(xué)融合」新十年｜CCF-GAIR 2020

從2012年以來(lái)，隨著AlexNet橫空出世，深度神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)領(lǐng)域成為主流的方法。2014年，谷歌發(fā)明出了GoogleNet，牛津大學(xué)發(fā)明了VGGNet，2015年微軟發(fā)明了ResNet，2016年康奈爾大學(xué)和清華大學(xué)發(fā)明了DenseNet，這幾個(gè)結(jié)構(gòu)都是圍繞分類(lèi)任務(wù)而發(fā)明的網(wǎng)絡(luò)結(jié)構(gòu)。

除了分類(lèi)以外，在計(jì)算機(jī)視覺(jué)里面還有其它的重要任務(wù)，比如圖像分割、人臉關(guān)鍵點(diǎn)的檢測(cè)、人體姿態(tài)估計(jì)、目標(biāo)檢測(cè)等等。

下一代的網(wǎng)絡(luò)結(jié)構(gòu)是什么樣的呢？是否適用于更為廣泛的視覺(jué)識(shí)別問(wèn)題？

王井東首先介紹了分類(lèi)網(wǎng)絡(luò)結(jié)構(gòu)，它是包括一系列減小表征空間大小的過(guò)程，最終得到一個(gè)低分辨率的表征，然后進(jìn)行分類(lèi)，但是分割等任務(wù)需要空間精度高的表征，即高分辨率表征。

學(xué)習(xí)高分辨率表征，有一種叫上采樣的通用方法，包括兩個(gè)步驟，第一個(gè)步驟是分類(lèi)的網(wǎng)絡(luò)架構(gòu)，表征開(kāi)始比較大，然后慢慢變小。第二個(gè)步驟，通過(guò)上采樣的方法逐步從低分辨率恢復(fù)高分辨率。這樣的方法獲得的特征空間精度較弱。

而王井東團(tuán)隊(duì)研發(fā)的高分辨率網(wǎng)絡(luò)架構(gòu)（HRNet）沒(méi)有沿用以前的分類(lèi)架構(gòu)，也不是從低分辨率恢復(fù)到高分辨率，自始至終維持高分辨率。

他們讓高中低分辨率不停地交互，使得高分辨率可以拿到低分辨率語(yǔ)義性比較強(qiáng)的表征，低分辨率可以拿到高分辨率的空間精度比較強(qiáng)的表征，不停地融合，最終取得更強(qiáng)的高分辨率表征。

在人體姿態(tài)、分割、人臉關(guān)鍵點(diǎn)檢測(cè)、目標(biāo)檢測(cè)等任務(wù)中，HRNet從參數(shù)量、計(jì)算量以及最終結(jié)果看，高分辨率結(jié)構(gòu)都非常有優(yōu)勢(shì)。HRNet在人體姿態(tài)估計(jì)的任務(wù)上，已經(jīng)成為標(biāo)準(zhǔn)的方法；在分割任務(wù)上，由于其更好的性能，也被大家廣泛使用。雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

專(zhuān)題

CCF-GAIR 2020 全球人工智能與機(jī)器人峰會(huì)

本專(zhuān)題其他文章

余快

創(chuàng)新3C主編

關(guān)注消費(fèi)機(jī)器人和創(chuàng)新3C的一切，歡迎交流 | 微信：Yukuaikuaier

發(fā)私信

當(dāng)月熱門(mén)文章