數(shù)字視網(wǎng)膜演化簡(jiǎn)史

本文作者： camel

2020-04-01 20:32

導(dǎo)語(yǔ)：一位學(xué)者在學(xué)術(shù)領(lǐng)域開(kāi)山立派，最顯著的一個(gè)標(biāo)志就是某個(gè)學(xué)術(shù)概念能夠與該學(xué)者劃等號(hào)

一位學(xué)者在學(xué)術(shù)領(lǐng)域開(kāi)山立派，最顯著的一個(gè)標(biāo)志就是某個(gè)學(xué)術(shù)概念能夠與該學(xué)者劃等號(hào)，例如當(dāng)提起相對(duì)論必然會(huì)聯(lián)想到愛(ài)因斯坦。

同樣的道理，當(dāng)提起「數(shù)字視網(wǎng)膜」這一概念，人們首先能想到的當(dāng)屬中國(guó)工程院高文院士。

所謂數(shù)字視網(wǎng)膜，即類(lèi)比于人類(lèi)視網(wǎng)膜，對(duì)傳統(tǒng)攝像頭乃至視覺(jué)計(jì)算架構(gòu)進(jìn)行演進(jìn)與革新，從而能夠更加智能地支持城市大腦，服務(wù)智能安防、城市精細(xì)管理等智能應(yīng)用。

更為具體的來(lái)說(shuō)，傳統(tǒng)攝像頭只是把拍攝到的視頻數(shù)據(jù)壓縮后上傳到云端進(jìn)行存儲(chǔ)，再做分析識(shí)別處理；而數(shù)字視網(wǎng)膜則要求在攝像頭端對(duì)拍攝視頻進(jìn)行高質(zhì)量視頻編碼和視覺(jué)特征提取編碼，對(duì)壓縮編碼過(guò)后的視頻流進(jìn)行本地存儲(chǔ)的同時(shí)按需上傳到云端，而所有的緊湊特征流同步實(shí)時(shí)同步到云端，從而既能夠保證高效的存儲(chǔ)，又能夠便捷地支撐大數(shù)據(jù)查詢分析，與此同時(shí)支持在端-邊-云之間進(jìn)行面向智能視頻編碼和特征分析的深度學(xué)習(xí)模型自適應(yīng)遷移、壓縮、更新與轉(zhuǎn)換。簡(jiǎn)而言之，數(shù)字視網(wǎng)膜就是這樣一種包含視頻編碼流、特征編碼流和模型更新流的可伸縮端邊云協(xié)同視覺(jué)計(jì)算架構(gòu)。

數(shù)字視網(wǎng)膜演化簡(jiǎn)史

傳統(tǒng)視覺(jué)感知系統(tǒng)

數(shù)字視網(wǎng)膜演化簡(jiǎn)史

數(shù)字視網(wǎng)膜技術(shù)系統(tǒng)框架

這一概念從正式提出至今，才不過(guò)兩年，然而從最初構(gòu)想，前期實(shí)踐，到理論基礎(chǔ)構(gòu)建卻花了近五年的時(shí)間。即使到現(xiàn)在，數(shù)據(jù)視網(wǎng)膜的技術(shù)框架也仍然在不斷完善當(dāng)中，但其影響卻將是顛覆性的。正如高文院士在2018年的一篇文章[1]中提到：

我國(guó)已明確提出“到2020年，基本實(shí)現(xiàn)全域覆蓋、全網(wǎng)共享、全時(shí)可用、全程可控的公共安全視頻監(jiān)控建設(shè)聯(lián)網(wǎng)應(yīng)用”，但是如果沒(méi)有重大技術(shù)突破，數(shù)千萬(wàn)攝像頭根本無(wú)法實(shí)現(xiàn)“全網(wǎng)共享”的實(shí)時(shí)數(shù)據(jù)匯聚，更不可能實(shí)現(xiàn)“全時(shí)可用”的聯(lián)網(wǎng)分析識(shí)別，“數(shù)據(jù)大”變不成“大數(shù)據(jù)”，巨大潛在價(jià)值無(wú)法發(fā)掘。數(shù)字視網(wǎng)膜是應(yīng)對(duì)上述挑戰(zhàn)的一種可行的顛覆性技術(shù)發(fā)展方向。

1、雛形醞釀

高文院士對(duì)于「數(shù)字視網(wǎng)膜」的理解，是伴隨著對(duì)城市中視頻監(jiān)控體系所存在問(wèn)題的深刻認(rèn)識(shí)而不斷深化的。

數(shù)字視網(wǎng)膜演化簡(jiǎn)史

據(jù)可考查資料，高文院士最早對(duì)城市中攝像頭所存在缺陷以及可能的改進(jìn)進(jìn)行思考始于2013年初（或者稍早）。在2013年新年伊始，高文院士曾接受人民網(wǎng)采訪[2]，他提到現(xiàn)代攝像頭密布，但還需要后端人力去盯，一旦遇到重大案件，去調(diào)用錄像資料，卻往往起不到太大作用。如果能夠在設(shè)計(jì)視頻編碼時(shí)，讓系統(tǒng)把數(shù)據(jù)中有用的信息抽取、挖掘并分析出來(lái)，不但能節(jié)省后期的人力投入，而且能起到應(yīng)急作用。
可以認(rèn)為，這個(gè)時(shí)候，他已經(jīng)有了模糊的概念，但對(duì)于具體如何去做，卻仍在醞釀當(dāng)中。

在2013年10月，高文院士在中國(guó)信息化周報(bào)上發(fā)表了題為《智慧城市中的視頻編碼、分析與評(píng)測(cè)》的文章[3]。在這篇文章中，他首次系統(tǒng)提出了他對(duì)“智慧城市”中視頻監(jiān)控所存在問(wèn)題的深入思考，他指出：

1、目前的監(jiān)控系統(tǒng)在設(shè)計(jì)時(shí)是為了視頻存儲(chǔ)和以人為核心的視頻跟蹤，而非以計(jì)算機(jī)為中心的自動(dòng)分析，因此靠這樣一套系統(tǒng)來(lái)實(shí)現(xiàn)智慧城市的視頻系統(tǒng)，去做自動(dòng)分析，是根本無(wú)法完成的。

2、智慧城市中的視頻技術(shù)面臨三大問(wèn)題，分別是存儲(chǔ)成本高（數(shù)據(jù)量太大）、檢索困難、對(duì)象再標(biāo)識(shí)難。而這三個(gè)問(wèn)題歸結(jié)到本質(zhì)則是兩個(gè)問(wèn)題，一個(gè)是編碼問(wèn)題，而另一個(gè)是視頻分析識(shí)別問(wèn)題。因此如何對(duì)監(jiān)控視頻進(jìn)行高效視頻編碼，以及如何對(duì)其進(jìn)行分析和檢索，是必須思考的兩個(gè)本質(zhì)問(wèn)題。

3、在學(xué)術(shù)界存在一個(gè)奇怪現(xiàn)象，即做視頻編碼的學(xué)者對(duì)視頻分析不感興趣；而反過(guò)來(lái)，做視頻分析的人對(duì)編碼也不感興趣。原因在于前者處理的是像素和圖像塊，屬于圖像處理領(lǐng)域，而后者處理的是圖像特征，屬于模式識(shí)別領(lǐng)域。就像兩條路上跑的車(chē)很難交匯。

幸運(yùn)的是，高文院士正好跨界這兩個(gè)圈子，無(wú)論是在視頻編碼領(lǐng)域，還是在計(jì)算機(jī)視覺(jué)（特別是人臉識(shí)別）領(lǐng)域，他都有著重要的影響力。其學(xué)生陳熙霖、山世光兩位研究員繼承了他在人臉識(shí)別領(lǐng)域的衣缽，如今已成為國(guó)際計(jì)算機(jī)視覺(jué)領(lǐng)域的領(lǐng)軍人物；而其學(xué)生黃鐵軍和馬思偉兩位教授則繼承了他在編碼領(lǐng)域的衣缽，在國(guó)際視頻編碼領(lǐng)域也有著重要的影響力。[4]

高文院士對(duì)當(dāng)代城市監(jiān)控系統(tǒng)存在問(wèn)題的本質(zhì)分析，盡管只是雛形，但卻奠定了他在隨后解決這一問(wèn)題的研究思路和方向。特別是在2014年的“第二屆智慧城市與智能系統(tǒng)院士論壇”上，他提出“我們希望把編碼和分析所做的技術(shù)融合在一起，集中在一個(gè)編碼的框架下?！盵5]

然而，盡管有了大致的方向，但由于以深度學(xué)習(xí)為代表的新一代人工智能剛剛興起，許多人對(duì)深度學(xué)習(xí)都還不太熟悉，當(dāng)時(shí)的算法和算力還不足以支持這種設(shè)想的技術(shù)。當(dāng)然，從已有的資料中也可以看出，高文院士當(dāng)時(shí)對(duì)這一問(wèn)題的分析和解決方案設(shè)想中，對(duì)如何將深度學(xué)習(xí)與視頻編碼進(jìn)行融合似乎也并沒(méi)有很深入的想法，仍然是以“前深度學(xué)習(xí)”的模式在思考。

2、仿生：數(shù)字視網(wǎng)膜

時(shí)間一晃，來(lái)到了2016年。隨著人工智能的發(fā)展，計(jì)算機(jī)視覺(jué)變得紅紅火火。大量以計(jì)算機(jī)視覺(jué)為技術(shù)基礎(chǔ)的初創(chuàng)公司相繼成立，傳統(tǒng)安防企業(yè)也逐步轉(zhuǎn)型。城市安防成為了一個(gè)資本角逐的大市場(chǎng)，高文院士之前提到城市視頻監(jiān)控的三大問(wèn)題（存儲(chǔ)成本高、檢索困難、對(duì)象再標(biāo)識(shí)難）也顯得越加尖銳。

在這些年當(dāng)中，高文院士逐步將原有的框架豐滿起來(lái)，然而若想把這一理念落到實(shí)處，還需要具體的場(chǎng)景，畢竟這是一個(gè)以工程為主體的研究。正如他在隨后的一篇文章[1]中提到：

“需要建立一個(gè)大規(guī)模測(cè)試平臺(tái)來(lái)評(píng)估和展示數(shù)字視網(wǎng)膜架構(gòu)的技術(shù)優(yōu)勢(shì)。這個(gè)平臺(tái)至少應(yīng)該包括上萬(wàn)路的監(jiān)控?cái)z像頭，地理上覆蓋一個(gè)中等以上城市，從而可以在真實(shí)場(chǎng)景中評(píng)估與數(shù)字視網(wǎng)膜相關(guān)的算法和技術(shù)?！?br/>

巧合的是，2016年以王堅(jiān)為主導(dǎo)的阿里云在杭州開(kāi)始試點(diǎn)建設(shè)城市大腦。[6]這正符合高文院士研究的需求，于是與王堅(jiān)等人一拍即合。為了更好的合作，2017年7月，高文院士以前的學(xué)生團(tuán)隊(duì)成立了一家名為「博雅鴻圖」（「博雅」取自北大「博雅塔」；而「鴻圖」為立意高遠(yuǎn)之意）的公司，高文院士擔(dān)任董事長(zhǎng)，依托北京大學(xué)數(shù)字視頻編解碼技術(shù)國(guó)家工程實(shí)驗(yàn)室在數(shù)字音視頻編解碼（AVS）國(guó)家標(biāo)準(zhǔn)和視覺(jué)特征編碼（CDVS）國(guó)際標(biāo)準(zhǔn)等方面的技術(shù)、標(biāo)準(zhǔn)、人才和產(chǎn)業(yè)化優(yōu)勢(shì)，致力于視覺(jué)智能芯片及系統(tǒng)解決方案的研發(fā)及產(chǎn)業(yè)化。[7]

在這期間，高文院士開(kāi)始跳出編碼和計(jì)算機(jī)視覺(jué)的領(lǐng)域，從更廣的范圍里思考其框架。一個(gè)表現(xiàn)即是，在2017年6月舉辦的圖靈大會(huì)上，高文院士做了主題為《Evolution of the Artificial Visual System》的報(bào)告。[8]

數(shù)字視網(wǎng)膜演化簡(jiǎn)史

高文院士在2017年圖靈大會(huì)上做報(bào)告（來(lái)源：騰訊視頻截圖）

在這個(gè)報(bào)告中，他首次提出動(dòng)物視覺(jué)的演化，以及人類(lèi)應(yīng)該借鑒其中的模式，這本質(zhì)上便是「仿生」。但在報(bào)告中，他僅僅做了類(lèi)比，雖然沒(méi)有提出「數(shù)據(jù)視網(wǎng)膜」的概念，但基本框架已經(jīng)非常完備。

數(shù)字視網(wǎng)膜概念的首次提出，是2017年10月份在深圳舉辦的安博會(huì)上。[9]

數(shù)字視網(wǎng)膜演化簡(jiǎn)史

他在這次報(bào)告中進(jìn)一步指出，傳統(tǒng)視覺(jué)感知系統(tǒng)中監(jiān)控?cái)z像頭為1-1模式：?jiǎn)螖z像機(jī)單流、單用途。這種模式是長(zhǎng)期自然形成的，效率不高：（1）壓縮-解壓縮和分析過(guò)程造成長(zhǎng)延遲；（2）對(duì)象檢測(cè)、模式識(shí)別和場(chǎng)景理解的準(zhǔn)確性較低；（3）低利用率，目前的監(jiān)控系統(tǒng)是為存儲(chǔ)數(shù)據(jù)并再由人工離線檢查而設(shè)計(jì)，大部分?jǐn)?shù)據(jù)在其生存期內(nèi)始終沒(méi)有用。這些是我們當(dāng)代智慧城市所不能忍受的，我們需要升級(jí)這些“眼睛”。

數(shù)字視網(wǎng)膜演化簡(jiǎn)史

在這次報(bào)告中，他也首次指出數(shù)字視網(wǎng)膜包含的三個(gè)核心技術(shù)：

1、基于背景模型的場(chǎng)景視頻編碼?，F(xiàn)有監(jiān)控?cái)z像頭采用的視頻編碼技術(shù)標(biāo)準(zhǔn)對(duì)監(jiān)控視頻編碼效率不高，因?yàn)檫@些標(biāo)準(zhǔn)主要是針對(duì)廣播電視視頻制定的。在監(jiān)控場(chǎng)景下，大多數(shù)攝像頭是固定的，背景相對(duì)不變，因而如能夠利用背景預(yù)測(cè)，消除相應(yīng)的冗余信息，那么編碼效率將大大提高。

2、視頻特征的緊湊表達(dá)。視覺(jué)表征是圖像視頻分析處理的基礎(chǔ)，如果在攝像頭端利用人工設(shè)計(jì)特征與深度學(xué)習(xí)特征自適應(yīng)融合技術(shù)提取幀內(nèi)幀間視覺(jué)緊湊表示，然后傳送到云端，就能大大提高搜索效率。他們?cè)鴮?shí)驗(yàn)表明平均每幀僅需100bit，可達(dá)到與未經(jīng)壓縮特征相當(dāng)甚至更高的檢索性能。

3、視頻編碼與特征編碼的聯(lián)合優(yōu)化。上述兩種數(shù)據(jù)信息并不是相互獨(dú)立的，而是相互關(guān)聯(lián)，可互為指導(dǎo)的，因此數(shù)字視網(wǎng)膜在同時(shí)輸出壓縮視頻流和緊湊特征流時(shí)，可以根據(jù)碼流的大小，設(shè)計(jì)聯(lián)合優(yōu)化函數(shù)來(lái)計(jì)算如何分配各自的碼率，從而在保持分析檢索性能的情況下，進(jìn)一步達(dá)到壓縮需求，如下圖所示。

數(shù)字視網(wǎng)膜演化簡(jiǎn)史

從圖中可以看出，在保持視頻編碼性能基本不變的情況下，特征編碼可大幅度壓縮。

高文院士也提到數(shù)字視網(wǎng)膜的三個(gè)特點(diǎn)，分別為高性能、高效率和可伸縮。

在這次報(bào)告中，還值得一提有兩點(diǎn)。首先，他指出數(shù)字視網(wǎng)膜是可軟件定義的，即特征學(xué)習(xí)模型和攝像機(jī)參數(shù)可以實(shí)時(shí)地從云中心更新（后面又對(duì)這一概念做了升級(jí)）；其次，針對(duì)當(dāng)前大多數(shù)仍然是傳統(tǒng)攝像頭（而非數(shù)字視網(wǎng)膜攝像頭）的實(shí)際情況，他提出了基于智能邊緣節(jié)點(diǎn)的解決方案，也即將負(fù)責(zé)特征提取的“視網(wǎng)膜”功能部署在邊緣匯聚服務(wù)器，而不是更換已經(jīng)部署的攝像頭。

盡管“數(shù)字視網(wǎng)膜”整個(gè)框架都已經(jīng)搭建完整，且已經(jīng)在杭州、山東文登、重慶等地做了實(shí)際試點(diǎn)，但直到2018年初，相關(guān)工作才首次正式見(jiàn)于刊物。

數(shù)字視網(wǎng)膜演化簡(jiǎn)史

2018年初，高文院士，北京大學(xué)田永鴻教授，以及阿里巴巴首席技術(shù)官王堅(jiān)博士（2019年被評(píng)選為中國(guó)工程院院士）在《中國(guó)科學(xué)》期刊上聯(lián)名發(fā)表了一篇名為《數(shù)字視網(wǎng)膜：智慧城市系統(tǒng)演進(jìn)的關(guān)鍵環(huán)節(jié)》。[1]

這篇文章首次完整、清晰且嚴(yán)謹(jǐn)?shù)囟x了「數(shù)字視網(wǎng)膜」的概念：

如何借鑒“人類(lèi)視網(wǎng)膜同時(shí)具有影像編碼與特征編碼功能”這一生物特性來(lái)研究和設(shè)計(jì)一種更高效的攝像頭。我們稱(chēng)之為數(shù)字視網(wǎng)膜攝像頭(retina-like camera)，簡(jiǎn)稱(chēng)為數(shù)字視網(wǎng)膜(digitalretina)。

數(shù)字視網(wǎng)膜的核心在于“單攝像機(jī)雙數(shù)據(jù)流”，其中壓縮視頻流是為了存儲(chǔ)和離線觀看，而緊湊特征流則是為了大數(shù)據(jù)分析與搜索。

文章也對(duì)不久前安博會(huì)上報(bào)告內(nèi)容做了更為嚴(yán)謹(jǐn)?shù)拿枋?，同時(shí)也首次提出了數(shù)字視網(wǎng)膜所必須滿足的五個(gè)條件：(a)使用全網(wǎng)統(tǒng)一的時(shí)間；(b)提供精確地理位置；(c)提供視頻數(shù)據(jù)的高效編碼功能；(d)提供視頻數(shù)據(jù)的緊湊特征表達(dá)；(e)支持視頻編碼與特征表達(dá)的聯(lián)合優(yōu)化。

考慮數(shù)字視網(wǎng)膜研究未來(lái)可能的演化路線，高文等人在這篇文章中提出三點(diǎn)，分別為：（1）標(biāo)準(zhǔn)化，該研究落地到實(shí)際生活中，必須在不同廠商及城市之間形成統(tǒng)一的標(biāo)準(zhǔn)；（2）軟硬件開(kāi)源，對(duì)于這樣的基礎(chǔ)工程來(lái)講，如果無(wú)法做到軟硬件開(kāi)源，相關(guān)的技術(shù)和產(chǎn)品就無(wú)法做到有效的開(kāi)發(fā)和應(yīng)用；（3）大規(guī)模測(cè)試床，這也是我們前面所提到的，不同于理論研究，數(shù)字視網(wǎng)膜本身更偏向應(yīng)用工程，因此必須有真實(shí)場(chǎng)景的測(cè)試才能夠推進(jìn)發(fā)展。

針對(duì)以上三點(diǎn)，高文院士等人也有相應(yīng)的動(dòng)作，例如積極推動(dòng)的AVS2、MPEG CDVS及其擴(kuò)展MPEG CDVA等。[9]

數(shù)字視網(wǎng)膜演化簡(jiǎn)史

此外，2017年7月，由高文院士、潘云鶴院士、黃鐵軍教授等帶頭發(fā)起成立的「新一代人工智能產(chǎn)業(yè)技術(shù)創(chuàng)新戰(zhàn)略聯(lián)盟」，也在創(chuàng)立之初就積極推動(dòng)成立人工智能開(kāi)源開(kāi)放平臺(tái)建設(shè)。[10]

在尋求建立大規(guī)模測(cè)試平臺(tái)來(lái)評(píng)估和展示數(shù)字視網(wǎng)膜架構(gòu)的技術(shù)優(yōu)勢(shì)方面，除與阿里云合作在杭州試點(diǎn)外，2018年3月，深圳市也成立了“鵬城實(shí)驗(yàn)室”，高文院士擔(dān)任實(shí)驗(yàn)室主任，由此開(kāi)啟了深圳試點(diǎn)。[11]

因此，《數(shù)字視網(wǎng)膜：智慧城市系統(tǒng)演進(jìn)的關(guān)鍵環(huán)節(jié)》這篇文章的發(fā)表具有標(biāo)志性意義，它也意味著高文院士對(duì)于「數(shù)字視網(wǎng)膜」的定義正式成形，研究格局基本確立。

數(shù)字視網(wǎng)膜演化簡(jiǎn)史

3、從「雙流」到「多流」

按照上述所示的框架，高文院士所帶領(lǐng)的團(tuán)隊(duì)（包括其所擔(dān)任董事長(zhǎng)的博雅鴻圖）一直在完善從前端到后端，從軟件到硬件的探索和設(shè)計(jì)。

從本質(zhì)上來(lái)說(shuō)，智慧城市的數(shù)字視網(wǎng)膜便是在攝像頭中嵌入芯片，從而能夠?qū)@取的視覺(jué)數(shù)據(jù)經(jīng)過(guò)高效編碼和緊湊特征提取后，傳送給城市大腦（后端云），以便更為高效、靈活地檢索和分析。這里涉及到兩種數(shù)據(jù)流，分別為視頻編碼流和特征編碼流。

但這種架構(gòu)忽視了一個(gè)問(wèn)題，即數(shù)字視網(wǎng)膜的芯片在做特征提取時(shí)，依賴于良好的深度學(xué)習(xí)模型。為了保障特征提取的準(zhǔn)確性，城市大腦通常需要利用搜集到的數(shù)據(jù)進(jìn)行學(xué)習(xí)，訓(xùn)練相應(yīng)的模型，再將學(xué)到的模型發(fā)送給前端設(shè)備。因此，模型的生成、利用和通信對(duì)數(shù)字視網(wǎng)膜至關(guān)重要，特別是視頻數(shù)據(jù)在位置、時(shí)間和環(huán)境等方面差異很大的情況下。因此，在視頻編碼流和特征編碼流之外，模型編碼流同樣是非常重要的一部分。

因此，隨著對(duì)數(shù)字視網(wǎng)膜實(shí)踐和認(rèn)識(shí)的深入，其結(jié)構(gòu)由「雙流」變?yōu)榱恕付嗔鳌梗阂曨l編碼流、特征編碼流和模型更新流。

數(shù)字視網(wǎng)膜演化簡(jiǎn)史

針對(duì)這一概念，高文院士最早是在2019年11月底在山東濟(jì)南召開(kāi)的“2019世界人工智能融合發(fā)展大會(huì)”上提出的。[12]

但事實(shí)上，他們對(duì)此的研究早已開(kāi)始。

在2019年7月，由北大段凌宇教授課題組在計(jì)算機(jī)多媒體領(lǐng)域國(guó)際學(xué)術(shù)會(huì)議IEEE ICME上發(fā)表了《智慧城市數(shù)字視網(wǎng)膜的模型生成、利用和傳輸范式》（Towards Digital Retina in Smart Cities: A Model Generation, Utilization and Communication Paradigm）一文[13]，這篇文章首次提出視頻流、特征流與模型流的協(xié)作計(jì)算模式，以克服端-邊-云環(huán)境下的模型復(fù)用與傳輸瓶頸。值得一提的是，這篇文章還獲得了這屆會(huì)議的最佳論文獎(jiǎng)。[14]

數(shù)字視網(wǎng)膜演化簡(jiǎn)史

段凌宇教授課題組在數(shù)字視網(wǎng)膜研究與實(shí)踐中發(fā)現(xiàn)，數(shù)字視網(wǎng)膜計(jì)算框架下的邊緣節(jié)點(diǎn)緩存了大量表征模型與無(wú)標(biāo)簽數(shù)據(jù)。為此，課題組提出了一種多模型復(fù)用機(jī)制，有效利用了邊緣節(jié)點(diǎn)緩存的模型和數(shù)據(jù)，生成更具域適應(yīng)性和判別力的目標(biāo)模型。針對(duì)多模型復(fù)用過(guò)程中的模型訓(xùn)練穩(wěn)定性，論文給出了理論證明與分析，并在實(shí)驗(yàn)中取得了相比傳統(tǒng)方法更優(yōu)的性能增益。在視網(wǎng)膜計(jì)算框架下，模型的頻繁傳輸與部署會(huì)帶來(lái)較大的通信開(kāi)銷(xiāo)。為了提升模型更新效率，進(jìn)一步提出了模型間高效通信的新問(wèn)題，并提出了一種新穎的差分模型壓縮方法，相比傳統(tǒng)的單模型壓縮方法，可有效降低模型傳輸碼率開(kāi)銷(xiāo)。該論文圍繞視頻流、特征流、模型流，提出了城市視覺(jué)系統(tǒng)中的協(xié)同計(jì)算新問(wèn)題，對(duì)于未來(lái)數(shù)字視網(wǎng)膜理論研究與實(shí)踐具有指導(dǎo)意義。[14]

數(shù)字視網(wǎng)膜演化簡(jiǎn)史

2019年10月由博雅鴻圖公司研制的第一款數(shù)字視網(wǎng)膜芯片—“鴻圖 TMGV9531ESHI”流片成功。在同月的第二屆雁棲航天論壇上，高文院士對(duì)該芯片進(jìn)行了詳細(xì)介紹。

在“2019世界人工智能融合發(fā)展大會(huì)”上，高文院士提到，[12] “第一款數(shù)字視網(wǎng)膜芯片已經(jīng)在路上，很快就會(huì)發(fā)布，這個(gè)芯片很小，就像一塊錢(qián)硬幣一樣，但卻把我剛才說(shuō)的三個(gè)本質(zhì)特征、八個(gè)功能全都包含在里面。將來(lái)，這種芯片可能會(huì)直接進(jìn)入各種智能交通的系統(tǒng)里，會(huì)支撐數(shù)字視網(wǎng)膜的應(yīng)用?！?br/>

2019年11月22日在杭州舉行了第一款數(shù)字視網(wǎng)膜芯片發(fā)布會(huì)和數(shù)字視網(wǎng)膜生態(tài)伙伴啟動(dòng)儀式，正式命名為“鴻芯圖騰GV9531”對(duì)外亮相。

數(shù)字視網(wǎng)膜演化簡(jiǎn)史

“鴻芯圖騰GV9531”是首款支持?jǐn)?shù)字視網(wǎng)膜技術(shù)體系的智能芯片，也是首顆AVS2視頻編碼芯片，它對(duì)數(shù)字視網(wǎng)膜技術(shù)進(jìn)行了完整的詮釋?zhuān)С秩纸y(tǒng)一的時(shí)空ID、多層次視網(wǎng)膜表示和模型更新及軟件定義，在邊緣端實(shí)現(xiàn)數(shù)字視網(wǎng)膜技術(shù)的高能效處理，不僅能減少進(jìn)入云端的無(wú)用數(shù)據(jù)量，還能大大降低視頻數(shù)據(jù)處理的成本，是數(shù)字視網(wǎng)膜邊云系統(tǒng)視覺(jué)計(jì)算框架的核心算力支撐平臺(tái)，是視覺(jué)邊緣計(jì)算、多流智能處理、實(shí)現(xiàn)腦眼合一的視覺(jué)計(jì)算系統(tǒng)不可缺少的關(guān)鍵環(huán)節(jié)。

另外，在新的一年里面，數(shù)字視網(wǎng)膜的研究會(huì)有什么新的進(jìn)展？更為重要的是，在這一領(lǐng)域，它能夠給研究者帶來(lái)哪些值得研究的新課題？它能夠給芯片廠商、安防廠商帶來(lái)什么新的商機(jī)？

這是我們所期待的！

本篇文章的寫(xiě)作，離不開(kāi)中國(guó)圖象圖形學(xué)學(xué)會(huì)以及北京大學(xué)多位老師的支持，在此感謝。

AI科技評(píng)論了解到，由中國(guó)圖象圖形學(xué)學(xué)會(huì)主辦，新疆大學(xué)承辦的第二十屆全國(guó)圖象圖形學(xué)學(xué)術(shù)會(huì)議（NCIG 2020）將于2020年6月28-20日在新疆烏魯木齊舉辦。高文院士將作為特邀講者[16]，再次為我們帶來(lái)數(shù)字視網(wǎng)膜的最新研究報(bào)告，該會(huì)議將匯聚國(guó)內(nèi)圖像圖形及相關(guān)領(lǐng)域領(lǐng)軍人才，聚焦領(lǐng)域熱點(diǎn)問(wèn)題，多角度全方位洞見(jiàn)未來(lái)發(fā)展趨勢(shì)，包含3個(gè)特邀報(bào)告，2個(gè)講習(xí)班，4個(gè)論壇，5個(gè)競(jìng)賽，1個(gè)優(yōu)秀博士論壇，多個(gè)展覽，是國(guó)內(nèi)圖像圖形領(lǐng)域?qū)＜覍W(xué)者合作交流的平臺(tái)，值得期待！

NCIG 2020 官方網(wǎng)站：http://ncig2020.csig.org.cn

數(shù)字視網(wǎng)膜演化簡(jiǎn)史

高文院士簡(jiǎn)介

高文，北京大學(xué)博雅講席教授。1982年于哈科大獲得學(xué)士學(xué)位，1985年于哈工大獲得碩士學(xué)位，1988年和1991分別獲得哈工大計(jì)算機(jī)應(yīng)用博士學(xué)位和東京大學(xué)電子工程博士學(xué)位。1991至1996年就職于哈爾濱工業(yè)大學(xué)，1996至2006就職于中國(guó)科學(xué)院計(jì)算技術(shù)研究所，2006年2月至今就職于北京大學(xué)。IEEE Fellow、ACM Fellow、中國(guó)工程院院士。他的研究領(lǐng)域?yàn)槎嗝襟w和計(jì)算機(jī)視覺(jué)，包括視頻編碼、視頻分析、多媒體檢索、人臉識(shí)別、多模態(tài)接口和虛擬現(xiàn)實(shí)。他最常被引用的工作是基于模型的視頻編碼與基于特征的對(duì)象表達(dá)。他先后出版著作七本，合作發(fā)表300余篇期刊論文、700余篇國(guó)際會(huì)議論文。先后多次獲得國(guó)家科技進(jìn)步獎(jiǎng)、國(guó)家技術(shù)發(fā)明獎(jiǎng)、國(guó)家自然科學(xué)獎(jiǎng)等學(xué)術(shù)獎(jiǎng)勵(lì)。

參考資料：
[1] 數(shù)字視網(wǎng)膜：智慧城市系統(tǒng)演進(jìn)的關(guān)鍵環(huán)節(jié)，中國(guó)科學(xué)：信息科學(xué)2018年第48卷第8期：1076–1082

[2] 高文院士：高效視頻編碼技術(shù)前景廣闊，人民網(wǎng)（2013年1月10日），http://scitech.people.com.cn/n/2013/0110/c1007-20156410.html

[3] 智慧城市中的視頻編碼、分析與評(píng)測(cè)，中國(guó)信息化周報(bào)（2013年10月21日）第 005 版

[4] 高文院士個(gè)人主頁(yè)，http://www.jdl.ac.cn/htm-gaowen/

[5] 與智能視頻監(jiān)控有關(guān)的技術(shù)挑戰(zhàn)，中國(guó)信息化周報(bào)（2014年9月22日）第 005 版

[6] 復(fù)盤(pán)阿里城市大腦這3年（2019年1月25日），http://www.ozgbdpf.cn/news/201901/Pq1EAaIrVXM4mDMv.html

[7] 北大高文院士發(fā)表重要講話：人工智能數(shù)字視網(wǎng)膜芯片到底能做什么（2018年7月7日），http://www.pinlue.com/article/2018/08/0913/386742019905.html

[8] 圖靈會(huì)議高文院士主題報(bào)告（2017年6月8日），https://v.qq.com/x/page/e0511e3veje.html?fr=v.hao123.com

[9] 高文院士50張PPT，帶你看懂城市大腦的瓶頸與重大突破點(diǎn)（2017年12月15日），http://www.ozgbdpf.cn/news/201711/esDVM34RTfN0mN67.html

[10] 專(zhuān)訪黃鐵軍：以落實(shí)國(guó)家「新一代人工智能發(fā)展規(guī)劃」為己任的戰(zhàn)略聯(lián)盟，成立8個(gè)月做了哪些事？（2018年3月26日），http://www.ozgbdpf.cn/news/201803/UJuG5jWfsHxXe26M.html

[11] 鵬城實(shí)驗(yàn)室啟動(dòng)大會(huì)召開(kāi)，
http://www.pcl.ac.cn/index.php/home/index/views/id/164.html

[12] 中國(guó)工程院院士高文：數(shù)字視網(wǎng)膜消除智能交通痛點(diǎn) | 世界人工智能融合發(fā)展大會(huì)（2019年11月20日），http://www.ozgbdpf.cn/news/201911/q5Y20D2wqlFqXSHe.html

[13] Towards Digital Retina in Smart Cities: AModel Generation, Utilization and Communication Paradigm（2019年7月31日），https://arxiv.org/abs/1907.13368

[14] 計(jì)算機(jī)科學(xué)技術(shù)系段凌宇教授團(tuán)隊(duì)榮獲IEEE ICME 2019最佳論文獎(jiǎng)（2019年8月2日），https://eecs.pku.edu.cn/info/1023/9885.htm

[15] 數(shù)據(jù)不出本地，還能享受大數(shù)據(jù)訓(xùn)練模型，聯(lián)邦學(xué)習(xí)提供一種應(yīng)用廣闊的學(xué)習(xí)新范式（2019年9月11日），http://www.ozgbdpf.cn/news/201909/WOcl8I1TjMjXVJd5.html

[16] NCIG 2020第二十屆全國(guó)圖象圖形學(xué)學(xué)術(shù)會(huì)議，http://ncig2020.csig.org.cn

[17] AI Oriented Large-Scale Video Management forSmart City: Technologies, Standards and Beyond（2017年12月5日），https://arxiv.org/pdf/1712.01432.pdf

[18] 高文院士：用類(lèi)腦顛覆攝像頭，數(shù)字視網(wǎng)膜是下一站（2018年9月12日），http://tech.163.com/18/0912/18/DRH97U4S00098IEO.html

[19] 解析高文院士提出的“數(shù)字視網(wǎng)膜”體系（2019年5月8日），https://www.iyiou.com/p/99569.html

雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

camel

編輯

持身秉正

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門(mén)文章