從學(xué)術(shù)研究到應(yīng)用落地，這 6 位計(jì)算機(jī)視覺大咖在 CV 專場上都講了什么？ | CCF-GAIR 2018

本文作者：張偉

2018-07-01 13:59

專題：2018 CCF-GAIR 全球人工智能與機(jī)器人峰會(huì)

導(dǎo)語：計(jì)算機(jī)視覺技術(shù)的魔法。

雷鋒網(wǎng)按：2018 全球人工智能與機(jī)器人峰會(huì)（CCF-GAIR）在深圳召開，峰會(huì)由中國計(jì)算機(jī)學(xué)會(huì)（CCF）主辦，雷鋒網(wǎng)、香港中文大學(xué)（深圳）承辦，得到了寶安區(qū)政府的大力指導(dǎo)，是國內(nèi)人工智能和機(jī)器人學(xué)術(shù)界、工業(yè)界及投資界三大領(lǐng)域的頂級交流盛會(huì)，旨在打造國內(nèi)人工智能領(lǐng)域最具實(shí)力的跨界交流合作平臺(tái)。

雷鋒網(wǎng) CCF-GAIR 2018 延續(xù)前兩屆的“頂尖”陣容，提供 1 個(gè)主會(huì)場和 11 個(gè)專場（仿生機(jī)器人專場，機(jī)器人行業(yè)應(yīng)用專場，計(jì)算機(jī)視覺專場，智能安全專場，金融科技專場，智能駕駛專場，NLP 專場，AI+ 專場，AI 芯片專場，IoT 專場，投資人專場）的豐富平臺(tái)，意欲給三界參會(huì)者從產(chǎn)學(xué)研多個(gè)維度，呈現(xiàn)出更富前瞻性與落地性相結(jié)合的會(huì)議內(nèi)容與現(xiàn)場體驗(yàn)。

6 月 30 日，CCF-GAIR 大會(huì)進(jìn)行到第 2 天，計(jì)算機(jī)視覺專場如期舉行。本專場由兩大議題組成，分別是上午場“計(jì)算機(jī)視覺前沿與智能視頻”以及下午場“計(jì)算機(jī)視覺與醫(yī)療影像分析”。本文為計(jì)算機(jī)視覺專場上半場的精選內(nèi)容。

在上午場的主題演講中，港科大電子及計(jì)算機(jī)工程學(xué)系助理教授、RAM-LAB 主任劉明擔(dān)綱主持。在他的串聯(lián)下，港科大教授權(quán)龍、曠視科技首席科學(xué)家孫劍、云從科技聯(lián)合創(chuàng)始人姚志強(qiáng)、臻識(shí)科技 CEO 任鵬、云天勵(lì)飛首席科學(xué)家王孝宇以及商湯聯(lián)合創(chuàng)始人林達(dá)華這些學(xué)術(shù)界、工業(yè)界的眾多大牛進(jìn)行了 6 場深度分享，既有計(jì)算機(jī)視覺技術(shù)的前沿研究動(dòng)態(tài)，也有相關(guān)技術(shù)落地的方向。

從學(xué)術(shù)研究到應(yīng)用落地，這 6 位計(jì)算機(jī)視覺大咖在 CV 專場上都講了什么？ | CCF-GAIR 2018

首先登場的是港科大教授權(quán)龍。

從學(xué)術(shù)研究到應(yīng)用落地，這 6 位計(jì)算機(jī)視覺大咖在 CV 專場上都講了什么？ | CCF-GAIR 2018

*香港科技大學(xué)教授、ICCV 2011 主席、IEEE Fellow 權(quán)龍

權(quán)龍教授今天分享的主題是“計(jì)算機(jī)視覺、識(shí)別與三維重建”，他主要從三個(gè)方面進(jìn)行闡述，分別是計(jì)算機(jī)視覺的基礎(chǔ)、計(jì)算機(jī)視覺的變遷與發(fā)展，以及計(jì)算機(jī)視覺最新的進(jìn)展。

他談到，當(dāng)下因?yàn)樯疃葘W(xué)習(xí)技術(shù)的發(fā)展，人工智能變得非?；馃?，計(jì)算機(jī)視覺作為人工智能的一個(gè)領(lǐng)域，也變得異?；馃帷?/p>

人工智能的目的就是讓計(jì)算機(jī)去看、去聽、去讀，其中一個(gè)重要的部分就是圖像。權(quán)龍教授認(rèn)為視覺是人工智能的核心領(lǐng)域，因?yàn)橐曈X占據(jù)人類感官系統(tǒng)的 80%，也是最難做的一部分。他甚至認(rèn)為計(jì)算機(jī)視覺是推動(dòng)人工智能“革命”的決定性技術(shù)。

接著，權(quán)龍教授簡單回顧了一下計(jì)算機(jī)視覺的變遷和發(fā)展。

在上世紀(jì) 70、80 年代，計(jì)算機(jī)視覺有了最初的發(fā)展，權(quán)龍教授表示他很有幸在 80 年代就參與了相關(guān)工作，那時(shí)候主要做一些簡單的物體分類工作，通過一些特征點(diǎn)來做。

在 90 年代至 2000 年這段時(shí)間，變化發(fā)生了，以前都是提取一些特征點(diǎn)，這些年大家開始回過頭來看幾何的問題，幾何就是“三維重建”，這就推動(dòng)了很多工作以點(diǎn)為基礎(chǔ)，對點(diǎn)要做描述。這是推動(dòng)計(jì)算機(jī)視覺發(fā)展的一個(gè)很重要的事情。

到了 2012 年以后，計(jì)算機(jī)視覺進(jìn)入到卷積神經(jīng)網(wǎng)絡(luò)（CNN）時(shí)代，該領(lǐng)域發(fā)生了翻天覆地的變化，基本上是從特征到各種不同的算法，都被 CNN 一統(tǒng)。CNN 有一個(gè)好處，它是端到端的，它的實(shí)現(xiàn)是比較容易的。

而在談到計(jì)算機(jī)視覺的發(fā)展問題時(shí)，權(quán)龍教授表示，現(xiàn)在每個(gè)人都在做識(shí)別，但是它并不能代表所有計(jì)算機(jī)視覺，識(shí)別只是一部分。如果要去做一些交互和感知，必須先恢復(fù)三維，所以在識(shí)別的基礎(chǔ)上，下一個(gè)層次必須走向“三維重建”。

針對這個(gè)領(lǐng)域，權(quán)龍教授和他的研究團(tuán)隊(duì)已經(jīng)做了諸多的工作并取得了一定的成績，在 4 月份，他們拿下了兩個(gè)計(jì)算機(jī)視覺榜單的全球第一。

當(dāng)然，目前在深度學(xué)習(xí)推動(dòng)下的計(jì)算機(jī)視覺技術(shù)還有很多不足和挑戰(zhàn)，需要更多業(yè)內(nèi)研究者不斷去探索，特別是在卷積神經(jīng)網(wǎng)絡(luò)發(fā)展走到更高維度的時(shí)候。

從學(xué)術(shù)研究到應(yīng)用落地，這 6 位計(jì)算機(jī)視覺大咖在 CV 專場上都講了什么？ | CCF-GAIR 2018

*曠視科技首席科學(xué)家、研究院院長孫劍

緊接著是曠視科技首席科學(xué)家孫劍上臺(tái)，分享了他眼中的云、端、芯上的視覺計(jì)算。曠視科技成立至今已有 7 年，一直專注在計(jì)算機(jī)視覺感知領(lǐng)域。

計(jì)算機(jī)視覺簡單來說就是讓機(jī)器能看，如果更進(jìn)一步，機(jī)器能理解一張圖像或者一段視頻，我們能做什么？針對這個(gè)問題，孫劍和曠視給出的答案是“賦能億萬攝像頭”，讓應(yīng)用在所有領(lǐng)域的攝像頭都具備智能，無論是在云、端還是芯片上。

孫劍表示，曠視始終在研究計(jì)算機(jī)視覺的幾個(gè)核心問題，包括分類、檢測以及分割，分別對一張圖、一張圖的不同區(qū)域和一張圖的每個(gè)像素做識(shí)別，其中，分類是最為核心的工作。如果輸入的是視頻，則需要利用幀與幀之間的時(shí)間關(guān)系來做識(shí)別。

孫劍簡要談及計(jì)算機(jī)視覺的歷史，在他看來，計(jì)算機(jī)視覺的發(fā)展就是研究圖像如何 Representation 的歷史。在 80 年代的時(shí)候，早期神經(jīng)網(wǎng)絡(luò)成功運(yùn)用在人臉和文字識(shí)別上，但當(dāng)時(shí)僅限在這兩個(gè)領(lǐng)域，所以很難去定義什么是圖像 Representation。

2000年初，在深度學(xué)習(xí)流行之前，有一類方法比較熱，那就是 Feature-based，在圖片里抽取 Feature，然后對它進(jìn)行分析，這是深度學(xué)習(xí)之前最好的方法。但這個(gè)方法最大的問題是它有兩個(gè)缺點(diǎn)：其一，它是整體的非線性變換，向量的變換次數(shù)是有限的；其二，里面大多數(shù)參數(shù)都是人工設(shè)計(jì)的，包括 Feature。

今天轉(zhuǎn)到深度神經(jīng)網(wǎng)絡(luò)，這兩個(gè)缺陷都被彌補(bǔ)了。其一是整個(gè)非線性變換可以做非常多次，所以它有非常強(qiáng)的識(shí)別能力；第二是所有的參數(shù)都是聯(lián)合訓(xùn)練的，這兩點(diǎn)讓深度神經(jīng)網(wǎng)絡(luò)真正能夠取得非常好的效果。孫劍在微軟時(shí)提出的 152 層的 ResNet，第一次在 ImageNet 上超過了人的能力。

從2012年開始，各種各樣的 Net 出現(xiàn)了。孫劍從計(jì)算平臺(tái)的角度對這些 Net 做了一個(gè)簡單的分類，分別是云、端以及芯片三個(gè)不同的計(jì)算平臺(tái)。GoogleNet、ResNet 就是在云上；谷歌 MobileNet 以及曠視在去年提出的 ShuffleNet 則屬于端這一類；還有一些 Net 則是在芯片上，比如說 BNN 還有曠視提出的 DorefaNet。

孫劍針對 ShuffleNet 的結(jié)構(gòu)進(jìn)行了較為詳細(xì)的介紹，該神經(jīng)網(wǎng)絡(luò)是專門為手機(jī)端設(shè)計(jì)的。今年他們還設(shè)計(jì)了第二版的 ShuffleNet，拋棄了分組卷積的思想，而是引入了一個(gè)新的方法，用非常簡單的結(jié)構(gòu)來做。

針對目前分平臺(tái)分別設(shè)計(jì)相關(guān)網(wǎng)絡(luò)的現(xiàn)狀，孫劍相信未來會(huì)有一個(gè)“MetaNet”出現(xiàn)，能夠統(tǒng)一解決各個(gè)平臺(tái)上的神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)和優(yōu)化問題。

最后，孫劍簡單介紹了曠視在云、端、芯三個(gè)平臺(tái)上做的計(jì)算機(jī)視覺的應(yīng)用，包括人臉識(shí)別、車輛識(shí)別、人臉支付、智慧安防、智慧金融等等。

從學(xué)術(shù)研究到應(yīng)用落地，這 6 位計(jì)算機(jī)視覺大咖在 CV 專場上都講了什么？ | CCF-GAIR 2018

*云從科技聯(lián)合創(chuàng)始人姚志強(qiáng)

云從科技聯(lián)合創(chuàng)始人姚志強(qiáng)隨后上臺(tái)分享了作為一家人工智能視覺方案公司對于行業(yè)的理解和公司的進(jìn)展。他認(rèn)為人工智能最大的作用在于充當(dāng)巨大的計(jì)算資源、智力資源與廣泛應(yīng)用之間的橋梁。2015 年成立至今，云從科技已將企業(yè)的重要定位鎖定在人機(jī)交互領(lǐng)域，但對于人工智能技術(shù)、服務(wù)和生態(tài)的理解經(jīng)過了很多摸索。

姚志強(qiáng)認(rèn)為，一家人工智能企業(yè)需要匯集技術(shù)資源、數(shù)據(jù)資源、平臺(tái)、入口和資金，才能得以快速發(fā)展，一些成熟的企業(yè)會(huì)開放一些技術(shù)給初創(chuàng)公司，使后者得以在其中的某個(gè)場景深耕。數(shù)據(jù)資源優(yōu)勢的積累也很重要，另外還有平臺(tái)資源，目前云從的很多人工智能服務(wù)通過云平臺(tái)開放。

目前，云從在數(shù)據(jù)領(lǐng)域成立聯(lián)合實(shí)驗(yàn)室獲取行業(yè)內(nèi)部數(shù)據(jù)，并在對應(yīng)行業(yè)的內(nèi)部提供訓(xùn)練和服務(wù)。云從還與政府有大數(shù)據(jù)等合作。在銀行方面，姚志強(qiáng)介紹，云從銀行已是行業(yè)第一大人臉識(shí)別供應(yīng)商，并希望拉動(dòng)更多生態(tài)銀行提供完整的智慧銀行服務(wù)。安防行業(yè)也有很多挑戰(zhàn)，出于安全性考慮，安防行業(yè)涉及到諸如信息獲取、加密、解密等復(fù)雜挑戰(zhàn)。

未來，云從并非定位于一家行業(yè)化的公司，而是基于人工智能、人機(jī)交互領(lǐng)域的公司，通過現(xiàn)有資源拓展更多行業(yè)，將更多行業(yè)和人連接起來。

從學(xué)術(shù)研究到應(yīng)用落地，這 6 位計(jì)算機(jī)視覺大咖在 CV 專場上都講了什么？ | CCF-GAIR 2018

*臻識(shí)科技聯(lián)合創(chuàng)始人兼 CEO 任鵬

臻識(shí)科技 CEO 任鵬聊了如何打造一款智能相機(jī)產(chǎn)品。臻識(shí)科技致力于將計(jì)算進(jìn)視覺技術(shù)產(chǎn)業(yè)化，而智能相機(jī)作為載體，已經(jīng)在諸如智能交通、智慧社區(qū)、安防等各個(gè)場景中得到應(yīng)用。任鵬說，一款全智能相機(jī)，是要滿足一個(gè)場景應(yīng)用感知需要的相機(jī)，而不同領(lǐng)域?qū)鼍暗母兄枨蟾鞑幌嗤?/p>

任鵬用“金字塔型”描述完整的感知應(yīng)用場景，底層是像素，中間是對象，最上層是行為。但問題在于目前大部分應(yīng)用停留在對象層，有很多還沒有解決像素層的問題，例如智慧城市用云端識(shí)別結(jié)果做決策，但前端圖像模糊，識(shí)別有誤報(bào)，就會(huì)影響決策乃至系統(tǒng)運(yùn)作效率。

總而言之，實(shí)現(xiàn)這種智能相機(jī)的落地包括三個(gè)難點(diǎn)：成像、算法、制造。成像方面，目前智能相機(jī)成像評測行業(yè)標(biāo)準(zhǔn)缺失，其實(shí)除了解決硬件、結(jié)構(gòu)、熱設(shè)計(jì)、光學(xué)等問題，ISP（Image Signal Processing，圖像信號(hào)處理）是相機(jī)的核心問題，智能相機(jī)與普通拍照相機(jī)最大的區(qū)別在于，智能相機(jī)的 ISP 開發(fā)核心要基于物體的感知。算法方面，在嵌入式設(shè)備上開發(fā)智能相機(jī)，第一對于數(shù)據(jù)多樣性、均衡性、場景適應(yīng)性的把控非常重要，第二芯片方案選型中有巨大挑戰(zhàn)。制造方面，供應(yīng)鏈?zhǔn)遣豢梢?guī)避的問題。

除了看好雙目深度攝像頭，臻識(shí)也在嘗試多傳感器融合等更多的感知方案。

從學(xué)術(shù)研究到應(yīng)用落地，這 6 位計(jì)算機(jī)視覺大咖在 CV 專場上都講了什么？ | CCF-GAIR 2018

*云天勵(lì)飛首席科學(xué)家王孝宇

云天勵(lì)飛首席科學(xué)家王孝宇博士從其學(xué)術(shù)界到工業(yè)界的經(jīng)歷分享了有關(guān) AI 應(yīng)用的重要看法。

王孝宇博士 2012 年便在 NEC 美國研究院進(jìn)行無人車、人臉識(shí)別研究，之后與李佳等人聯(lián)合創(chuàng)建了 Snapchat 研究院，專注研究計(jì)算機(jī)視覺在手機(jī)終端上的應(yīng)用。加入云天勵(lì)飛后，主要聚焦 AI+ 新警務(wù)、AI+ 新社區(qū)、AI+ 新零售。

王孝宇博士認(rèn)為，可以和人自由交流的強(qiáng) AI 可能要到一百年后才能實(shí)現(xiàn)，眼下的人工智能帶來的更多是基礎(chǔ)性能的轉(zhuǎn)變，擁有更大量的數(shù)據(jù)，建立更精確的模型，是目前人工智能的最主要進(jìn)展。

王孝宇博士以 Snapchat 與 Facebook 的競爭發(fā)展為例，講述了一個(gè)觀點(diǎn)，即技術(shù)發(fā)展的時(shí)間節(jié)點(diǎn)至關(guān)重要，技術(shù)不需要完全成熟才能落地，關(guān)鍵是提供用戶認(rèn)可的產(chǎn)品；技術(shù)應(yīng)用需要找到正確的角度和平臺(tái)；算法不等于技術(shù)，數(shù)據(jù)的重要性更為突出。

從學(xué)術(shù)研究到應(yīng)用落地，這 6 位計(jì)算機(jī)視覺大咖在 CV 專場上都講了什么？ | CCF-GAIR 2018

*商湯科技聯(lián)合創(chuàng)始人、港中文-商湯聯(lián)合實(shí)驗(yàn)室主任林達(dá)華

香港中文大學(xué)資訊工程系助理教授、商湯科技聯(lián)合創(chuàng)始人、港中文-商湯聯(lián)合實(shí)驗(yàn)室主任林達(dá)華教授在計(jì)算機(jī)視覺專場上發(fā)表了演講。

商湯一直深受資本的青睞，大家都很好奇這家創(chuàng)業(yè)公司為何能有這么大的吸引力。林達(dá)華在現(xiàn)場表示，商湯能取得如今的成績，離不開其背后的香港中文大學(xué)多媒體實(shí)驗(yàn)室 18 年如一日的潛心技術(shù)研究。

林達(dá)華提及海量數(shù)據(jù)、運(yùn)用場景數(shù)據(jù)的積累，以及 GPU 的發(fā)展、計(jì)算能力大幅度的躍升，提供了算法進(jìn)步的基礎(chǔ)，在這個(gè)基礎(chǔ)之上帶來了今天人工智能的成功和計(jì)算機(jī)視覺技術(shù)在眾多的應(yīng)用場景的落地。

同時(shí)林達(dá)華回顧了計(jì)算機(jī)視覺在過去幾年的發(fā)展，他認(rèn)為這項(xiàng)技術(shù)還有很多的事情可以做，還有很長的路需要走。他認(rèn)為可以往提升計(jì)算機(jī)視覺技術(shù)的識(shí)別效率、降低數(shù)據(jù)成本、以及提高識(shí)別質(zhì)量三個(gè)方向努力。

現(xiàn)階段，計(jì)算機(jī)視覺還是以粗放型的方法在發(fā)展，依靠堆積數(shù)據(jù)、堆積計(jì)算資源，獲得高性能。但未來還是需要進(jìn)一步進(jìn)行優(yōu)化，他分享了商湯在視頻以及自動(dòng)駕駛上的案例。此外，目前計(jì)算機(jī)視覺研究還是高度依靠人力進(jìn)行標(biāo)注，因此成本非常高。

林達(dá)華認(rèn)為可以適當(dāng)換思路，從數(shù)據(jù)、場景里面去尋求里面本身就蘊(yùn)涵的一些標(biāo)注信息。而針對計(jì)算機(jī)視覺識(shí)別的質(zhì)量提升方面，還有更多的技術(shù)可能性需要去探索。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

2人收藏

相關(guān)文章