0
本文作者: 張偉 | 2018-07-01 13:59 | 專題:2018 CCF-GAIR 全球人工智能與機器人峰會 |
雷鋒網(wǎng)按:2018 全球人工智能與機器人峰會(CCF-GAIR)在深圳召開,峰會由中國計算機學會(CCF)主辦,雷鋒網(wǎng)、香港中文大學(深圳)承辦,得到了寶安區(qū)政府的大力指導,是國內(nèi)人工智能和機器人學術界、工業(yè)界及投資界三大領域的頂級交流盛會,旨在打造國內(nèi)人工智能領域最具實力的跨界交流合作平臺。
雷鋒網(wǎng) CCF-GAIR 2018 延續(xù)前兩屆的“頂尖”陣容,提供 1 個主會場和 11 個專場(仿生機器人專場,機器人行業(yè)應用專場,計算機視覺專場,智能安全專場,金融科技專場,智能駕駛專場,NLP 專場,AI+ 專場,AI 芯片專場,IoT 專場,投資人專場)的豐富平臺,意欲給三界參會者從產(chǎn)學研多個維度,呈現(xiàn)出更富前瞻性與落地性相結合的會議內(nèi)容與現(xiàn)場體驗。
6 月 30 日,CCF-GAIR 大會進行到第 2 天,計算機視覺專場如期舉行。本專場由兩大議題組成,分別是上午場“計算機視覺前沿與智能視頻”以及下午場“計算機視覺與醫(yī)療影像分析”。本文為計算機視覺專場上半場的精選內(nèi)容。
在上午場的主題演講中,港科大電子及計算機工程學系助理教授、RAM-LAB 主任劉明擔綱主持。在他的串聯(lián)下,港科大教授權龍、曠視科技首席科學家孫劍、云從科技聯(lián)合創(chuàng)始人姚志強、臻識科技 CEO 任鵬、云天勵飛首席科學家王孝宇以及商湯聯(lián)合創(chuàng)始人林達華這些學術界、工業(yè)界的眾多大牛進行了 6 場深度分享,既有計算機視覺技術的前沿研究動態(tài),也有相關技術落地的方向。
首先登場的是港科大教授權龍。
*香港科技大學教授、ICCV 2011 主席、IEEE Fellow 權龍
權龍教授今天分享的主題是“計算機視覺、識別與三維重建”,他主要從三個方面進行闡述,分別是計算機視覺的基礎、計算機視覺的變遷與發(fā)展,以及計算機視覺最新的進展。
他談到,當下因為深度學習技術的發(fā)展,人工智能變得非?;馃?,計算機視覺作為人工智能的一個領域,也變得異常火熱。
人工智能的目的就是讓計算機去看、去聽、去讀,其中一個重要的部分就是圖像。權龍教授認為視覺是人工智能的核心領域,因為視覺占據(jù)人類感官系統(tǒng)的 80%,也是最難做的一部分。他甚至認為計算機視覺是推動人工智能“革命”的決定性技術。
接著,權龍教授簡單回顧了一下計算機視覺的變遷和發(fā)展。
在上世紀 70、80 年代,計算機視覺有了最初的發(fā)展,權龍教授表示他很有幸在 80 年代就參與了相關工作,那時候主要做一些簡單的物體分類工作,通過一些特征點來做。
在 90 年代至 2000 年這段時間,變化發(fā)生了,以前都是提取一些特征點,這些年大家開始回過頭來看幾何的問題,幾何就是“三維重建”,這就推動了很多工作以點為基礎,對點要做描述。這是推動計算機視覺發(fā)展的一個很重要的事情。
到了 2012 年以后,計算機視覺進入到卷積神經(jīng)網(wǎng)絡(CNN)時代,該領域發(fā)生了翻天覆地的變化,基本上是從特征到各種不同的算法,都被 CNN 一統(tǒng)。CNN 有一個好處,它是端到端的,它的實現(xiàn)是比較容易的。
而在談到計算機視覺的發(fā)展問題時,權龍教授表示,現(xiàn)在每個人都在做識別,但是它并不能代表所有計算機視覺,識別只是一部分。如果要去做一些交互和感知,必須先恢復三維,所以在識別的基礎上,下一個層次必須走向“三維重建”。
針對這個領域,權龍教授和他的研究團隊已經(jīng)做了諸多的工作并取得了一定的成績,在 4 月份,他們拿下了兩個計算機視覺榜單的全球第一。
當然,目前在深度學習推動下的計算機視覺技術還有很多不足和挑戰(zhàn),需要更多業(yè)內(nèi)研究者不斷去探索,特別是在卷積神經(jīng)網(wǎng)絡發(fā)展走到更高維度的時候。
*曠視科技首席科學家、研究院院長孫劍
緊接著是曠視科技首席科學家孫劍上臺,分享了他眼中的云、端、芯上的視覺計算。曠視科技成立至今已有 7 年,一直專注在計算機視覺感知領域。
計算機視覺簡單來說就是讓機器能看,如果更進一步,機器能理解一張圖像或者一段視頻,我們能做什么?針對這個問題,孫劍和曠視給出的答案是“賦能億萬攝像頭”,讓應用在所有領域的攝像頭都具備智能,無論是在云、端還是芯片上。
孫劍表示,曠視始終在研究計算機視覺的幾個核心問題,包括分類、檢測以及分割,分別對一張圖、一張圖的不同區(qū)域和一張圖的每個像素做識別,其中,分類是最為核心的工作。如果輸入的是視頻,則需要利用幀與幀之間的時間關系來做識別。
孫劍簡要談及計算機視覺的歷史,在他看來,計算機視覺的發(fā)展就是研究圖像如何 Representation 的歷史。在 80 年代的時候,早期神經(jīng)網(wǎng)絡成功運用在人臉和文字識別上,但當時僅限在這兩個領域,所以很難去定義什么是圖像 Representation。
2000年初,在深度學習流行之前,有一類方法比較熱,那就是 Feature-based,在圖片里抽取 Feature,然后對它進行分析,這是深度學習之前最好的方法。但這個方法最大的問題是它有兩個缺點:其一,它是整體的非線性變換,向量的變換次數(shù)是有限的;其二,里面大多數(shù)參數(shù)都是人工設計的,包括 Feature。
今天轉到深度神經(jīng)網(wǎng)絡,這兩個缺陷都被彌補了。其一是整個非線性變換可以做非常多次,所以它有非常強的識別能力;第二是所有的參數(shù)都是聯(lián)合訓練的,這兩點讓深度神經(jīng)網(wǎng)絡真正能夠取得非常好的效果。孫劍在微軟時提出的 152 層的 ResNet,第一次在 ImageNet 上超過了人的能力。
從2012年開始,各種各樣的 Net 出現(xiàn)了。孫劍從計算平臺的角度對這些 Net 做了一個簡單的分類,分別是云、端以及芯片三個不同的計算平臺。GoogleNet、ResNet 就是在云上;谷歌 MobileNet 以及曠視在去年提出的 ShuffleNet 則屬于端這一類;還有一些 Net 則是在芯片上,比如說 BNN 還有曠視提出的 DorefaNet。
孫劍針對 ShuffleNet 的結構進行了較為詳細的介紹,該神經(jīng)網(wǎng)絡是專門為手機端設計的。今年他們還設計了第二版的 ShuffleNet,拋棄了分組卷積的思想,而是引入了一個新的方法,用非常簡單的結構來做。
針對目前分平臺分別設計相關網(wǎng)絡的現(xiàn)狀,孫劍相信未來會有一個“MetaNet”出現(xiàn),能夠統(tǒng)一解決各個平臺上的神經(jīng)網(wǎng)絡設計和優(yōu)化問題。
最后,孫劍簡單介紹了曠視在云、端、芯三個平臺上做的計算機視覺的應用,包括人臉識別、車輛識別、人臉支付、智慧安防、智慧金融等等。
*云從科技聯(lián)合創(chuàng)始人姚志強
云從科技聯(lián)合創(chuàng)始人姚志強隨后上臺分享了作為一家人工智能視覺方案公司對于行業(yè)的理解和公司的進展。他認為人工智能最大的作用在于充當巨大的計算資源、智力資源與廣泛應用之間的橋梁。2015 年成立至今,云從科技已將企業(yè)的重要定位鎖定在人機交互領域,但對于人工智能技術、服務和生態(tài)的理解經(jīng)過了很多摸索。
姚志強認為,一家人工智能企業(yè)需要匯集技術資源、數(shù)據(jù)資源、平臺、入口和資金,才能得以快速發(fā)展,一些成熟的企業(yè)會開放一些技術給初創(chuàng)公司,使后者得以在其中的某個場景深耕。數(shù)據(jù)資源優(yōu)勢的積累也很重要,另外還有平臺資源,目前云從的很多人工智能服務通過云平臺開放。
目前,云從在數(shù)據(jù)領域成立聯(lián)合實驗室獲取行業(yè)內(nèi)部數(shù)據(jù),并在對應行業(yè)的內(nèi)部提供訓練和服務。云從還與政府有大數(shù)據(jù)等合作。在銀行方面,姚志強介紹,云從銀行已是行業(yè)第一大人臉識別供應商,并希望拉動更多生態(tài)銀行提供完整的智慧銀行服務。安防行業(yè)也有很多挑戰(zhàn),出于安全性考慮,安防行業(yè)涉及到諸如信息獲取、加密、解密等復雜挑戰(zhàn)。
未來,云從并非定位于一家行業(yè)化的公司,而是基于人工智能、人機交互領域的公司,通過現(xiàn)有資源拓展更多行業(yè),將更多行業(yè)和人連接起來。
*臻識科技聯(lián)合創(chuàng)始人兼 CEO 任鵬
臻識科技 CEO 任鵬聊了如何打造一款智能相機產(chǎn)品。臻識科技致力于將計算進視覺技術產(chǎn)業(yè)化,而智能相機作為載體,已經(jīng)在諸如智能交通、智慧社區(qū)、安防等各個場景中得到應用。任鵬說,一款全智能相機,是要滿足一個場景應用感知需要的相機,而不同領域對場景的感知需求各不相同。
任鵬用“金字塔型”描述完整的感知應用場景,底層是像素,中間是對象,最上層是行為。但問題在于目前大部分應用停留在對象層,有很多還沒有解決像素層的問題,例如智慧城市用云端識別結果做決策,但前端圖像模糊,識別有誤報,就會影響決策乃至系統(tǒng)運作效率。
總而言之,實現(xiàn)這種智能相機的落地包括三個難點:成像、算法、制造。成像方面,目前智能相機成像評測行業(yè)標準缺失,其實除了解決硬件、結構、熱設計、光學等問題,ISP(Image Signal Processing,圖像信號處理)是相機的核心問題,智能相機與普通拍照相機最大的區(qū)別在于,智能相機的 ISP 開發(fā)核心要基于物體的感知。算法方面,在嵌入式設備上開發(fā)智能相機,第一對于數(shù)據(jù)多樣性、均衡性、場景適應性的把控非常重要,第二芯片方案選型中有巨大挑戰(zhàn)。制造方面,供應鏈是不可規(guī)避的問題。
除了看好雙目深度攝像頭,臻識也在嘗試多傳感器融合等更多的感知方案。
*云天勵飛首席科學家王孝宇
云天勵飛首席科學家王孝宇博士從其學術界到工業(yè)界的經(jīng)歷分享了有關 AI 應用的重要看法。
王孝宇博士 2012 年便在 NEC 美國研究院進行無人車、人臉識別研究,之后與李佳等人聯(lián)合創(chuàng)建了 Snapchat 研究院,專注研究計算機視覺在手機終端上的應用。加入云天勵飛后,主要聚焦 AI+ 新警務、AI+ 新社區(qū)、AI+ 新零售。
王孝宇博士認為,可以和人自由交流的強 AI 可能要到一百年后才能實現(xiàn),眼下的人工智能帶來的更多是基礎性能的轉變,擁有更大量的數(shù)據(jù),建立更精確的模型,是目前人工智能的最主要進展。
王孝宇博士以 Snapchat 與 Facebook 的競爭發(fā)展為例,講述了一個觀點,即技術發(fā)展的時間節(jié)點至關重要,技術不需要完全成熟才能落地,關鍵是提供用戶認可的產(chǎn)品;技術應用需要找到正確的角度和平臺;算法不等于技術,數(shù)據(jù)的重要性更為突出。
*商湯科技聯(lián)合創(chuàng)始人、港中文-商湯聯(lián)合實驗室主任林達華
香港中文大學資訊工程系助理教授、商湯科技聯(lián)合創(chuàng)始人、港中文-商湯聯(lián)合實驗室主任林達華教授在計算機視覺專場上發(fā)表了演講。
商湯一直深受資本的青睞,大家都很好奇這家創(chuàng)業(yè)公司為何能有這么大的吸引力。林達華在現(xiàn)場表示,商湯能取得如今的成績,離不開其背后的香港中文大學多媒體實驗室 18 年如一日的潛心技術研究。
林達華提及海量數(shù)據(jù)、運用場景數(shù)據(jù)的積累,以及 GPU 的發(fā)展、計算能力大幅度的躍升,提供了算法進步的基礎,在這個基礎之上帶來了今天人工智能的成功和計算機視覺技術在眾多的應用場景的落地。
同時林達華回顧了計算機視覺在過去幾年的發(fā)展,他認為這項技術還有很多的事情可以做,還有很長的路需要走。他認為可以往提升計算機視覺技術的識別效率、降低數(shù)據(jù)成本、以及提高識別質量三個方向努力。
現(xiàn)階段,計算機視覺還是以粗放型的方法在發(fā)展,依靠堆積數(shù)據(jù)、堆積計算資源,獲得高性能。但未來還是需要進一步進行優(yōu)化,他分享了商湯在視頻以及自動駕駛上的案例。此外,目前計算機視覺研究還是高度依靠人力進行標注,因此成本非常高。
林達華認為可以適當換思路,從數(shù)據(jù)、場景里面去尋求里面本身就蘊涵的一些標注信息。而針對計算機視覺識別的質量提升方面,還有更多的技術可能性需要去探索。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。
本專題其他文章