0
本文作者: 叢末 | 2019-10-22 17:07 | 專題:CNCC 2019 |
雷鋒網 AI 科技評論按:10 月 17 日至 19 日,由 CCF 主辦、蘇州工業(yè)園區(qū)管委會、蘇州大學承辦的 CNCC 2019 在秋意正濃的蘇州如約而至。今年大會以「智能+引領社會發(fā)展」為主題,選址蘇州金雞湖國際會議中心召開。雷鋒網 AI 科技評論將會作為戰(zhàn)略合作媒體進行全程跟蹤報道。
除了 15 場特邀報告外,今年 CNCC 的 79 場技術論壇作為會議的另一大重要組成部分,也是參會者重點關注的內容。其中「計算機視覺技術賦能智慧城市」技術論壇盡管在大會第三天舉辦,仍然人滿為患。據(jù)悉,CCF 在會議召開前夕對本次會議的 70 多場技術論壇的微信點擊量進行了統(tǒng)計,該論壇的點擊量排名第二,現(xiàn)場滿席的盛況也再次引證了這一技術論壇的受關注度。
《計算機視覺技術賦能智慧城市》技術論壇由澎思科技首席科學家、新加坡研究院院長申省梅擔任主席,中科院計算所研究員、IEEE Fellow、IAPR Fellow、CCF會士陳熙霖擔任共同主席,邀請了西湖大學講席教授、IEEE Fellow李子青,西安電子科技大學教授、博士生導師楊淑媛、阿里巴巴自動駕駛實驗室主任、首席科學家王剛,清華大學自動化系副教授魯繼文,商湯科技副總裁、智能駕駛業(yè)務總經理勞世竑等 5 位來自學術界和業(yè)界的演講嘉賓從多重視角來分享計算機視覺技術在城市中的應用以及對產業(yè)落地的思考,值得一提的是,本論壇的主席申省梅也親自上陣作為演講嘉賓之一在現(xiàn)場為大家?guī)砹藟狠S演講。
我們下來一一來看各位嘉賓的演講內容。
開場演講由西湖大學講席教授李子青帶來,他的演講主題是《人臉識別挑戰(zhàn)問題和解決技術》,主要從人臉識別當前所存在的大數(shù)量類別的模式識別問題、人臉防偽問題以及復雜光照問題三個未來需要重點關注的挑戰(zhàn)出發(fā),闡述了應對這三個問題的解決方案。
在多數(shù)量類別的模式識別方面,李子青指出,過去常用的解決方法是歐式空間,雖然這種方法能夠讓單位立方體的均勻分布點分布在角上,但點之間的相對距離卻是趨于零,并且其 Softmax 評分與人類視覺硬度并沒有很好的相關性,這種數(shù)據(jù)稀疏性缺乏統(tǒng)計意義。而現(xiàn)在采用的方法則叫做 Angular similarity,它從角度出發(fā)來進行分類,具備 Angle Loss、Margin、Imbalanced Data 三個特點,在總的趨勢能夠達到預期的效果。
在人臉防偽問題上,傳統(tǒng)方法主要是對紋理、三維形狀等方面來提取特征從而區(qū)分真人和假體,其中硅膠是最難以辨別出來的類別。而現(xiàn)在則基本采用深度學習的方法,比如說李子青團隊早 2014 年提出的正樣本、負樣本方法,就將深度學習引入到了人臉防偽中,即利用眨眼、搖頭等三維結構來判斷人臉是平面的還是三維的。例外他在今年的 CVPR 的一個人臉防偽競賽就嘗試將 RGB 的、近紅外和深度信息進行融合來解決該問題。
在復雜光照問題上,李子青表示,目前計算機視覺領域的獨角獸公司做的算法很強,然而無法在工地、高鐵站等場景中得到很好的應用。他認為,應該利用主動光照來解決這個問題,這是因為環(huán)境的關照如果是不受控的光源,采集的圖像就已經被破壞得很嚴重了,在這種情況下,還需要從光電硬件上去解決這個問題。基本思路上,他指出,可以將近紅外的圖像轉化為可見光的圖像,之后用可見光的匹配技術來做。其中,他的團隊提出了 CCA 的方法,即對可見光圖像和近紅外圖像提取出共同特征,然后在 CCA 空間上處理這些特征,依次來克服光照問題,不過由于 CCA 容易過擬合,效果可能沒有那么好。
接下來,西安電子科技大學教授楊淑媛帶來了主題為《基于深度學習的復雜場景解譯》的演講,重點分享了深度學習在解決復雜雷達影像問題上的應用。
雷達從理論到實踐,現(xiàn)在已經有 100 多年的歷史,其功能也在不斷發(fā)生演化:從最初的測距、測角、測速發(fā)展到現(xiàn)在對一個場景能夠進行成像,包括二維的成像、三維的成像等等。之后隨著一些新體制雷達的出現(xiàn)以及天線收發(fā)方式的改變,影像信息也變得更加多維,從而能夠為理解場景提供很好的數(shù)據(jù)源。其中「雷達影像自動解譯」則將這些數(shù)據(jù)源利用起來的方法之一。
楊淑媛首先對這一方法進行了解釋:「雷達影像自動解譯」就是從這些影像信息中利用計算機來識別出來場景、地物信息,并且對其中感興趣的目標信息進行建模、分析和提取。解譯的對象其實與計算機視覺的任務類似,具體包含場景級的解譯、像素級的解譯等幾個層次方面的任務?,F(xiàn)在隨著觀測任務的復雜化、成像技術的發(fā)展、目標所在場景的復雜化以及地物類型的增多,場景解譯迎來了更大的挑戰(zhàn)性難題。
接著,她介紹了為應對場景解譯的難題所做的一些基于深度學習的方法,包括:
第一,借鑒人類視覺感知和認知的特點,建模人類認知特性,結合對深度結構的宏觀模擬、神經元稀疏認知的微觀模擬,以及神經元間選擇注意的介觀模擬,設計具有稀疏性、選擇注意和方向性的神經元,構建新型深度學習模型,通 過認知特性的建模提升對復雜數(shù)據(jù)的表征、處理與信息提取的能力。具體工作包括張量深度濾波網絡模型、層次化的稀疏顯著的網絡模型、非線性協(xié)同稀疏模型等;
第二,利用半監(jiān)督學習、孿生學習、生成對抗等技術去構建小樣本特征學習的模塊,以有效提升小樣本下的深度網絡的性能,克服監(jiān)督信息少、標注成本高、標注樣本變化大、易混淆等問題。例如在做雷達目標識別中,采用比對學習方式對數(shù)據(jù)進行一個配對的擴展組合,再加入了一個半監(jiān)督的學習方式,實現(xiàn)在對比學習架構上做半監(jiān)督模式;
第三,針對深度網絡只能工作在封閉環(huán)境的局限,做了一些可以演化深度模型的嘗試,其中提出了一種能夠在線處理環(huán)境信息的度量在線的學習模式,設計了遷移張量的學習算法。而這種方式的整個過程就是一個新類檢測、樣例積累、網絡遷移學習更新、增量式分類以及多類型聚類的過程;
第四,構建了由 30 臺服務器構成的一個高性能計算集群——遙感影像大數(shù)據(jù)類腦解譯計算系統(tǒng),能夠快速實現(xiàn)對大規(guī)模影像數(shù)據(jù)的類腦解譯處理,具有計算快、穩(wěn)定性強、吞吐量高、任務并行等優(yōu)勢。
「深度學習確實是解決復雜雷達影像解譯的一種非常有效的方法,但在實際應用里依舊存在非常多的問題,包括開放環(huán)境問題、可靠性問題、領域數(shù)據(jù)問題、認知意義缺乏問題等等。」楊淑媛最后總結道。
阿里巴巴自動駕駛實驗室主任、首席科學家王剛則聚焦自動駕駛這一細分領域,從業(yè)界視角帶來了主題為《自動駕駛沒有免費的午餐》的演講。他重點分享了阿里巴巴在自動駕駛系統(tǒng)的計算機視覺方面的一些思考和觀點。
他指出,最近幾年,國內外無人駕駛公司都取得了非常大的技術進步,但是我們也要客觀地看到,自動駕駛還存在非常多的困難和巨大的挑戰(zhàn),因而現(xiàn)在還沒有看到完全能夠落地的產品。
自動駕駛為什么這么難落地?王剛指出,單用一套通用的自動駕駛算法很難覆蓋復雜多樣化的交通場景,需要將多場景問題進行分解、細化,有針對性地解決,而這種思路被稱之為自動駕駛里面的「No Free Lunch」理論。
他進一步指出,自動駕駛的研發(fā)依賴于三個要素——精細化場景、針對性算法和自動化平臺:
第一,精細化場景。過去業(yè)界的場景分類過于粗礦,無法作為「No Free Lunch」理論的支撐,所以需要研發(fā)出一個更好的精細化場景方式,去帶動整個研發(fā)體系。
第二,針對性算法,這就需要對相關的算法進行相應的優(yōu)化,從而能夠有的放矢地針對每個場景進行處理。
第三,自動化平臺、云平臺。為了實現(xiàn)這樣一個高效的研發(fā)體系,需要 AutoDrive 此類的自動化平臺,與此同時這種自動化平臺背后也離不開整個云平臺的支撐,包括數(shù)據(jù)的采集、回歸、仿真、以及模型訓練、測試評價等。
「將這三個要素進行協(xié)同,才能夠產生更好的化學反應,才能更高效地推進自動駕駛領域的研發(fā)?!?/p>
清華大學自動化系副教授魯繼文隨后登臺,基于其實驗室在深度學習和計算機視覺領域的一些研究成果帶來了分享,他帶來的演講題目是《深度強化學習與視覺內容理解》。
一開場他就指出,計算機視覺本質上要做兩件事:看得清和看得懂。隨著計算機視覺的發(fā)展,看得懂已基本不成問題,接下來要重點解決的問題便是看得懂,其中視覺內容理解便是一個重要的方向。
強化學習作為一項早已出現(xiàn)的技術,在與深度學習結合后,在解決問題上表現(xiàn)出了很好的性能,因而也受到了研究者的廣泛關注。魯繼文介紹道,針對視覺內容理解,其實驗室采用深度強化學習的方法主要解決了策略學習、離散優(yōu)化學習和無監(jiān)督和弱監(jiān)督學習三個方面的問題。
其中,其實驗室主要圍繞建模視頻、離散優(yōu)化做了一些工作,具體工作包括在 ICCV、CVPR、ECCV 等頂會上提出了注意力敏感深度強化學習、深度漸進強化學習、迭代調整的深度強化學習、協(xié)同深度強化學習、深度部件強化學習、雙智能體深度強化學習、深度推理決策網絡、基于深度強化學習的目標檢測、基于深度強化學習的相似性度量、基于深度強化學習的圖像檢索、基于深度強化學習的行人再識別、基于深度強化學習的網絡壓縮、基于深度強化學習的二值表示、基于深度強化學習的貝葉斯壓縮、基于深度強化學習的二值網絡等等。
最后他總結道,深度強化學習可以同時利用深度學習的表示能力和強化學習的決策能力,對很多視覺內容理解任務都可以做更好的建模策略,從而更好地提升相應視覺任務的性能。未來,希望研究者能夠就來如何將深度強化學習方法與認知計算結合,提出更加符合人類認知的深度強化學習計算模型,進一步提升視覺內容理解任務的性能。
商湯科技副總裁、智能駕駛業(yè)務總經理、商湯日本總經理勞世竑帶來了《中日計算機視覺技術:從人臉識別到自動駕駛的產業(yè)化歷程》的演講,他基于自身兩個階段的職業(yè)經歷,分享了其通過借鑒美國的計算機視覺技術來做產業(yè)應用以及中日在計算機視覺技術方面的合作經驗。
勞世竑回憶道,他們應用 CMU 的人臉檢測技術的第一個場景就是應日本的一家公司的需求——對數(shù)據(jù)照片沖洗機器進行優(yōu)化,即通過對 CMU 的神經網絡識別器進行優(yōu)化,將這款機器的速度提高了 10 倍到 50 倍。隨后,他與中國清華大學計算機系教授艾海舟合作研究出了首個人臉檢測的商用芯片,并以此為起點,先后將人臉識別技術應用到了數(shù)字相機、手機以及大數(shù)據(jù)收集系統(tǒng)以及駕駛員監(jiān)控系統(tǒng)中。其中比較不幸地是,成立于 2007 年的駕駛員監(jiān)控系統(tǒng)項目當時恰逢經濟危機而被公司砍掉了,而十幾年后,當他們重新啟動該項目時,已經被其他公司超越了——說起此事,勞世竑不免有些遺憾。
而勞世竑第二個階段的經歷,則要從離開歐龍加盟商湯說起。其中,他重點分享了自身比較引以為豪的一項工作,就是讓商湯與本田合作自動駕駛的研發(fā)項目,首次將中國的人工智能技術介紹給了日本企業(yè),從而促成了兩國之間建立平等的合作關系。進一步,他還在日本成立了商湯(日本)公司,重點推動和本田的自動駕駛合作研發(fā)項目,并嘗試跟百度等公司的自動駕駛研發(fā)工作做出差異化——從攝像頭的角度來降低自動駕駛的技術成本,讓自動駕駛更加平民化。
「我經常被問到駕駛技術什么時候能夠推向市場的問題,我們暫定的目標是 2025 年,但是我認為實現(xiàn)過程可能并沒有想象中的那么一帆風順,可能會提前也可能會延后。并且,我們需要非常注重的一點是自動駕駛技術可靠性的驗證問題,其涉及的不僅僅是一般物體識別,還涉及到行為預測、車內外的環(huán)境理解以及可說明性問題。」
新加坡研究院院長、澎思科技(PENSEES)首席科學家申省梅做了最后一個報告,主題為《視頻圖像智能化助力智慧安防建設》。
她談到,當前我們周邊布滿了各種攝像頭。據(jù)英偉達預測,到 2020 年全世界會有 10 億個視頻攝像頭在使用;此外據(jù)了解中國現(xiàn)在已經有 1.76 億個攝像頭,3 年之后可能會有 6 億攝像頭,也即平均每兩個人一個攝像頭。對于大量的視頻,盡管目前已經有各種壓縮手段(視頻流),但該如何存儲這些視頻,以及如何從海量視頻中找出我們我們需要的人或物,做到事前預警、事中處置、事后分析,對我們來講仍然存在巨大的挑戰(zhàn)。
申省梅在報告中詳細闡釋了計算機視覺技術賦能智慧安防所需要技術。她認為對視頻圖像智能化需要做好幾件事:1、視頻圖像恢復增強;2、視頻圖像目標檢測跟蹤識別;3、視頻結構化;4、視頻內容的智能壓縮和視頻摘要。
申省梅針對這四個方面詳細闡釋了她所帶領的團隊在各個方面的技術及成果。例如在視頻圖像恢復增強中,他們將非常?。?2×14)的人臉圖片經過高分辨率處理后,人臉識別率從原來的75.18%提升到97.67%。針對行人ReID任務,他們在2018 年行人再識別VIPeR,CUHK-03,DukeMTMC-reID,Market1501 四項數(shù)據(jù)集上取得了世界第一的成績。今年9月份,澎思新加坡研究院在基于視頻的行人再識別三大數(shù)據(jù)集(PRID-2011,iLIDS-VID,MARS)上取得世界第一,大幅提升成績。在視頻結構化方面,他們能夠做到實時提取視頻物體屬性,做到實時結構化預覽。2018年4月他們在AI City Challenge - 異常檢測任務中也同樣取得了第一名的成績。
申省梅提到,在AI產業(yè)圖譜中的技術層,澎思也走在前面。最重要的觀點是,作為一個企業(yè)要應用做應用驅動的解決方案,商業(yè)驅動的算法研究。她提出算法池可選性的概念,針對場景、硬件的不同,可做不同的算法選擇,快速迭代滿足業(yè)務需求。
申省梅總結到,視頻圖像智能化非常重要,當前很多人都在用深度學習,但如果視頻數(shù)據(jù)沒有結構化,當數(shù)據(jù)量變得海量時將很難進行下去。所以視頻數(shù)據(jù)智能化是做智慧安防的一個前提,這包括很多技術,只有把這些技術都用好,我們才可以實現(xiàn)事前預警、事中處理、事后分析。
演講結束后,在陳熙霖的主持下,李子青、楊淑媛、王剛、馮佳時、魯繼文、勞世竑、申省梅六位嘉賓還以《后深度學習時代,計算機視覺技術的未來》,展開了一場 Panel 談論,就「如何提高數(shù)據(jù)半自動標注的效率」、「深度學習是計算機視覺的終結還是新的起點」、「計算機視覺未來的發(fā)展方向」以及「如何培養(yǎng)下一代人才」等問題發(fā)表了自己的觀點并展開了討論。
雷鋒網 AI 科技評論報道。
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。