丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給camel
發(fā)送

0

第十三屆圖像圖形技術(shù)與應(yīng)用學(xué)術(shù)會議 ,張廣軍院士等學(xué)者報告其多年研究工作

本文作者: camel 2018-04-15 22:21
導(dǎo)語:張廣軍、Jeremy M. Wolfe、劉成林、劉燁斌、張艷寧、童欣、周昆、王亮

第十三屆圖像圖形技術(shù)與應(yīng)用學(xué)術(shù)會議 ,張廣軍院士等學(xué)者報告其多年研究工作

雷鋒網(wǎng) AI 科技評論:2018 年 4 月 8 日至 10 日由北京圖象圖形學(xué)學(xué)會主辦,北京航空航天大學(xué)承辦的「第十三屆圖像圖形技術(shù)與應(yīng)用學(xué)術(shù)會議」(IGTA 2018)在北京航空航天大學(xué)成功舉辦。

本次大會由北京理工大學(xué)王涌天教授、北京航空航天大學(xué)姜志國擔(dān)任大會主席,北京航空航天大學(xué)趙沁平院士、中科院自動化研究所譚鐵牛院士擔(dān)任大會名譽主席。雷鋒網(wǎng)了解到,會議共收到 138 篇投遞論文,錄用 87 篇,其中 64 篇英文論文。本次會議共有 200 多人與會。在三天的議程中,共包含

4 場特邀報告:

張廣軍:動態(tài)視覺測量與工程應(yīng)用

Jeremy M. Wolfe:Why didn't I see that? The role of attention in visual search errors

劉成林:文檔圖像識別研究現(xiàn)狀與趨勢

劉燁斌:動態(tài)場景三維重建技術(shù):便捷性與實時性

4 場高峰論壇報告:

張艷寧:高分辨率圖像智能處理技術(shù)

童欣:從交互圖形學(xué)到智能圖形學(xué)

周昆:Computer Graphics 2.0:towards end-user-generated 3D contents

王亮:Analysis and Understanding of Big Visual Data

6 場 CVPR 頂會論文報告:

宋純鋒(自動化所):Mask-guided Contrastive Attention Model for Person Re-Identification

黃鑫(北大):Deep Cross-media Knowledge Transfer

段岳圻(清華):Deep Adversarial Metric Learning

楊文瀚(北大):Erase or Fill? Deep Joint Recurrent Rain Removal and Reconstruction in Videos

王培松(自動化所):Two-Step Quantization for Low-bit Neural Networks

黃永業(yè)(北郵):SketchMate: Deep Hashing for Million-Scale Human Sketch Retrieval

此外還有一系列接收論文的交流報告。

下面為特邀報告和高峰論壇報告的詳細(xì)內(nèi)容。

特邀報告

1、動態(tài)視覺測量與工程應(yīng)用

東南大學(xué)校長張廣軍院士作為本次會議的特邀講者,做了首場特邀報告。在一個小時左右的報告中,張廣軍院士簡要介紹他十多年的主要研究成果。

張廣軍院士在報告中提到隨著我國航天、國防、鐵路等領(lǐng)域快速發(fā)展,如何能夠?qū)崟r、精確、動態(tài)地測量物體(例如衛(wèi)星、導(dǎo)彈、高鐵等)的三維形貌、位置和姿態(tài)成為迫切急需的核心技術(shù)之一,這決定著高端裝備的性能和安全。而動態(tài)視覺測量,即為采用計算機視覺和幾何量測量學(xué)的方法來實現(xiàn)高速運動體的測量。

基于實際需求及對問題的分析,張廣軍院士及他所帶領(lǐng)的團隊在數(shù)十年中完成了大量相關(guān)的研究,概括來說則有三類:

1、發(fā)展了視覺測量模型與現(xiàn)場校準(zhǔn)體系,提高了動態(tài)測量精度和現(xiàn)場適應(yīng)性,并實現(xiàn)了星載設(shè)備小型輕量化。

2、發(fā)明了動態(tài)成像新模式和圖像信息處理新方法,提高了動態(tài)視覺測量的實時性、動態(tài)性、準(zhǔn)確性和可靠性。

3、研制成功三類動態(tài)測量系列設(shè)備,打破了國外的技術(shù)封鎖,填補了國內(nèi)空白,主要指標(biāo)達(dá)到或超過了國外最好的水平。

在工程應(yīng)用上,張廣軍院士列舉了三類應(yīng)用,包括航天器自主姿態(tài)測量星載產(chǎn)品、航空裝備飛行性能動態(tài)測試站和列車運行狀況正線動態(tài)測試站等。

2、Why didn't I see that? The role of attention in visual search errors

接著來自哈佛醫(yī)學(xué)院 Jeremy M. Wolfe 教授做了關(guān)于人類注意力對視覺影像的報告。

據(jù) Wolfe 教授介紹,我們?nèi)祟悷o法同時識別出我們視野中的每一個物體,我們通過將注意力從一個對象轉(zhuǎn)到另一個對象,從而來尋找我們需要的東西。因此注意力在我們的視覺搜索中占據(jù)著極為重要的地位。

在報告中,Wolfe 教授通過三個故事生動地介紹了關(guān)于人類注意力的研究結(jié)果。

首先,他通過在圖中找物體或差異的游戲,陳述了一個事實:對于人類視覺,在任何時候都沒有關(guān)注全部,而只是匯集到當(dāng)前關(guān)注的對象上,其余的部分只是幾個簡單要點、抽象物體或者記憶產(chǎn)物。

其次,他介紹一個經(jīng)典實驗 The Incidental Gorilla,即當(dāng)你關(guān)注視頻中傳遞籃球的游戲時,卻沒有注意到從視頻當(dāng)中走過的黑猩猩。同樣的情況也會在醫(yī)生檢查 CT 片子時發(fā)生,當(dāng)他們把注意力放在尋找肺結(jié)節(jié)時,常常會忽略片子中其他的信息。這告訴我們?nèi)祟惖淖⒁饬λ褜ひ嬗袝r候會給我們帶來很嚴(yán)重的錯誤。

最后,Wolfe 教授通過安檢的案例介紹了 The Prevalence Problem。在安檢中通過掃描圖像能否正確地發(fā)現(xiàn)危險物品呢?Wolfe 通過具體的實驗數(shù)據(jù)得出結(jié)論:在低流行率下漏掉危險物品的幾率大大增加,而虛警率則稍稍降低。

通過以上這些研究,Wolfe 認(rèn)為我們的「搜索引擎」并不能完美運行,有時我們無法找到我們要找的東西。當(dāng)那些錯過的目標(biāo)是諸如腫瘤或炸彈之類的東西時,這些錯誤就具有重要的社會意義,這個問題值得關(guān)注,如果有可能的話則需要通過別的方式來糾正。

3、文檔圖像識別研究現(xiàn)狀與趨勢

劉成林研究員是中科院自動化所副所長,模式識別國家重點實驗室主任。在他的報告中,劉成林研究員詳細(xì)介紹了文檔圖像識別(簡稱文字識別)的研究現(xiàn)狀和未來趨勢。

在報告中劉成林首先介紹了文字識別的應(yīng)用背景。所謂文字識別,即將字符圖像轉(zhuǎn)換為符號代碼,這包括文本分割、識別、上下文處理、語義信息提取等。其意義在于能夠壓縮數(shù)據(jù),以及內(nèi)容理解和語義提取等。其應(yīng)用需求包括手寫字體識別、圖像中文字信息提取等,例如交通牌信息的提取對于當(dāng)前自動駕駛尤為重要。

其次劉成林介紹了文檔種類和研究問題。文檔種類大致分為物理文檔(例如掃描書籍、交通牌等)和合成文檔(在線手寫字體等)。對于文檔的研究,依據(jù)流程,主要有圖像處理、版面分析、內(nèi)容識別、語義分析和應(yīng)用等。隨后他詳細(xì)介紹了這幾個方面的技術(shù)研究現(xiàn)狀。就像在 CV 的其他領(lǐng)域一樣,深度學(xué)習(xí)的方法在文字識別中也逐漸發(fā)揮著越來越多的應(yīng)用,并對文字識別的性能有極大的提升。

但是目前文字識別在應(yīng)用中仍然存在許多問題有待解決。例如識別精度到底需要多高才可以用?識別錯誤主要發(fā)生在什么情況?應(yīng)用中如何克服識別錯誤?文本分割/識別之處有哪些研究問題?如何更有效地構(gòu)建(學(xué)習(xí))識別系統(tǒng)?如何對應(yīng)用場景進(jìn)行擴展?……

此外,劉成林研究員還提出了幾個尚未解決的傳統(tǒng)問題,包括版面分析(印刷/手寫混合、多種元素、多文種、多語言、邏輯結(jié)構(gòu)等)、文字認(rèn)證和拒識(置信度分析、結(jié)構(gòu)分析等)

對于未來的研究方向,劉成林研究員也針對基礎(chǔ)理論和方法論、字符識別、文本行識別、情景文字識別、應(yīng)用導(dǎo)向等的問題。

整個報告可以說是對文字識別領(lǐng)域全方位的介紹。劉成林認(rèn)為文字識別的研究已經(jīng)有 50 多年的歷史,在這個過程中產(chǎn)生了大量的研究成果,但是在實際應(yīng)用中還存在很多技術(shù)的不足,需要從應(yīng)用角度重新思考聚焦研究問題。

4、Real-time and Convenient Human Performance Capture

劉燁斌為清華大學(xué)自動化系副教授,其研究方向為視覺信息獲取與重建,包括三維重建、運動捕捉、計算攝像等。他在報告中主要介紹了他十多年來所做的一件事情:對人體進(jìn)行動態(tài)的三維重建。

人類表現(xiàn)捕捉,也即根據(jù)多角度視頻輸入或 RGBD 序列來捕捉人體的三維幾何和一維運動。其應(yīng)用場景包括電影生成、增強現(xiàn)實、電子會議、運動分析等領(lǐng)域,其目標(biāo)則是能夠高精度、可編輯、大范圍、便捷且實時地捕捉人類的表現(xiàn)。

其講解內(nèi)容包括 Depth Map Merging Based MVS、Variational MVS Pipeline、多視角立體測光、骨架驅(qū)動的 HPC、Relightable/Animatable HPC、Multi-person HPC、Hand-object Motion Capture、手持相機的 HPC、非剛性表面追蹤的 HPC、實時 4D 重建、實時 4D 融合和重建、用無人機實現(xiàn)重建、第四代 4D 重建等大量的工作。

劉燁斌副教授表示,基于視覺信息在空間、視角、光譜、時域、強度等的多維度,他們未來的工作將圍繞全光成像、實時構(gòu)建、智能計算等方面進(jìn)行深入開展。

高峰論壇報告

1、高分辨率智能圖像處理技術(shù)

西北工業(yè)大學(xué)張艷寧教授是國務(wù)院學(xué)科評議組成員,教育部「長江學(xué)者」特聘教授。在報告中張艷寧教授詳細(xì)介紹了她所帶領(lǐng)的研究團隊在高分辨率觀測中的研究成果。

隨著人類對近地空間的探索,分布地球軌道上的衛(wèi)星、空間站、空間碎片日益增多,對這些太空人造物體進(jìn)行有效監(jiān)視則極為重要。但是利用空間平臺視覺圖像進(jìn)行空間探索,依然存在光學(xué)成像分辨率受制約、圖像模糊、分辨率低等問題,現(xiàn)有的圖像難以滿足看得清、辨得明的應(yīng)用需求。

針對這樣的問題,張艷寧教授及其所帶領(lǐng)的團隊認(rèn)為在硬件平臺受限、同時由于運動、抖動等造成圖像模糊等問題的情況下,應(yīng)當(dāng)通過計算方法實現(xiàn)高分辨率的圖像智能處理。報告中張艷寧教授提出了他們在空間圖像高分辨率計算成像、動態(tài)耦合降質(zhì)圖像的清晰化重建等方面的創(chuàng)新理論和方法,其成果在提高圖像分辨率、圖像清晰化方面有極好的表現(xiàn)。

最后張艷寧教授還介紹了他們在圖像去噪、協(xié)同感知等方面的研究成果。

2、從交互圖形到智能圖形

童欣博士目前為微軟亞洲研究院網(wǎng)絡(luò)圖形組首席研究員,研究主管,同時擔(dān)任中科大兼職教授。

童欣博士介紹到,AR&VR 技術(shù)的發(fā)展可以應(yīng)用到例如探索世界、訓(xùn)練和學(xué)習(xí)、工業(yè)設(shè)計、復(fù)雜任務(wù)等場景中。這其中最為關(guān)鍵的技術(shù)就是高質(zhì)量的三維內(nèi)容。但是傳統(tǒng)的圖像內(nèi)容創(chuàng)作一般都依賴藝術(shù)家和工程師大量的交互和手工勞動,對于普通人來說則幾乎不可能。

微軟對此的解決方案是:使用便宜的設(shè)備、大量的數(shù)據(jù)以及機器學(xué)習(xí)的方法來實現(xiàn)從交互到智能。童欣博士在報告中介紹了三方面的內(nèi)容。

第一是 shape modeling。其目標(biāo)為根據(jù)稀疏的二維素描來自動生成三維模型。研究成果詳見 ACM TG, 36(4), 2017

第二是 material modeling and rendering。其目標(biāo)為從單一圖像能夠自動生成材料紋理。研究成果詳見 SIGGRAPH, 36(4), 2017

第三是 animation。其目標(biāo)為自動設(shè)計具有所需行為的軟氣動機器人。研究成果詳見 SIGGRAPH,36(6), 2017

童欣博士認(rèn)為依據(jù)幾何知識、物理計算和優(yōu)化、以及數(shù)據(jù)和機器學(xué)習(xí)模型,完全可以實現(xiàn)智能地高質(zhì)量內(nèi)容創(chuàng)作。當(dāng)然這條路還很漫長,離終端用戶能夠創(chuàng)作高質(zhì)量圖像內(nèi)容還有很長的路要走。

3、Computer Graphics 2.0: towards end-user-generated 3D content

浙江大學(xué)的周昆教授,是教育部長江學(xué)者特聘教授,IEEE Fellow。研究領(lǐng)域包括計算機圖形學(xué)、人機交互、虛擬現(xiàn)實和并行計算。

周昆教授的與前面童欣博士的研究類似,他認(rèn)為在海量互聯(lián)網(wǎng)數(shù)據(jù)、傳感器技術(shù)、以及 VR/AR 和 3D 打印等新興應(yīng)用的推動下,計算機圖形學(xué)的研究正在進(jìn)入一個新的時代:每一個人在日常生活中都能夠創(chuàng)作屬于自己的視覺內(nèi)容。

在這個報告中周昆教授舉了三個案例。

案例一:Digital Avatar。在電影《阿凡達(dá)》中,依靠 CG 技術(shù),阿凡達(dá)可以擁有真實的面孔和頭發(fā);然而在一些交互應(yīng)用(例如游戲)中,幾乎沒有這樣的特效。周昆教授所帶領(lǐng)的團隊在 13-16 年間連續(xù)發(fā)表了多篇文章,探討了如何自動生成真實面孔以及如何從單張圖片中自動生成動態(tài)的頭發(fā)模型。

案例二:基于模型的 RGBD 圖像。根據(jù)單張 RGBD 圖像自動生成相應(yīng)場景的數(shù)字化模型。

案例三:Computational Fabrication。如何將數(shù)字模型變得更為真實呢?在已知數(shù)字化模型的基礎(chǔ)上,可以通過 3D 打印的方法獲得物理模型。周昆教授團隊受到傳統(tǒng)上色工藝的啟發(fā),采用仿真等方法將數(shù)字模型中的表面圖像轉(zhuǎn)化為二維紋理,隨后可以使用相關(guān)的技術(shù)可以將圖像貼到 3D 打印物體上,構(gòu)建出生動的物理模型。

周昆教授認(rèn)為,未來圖像研究主要有三個大的研究方向。首先是輸入,將沿著從點、網(wǎng)格、圖像、視頻、深度等方向發(fā)展;其次是輸出,將沿著數(shù)字化到實體化的方向發(fā)展;另外一個是應(yīng)用,將從電影走向游戲、APPs、VR/AR 以及 3D 打印等。這需要計算機圖形學(xué)、計算機視覺和數(shù)字制造三個領(lǐng)域的相互結(jié)合。

4、Analysis and Understanding of Big Visual Data

自動化所王亮研究員是模式識別國家重點實驗室副主任,主要研究領(lǐng)域是模式識別、計算機視覺、大數(shù)據(jù)分析等。

在報告中,王亮研究員針對視覺大數(shù)據(jù)整個領(lǐng)域的研究做了一個綜述性的介紹。

視覺信息對人類至關(guān)重要,隨著設(shè)備的改進(jìn),視覺數(shù)據(jù)出現(xiàn)爆發(fā)式增長,表現(xiàn)為數(shù)據(jù)總量巨大、類別跨度多樣、性質(zhì)異質(zhì)性高以及質(zhì)量不一。這也帶來了一系列的挑戰(zhàn),例如如何獲取、如何建模、如何計算以及如何使用等,此外還有模糊、多視角、多尺度、遮掩等多樣的問題。

在整個視覺大數(shù)據(jù)的分析中,主要有三個大問題:大規(guī)模數(shù)據(jù)集、大規(guī)模視覺計算、平臺和應(yīng)用。

針對大規(guī)模數(shù)據(jù)集,目前有包括 ImageNet、Microsoft COCO、Google YouTube-8M、Kinetics、Visual Question Answering(VQA)、NLPR Object Tracking、CRIPAC Pedestrian Attribute、Gait Dataset 等數(shù)據(jù)集,各個數(shù)據(jù)集都有自己的針對方向和領(lǐng)域。

針對大規(guī)模視覺計算,則主要包括物體檢測和分割、物體識別和檢索、運動/行為分析、場景理解、視覺語言(Vision by Language)等。

針對平臺和應(yīng)用,王亮研究員介紹了視覺圖靈測試、DIG(數(shù)據(jù)智能收集)、ISEE(智能場景演化和探索)、SIR(smart identity recognition)以及一些計算機視覺相關(guān)的公司現(xiàn)狀。

他總結(jié)到,現(xiàn)在計算機視覺已經(jīng)在許多領(lǐng)域取得了長足的進(jìn)展,但是計算機視覺相比于人類視覺還有很大差距,未來的工作需要進(jìn)行一下探索:

通過模擬人類認(rèn)知機制來學(xué)習(xí)人類的視覺智能;

將視覺與語言、語音等結(jié)合起來,實現(xiàn)統(tǒng)一的智能框架;

將視覺與預(yù)測、控制和規(guī)劃結(jié)合起來打造下一代類人智能機器人;

增強視覺智能在視覺大數(shù)據(jù)的嚴(yán)重噪聲下的魯棒性和普適性;

構(gòu)建有效的視覺數(shù)據(jù)捕捉、存儲、大規(guī)模計算和應(yīng)用的集成平臺。

雷鋒網(wǎng)報道。

相關(guān)文章:

IGTA 2018 | 第十三屆圖像圖形技術(shù)與應(yīng)用學(xué)術(shù)會議

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

第十三屆圖像圖形技術(shù)與應(yīng)用學(xué)術(shù)會議 ,張廣軍院士等學(xué)者報告其多年研究工作

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說