0
本文作者: 楊文 | 2017-06-05 21:35 |
雷鋒網(wǎng)AI科技批評(píng)論按:5月30號(hào),在臺(tái)北世界貿(mào)易中心展館舉辦的臺(tái)北國際電腦展上,英特爾中國研究院認(rèn)知計(jì)算實(shí)驗(yàn)室高級(jí)研究總監(jiān)陳玉榮博士以《人工智能與深度學(xué)習(xí)》為主題,分享了他們實(shí)驗(yàn)室在視覺認(rèn)知與機(jī)器學(xué)習(xí)方面上的研究成果。雷鋒網(wǎng)編輯對(duì)現(xiàn)場(chǎng)演講內(nèi)容做了全程記錄。
英特爾中國研究院認(rèn)知計(jì)算實(shí)驗(yàn)室:
致力于視覺認(rèn)知和機(jī)器學(xué)習(xí)前沿領(lǐng)域的科技創(chuàng)新,開發(fā)視覺內(nèi)容理解和視覺內(nèi)容創(chuàng)建的領(lǐng)先技術(shù),從而在英特爾平臺(tái)上實(shí)現(xiàn)視覺數(shù)據(jù)的智能處理并提供全新的用戶體驗(yàn)。目前已經(jīng)在CVPR, NIPS, IJCAI, ACM MM等國際頂級(jí)會(huì)議上發(fā)表多篇論文,并擁有數(shù)十項(xiàng)相關(guān)專利,并連續(xù)兩年摘得英特爾研究院全球最高獎(jiǎng)Gordy Award (以英特爾公司創(chuàng)始人之一戈登·摩爾命名)。
陳玉榮博士,現(xiàn)任英特爾首席工程師/高級(jí)研究總監(jiān)、英特爾中國研究院認(rèn)知計(jì)算實(shí)驗(yàn)室主任。目前,他主要負(fù)責(zé)領(lǐng)導(dǎo)面向英特爾智能計(jì)算的視覺認(rèn)知(視覺分析和理解)和機(jī)器學(xué)習(xí)研究工作。同時(shí)他也是英特爾研究院“視覺理解與合成”全球研究規(guī)劃的共同負(fù)責(zé)人,主導(dǎo)和推動(dòng)基于英特爾平臺(tái)的智能視覺數(shù)據(jù)處理的技術(shù)創(chuàng)新。
以下是陳玉榮博士的現(xiàn)場(chǎng)演講,雷鋒網(wǎng)做了不改變?cè)獾木庉?/strong>
當(dāng)今,視覺識(shí)別技術(shù)無處不在,且成本越來越低廉。這得益于視覺識(shí)別技術(shù)在深度學(xué)習(xí)方面的不斷突破。其中一個(gè)主要的推動(dòng)力是視頻內(nèi)容在互聯(lián)網(wǎng)所占比例越來越高,大量的互聯(lián)網(wǎng)數(shù)據(jù)都是視頻內(nèi)容。預(yù)計(jì)到2019年,互聯(lián)網(wǎng)內(nèi)容中的77%將由視頻組成,視覺媒體公司的數(shù)量將會(huì)繼續(xù)增加,視覺內(nèi)容數(shù)量也會(huì)持續(xù)增加。面對(duì)這一現(xiàn)象,主要的挑戰(zhàn)在于機(jī)器如何能夠識(shí)別并學(xué)習(xí)數(shù)量如此龐大的視覺內(nèi)容,而這一問題的答案就在于視覺分析技術(shù)。視覺分析就是處理并理解視頻內(nèi)容的過程,而這一技術(shù)發(fā)展的重點(diǎn)在于在識(shí)別過程中如何確定視頻內(nèi)容中的對(duì)像并進(jìn)行分類。
舉幾個(gè)視覺理解方面的例子,比如說,物體識(shí)別與辨認(rèn),情感識(shí)別,行動(dòng)識(shí)別,語義分割,場(chǎng)景識(shí)別、幾何布局評(píng)估等等。其中,物體與動(dòng)作的識(shí)別和檢測(cè)是視覺理解技術(shù)中最基礎(chǔ)的部分,視覺識(shí)別技術(shù)要求能夠識(shí)別出物體的形狀輪廓,而視覺檢測(cè)技術(shù)同樣要求能夠辨認(rèn)出物體在進(jìn)行怎樣的活動(dòng)。視覺識(shí)別中要求能識(shí)別出物體以及物體數(shù)量,而進(jìn)行視覺檢測(cè)時(shí)則需要更多的要求。 舉個(gè)例子,當(dāng)人在移動(dòng)時(shí)經(jīng)過攝像機(jī),識(shí)別技術(shù)可以知道有人正在經(jīng)過攝像機(jī),而通過視覺檢測(cè)對(duì)它的動(dòng)作進(jìn)行分析,可以明白這個(gè)人是在拍照。以上的這些都是機(jī)器參與并進(jìn)行識(shí)別的一部分。2012年實(shí)驗(yàn)室新研發(fā)出的算法使得識(shí)別準(zhǔn)確率提高了40%,而另一項(xiàng)算法使得在識(shí)別方面的準(zhǔn)確率每一年都能夠提高30%-40%。在2015年,微軟的研究讓識(shí)別錯(cuò)誤率降到了3.57%。這邊研究人員也在努力推進(jìn)相關(guān)的研究,而研究的一個(gè)主要目的就是發(fā)展視覺理解。但這其中也包含一些基礎(chǔ)的內(nèi)容,如CNN建構(gòu)等。
l 人像分析與情感識(shí)別
這項(xiàng)技術(shù)有著廣泛的應(yīng)用前景,可以與任何智能設(shè)備配合使用,還可以與增強(qiáng)實(shí)現(xiàn)技術(shù)配合使用。在過去的幾年內(nèi),實(shí)驗(yàn)室建立起了一套人臉識(shí)別系統(tǒng),它利用了更加科學(xué)嚴(yán)謹(jǐn)?shù)乃惴?,這一技術(shù)的發(fā)展基于英特爾本身,能夠完成人臉識(shí)別,表情識(shí)別,建立人像檔案等,我們改進(jìn)了它的應(yīng)用,拓展了它的應(yīng)用范疇,提供了問題的解決方案, 我們同樣試圖完善我們的系統(tǒng),讓它具備情感識(shí)別功能,因?yàn)樵谌讼褡R(shí)別中,情感識(shí)別功能非常重要,它對(duì)于智能計(jì)算和智能系統(tǒng)的建立至關(guān)重要。實(shí)驗(yàn)室發(fā)明了世界領(lǐng)先的ILC互動(dòng)式人臉分析技術(shù),它能夠捕捉面部的肌肉活動(dòng),基于這個(gè)識(shí)別方法,實(shí)驗(yàn)室研究團(tuán)隊(duì)獲得了2015情感識(shí)別挑戰(zhàn)大獎(jiǎng),這一獎(jiǎng)項(xiàng)是主要是基于音頻視頻內(nèi)容的情感識(shí)別。共有來自世界各地的74家隊(duì)伍參加了這次比賽,在多個(gè)挑戰(zhàn)項(xiàng)目中,基于音頻視頻內(nèi)容的識(shí)別挑戰(zhàn)最有難度,因?yàn)樗枰浅?fù)雜的技術(shù)。
l 基于視覺認(rèn)知的機(jī)器學(xué)習(xí)
基于視覺識(shí)別的深度學(xué)習(xí),實(shí)驗(yàn)室開發(fā)了高效的CNN算法模型。這一技術(shù)非常有效,設(shè)計(jì)中各個(gè)元素在識(shí)別情感中彼此互補(bǔ),在識(shí)別7種表情的任務(wù)中,準(zhǔn)確率達(dá)到了53.8%,這得益于實(shí)驗(yàn)室團(tuán)隊(duì)在過去的四年中的努力。有人可能會(huì)問,視覺理解在視覺認(rèn)知中只是一個(gè)最基礎(chǔ)的技術(shù),那么還有哪些是更具有挑戰(zhàn)性的任務(wù)呢?答案是機(jī)器學(xué)習(xí)、視覺分析和多模態(tài)情感識(shí)別。這是一個(gè)更為快速的功能,是一個(gè)基于目標(biāo)檢測(cè)的方案。該方案十分重要,融合了各種高效的方法,靈活地應(yīng)用了低端的邊角,中部的主體,和高端的芯片,在一個(gè)漂亮的二維空間里呈現(xiàn)出一個(gè)動(dòng)態(tài)的圖像。因此能夠直接掃描和處理目標(biāo)圖像。這個(gè)高效的方案可用于生成閱讀指南和目標(biāo)檢測(cè)。這個(gè)方案有兩個(gè)優(yōu)勢(shì)。首先,它擁有最先進(jìn)的閱讀指南存儲(chǔ)功能,從指南中無法發(fā)現(xiàn)機(jī)器檢測(cè)正在運(yùn)行的工作。其次,檢測(cè)工作能夠更有效利用空間,花費(fèi)更短的檢測(cè)時(shí)間。這個(gè)方案顛覆了原本的連接金字塔,這一框架將基于地區(qū)和不基于地區(qū)的方法統(tǒng)一起來,彌補(bǔ)它們各自的劣勢(shì),突破性地解決了兩個(gè)根本性的問題。首先,它的多維度目標(biāo)定位功能憑借倒轉(zhuǎn)的連接金字塔能夠檢測(cè)出不同維度的目標(biāo)。其次,它有著高效的實(shí)體空間挖掘功能,以目標(biāo)為網(wǎng)絡(luò)的核心,顯著地減少了物體的第二空間。目標(biāo)對(duì)象跨越的維度很大,該方案呈現(xiàn)出來的是對(duì)象的集合,呈現(xiàn)出倒置的圖像,不管是在精確度還是運(yùn)行速度上,性能都是十分突出的。這也被今年的城市計(jì)劃報(bào)道了。
l 視覺分析和多模態(tài)情感識(shí)別
在分析視頻內(nèi)容時(shí),會(huì)對(duì)視覺, 說話方式, 語言, 甚至國籍進(jìn)行識(shí)別, 以便于機(jī)器對(duì)于內(nèi)容更好分析,這一技術(shù)讓自動(dòng)為圖片和視頻內(nèi)容添加說明成為可能,也讓視覺問答技術(shù)的發(fā)展成為可能,這都得益于實(shí)驗(yàn)室的研究成果。而在視頻字幕和多模型分析方面,實(shí)驗(yàn)室正在從事一個(gè)更為創(chuàng)新且富有挑戰(zhàn)性的任務(wù),即密集視頻字幕的研發(fā),這一任務(wù)旨在設(shè)計(jì)出一個(gè)具有多重視覺信息和多樣字幕狀態(tài)的視頻片段。實(shí)驗(yàn)室研發(fā)出了一個(gè)人工智能的密集視頻字幕方案,采用了國外視頻水平等級(jí),融合多種設(shè)計(jì)方法。舉一些例子,在下面這個(gè)視頻中,可以制造出不同部分的描述。比方說在第一部分中,一個(gè)帶著墨鏡的女人正在給小孩子們拍照,而在第二部分一群人正在給馬拍照,然后在第三部分小孩子們正在接受采訪。另一段視頻,像觀眾們?cè)敿?xì)描繪了這個(gè)船長的形象。這還有一個(gè)例子,它表明實(shí)驗(yàn)室的方案可以制造出信息豐富場(chǎng)景多樣的視頻。實(shí)驗(yàn)室可以設(shè)計(jì)出能夠采集每一秒鐘信號(hào)的模型。比方說,在前一秒一個(gè)男人正在喝酒,下一秒另一個(gè)男人在喝水,而在再下一秒,兩個(gè)男人就開始攀談了起來。程序的最后一個(gè)功能所帶來的甚至超越頂級(jí)的單個(gè)視頻字幕創(chuàng)造方案。大家可以看到展示的這個(gè)樣本短視頻中的底部有字幕出現(xiàn)。實(shí)際上研究人員可以在每個(gè)視頻中制作5個(gè)視頻片段。在這個(gè)視頻中,一個(gè)男人正在家里做一個(gè)主題發(fā)表。如演講或非演講的表演形式都可以被展現(xiàn)出來。實(shí)驗(yàn)室的這一努力縮短了人們了解圖像信息未知部分的距離。
認(rèn)知計(jì)算實(shí)驗(yàn)室的研發(fā)結(jié)果推動(dòng)了數(shù)據(jù)處理成果的發(fā)展,通過研發(fā)創(chuàng)新、在多個(gè)平臺(tái)間處理數(shù)據(jù),研究人員運(yùn)行了最前沿的算法,進(jìn)行了機(jī)器學(xué)習(xí)的研究,獲得了多個(gè)范式的視頻數(shù)據(jù)研發(fā)成果。這就是我今天的演講,感謝大家的參與。
via 雷鋒網(wǎng)編輯整理
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。