丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
智慧安防 正文
發(fā)私信給張棟
發(fā)送

0

騰訊賈佳亞:人工智能的多模態(tài)發(fā)展丨CCF-GAIR 2019

本文作者: 張棟 2019-07-16 11:07 專題:CCF-GAIR 2019
導(dǎo)語:“人工智能的終極應(yīng)用距離我們到底還有多久?” 賈佳亞的答案是:可能還需要50-100年。

騰訊賈佳亞:人工智能的多模態(tài)發(fā)展丨CCF-GAIR 2019

7月12日-7月14日,2019第四屆全球人工智能與機(jī)器人峰會(huì)(CCF-GAIR 2019)于深圳正式召開。峰會(huì)由中國計(jì)算機(jī)學(xué)會(huì)(CCF)主辦,雷鋒網(wǎng)、香港中文大學(xué)(深圳)承辦,深圳市人工智能與機(jī)器人研究院協(xié)辦,得到了深圳市政府的大力指導(dǎo),是國內(nèi)人工智能和機(jī)器人學(xué)術(shù)界、工業(yè)界及投資界三大領(lǐng)域的頂級(jí)交流博覽盛會(huì),旨在打造國內(nèi)人工智能領(lǐng)域極具實(shí)力的跨界交流合作平臺(tái)。

7月14日下午,在「智慧城市·視覺智能」專場上,騰訊優(yōu)圖實(shí)驗(yàn)室聯(lián)合負(fù)責(zé)人,騰訊杰出科學(xué)家,香港中文大學(xué)終身教授賈佳亞作為開場嘉賓,率先分享。

賈佳亞教授在香港科技大學(xué)獲得計(jì)算機(jī)科學(xué)博士學(xué)位,在微軟亞洲研究院做一年半訪問學(xué)者后,2004年加入香港中文大學(xué)計(jì)算機(jī)科學(xué)與工程系,2010年升任副教授,2015年任教授。

賈佳亞教授任職期間發(fā)表過逾百篇頂級(jí)會(huì)議和刊物論文,是前期和中期計(jì)算機(jī)視覺最著名的專家之一,研究方向?yàn)橛?jì)算機(jī)視覺、圖像計(jì)算和處理、機(jī)器學(xué)習(xí)等,最廣為人知的成果是圖像去模糊算法,以及去年帶隊(duì)在ImageNet比賽中拿下了Scene Parsing(語義分割)的冠軍。

雷鋒網(wǎng)了解,賈佳亞教授還多次擔(dān)任ICCV(國際計(jì)算機(jī)視覺大會(huì))、IEEE CVPR(國際計(jì)算機(jī)視覺與模式識(shí)別)的領(lǐng)域主席,以及2013到2017年ICCP(國際計(jì)算機(jī)影像會(huì)議)和SIGGRAPH(計(jì)算機(jī)圖形和交互頂級(jí)會(huì)議)的論文委員會(huì)成員。

甫一亮相,他便提出了一個(gè)終極命題,“人工智能的終極應(yīng)用距離我們到底還有多久?” 他給出的答案是:可能還需要50-100年的發(fā)展路徑。

賈佳亞教授認(rèn)為,人工智能學(xué)科發(fā)展與人類智能差距之一就是“多模態(tài)信息的智能化理解”,視覺、聲音、符號(hào)語言、嗅覺和觸覺等信息,具有無限多樣性。

而多模態(tài)人工智能還存在不少技術(shù)難點(diǎn):第一是數(shù)據(jù)模態(tài)多種多樣,包括2D圖像、3D模型、結(jié)構(gòu)化信息、文本、聲音及更多無法量化的數(shù)據(jù);

第二是多模態(tài)數(shù)據(jù)的不對應(yīng),如從圖像到文字,從文字到圖像,都是“一對多”的過程,會(huì)有多種的描述和呈現(xiàn);

第三是多模態(tài)數(shù)據(jù)的融合,一個(gè)軟件或算法的進(jìn)步較為容易,但多個(gè)算法疊加在一起,難度將幾何級(jí)上升,如“告訴機(jī)器人拿桌子左邊的瓶子”,會(huì)經(jīng)過語言模型、三維建模、自動(dòng)尋路、圖像分析等步驟;

第四是多模態(tài)監(jiān)督,“如何告訴機(jī)器人拿錯(cuò)了”“哪一個(gè)步驟拿錯(cuò)了”也是目前的難點(diǎn)。

而要解決這些多模態(tài)信息的難題,賈佳亞教授提出要更好研究嗅覺、味覺、觸覺、心理學(xué)等難以量化的信號(hào)問題,通過多模態(tài)數(shù)據(jù)使得計(jì)算成為可能,進(jìn)行協(xié)同學(xué)習(xí)、用一個(gè)資源豐富的模態(tài)信息輔助另一個(gè)資源貧瘠的模態(tài)。

多模態(tài)人工智能問題的解決,就會(huì)是人工智能更多落地的未來。

騰訊賈佳亞:人工智能的多模態(tài)發(fā)展丨CCF-GAIR 2019

以下是賈佳亞教授大會(huì)現(xiàn)場全部演講內(nèi)容,雷鋒網(wǎng)作了不改變原意的整理及編輯:

大家好,今天來到這里非常開心,因?yàn)榻诠ぷ鞣泵Γ^少出席外部大會(huì),現(xiàn)在恰逢暑假期間,可能各位同學(xué)或者科研愛好者希望外出學(xué)學(xué)東西,我也在想,CCF-GAIR可能會(huì)是一個(gè)比較好的機(jī)會(huì)。

今天我會(huì)向大家展示一些新方向的研究。首先給大家拋點(diǎn)磚以引玉,看看人工智能領(lǐng)域?qū)W科發(fā)展的現(xiàn)狀。

騰訊賈佳亞:人工智能的多模態(tài)發(fā)展丨CCF-GAIR 2019

CVPR在這四、五年時(shí)間中發(fā)生了巨大變化,上圖顯示的是它的投稿論文數(shù)量和被接收的論文數(shù)量,每年以超過50%的速度在增加。

每年如此多優(yōu)秀論文的出現(xiàn),也就意味著人工智能的發(fā)展還處于一個(gè)快速上升的階段。

另外,ACL(自然語言處理領(lǐng)域的頂會(huì))在過去五年中,它的投稿數(shù)量也有極大地提高,接近百分之百的遞增。自然語言處理領(lǐng)域的發(fā)展是比較困難的,因?yàn)樗枰罅康奶幚砥?、需要非常高端的算法?/p>

這是它們的趨勢,是比較表面的東西,我們來看更深層次的東西。

上圖還有CVPR的關(guān)鍵詞,包含Deep、Image等等,今天我給大家講的不是這些很熱門的方向,其中還有一個(gè)大家很容易忽視的模塊:Language。

再往下,ACL最熱門的是Deural、Learning等等,這里面也有一個(gè)非常小的領(lǐng)域:Visual。

這兩個(gè)領(lǐng)域基本上是分割開的,通過對于這些關(guān)鍵詞的分析,可以發(fā)現(xiàn)雖然都是AI的頂會(huì),大家都做了很多有趣的工作,但是里面的內(nèi)容基本沒有交集,懂ACL的人并不懂CVPR,懂CVPR的人也很少在ACL里面工作。

騰訊賈佳亞:人工智能的多模態(tài)發(fā)展丨CCF-GAIR 2019

ACM MM是一個(gè)比較綜合的大會(huì),里面有更多的交叉性學(xué)科,但是其中最重要的部分依然是Video、Deep等等;非常小的部分是Text、Speech。

我們通過對它的研究,挖掘出一些不會(huì)引人注意的特征。為什么去挖掘它?因?yàn)檫@件事情是跟我們對傳統(tǒng)的AI認(rèn)知恰恰相反的事情。

騰訊賈佳亞:人工智能的多模態(tài)發(fā)展丨CCF-GAIR 2019

在傳統(tǒng)的AI認(rèn)知中,我們認(rèn)為AI已經(jīng)做得非常好了。

從1997年的深藍(lán),到2014年人臉識(shí)別的突飛猛進(jìn),所謂的AI發(fā)展,其實(shí)都是在某一個(gè)子領(lǐng)域做到極致。

今天我將這個(gè)部分作為開頭,更想給大家講的是,AI再往下發(fā)展應(yīng)該怎么走?這也是之前很多人問過我的問題。

我的基本觀點(diǎn)是:現(xiàn)在的AI距離終極的應(yīng)用和最后的發(fā)展還很遠(yuǎn)很遠(yuǎn),我相信接下來的AI發(fā)展道路不止10年、20年,可能是50到100年的發(fā)展路徑。

首先我認(rèn)為人工智能學(xué)科的發(fā)展與人類的智能差距還非常、非常之大。

人工智能和人類智能差距的一個(gè)重要原因是對多模態(tài)信息的智能化理解,這是各位投身學(xué)術(shù)界或產(chǎn)業(yè)界需要重點(diǎn)關(guān)注的一個(gè)領(lǐng)域。

騰訊賈佳亞:人工智能的多模態(tài)發(fā)展丨CCF-GAIR 2019

從大腦結(jié)構(gòu)可以發(fā)現(xiàn),我們所有的感知系統(tǒng)是一體的,這個(gè)大腦既包括了聽覺、味覺、嗅覺、觸覺,也包括了說話、行動(dòng)、感應(yīng)、壓力控制。

騰訊賈佳亞:人工智能的多模態(tài)發(fā)展丨CCF-GAIR 2019

人腦就像一個(gè)中央控制系統(tǒng),能夠把所有的感知系統(tǒng)全部融合起來,如果與人腦做對比,現(xiàn)在的人工智能發(fā)展還處在一個(gè)非常弱小的階段。

因?yàn)槲覀儸F(xiàn)在還沒有一套完整系統(tǒng),甚至沒有一個(gè)好的算法,把最為簡單的兩種模式疊加起來。

騰訊賈佳亞:人工智能的多模態(tài)發(fā)展丨CCF-GAIR 2019

如果十年、二十年后回過頭來看我們現(xiàn)在的發(fā)展歷程,比如人臉識(shí)別超過了人、特征識(shí)別超過了人,這些都是微不足道的,因?yàn)槲覀冇懈鼮閺V闊的天地要去探索。

通過以上介紹就會(huì)發(fā)現(xiàn),其實(shí)人工智能距離成熟還太遠(yuǎn)太遠(yuǎn),現(xiàn)在的人工智能是單模態(tài)的人工智能,甚至是單點(diǎn)的一個(gè)觸發(fā),在以后的多模態(tài)世界中,會(huì)發(fā)生很多更為有趣的事情。

同時(shí),做好這件事,也有諸多難點(diǎn)。

騰訊賈佳亞:人工智能的多模態(tài)發(fā)展丨CCF-GAIR 2019

第一個(gè)是數(shù)據(jù)模態(tài)的多樣性。

我們有這么多圖像、模型、文本、聲音、結(jié)構(gòu)化信息,怎么去融合?怎么能找到一個(gè)場景把這么多信息融合進(jìn)來?

當(dāng)你把這些信息全部融合在一起的時(shí)候,與我們最為貼合的是哪一個(gè)產(chǎn)業(yè)?那就是汽車產(chǎn)業(yè)。

不管是車與車之間的交流,還是車與道路之間的交流,其實(shí)車更像一個(gè)機(jī)器人,而且在不久的將來,我相信隨著車廠和各個(gè)技術(shù)的融合,這個(gè)行業(yè)會(huì)產(chǎn)生非常多有趣的應(yīng)用。

除此之外,多模態(tài)還有很多無法量化的數(shù)據(jù),比如說嗅覺現(xiàn)在還沒法去量化,比如聞到一個(gè)香味,到底怎么量化它?

騰訊賈佳亞:人工智能的多模態(tài)發(fā)展丨CCF-GAIR 2019

第二個(gè)難點(diǎn)是多模態(tài)數(shù)據(jù)的不對應(yīng)。

舉一個(gè)簡單的例子,假設(shè)人們看到上面這張圖的時(shí)候,其實(shí)我們有非常多的方法去形容。

但是當(dāng)我們用多模態(tài)數(shù)據(jù)表述的時(shí)候,如何能把兩種不相關(guān)的數(shù)據(jù)完整地、像人一樣自然地表達(dá)出來,這是非常難的事情。

騰訊賈佳亞:人工智能的多模態(tài)發(fā)展丨CCF-GAIR 2019

第三是多模態(tài)數(shù)據(jù)的融合。

我一直說一個(gè)軟件或者是算法的進(jìn)步是很容易的,但是多個(gè)算法連在一起,它的難度是幾何級(jí)上升的。

現(xiàn)在很多機(jī)器人可以跳舞、可以交互,但還沒有一個(gè)廠商能在五年內(nèi)完成一個(gè)指令:去幫我拿桌子上左邊的瓶子。

這其中就涉及到語言模型、三維建模、自動(dòng)尋路、圖像分析、反饋機(jī)制,這樣一個(gè)簡單的工作,現(xiàn)在還難以駕馭。

騰訊賈佳亞:人工智能的多模態(tài)發(fā)展丨CCF-GAIR 2019

優(yōu)圖實(shí)驗(yàn)室借助強(qiáng)大的騰訊平臺(tái),我們過去在這方面也做了一些有趣的探索。

這是一個(gè)小視頻,如果誰能看得懂他表達(dá)的意思可以舉手示意一下。

騰訊賈佳亞:人工智能的多模態(tài)發(fā)展丨CCF-GAIR 2019

在場幾百位聽眾,沒有一個(gè)人知道他在表述什么事情,其實(shí)我也不知道。

基于此,我們在已有的一套非常好的骨骼系統(tǒng)上,加了一個(gè)解決手語人士和正常人士交流溝通的翻譯器。

騰訊賈佳亞:人工智能的多模態(tài)發(fā)展丨CCF-GAIR 2019

做這件事之前,我們做了一個(gè)調(diào)研,發(fā)現(xiàn)我國有聽障人士7200萬,占全國總?cè)丝诘?%;全世界有超過4.66億人患有殘疾性的聽力損失,占了全球人口的5%。

這件事對我的觸動(dòng)很大,由此,優(yōu)圖實(shí)驗(yàn)室在過去幾個(gè)月就投入了部分研發(fā)人員做這件事情。

騰訊賈佳亞:人工智能的多模態(tài)發(fā)展丨CCF-GAIR 2019

我們希望做一個(gè)手語翻譯器,能夠很好解決聽障人士的交流問題。這件事情看起來很簡單,但做的過程中卻困難重重。

首先,中國現(xiàn)在都還沒有一套規(guī)范的手語標(biāo)準(zhǔn),深圳的手語和北京的手語是不一樣的,東莞的手語可能和深圳的也不一樣。

當(dāng)時(shí)我們想當(dāng)然地認(rèn)為這件事情很容易做,用一套強(qiáng)一點(diǎn)的算法可以在三個(gè)月時(shí)間內(nèi)做出來。

事實(shí)并非這樣,除了剛才的問題之外,還有一個(gè)非常難的問題,數(shù)據(jù)采集回來后,如何將數(shù)據(jù)轉(zhuǎn)化為應(yīng)用。

騰訊賈佳亞:人工智能的多模態(tài)發(fā)展丨CCF-GAIR 2019

首先需要做一個(gè)姿態(tài)識(shí)別,它是一個(gè)圖像模態(tài);然后做動(dòng)作識(shí)別,是一個(gè)時(shí)序模態(tài);然后做語義轉(zhuǎn)化,最后做語言模型,這是一個(gè)大致的流程。

在這個(gè)過程中,我們需要提取到關(guān)鍵點(diǎn)和手型,然后轉(zhuǎn)化為文字,最后全部粘合起來變成一個(gè)語言級(jí)的表述,這是一個(gè)非常大的系統(tǒng),我們最后做下來,遠(yuǎn)遠(yuǎn)超過了當(dāng)時(shí)預(yù)估的工程量和算法技術(shù)含量。

目前,我們還只是在一些關(guān)鍵的語句上做得比較好,當(dāng)我們把這些語料庫提供給政府、學(xué)校使用的時(shí)候,可能還需要一個(gè)多月甚至更長的時(shí)間去開發(fā)。

騰訊賈佳亞:人工智能的多模態(tài)發(fā)展丨CCF-GAIR 2019

騰訊賈佳亞:人工智能的多模態(tài)發(fā)展丨CCF-GAIR 2019

騰訊賈佳亞:人工智能的多模態(tài)發(fā)展丨CCF-GAIR 2019

語言和圖像聯(lián)合處理方面,給一張圖片,問一個(gè)問題,機(jī)器能夠回答的也是寥寥可數(shù),包括我們現(xiàn)在能做到的也是非常簡單的,稍微復(fù)雜一點(diǎn)的都做不了。

騰訊賈佳亞:人工智能的多模態(tài)發(fā)展丨CCF-GAIR 2019

比如說上圖中,問這個(gè)花是什么顏色?它會(huì)回答我這是黃色。

同樣一張圖,問花是放在哪里的?你要得到“花瓶里”的信息,它會(huì)告訴你這是一個(gè)花瓶。這里面涉及到對圖像的細(xì)粒度理解,也涉及到自然語言的融合和解答過程。

騰訊賈佳亞:人工智能的多模態(tài)發(fā)展丨CCF-GAIR 2019

這是我們當(dāng)時(shí)設(shè)計(jì)的一個(gè)模型來做這件事情。

騰訊賈佳亞:人工智能的多模態(tài)發(fā)展丨CCF-GAIR 2019

我們回頭來看,多模態(tài)還有什么問題?第一是數(shù)據(jù)集存在巨大的Bias,比如看到這張圖象,絕大部分人問的問題都是,這是不是長頸鹿,絕大部分的答案都是“是的”。

但是很少人問,這張圖像里是不是個(gè)羚羊,沒有問這些問題的時(shí)候,系統(tǒng)就學(xué)不到否定性的答案,在你的數(shù)據(jù)集上就會(huì)出現(xiàn)很大的偏差。

第二是這個(gè)問題缺乏多模態(tài)的監(jiān)管,也就是說有這樣一個(gè)圖像,我們只有一個(gè)簡單的問題,比如 “這里面的桌子是什么顏色的”,實(shí)際上圖片中并沒有桌子,但它還是要給你一個(gè)答案,這就是缺乏監(jiān)督的原因。

還比如說,這張圖像里有多個(gè)人員,我要把它區(qū)分出來是非常難的,人眼可以精確分割碗里的每一粒米,但是現(xiàn)在的算法想分割出每一粒米,并不是很容易。

騰訊賈佳亞:人工智能的多模態(tài)發(fā)展丨CCF-GAIR 2019

基于騰訊的一個(gè)巨大的內(nèi)容平臺(tái),我們每天要處理百億計(jì)的視頻,包括長視頻、短視頻、小視頻。

我們基于多模態(tài)的處理方式,從視頻本身得到很多視頻特征,然后進(jìn)行多模態(tài)融合,目前做得效果不錯(cuò)。

騰訊賈佳亞:人工智能的多模態(tài)發(fā)展丨CCF-GAIR 2019

最后講講多模態(tài)的未來發(fā)展。

騰訊賈佳亞:人工智能的多模態(tài)發(fā)展丨CCF-GAIR 2019

多模態(tài)要解決非常多的難以量化的信號(hào),包括嗅覺、味覺、觸覺等等。

騰訊賈佳亞:人工智能的多模態(tài)發(fā)展丨CCF-GAIR 2019

再往下走,多模態(tài)還要解決非常多的協(xié)同學(xué)習(xí)問題,用一個(gè)資源豐富的模態(tài)信息輔助另外一個(gè)資源貧瘠的模態(tài),這里面就涉及到更多的機(jī)器學(xué)習(xí)的內(nèi)容,包括Transfer Learning、Domain Adaptation、Few/One/Zero-Shot Learning這些非?;A(chǔ)而且非常重要的機(jī)器學(xué)習(xí)內(nèi)容。

這是我們今年在做的一件事情,當(dāng)我們看到兩張人臉的時(shí)候,我們想把它們之間的變化轉(zhuǎn)移到貓身上,這就是一個(gè)非常典型的Domain Adaptation。我們把兩個(gè)人臉轉(zhuǎn)化成貓的表情,這是用一種模態(tài)指導(dǎo)另一種模態(tài)做更有趣的事情的其中一個(gè)案例。

騰訊賈佳亞:人工智能的多模態(tài)發(fā)展丨CCF-GAIR 2019

最后的結(jié)語:現(xiàn)在的人工智能已經(jīng)非常厲害,尤其是在CVPR、ICCV和ACL等等頂會(huì)上看到很多了不起的方法出現(xiàn),在每一個(gè)子項(xiàng)上不斷地刷新記錄,推動(dòng)這個(gè)技術(shù)空前發(fā)展。

但是如果問我,當(dāng)把所有的記錄都刷完了,是不是意味著技術(shù)發(fā)展已經(jīng)到達(dá)瓶頸?我告訴大家,這個(gè)記錄是永遠(yuǎn)刷不完的,人可以做到的事情是機(jī)器遠(yuǎn)遠(yuǎn)達(dá)不到的。

每個(gè)時(shí)代都會(huì)成為過去的時(shí)代,在這個(gè)過程中,我希望大家能夠繼續(xù)保持對這個(gè)領(lǐng)域的熱情,并做出更多成績。

謝謝大家。

現(xiàn)場觀眾提問:騰訊現(xiàn)在除了做視頻標(biāo)簽分類、做視頻理解,還做了哪些事情,可以分享一下嗎?

賈佳亞教授:有很多的事情。

比如我們AI Lab做了一些虛擬人,我們希望以后的游戲直播、解說能夠由虛擬人代替,能夠達(dá)到比較有趣、流利的直播效果。

我們應(yīng)該也是在整個(gè)行業(yè)里面最早做瘦身、長腿效果的平臺(tái)之一。

我們不僅僅希望用技術(shù)推動(dòng)企業(yè)往前發(fā)展,我們還是希望科技能夠向善,推動(dòng)社會(huì)前行,希望技術(shù)可以幫到任何一個(gè)弱小群眾,讓他們能夠正常與人交流、看到世界。

現(xiàn)場觀眾提問:聽到您講到一些應(yīng)用,然后說到科技向善,如何讓技術(shù)真的做到科技向善,而不會(huì)變成一種毀滅人類的武器?

賈佳亞教授:這是一個(gè)很好的問題。

我以前在很多演講中,第一句話就會(huì)說,科技產(chǎn)品無所謂向善還是向惡,科技永遠(yuǎn)是中性的。

科技可以制藥,挽救生命;可以造芯片,改善生活,這些都是向善的。為什么今天又要提出這個(gè)概念?是因?yàn)榇蠹野l(fā)現(xiàn)當(dāng)一項(xiàng)技術(shù)不仔細(xì)規(guī)管的時(shí)候,或者被別有用心的人利用之后,就能利用其去做一些不利于社會(huì)和諧的事情。

所以科技向善需要國家監(jiān)管、法律健全,還要引入更多專家,推動(dòng)立法、隱私保護(hù)、道德管理。未來,我們也會(huì)在這個(gè)層面投入更多的人力、物力。

至于毀滅人類,這個(gè)事情太過長遠(yuǎn),可以暫且不討論。雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

編輯

關(guān)注AI+。(微信號(hào):ZDmatt)
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說