0
本文作者: 奕欣 | 2018-03-21 15:53 |
雷鋒網(wǎng) AI 科技評(píng)論按:芮勇博士在 2016 年 11 月正式從微軟亞洲研究院卸任常務(wù)副院長(zhǎng)職務(wù),擔(dān)任聯(lián)想集團(tuán)首席技術(shù)官、高級(jí)副總裁,負(fù)責(zé)聯(lián)想集團(tuán)技術(shù)戰(zhàn)略和研發(fā)方向的規(guī)劃和制定,并領(lǐng)導(dǎo)聯(lián)想研究院的工作。2017 年年底,芮勇博士憑借對(duì)圖像、視頻和多媒體分析、理解和檢索的貢獻(xiàn)當(dāng)選 ACM Fellow。
在任職聯(lián)想 CTO 的一年多時(shí)間內(nèi),如芮勇博士所言,聯(lián)想正在進(jìn)行「from device/infrastructure only to device + cloud and infrastructure + cloud powered by AI」的轉(zhuǎn)型。目前聯(lián)想研究院在人工智能的發(fā)展上存在哪些優(yōu)勢(shì),芮勇博士所擅長(zhǎng)的多媒體計(jì)算領(lǐng)域又將如何與聯(lián)想的產(chǎn)品與業(yè)務(wù)相結(jié)合?
雷鋒網(wǎng) AI 科技評(píng)論近期與芮勇博士進(jìn)行了一次專訪,結(jié)合國(guó)際計(jì)算機(jī)學(xué)會(huì)(ACM)對(duì)芮勇博士進(jìn)行的采訪內(nèi)容整理成文,并做了不改動(dòng)原意的編輯和刪減。
您是怎樣進(jìn)入多媒體計(jì)算研究領(lǐng)域的?
在我讀本科和碩士的時(shí)候,我的方向是控制理論和大規(guī)模系統(tǒng)優(yōu)化。這些專業(yè)知識(shí)對(duì)我后來(lái)在多媒體領(lǐng)域的研究工作,比如「相關(guān)性反饋 (relevance feedback)」,神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)等,都發(fā)揮了重要的作用。
在伊利諾伊大學(xué)厄巴納-香檳分校讀博期間,我開(kāi)始從事多媒體分析和檢索的研究。那時(shí),互聯(lián)網(wǎng)還處于幼年時(shí)期,Web 瀏覽器剛剛出現(xiàn),而搜索引擎還沒(méi)有誕生。在那個(gè)時(shí)代,圖像搜索的概念相當(dāng)超前。
當(dāng)時(shí)我遇到了一個(gè)很好的機(jī)會(huì)。美國(guó)國(guó)家自然科學(xué)基金會(huì)設(shè)立并資助了「數(shù)字圖書(shū)館」項(xiàng)目。我有幸參與其中。我把控制理論,信息檢索和計(jì)算機(jī)視覺(jué)這三個(gè)領(lǐng)域融合起來(lái),進(jìn)行了深入的跨學(xué)科研究,最終,我成為第一批基于相關(guān)性反饋實(shí)現(xiàn)圖像搜索的研究者,為圖像搜索創(chuàng)造了一種全新的模式。「相關(guān)性反饋」是一種通過(guò)用戶先前的搜索結(jié)果和行為模式分析而優(yōu)化搜索結(jié)果的方法。
獲得博士學(xué)位后,我開(kāi)始了在微軟 18 年的職業(yè)生涯。在那里,我繼續(xù)從事多媒體分析、理解和檢索,機(jī)器學(xué)習(xí),計(jì)算機(jī)視覺(jué)和模式識(shí)別等領(lǐng)域的研究工作。
現(xiàn)在,作為聯(lián)想的首席技術(shù)官和聯(lián)想研究院的領(lǐng)導(dǎo)者,我將繼續(xù)帶領(lǐng)團(tuán)隊(duì)推進(jìn)多媒體計(jì)算的發(fā)展,并將最前沿的多媒體研究成果融入到聯(lián)想的產(chǎn)品和服務(wù)中去。
在人工智能的研究上,聯(lián)想目前取得了哪些進(jìn)展和應(yīng)用?有哪些難點(diǎn)和挑戰(zhàn)?
聯(lián)想研究院目前已建立了公司級(jí)別的人工智能平臺(tái),支持計(jì)算機(jī)視覺(jué),語(yǔ)音,自然語(yǔ)言理解等領(lǐng)域的研究。
在計(jì)算機(jī)視覺(jué)領(lǐng)域,我們已經(jīng)取得了顯著進(jìn)展。比如我們?cè)?2017 聯(lián)想 Tech World 上展示了 E-Health。E-Health 是應(yīng)用于醫(yī)學(xué)領(lǐng)域的智能醫(yī)療圖像輔助診斷解決方案。它集成了前沿的深度學(xué)習(xí)算法,依托于擁有強(qiáng)大計(jì)算能力的聯(lián)想云平臺(tái),凝聚了眾多醫(yī)學(xué)專家全方位的診療經(jīng)驗(yàn)。它一方面在減輕醫(yī)生工作量的同時(shí),也可以避免由于醫(yī)生疲勞等因素而產(chǎn)生的誤診情況;另一方面能夠智能分析醫(yī)療圖像自動(dòng)為醫(yī)生提供輔助診斷的意見(jiàn)。
在 2017 全球肝臟腫瘤醫(yī)療圖像分割大賽 (Liver Tumor Segmentation Challenge) 中,E-Health 團(tuán)隊(duì)力壓群雄,奪得冠軍。
我們還研發(fā)出融合了先進(jìn) slam 技術(shù)和計(jì)算機(jī)視覺(jué)技術(shù)的聯(lián)想第一代晨星 AR 眼鏡和 AR 平臺(tái),致力于將 AR 與工業(yè)維護(hù)、教育、培訓(xùn)等垂直行業(yè)結(jié)合。
在自然語(yǔ)言理解方面,聯(lián)想發(fā)布了旗下首款智能音箱,它可通過(guò)語(yǔ)音交互實(shí)現(xiàn)選歌播放,天氣查詢,電臺(tái)收聽(tīng)等操作,其中的自然語(yǔ)言理解以及會(huì)話引擎就是來(lái)自聯(lián)想研究院的研究成果。研究院為智能音箱提供了多輪、多子域、上下文相關(guān)的會(huì)話引擎,其交互體驗(yàn)和準(zhǔn)確率均達(dá)到了國(guó)內(nèi)領(lǐng)先水準(zhǔn)。
在人機(jī)交互方向,聯(lián)想研究院研發(fā)的自動(dòng)語(yǔ)音識(shí)別平臺(tái)能夠使用戶通過(guò)語(yǔ)音完成手機(jī)上打電話等基本操作,以及查詢天氣,叫車等基于互聯(lián)網(wǎng)的服務(wù)。目前該平臺(tái)已應(yīng)用在了 Moto 手機(jī)的智能語(yǔ)音助手、應(yīng)用商店等預(yù)裝服務(wù)中。
還有,我們研發(fā)的聯(lián)想小樂(lè)智能客服解決方案,有機(jī)結(jié)合人工智能客服機(jī)器人和人工客服代表,實(shí)現(xiàn)任何時(shí)間、任何地點(diǎn)、以客戶喜歡的多媒體方式(文字,圖片,語(yǔ)音)為客戶提供服務(wù)。
從 ACM MM 17 的論文錄用情況來(lái)看,視覺(jué)依然是多媒體領(lǐng)域的一個(gè)重要研究方向。而近年來(lái),計(jì)算機(jī)視覺(jué)與 NLP 之間的結(jié)合也越來(lái)越豐富。面對(duì)這種研究領(lǐng)域間的交叉融合,相較其它企業(yè),聯(lián)想具有哪些研發(fā)優(yōu)勢(shì)?
是的,計(jì)算機(jī)視覺(jué)與自然語(yǔ)言理解之間的結(jié)合越來(lái)越豐富。聯(lián)想研究院在這方面也取得了不少成果,比如剛才提到的、我們?cè)?2017 聯(lián)想 Tech World 上展示的 E-Health。它可以智能分析醫(yī)療圖像,并自動(dòng)為醫(yī)生提供輔助診斷的意見(jiàn)。
從技術(shù)的角度來(lái)說(shuō),以深度學(xué)習(xí)為代表的人工智能算法正在并將繼續(xù)促進(jìn)多媒體研究,尤其近期深度學(xué)習(xí)較好構(gòu)建了基于多模態(tài) (multi-modality) 的算法框架,使得跨領(lǐng)域的多媒體數(shù)據(jù)的有效融合、利用/檢索成為可能。
比如圖像和視頻的描述 (captioning)。幾年前,描述能做的只是給圖像或視頻自動(dòng)打上標(biāo)簽 (tag)。而深度學(xué)習(xí)建立了計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理之間的連接,可以將零散的標(biāo)簽變成一句基于視覺(jué)內(nèi)容并且通順連貫的自然語(yǔ)言描述。這是交叉領(lǐng)域的典型應(yīng)用,不僅需要理解視覺(jué),也要知道如何對(duì)自然語(yǔ)言進(jìn)行建模。
隨著相關(guān)領(lǐng)域和硬件設(shè)備的進(jìn)一步發(fā)展,圖像/視頻描述甚至將支持一段(多句)關(guān)于內(nèi)容的自然語(yǔ)言描述,也將支持更自然的用戶交互系統(tǒng);支持的模態(tài) (modality) 也會(huì)超越計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理的范圍,例如,可以導(dǎo)入語(yǔ)音特征 (voice features), 空間深度信息 (depth feature), 文本特征 (text features) 等。
聯(lián)想在人工智能的算法方面有很多投入。聯(lián)想研究院人工智能實(shí)驗(yàn)室研究人員已增加到 100 多位,吸引了全球的頂尖選手加入。
除了算法,在發(fā)展人工智能方面,不論是大數(shù)據(jù)、計(jì)算力,還是從端到云,聯(lián)想都有很多優(yōu)勢(shì)。
大數(shù)據(jù):聯(lián)想在大數(shù)據(jù)上也有非常多的投入。我們是國(guó)內(nèi)最大的制造企業(yè)數(shù)據(jù)集群,擁有超過(guò) 12 個(gè) PB+的數(shù)據(jù),并且每天還新增 30 個(gè) TB 的數(shù)據(jù),處理超過(guò) 150 億條的信息。
計(jì)算力:聯(lián)想擁有強(qiáng)大的運(yùn)算能力。全球前 500 個(gè)超級(jí)計(jì)算機(jī)中有 87 個(gè)是聯(lián)想的。聯(lián)想連續(xù)第四次取得 HPC TOP 500 榜單中國(guó)第一,全球第二的成績(jī),并以 17% 的增長(zhǎng)率成為全球增速最快的 HPC 廠商。目前全球 500 強(qiáng)企業(yè)超算系統(tǒng)中,有 87 家采用了聯(lián)想的 HPC。
聯(lián)想其實(shí)對(duì)垂直行業(yè)非常了解。一個(gè)算法再好,也必須要和垂直行業(yè)相結(jié)合,這一點(diǎn)也是聯(lián)想的優(yōu)勢(shì)。
此外,我們還有從端到云的獨(dú)特優(yōu)勢(shì)。聯(lián)想擁有設(shè)備入口,能讓設(shè)備和服務(wù)更好結(jié)合。后端又有云,通過(guò)云,利用人工智能技術(shù),我們可以更好地了解用戶的需求,從而會(huì)把服務(wù)做得更好,更貼心,更加個(gè)性化。設(shè)備、服務(wù)、云三個(gè)元素有機(jī)結(jié)合起來(lái),從而形成一個(gè)相互放大的、正反饋的循環(huán)。
在研發(fā)團(tuán)隊(duì)方面,我們正在大力建設(shè)我們的創(chuàng)新軍團(tuán)。去年底,憑借在圖像、視頻和多媒體分析、理解和檢索領(lǐng)域的貢獻(xiàn),我當(dāng)選了含金量非常高的國(guó)際計(jì)算機(jī)學(xué)會(huì)(ACM)Fellow,而且是中國(guó)大陸首位來(lái)自企業(yè)的 ACM Fellow。此外,聯(lián)想研究院 AI Lab 負(fù)責(zé)人是原德國(guó)人工智能研究中心徐飛玉博士,歐洲科學(xué)院院士漢斯·烏思克爾特博士是我們的首席 AI 顧問(wèn)。我相信,在眾多優(yōu)秀人才的努力下,聯(lián)想的創(chuàng)新能力將得到極大提升。
您于 2016 年 11 月加入聯(lián)想擔(dān)任 CTO,在您的推動(dòng)下,人工智能在一年多的時(shí)間里成為聯(lián)想「設(shè)備+云」、「基礎(chǔ)設(shè)施+云」戰(zhàn)略轉(zhuǎn)型的重要支撐點(diǎn)。從研發(fā)的角度來(lái)看,目前聯(lián)想重點(diǎn)攻關(guān)的人工智能技術(shù)是什么?有哪些方針與規(guī)劃?
技術(shù)研發(fā)方面,目前,聯(lián)想研究院正在計(jì)算機(jī)視覺(jué)、語(yǔ)音、自然語(yǔ)言理解、情景感知、知識(shí)圖譜等人工智能重點(diǎn)技術(shù)領(lǐng)域加大研發(fā)。
布局方面,聯(lián)想和聯(lián)想研究院將發(fā)力智能設(shè)備、智能云平臺(tái)和智能服務(wù)三個(gè)方向。
聯(lián)想是非常強(qiáng)大的設(shè)備公司,我們將不斷研發(fā)新型的智能設(shè)備,不僅是傳統(tǒng)意義上的設(shè)備,還包括一些能夠跟人緊密相連,能夠拿在手里,穿在身上的設(shè)備。
我們還將大力發(fā)展軟件定義數(shù)據(jù)中心和跨平臺(tái)的智能云管理平臺(tái),構(gòu)建更加智能化的數(shù)據(jù)中心。
此外,我們也建立了公司級(jí)別的人工智能平臺(tái),通過(guò)這個(gè)平臺(tái),連接設(shè)備和服務(wù),打造垂直領(lǐng)域解決方案,比如剛才提到的智慧醫(yī)療,為行業(yè)轉(zhuǎn)型和發(fā)展賦能。
聯(lián)想目前有三個(gè)大的業(yè)務(wù)結(jié)構(gòu),一個(gè)是 PC、一個(gè)是手機(jī),還有一個(gè)是數(shù)據(jù)中心集團(tuán)。除了將 PC 與手機(jī)作為設(shè)備入口,數(shù)據(jù)作為多媒體內(nèi)容相關(guān)算法的基礎(chǔ)外,從您的角度來(lái)看,還能有哪些創(chuàng)新與可能性,以帶動(dòng)多媒體內(nèi)容在業(yè)務(wù)間的應(yīng)用和落地?
首先,未來(lái)的 PC 和手機(jī)都會(huì)發(fā)生變化,在 5G 迅猛發(fā)展的今天,我們正在著眼于下一代 PC 和手機(jī)的研究,我相信,它們會(huì)支持更豐富的多媒體內(nèi)容和體驗(yàn)。
此外,聯(lián)想研究院一直致力于未來(lái)新型智能設(shè)備的研發(fā),包括可穿戴設(shè)備、AR 設(shè)備等。在這些新型智能設(shè)備上,我們會(huì)融合多媒體技術(shù)。比如在 2017 年聯(lián)想 Tech World 上展示的 SmartCast+,它是聯(lián)想推出的、全球首款擁有物體識(shí)別能力、實(shí)現(xiàn) AR 體驗(yàn)的智能音箱原型。它讓人工智能從聲音層面擴(kuò)展到圖像、交互,以及識(shí)別的更高層面,極大地豐富了用戶的實(shí)際體驗(yàn)。
說(shuō)到 AR,現(xiàn)在也迎來(lái)了大發(fā)展的時(shí)期。未來(lái) AR 的形態(tài)可能會(huì)更加豐富多彩,比如可能有 transparent display overlay, projected display 以及更多的 augmented senses 等。
此外,多媒體內(nèi)容在垂直行業(yè)也會(huì)擁有廣闊的應(yīng)用前景。比如剛才我提到的聯(lián)想晨星 AR,在工業(yè)維護(hù)維修、教育等行業(yè)都大有用武之地。
從技術(shù)的角度而言,后臺(tái)訓(xùn)練平臺(tái)是提升多媒體內(nèi)容訓(xùn)練效率的關(guān)鍵。比如我們搭建的聯(lián)想公司級(jí)別的人工智能平臺(tái),是一個(gè)分布式深度學(xué)習(xí)平臺(tái),支持多種開(kāi)源框架,可實(shí)現(xiàn)分布式任務(wù)調(diào)度,通過(guò)多節(jié)點(diǎn)并行加速實(shí)驗(yàn)、算法研究和模型迭代的過(guò)程,能夠面向多個(gè) AI 應(yīng)用。它擁有足夠充分和有效的訓(xùn)練數(shù)據(jù),既包含業(yè)內(nèi)公開(kāi)的數(shù)據(jù)庫(kù),也使用了聯(lián)想自己積累的大數(shù)據(jù)。
智能手機(jī)是人們消費(fèi)多媒體內(nèi)容的主要渠道之一,聯(lián)想也是智能手機(jī)制造商。根據(jù)現(xiàn)有研究和產(chǎn)品開(kāi)發(fā)的進(jìn)展,您認(rèn)為未來(lái)的智能手機(jī)會(huì)是怎樣的?
從技術(shù)的角度來(lái)看,未來(lái),像人工智能、VR/AR, 5G, 實(shí)時(shí)翻譯,新電池技術(shù)以及全息技術(shù)的發(fā)展,將深刻改變智能手機(jī)和用戶的體驗(yàn)。
具體而言,無(wú)邊框屏 (infinity screen),神經(jīng)網(wǎng)絡(luò)處理器 (NPU),以及更多的傳感器可能會(huì)出現(xiàn)在智能手機(jī)上。在傳感器方面,手機(jī)將會(huì)融合生物特征傳感器、深度攝像頭,多攝像頭以及更好的計(jì)算機(jī)視覺(jué)技術(shù)。此外,5G 的發(fā)展將為智能手機(jī)用戶帶來(lái) 10 倍帶寬和零延遲。
智能手機(jī)的形態(tài)也可能會(huì)發(fā)生大的變化。其中一個(gè)可能性是可折疊手機(jī)。比如,2016 年,聯(lián)想研究院研發(fā)出業(yè)界第一個(gè)真正的可折疊手機(jī)原型 CPlus 和 Folio。CPlus 可以在手機(jī)和腕表之間轉(zhuǎn)換形態(tài),而 Folio 則可以在平板和手機(jī)之間隨意切換。
聯(lián)想正在進(jìn)軍 AR/VR 領(lǐng)域,比如聯(lián)想 VR Classroom 以及迪斯尼和聯(lián)想合作推出的《星球大戰(zhàn):絕地挑戰(zhàn)》AR 設(shè)備 Lenovo Mirage。AR/VR 技術(shù)已存在了幾十年,為什么現(xiàn)在這些技術(shù)正在走向主流?
是的,AR/VR 技術(shù)已經(jīng)存在了幾十年。但近年來(lái)的技術(shù)突破,比如光學(xué)鏡頭,計(jì)算機(jī)視覺(jué)以及 slam(simultaneous localization and mapping, 即時(shí)定位與地圖構(gòu)建),讓 AR/VR 技術(shù)開(kāi)始加速發(fā)展,巨大潛力開(kāi)始顯現(xiàn)。另外,AR/VR 可以幫助解決很多行業(yè)上的痛點(diǎn)問(wèn)題,也能夠給用戶帶來(lái)全新的娛樂(lè)體驗(yàn)。
我個(gè)人認(rèn)為,與 VR 相比,未來(lái) AR 很可能會(huì)成為一個(gè)更大的、更有前景的平臺(tái)。尤其是當(dāng) AR 與垂直行業(yè)結(jié)合時(shí),比如教育,培訓(xùn)以及工業(yè)維護(hù)等。在聯(lián)想 2017Tech World 上,我們展示了聯(lián)想研究院研發(fā)的晨星 AR(daystAR) 眼鏡原型以及我們的 AR 平臺(tái)。一位工程師在現(xiàn)場(chǎng)展示了如何利用這些 AR 設(shè)備和平臺(tái)維修出現(xiàn)故障的飛機(jī)發(fā)動(dòng)機(jī),生動(dòng)地詮釋了 AR 技術(shù)在垂直領(lǐng)域的廣闊應(yīng)用前景。
雷鋒網(wǎng)AI科技評(píng)論報(bào)道。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。