聯(lián)想CTO芮勇：我們在人工智能上是如何轉(zhuǎn)型和布局的？

本文作者：奕欣

2018-03-21 15:53

導(dǎo)語：目前聯(lián)想研究院在人工智能的發(fā)展上存在哪些優(yōu)勢，芮勇博士所擅長的多媒體計算領(lǐng)域又將如何與聯(lián)想的產(chǎn)品與業(yè)務(wù)相結(jié)合？

聯(lián)想研究院

AI影響因子

活動

企業(yè)：聯(lián)想

操作：專訪

事項：聯(lián)想CTO芮勇專訪

雷鋒網(wǎng) AI 科技評論按：芮勇博士在 2016 年 11 月正式從微軟亞洲研究院卸任常務(wù)副院長職務(wù)，擔(dān)任聯(lián)想集團首席技術(shù)官、高級副總裁，負(fù)責(zé)聯(lián)想集團技術(shù)戰(zhàn)略和研發(fā)方向的規(guī)劃和制定，并領(lǐng)導(dǎo)聯(lián)想研究院的工作。2017 年年底，芮勇博士憑借對圖像、視頻和多媒體分析、理解和檢索的貢獻當(dāng)選 ACM Fellow。

在任職聯(lián)想 CTO 的一年多時間內(nèi)，如芮勇博士所言，聯(lián)想正在進行「from device/infrastructure only to device + cloud and infrastructure + cloud powered by AI」的轉(zhuǎn)型。目前聯(lián)想研究院在人工智能的發(fā)展上存在哪些優(yōu)勢，芮勇博士所擅長的多媒體計算領(lǐng)域又將如何與聯(lián)想的產(chǎn)品與業(yè)務(wù)相結(jié)合？

雷鋒網(wǎng) AI 科技評論近期與芮勇博士進行了一次專訪，結(jié)合國際計算機學(xué)會（ACM）對芮勇博士進行的采訪內(nèi)容整理成文，并做了不改動原意的編輯和刪減。

聯(lián)想CTO芮勇：我們在人工智能上是如何轉(zhuǎn)型和布局的？

您是怎樣進入多媒體計算研究領(lǐng)域的？

在我讀本科和碩士的時候，我的方向是控制理論和大規(guī)模系統(tǒng)優(yōu)化。這些專業(yè)知識對我后來在多媒體領(lǐng)域的研究工作，比如「相關(guān)性反饋 (relevance feedback)」，神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)等，都發(fā)揮了重要的作用。

在伊利諾伊大學(xué)厄巴納-香檳分校讀博期間，我開始從事多媒體分析和檢索的研究。那時，互聯(lián)網(wǎng)還處于幼年時期，Web 瀏覽器剛剛出現(xiàn)，而搜索引擎還沒有誕生。在那個時代，圖像搜索的概念相當(dāng)超前。

當(dāng)時我遇到了一個很好的機會。美國國家自然科學(xué)基金會設(shè)立并資助了「數(shù)字圖書館」項目。我有幸參與其中。我把控制理論，信息檢索和計算機視覺這三個領(lǐng)域融合起來，進行了深入的跨學(xué)科研究，最終，我成為第一批基于相關(guān)性反饋實現(xiàn)圖像搜索的研究者，為圖像搜索創(chuàng)造了一種全新的模式?！赶嚓P(guān)性反饋」是一種通過用戶先前的搜索結(jié)果和行為模式分析而優(yōu)化搜索結(jié)果的方法。

獲得博士學(xué)位后，我開始了在微軟 18 年的職業(yè)生涯。在那里，我繼續(xù)從事多媒體分析、理解和檢索，機器學(xué)習(xí)，計算機視覺和模式識別等領(lǐng)域的研究工作。

現(xiàn)在，作為聯(lián)想的首席技術(shù)官和聯(lián)想研究院的領(lǐng)導(dǎo)者，我將繼續(xù)帶領(lǐng)團隊推進多媒體計算的發(fā)展，并將最前沿的多媒體研究成果融入到聯(lián)想的產(chǎn)品和服務(wù)中去。

在人工智能的研究上，聯(lián)想目前取得了哪些進展和應(yīng)用？有哪些難點和挑戰(zhàn)？

聯(lián)想研究院目前已建立了公司級別的人工智能平臺，支持計算機視覺，語音，自然語言理解等領(lǐng)域的研究。

在計算機視覺領(lǐng)域，我們已經(jīng)取得了顯著進展。比如我們在 2017 聯(lián)想 Tech World 上展示了 E-Health。E-Health 是應(yīng)用于醫(yī)學(xué)領(lǐng)域的智能醫(yī)療圖像輔助診斷解決方案。它集成了前沿的深度學(xué)習(xí)算法，依托于擁有強大計算能力的聯(lián)想云平臺，凝聚了眾多醫(yī)學(xué)專家全方位的診療經(jīng)驗。它一方面在減輕醫(yī)生工作量的同時，也可以避免由于醫(yī)生疲勞等因素而產(chǎn)生的誤診情況；另一方面能夠智能分析醫(yī)療圖像自動為醫(yī)生提供輔助診斷的意見。

在 2017 全球肝臟腫瘤醫(yī)療圖像分割大賽 (Liver Tumor Segmentation Challenge) 中，E-Health 團隊力壓群雄，奪得冠軍。

我們還研發(fā)出融合了先進 slam 技術(shù)和計算機視覺技術(shù)的聯(lián)想第一代晨星 AR 眼鏡和 AR 平臺，致力于將 AR 與工業(yè)維護、教育、培訓(xùn)等垂直行業(yè)結(jié)合。

在自然語言理解方面，聯(lián)想發(fā)布了旗下首款智能音箱，它可通過語音交互實現(xiàn)選歌播放，天氣查詢，電臺收聽等操作，其中的自然語言理解以及會話引擎就是來自聯(lián)想研究院的研究成果。研究院為智能音箱提供了多輪、多子域、上下文相關(guān)的會話引擎，其交互體驗和準(zhǔn)確率均達(dá)到了國內(nèi)領(lǐng)先水準(zhǔn)。

在人機交互方向，聯(lián)想研究院研發(fā)的自動語音識別平臺能夠使用戶通過語音完成手機上打電話等基本操作，以及查詢天氣，叫車等基于互聯(lián)網(wǎng)的服務(wù)。目前該平臺已應(yīng)用在了 Moto 手機的智能語音助手、應(yīng)用商店等預(yù)裝服務(wù)中。

還有，我們研發(fā)的聯(lián)想小樂智能客服解決方案，有機結(jié)合人工智能客服機器人和人工客服代表，實現(xiàn)任何時間、任何地點、以客戶喜歡的多媒體方式（文字，圖片，語音）為客戶提供服務(wù)。

從 ACM MM 17 的論文錄用情況來看，視覺依然是多媒體領(lǐng)域的一個重要研究方向。而近年來，計算機視覺與 NLP 之間的結(jié)合也越來越豐富。面對這種研究領(lǐng)域間的交叉融合，相較其它企業(yè)，聯(lián)想具有哪些研發(fā)優(yōu)勢？

是的，計算機視覺與自然語言理解之間的結(jié)合越來越豐富。聯(lián)想研究院在這方面也取得了不少成果，比如剛才提到的、我們在 2017 聯(lián)想 Tech World 上展示的 E-Health。它可以智能分析醫(yī)療圖像，并自動為醫(yī)生提供輔助診斷的意見。

從技術(shù)的角度來說，以深度學(xué)習(xí)為代表的人工智能算法正在并將繼續(xù)促進多媒體研究，尤其近期深度學(xué)習(xí)較好構(gòu)建了基于多模態(tài) (multi-modality) 的算法框架，使得跨領(lǐng)域的多媒體數(shù)據(jù)的有效融合、利用/檢索成為可能。

比如圖像和視頻的描述 (captioning)。幾年前，描述能做的只是給圖像或視頻自動打上標(biāo)簽 (tag)。而深度學(xué)習(xí)建立了計算機視覺和自然語言處理之間的連接，可以將零散的標(biāo)簽變成一句基于視覺內(nèi)容并且通順連貫的自然語言描述。這是交叉領(lǐng)域的典型應(yīng)用，不僅需要理解視覺，也要知道如何對自然語言進行建模。

隨著相關(guān)領(lǐng)域和硬件設(shè)備的進一步發(fā)展，圖像/視頻描述甚至將支持一段（多句）關(guān)于內(nèi)容的自然語言描述，也將支持更自然的用戶交互系統(tǒng)；支持的模態(tài) (modality) 也會超越計算機視覺和自然語言處理的范圍，例如，可以導(dǎo)入語音特征 (voice features), 空間深度信息 (depth feature), 文本特征 (text features) 等。

聯(lián)想在人工智能的算法方面有很多投入。聯(lián)想研究院人工智能實驗室研究人員已增加到 100 多位，吸引了全球的頂尖選手加入。

除了算法，在發(fā)展人工智能方面，不論是大數(shù)據(jù)、計算力，還是從端到云，聯(lián)想都有很多優(yōu)勢。

大數(shù)據(jù)：聯(lián)想在大數(shù)據(jù)上也有非常多的投入。我們是國內(nèi)最大的制造企業(yè)數(shù)據(jù)集群，擁有超過 12 個 PB+的數(shù)據(jù)，并且每天還新增 30 個 TB 的數(shù)據(jù)，處理超過 150 億條的信息。
計算力：聯(lián)想擁有強大的運算能力。全球前 500 個超級計算機中有 87 個是聯(lián)想的。聯(lián)想連續(xù)第四次取得 HPC TOP 500 榜單中國第一，全球第二的成績，并以 17% 的增長率成為全球增速最快的 HPC 廠商。目前全球 500 強企業(yè)超算系統(tǒng)中，有 87 家采用了聯(lián)想的 HPC。

聯(lián)想其實對垂直行業(yè)非常了解。一個算法再好，也必須要和垂直行業(yè)相結(jié)合，這一點也是聯(lián)想的優(yōu)勢。

此外，我們還有從端到云的獨特優(yōu)勢。聯(lián)想擁有設(shè)備入口，能讓設(shè)備和服務(wù)更好結(jié)合。后端又有云，通過云，利用人工智能技術(shù)，我們可以更好地了解用戶的需求，從而會把服務(wù)做得更好，更貼心，更加個性化。設(shè)備、服務(wù)、云三個元素有機結(jié)合起來，從而形成一個相互放大的、正反饋的循環(huán)。

在研發(fā)團隊方面，我們正在大力建設(shè)我們的創(chuàng)新軍團。去年底，憑借在圖像、視頻和多媒體分析、理解和檢索領(lǐng)域的貢獻，我當(dāng)選了含金量非常高的國際計算機學(xué)會（ACM）Fellow，而且是中國大陸首位來自企業(yè)的 ACM Fellow。此外，聯(lián)想研究院 AI Lab 負(fù)責(zé)人是原德國人工智能研究中心徐飛玉博士，歐洲科學(xué)院院士漢斯·烏思克爾特博士是我們的首席 AI 顧問。我相信，在眾多優(yōu)秀人才的努力下，聯(lián)想的創(chuàng)新能力將得到極大提升。

您于 2016 年 11 月加入聯(lián)想擔(dān)任 CTO，在您的推動下，人工智能在一年多的時間里成為聯(lián)想「設(shè)備+云」、「基礎(chǔ)設(shè)施+云」戰(zhàn)略轉(zhuǎn)型的重要支撐點。從研發(fā)的角度來看，目前聯(lián)想重點攻關(guān)的人工智能技術(shù)是什么？有哪些方針與規(guī)劃？

技術(shù)研發(fā)方面，目前，聯(lián)想研究院正在計算機視覺、語音、自然語言理解、情景感知、知識圖譜等人工智能重點技術(shù)領(lǐng)域加大研發(fā)。

布局方面，聯(lián)想和聯(lián)想研究院將發(fā)力智能設(shè)備、智能云平臺和智能服務(wù)三個方向。

聯(lián)想是非常強大的設(shè)備公司，我們將不斷研發(fā)新型的智能設(shè)備，不僅是傳統(tǒng)意義上的設(shè)備，還包括一些能夠跟人緊密相連，能夠拿在手里，穿在身上的設(shè)備。

我們還將大力發(fā)展軟件定義數(shù)據(jù)中心和跨平臺的智能云管理平臺，構(gòu)建更加智能化的數(shù)據(jù)中心。

此外，我們也建立了公司級別的人工智能平臺，通過這個平臺，連接設(shè)備和服務(wù)，打造垂直領(lǐng)域解決方案，比如剛才提到的智慧醫(yī)療，為行業(yè)轉(zhuǎn)型和發(fā)展賦能。

聯(lián)想目前有三個大的業(yè)務(wù)結(jié)構(gòu)，一個是 PC、一個是手機，還有一個是數(shù)據(jù)中心集團。除了將 PC 與手機作為設(shè)備入口，數(shù)據(jù)作為多媒體內(nèi)容相關(guān)算法的基礎(chǔ)外，從您的角度來看，還能有哪些創(chuàng)新與可能性，以帶動多媒體內(nèi)容在業(yè)務(wù)間的應(yīng)用和落地？

首先，未來的 PC 和手機都會發(fā)生變化，在 5G 迅猛發(fā)展的今天，我們正在著眼于下一代 PC 和手機的研究，我相信，它們會支持更豐富的多媒體內(nèi)容和體驗。

此外，聯(lián)想研究院一直致力于未來新型智能設(shè)備的研發(fā)，包括可穿戴設(shè)備、AR 設(shè)備等。在這些新型智能設(shè)備上，我們會融合多媒體技術(shù)。比如在 2017 年聯(lián)想 Tech World 上展示的 SmartCast+，它是聯(lián)想推出的、全球首款擁有物體識別能力、實現(xiàn) AR 體驗的智能音箱原型。它讓人工智能從聲音層面擴展到圖像、交互，以及識別的更高層面，極大地豐富了用戶的實際體驗。

說到 AR，現(xiàn)在也迎來了大發(fā)展的時期。未來 AR 的形態(tài)可能會更加豐富多彩，比如可能有 transparent display overlay, projected display 以及更多的 augmented senses 等。

此外，多媒體內(nèi)容在垂直行業(yè)也會擁有廣闊的應(yīng)用前景。比如剛才我提到的聯(lián)想晨星 AR，在工業(yè)維護維修、教育等行業(yè)都大有用武之地。

從技術(shù)的角度而言，后臺訓(xùn)練平臺是提升多媒體內(nèi)容訓(xùn)練效率的關(guān)鍵。比如我們搭建的聯(lián)想公司級別的人工智能平臺，是一個分布式深度學(xué)習(xí)平臺，支持多種開源框架，可實現(xiàn)分布式任務(wù)調(diào)度，通過多節(jié)點并行加速實驗、算法研究和模型迭代的過程，能夠面向多個 AI 應(yīng)用。它擁有足夠充分和有效的訓(xùn)練數(shù)據(jù)，既包含業(yè)內(nèi)公開的數(shù)據(jù)庫，也使用了聯(lián)想自己積累的大數(shù)據(jù)。

智能手機是人們消費多媒體內(nèi)容的主要渠道之一，聯(lián)想也是智能手機制造商。根據(jù)現(xiàn)有研究和產(chǎn)品開發(fā)的進展，您認(rèn)為未來的智能手機會是怎樣的？

從技術(shù)的角度來看，未來，像人工智能、VR/AR, 5G, 實時翻譯，新電池技術(shù)以及全息技術(shù)的發(fā)展，將深刻改變智能手機和用戶的體驗。

具體而言，無邊框屏 (infinity screen)，神經(jīng)網(wǎng)絡(luò)處理器 (NPU)，以及更多的傳感器可能會出現(xiàn)在智能手機上。在傳感器方面，手機將會融合生物特征傳感器、深度攝像頭，多攝像頭以及更好的計算機視覺技術(shù)。此外，5G 的發(fā)展將為智能手機用戶帶來 10 倍帶寬和零延遲。

智能手機的形態(tài)也可能會發(fā)生大的變化。其中一個可能性是可折疊手機。比如，2016 年，聯(lián)想研究院研發(fā)出業(yè)界第一個真正的可折疊手機原型 CPlus 和 Folio。CPlus 可以在手機和腕表之間轉(zhuǎn)換形態(tài)，而 Folio 則可以在平板和手機之間隨意切換。

聯(lián)想正在進軍 AR/VR 領(lǐng)域，比如聯(lián)想 VR Classroom 以及迪斯尼和聯(lián)想合作推出的《星球大戰(zhàn)：絕地挑戰(zhàn)》AR 設(shè)備 Lenovo Mirage。AR/VR 技術(shù)已存在了幾十年，為什么現(xiàn)在這些技術(shù)正在走向主流？

是的，AR/VR 技術(shù)已經(jīng)存在了幾十年。但近年來的技術(shù)突破，比如光學(xué)鏡頭，計算機視覺以及 slam(simultaneous localization and mapping, 即時定位與地圖構(gòu)建)，讓 AR/VR 技術(shù)開始加速發(fā)展，巨大潛力開始顯現(xiàn)。另外，AR/VR 可以幫助解決很多行業(yè)上的痛點問題，也能夠給用戶帶來全新的娛樂體驗。

我個人認(rèn)為，與 VR 相比，未來 AR 很可能會成為一個更大的、更有前景的平臺。尤其是當(dāng) AR 與垂直行業(yè)結(jié)合時，比如教育，培訓(xùn)以及工業(yè)維護等。在聯(lián)想 2017Tech World 上，我們展示了聯(lián)想研究院研發(fā)的晨星 AR(daystAR) 眼鏡原型以及我們的 AR 平臺。一位工程師在現(xiàn)場展示了如何利用這些 AR 設(shè)備和平臺維修出現(xiàn)故障的飛機發(fā)動機，生動地詮釋了 AR 技術(shù)在垂直領(lǐng)域的廣闊應(yīng)用前景。

雷鋒網(wǎng)AI科技評論報道。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

奕欣

初心者

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門文章