0
本文作者: 老王 | 2017-01-05 20:08 |
雷鋒網(wǎng)按:芮勇博士自 11 月初正式公布去聯(lián)想擔(dān)任 CTO 后很少公開發(fā)聲,而在今日的 CES 2017 現(xiàn)場中,雷鋒網(wǎng)按等媒體對聯(lián)想集團高級副總裁、CTO 芮勇博士進行了采訪,芮勇博士非常詳細全面地回答了他在聯(lián)想所負責(zé)的 AI 項目以及對人工智能的看法。以下為采訪內(nèi)容:
問:在大多數(shù)人眼中聯(lián)想還是一個更加專注在具體產(chǎn)品的公司,您的到來會給聯(lián)想帶來什么?在您看來什么樣的產(chǎn)品才是最創(chuàng)新的?
芮勇:聯(lián)想還是一家挺低調(diào)的公司,我加入之后才有了這樣的感覺。其實聯(lián)想有很多非常創(chuàng)新的產(chǎn)品和技術(shù),可能之前的宣傳不太夠。
過去這幾年其實元慶一直在倡導(dǎo)一個口號和轉(zhuǎn)型,就是把聯(lián)想從設(shè)備 Device Only 要轉(zhuǎn)變?yōu)樵O(shè)備+云,Device+Cloud。為了達到這一點,其實有很多的工作要做,并且這中間可能有很多是跟技術(shù)有關(guān)的,這可能也是我為什么今天會坐在這樣一個位置上的原因。就像你提到的,光有設(shè)備可能它只是一個很冰涼的設(shè)備,它之后一定要有內(nèi)容和服務(wù),最好還能希望這個內(nèi)容和服務(wù)是因人而異的,是個性化的,是懂得我們用戶的。那它一定要有后面的人工智能的一些支撐。
我過去也從事了大概二十多年和 AI 有關(guān)的東西,從最早的圖像識別、圖片搜索,到今天做自然語言等等,我自己的感覺是我希望今后在聯(lián)想研究院做這么幾個大的方向的事情:
智能設(shè)備:
包括柔性設(shè)備以及 AR。
智能的云:
我們回憶一下和云最有關(guān)系的就是數(shù)據(jù)中心。30 年以前的數(shù)據(jù)中心大家可能都有個感覺,一個很大的機房,一個很傳統(tǒng)、很物理的設(shè)備。我們可以想象一下這個傳統(tǒng)的數(shù)據(jù)中心它的利用率其實不是那么高的。如果我們這里運行一個傳統(tǒng)數(shù)據(jù)中心的公司,老涼那有一個公司,中新社這兒有一個公司,別人有一個公司,你們每個公司都希望你們有一定的存儲和運算能力在我們這個傳統(tǒng)的數(shù)據(jù)中心上,平常運算量、存儲量都不大,但是每年有一個星期叫做 CES,CES 的時候,整個存儲非常大,你的數(shù)據(jù)量都非常大,但是作為一個傳統(tǒng)的數(shù)據(jù)運營中心來說,它必須在最高峰的時候能滿足你的需求,所以它不得不買很多的硬件設(shè)備在那,傳統(tǒng)的數(shù)據(jù)中心的利用率最高也就是 30%,這已經(jīng)是做得非常非常好了。
最后是在 10 年以前從傳統(tǒng)的數(shù)據(jù)中心我們發(fā)展到了虛擬的數(shù)據(jù)中心,它的利用率基本上上升到 50%。這幾年一個大的趨勢,數(shù)據(jù)中心也好,云也好,一個大的趨勢叫做軟件定義的數(shù)據(jù)中心,Software Defined Data Center,這里面我們籠統(tǒng)地稱為軟件定義的數(shù)據(jù)中心,它里面其實有三個很重要的部分,一個是叫軟件定義的網(wǎng)絡(luò),Software Defined Network,還有 Software Defined Computing,還有 Software Defined Storage。
這種 Software Defined 它有什么好處呢?
第一,它的利用率可以從傳統(tǒng)數(shù)據(jù)中心的 30% 和虛擬數(shù)據(jù)中心的 50% 提高到今天的幾乎 80%,利用率非常非常大幅地往上提高,成本就低了很多。
第二,更重要的一點就是它的部署變得非常非常迅速。在傳統(tǒng)數(shù)據(jù)中心時代,如果老涼給我們的公司掛個電話說我明天想再多上幾臺機器,他可能要花幾個星期的時間才能把新機器部署出去,做各種測試都沒有問題。但是軟件定義的數(shù)據(jù)中心在幾天甚至幾小時這件事情就徹底解決了,所以說軟件定義的數(shù)據(jù)中心這是一個智能云今后的發(fā)展趨勢,這也是我想做的第二件大的事情。聯(lián)想研究院也在這方面有很多的投入。比如我們在軟件定義的存儲,軟件定義的網(wǎng)絡(luò)上面已經(jīng)比現(xiàn)有的解決方案多了3到10倍的速度。這是我第二個想做的事情。雷鋒網(wǎng)
智能的服務(wù):
智能的服務(wù)就更離不開人工智能了。這也是我很感興趣的一個方面。人工智能發(fā)展到今天有很多分支,但是為什么叫人工智能呢?它的意思是它區(qū)別于由自然界演化而來的智能,我們?nèi)说闹悄苁怯勺匀唤缏葸M而來的,人工智能是一個非自然的、人做出來的,它希望計算機能夠模擬像人一樣的一些智能。
比如我們?nèi)祟惪梢钥?,我們?nèi)祟惪梢月?,我們可以說,我們可以想,所以人工智能幾個大的分支就包括了像計算機視覺,我在這方面做了二十多年,包括語音的識別,語音的合成,我覺得前面的計算機視覺和語音識別還是屬于人工智能的感知,叫做 perception,但是人更重要的一個智能是認知,叫 cognition,這個和另一個分支是有關(guān)系的,就是自然語言的理解,這是它的第三個分支。第四個分支就是跟一些機器學(xué)習(xí)的算法是很有關(guān)系的。今天響徹全球各地的一個詞語叫做深度學(xué)習(xí),但是你再往前看幾年可能會有人提到 SVM(支持向量機)和 particle swarm optimizer(粒子群優(yōu)化算法),每年都有不一樣的算法,但是現(xiàn)在很熱的叫深度學(xué)習(xí)。所以第四個分支就是一些基礎(chǔ)的機器學(xué)習(xí)的算法。所以在這幾個方面聯(lián)想研究院都會做大力的投入。
有了這些基礎(chǔ)算法的支持,我們就可以想象,我們就有能力把智能的設(shè)備、智能的云通過智能的服務(wù)都串在一起。我想稍微提一下為什么聯(lián)想做這件事情是一個很合適的公司,其實全球沒有幾家很合適做這樣一件事的公司。我們看聯(lián)想的結(jié)構(gòu),聯(lián)想有三個大的business unit,一個是做 PC 的,全球第一。第二個是做手機的,全球很多市場都是名列前茅的。這兩個都是device。所以,聯(lián)想是占有了device這個入口。
第三個BU叫做數(shù)據(jù)中心集團。這個集團做的是云。這是第二個。第三,我們當(dāng)然有我們的研究院,有我們做創(chuàng)投的集團。我們在人工智能上有很多的投入。所以你把這幾個BU和研究院和創(chuàng)投集團加在一起,它給你畫出來了一個圖就叫做 Device+Cloud Powered by AI。我們其實可以想象,有的公司是只做device的,有的公司是只做cloud的,有的公司是只在人工智能上有投入的,真正的從設(shè)備到云和人工智能都有投入的,可能聯(lián)想是很有機會做出一些非常有意思的事情的。
我之前還跟很多內(nèi)部同事和外部朋友們聊一件事情,我希望我剛才講的這三個元素可以互動,形成一個正反饋的過程。為什么呢?我們可以想象。因為聯(lián)想擁有智能設(shè)備,所以它擁有入口,擁有入口其實就擁有一定量的用戶,有了用戶之后,聯(lián)想做出來的智能服務(wù)它的某一個 Service 就可以從用戶那里去學(xué)很多的東西,從用戶的交互那里,這個智能的服務(wù)就變得越來越好。這個智能的服務(wù)越來越好的時候,它就能賣更多的設(shè)備。賣了更多的設(shè)備的時候就有更多的用戶,有了更多的用戶,它的智能的服務(wù)就會越來越好。所以這三個就變成了一個正反饋的過程。這個正反饋的過程如果能夠做成,它會形成一個大的爆發(fā)性的增長。
所以這就是我對今后的三個愿景和具體的方向的想法。
(圖為 CES 現(xiàn)場,芮勇博士在聯(lián)想展臺演示新品)
問:深度學(xué)習(xí)是需要時間和大量的樣本去記錄的,這些樣本是如何去獲取的?
芮勇:非常好的問題。其實我是這么看的,不僅僅是深度學(xué)習(xí),如果把這個機器學(xué)習(xí)或者是人工智能要做得好,可能有四個大的因素才能做得好。
一、算法要好
拼到一定程度的時候,你會發(fā)現(xiàn) SVM 就是拼不過深度學(xué)習(xí)了,因為你不管是在做語音識別的時候還是做OCR(光學(xué)字符識別)的時候,還是在做圖片分類的時候,現(xiàn)在深度學(xué)習(xí)每一樣它都占第一了。所以,第一個你的算法要比別人好。
二、運算能力要非常強大
運算力不大,可能幾個月都沒辦法收斂,你沒辦法訓(xùn)練。
三、優(yōu)質(zhì)的數(shù)據(jù)
我沒說非常大的數(shù)據(jù),當(dāng)然大可能是其中一個方面,但是大的數(shù)據(jù)如果它不代表你的序列空間,它仍然不是一個好的數(shù)據(jù)。我們?nèi)绻麄€的序列空間是整個會議室,我有很多很多很多的數(shù)據(jù)就在那個角落上,它仍然沒有辦法訓(xùn)練出一個好的模型,因為它的數(shù)據(jù)是有 Bias 的。所以第三個很重要的是在數(shù)據(jù)上是非常非常重要的。
其實我個人對這三點是很有感觸的。第四點最后再講。這三點非常重要的是,80 年代末、90 年代初的時候我自己也寫過人工神經(jīng)網(wǎng)絡(luò)的模型,其實今天的深度學(xué)習(xí)就是一個穿了另外一個馬甲的人工神經(jīng)網(wǎng)絡(luò)。當(dāng)然在 26、27 年以前,當(dāng)時的人工神經(jīng)網(wǎng)絡(luò)只有三層,輸入層一層,隱含層一層,輸出層一層。
今天我們叫深度學(xué)習(xí)是因為它的隱含層有很多很多層,很深,所以叫深度學(xué)習(xí)。當(dāng)時為什么在 80 年代末、90 年代初我自己寫的那個只有一層呢?就是因為我剛才說的前三點,
第一,算法上沒有到那個境界,可能這個稍微偏學(xué)術(shù)一點,因為你做訓(xùn)練誤差反饋回來的時候要求偏導(dǎo)的,偏導(dǎo)數(shù)大家可能知道,求第一次的時候就已經(jīng)有很多的 Noise 在里面了,你如果想有兩層隱含層的話你要求第二次偏導(dǎo),第二次偏導(dǎo)的時候那個東西就不能用了,所以在 20、30 年以前這個算法就沒到那個地步。這是第一。
第二,我記得我當(dāng)時還是運行在一個當(dāng)時一個很牛的機器上 486,當(dāng)時已經(jīng)是最好的機器了。但是 486 還沒有我們今天一個比較強大的手機的運算能力大。今天我們在 GPU 上跑的運行的分布式的訓(xùn)練結(jié)果如果在當(dāng)年我那臺 486 上跑,可能到明年還沒有訓(xùn)練完,沒有辦法等,你等不起這個時間,所以計算力也沒到。
第三,訓(xùn)練數(shù)據(jù)太小。今天的深度學(xué)習(xí),因為它的層很多,它可調(diào)參數(shù)經(jīng)常就是幾百萬個,幾百萬個可調(diào)參數(shù)你沒有上億的訓(xùn)練樣本一定是過擬合的。過擬合的意思就是你在訓(xùn)練的時候一點誤差都沒有,一到真正用的時候全部都是錯的,因為你想這個道理,如果你只有一千個樣本,你有一百萬個參數(shù)要去調(diào),一定是過擬合的結(jié)果。所以說30年以前也沒有很多的數(shù)據(jù),還沒有大數(shù)據(jù),只有小數(shù)據(jù)。
所以,基于這三個原因,30 年以前是沒辦法出現(xiàn)深度學(xué)習(xí)的,因為我自己做過。今天不一樣,這三個算法上有大的改進。第二個是在運算能力上有大的改進。第三個是在數(shù)據(jù)和訓(xùn)練樣本上有大的改進。
四、人工智能落地
人工智能真是要做得好,光去弄前面三個也不夠,要和垂直行業(yè)怎么結(jié)合,怎么落地。因為無論如何人工智能是要落地的。你無論是跟一個下棋的落地,還是跟某一個智能聊天機器人去落地都可以,還是說我給某一個用戶推薦一款電影也可以。因為我之前跟中科院的植物所做過一款怎么去識別花、樹之類的。每年春天在北京你到香山植物園轉(zhuǎn)的時候,走了一半看見這個樹真漂亮,叫什么,那個花叫什么,你都不知道,你問周圍的人也沒人告訴你,你能不能拿出手機一拍,原來這個叫這個花,不僅告訴你是什么花,還告訴你它是比較喜歡陽光的,最早是從南美洲什么什么地方過來的,人工智能一定要落地,要和 domaine knowledge 要發(fā)生關(guān)系。你如果不落地,你為了識別不同種類的花,你可能識別得不準(zhǔn),但是你和這些植物學(xué)家進行一定的交流之后你會發(fā)現(xiàn)他們有很多的垂直行業(yè)的知識。比如說不僅僅要看這個花的瓣,還要看這個花的蕊和它的莖和葉是什么樣的,就是說這些domain knowledge一定要跟人工智能相結(jié)合才能落地。
所以說我個人的體會是這四點都做好了才能把這件人工智能的事給做好。
為什么在聯(lián)想我覺得可以做這個事?
第一,我們有算法。我希望在我加入之后在算法上還會有大的突破。
第二,我們的運算能力是很強的。大家可能不太清楚,全球前 500 個超級計算機中間的99個是聯(lián)想做的。所以有強大的計算能力。
第三,有沒有大數(shù)據(jù)?聯(lián)想這么大的公司,內(nèi)部的數(shù)據(jù),外部的數(shù)據(jù),各種數(shù)據(jù)都是非常非常多的。這些數(shù)據(jù)就可以使得我們能夠訓(xùn)練我們的模型。
第四,因為我們是在全球有 60 多個分支機構(gòu),我們的產(chǎn)品遍布全球的 160 多個國家,所以我們跟各個行業(yè)、各個國家有很多的接觸。所以,我們對行業(yè)的知識也很了解。
這四個事情相互結(jié)合在一起,我覺得聯(lián)想在人工智能上是可以有很多建樹的。
問:現(xiàn)在有很多公司都在做人工智能這一塊,怎么樣去評價這家公司做人工智能做得好不好?人工智能做得好與不好的評價標(biāo)準(zhǔn),您覺得應(yīng)該怎么衡量?
芮勇:這個問題可能從兩個角度來看。
第一,因為現(xiàn)在人工智能這個詞用英文講叫 Overloaded Tone,不知道中文怎么翻比較好,就是說這一個詞其實有很多不同的意思。人工智能公司我覺得有一些是在做基礎(chǔ)算法的,這樣的公司是很多的,不管是做 Vision,還是做 Speech,做這些基礎(chǔ)算法的公司是容易評價的,一些基礎(chǔ)算法我們拿出來,是騾子是馬拿出來溜溜,因為有很多全球標(biāo)準(zhǔn)的數(shù)據(jù)機器都在那,如果我們做圖像的分類,我們就在 ImageNet 上跑一跑,看看誰的錯誤率低。我們?nèi)绻稣Z音識別的話,我們就在 Standard 上跑一下,看看誰的錯誤率低。這是一類公司,做基礎(chǔ)算法的,我覺得他們可以做這樣一個對比。
還有一類人工智能公司其實他們是把基礎(chǔ)算法應(yīng)用在不同的應(yīng)用上去的。
比如說國內(nèi)有很多像智能助手這樣的公司,這些你去做評價的時候就是偏主觀的了,因為沒有一個很客觀的東西,因為有的人工智能助手是全方位的人工智能助手,另外一個人工智能助手可能是我只是給你訂餐或者是訂車我會比較了解,別的事情它不一定會做,這種情況下你就很難評價一個全方位的、比較廣的一個比較深的垂直的領(lǐng)域。
所以,我覺得是從這兩個方向來看?;A(chǔ)算法的用標(biāo)準(zhǔn)數(shù)據(jù)去做評價。真正做應(yīng)用的,可能它的廣度和深度都要看,當(dāng)然最重要的是看的是用戶買不買單,用戶用不用它的東西。
問:剛才聽您講的 AI 都是基于聯(lián)想的設(shè)備,有沒有擴展到其他的領(lǐng)域,比如說無人駕駛?
芮勇:也不完全是,因為我覺得有一些基礎(chǔ)的 AI 平臺的東西可以完全是很開放的平臺,比如另外一個智能設(shè)備,甚至我們今天在聯(lián)想可能不做冰箱,不做微波爐,不做洗衣機,但是這些東西基于同一個 AI 平臺你可以對它的數(shù)據(jù)進行分析,對它之間的相互連通的信息進行分析,你可以給用這個洗衣機、電冰箱和微波爐的用戶提供一些很好的建議,我覺得這些都是可以做的,所以我們會有一個很開放的平臺。
問:AR 和 VR 這兩種業(yè)務(wù)的前景是怎么看的?另外一個是聯(lián)想在這塊有什么比較具體的布局?準(zhǔn)備怎么去做?
芮勇:計算機視覺里面有一個很重要的分支叫三維視覺,三維視覺它包括了三維的物體重建,三維的環(huán)境重建。比如我現(xiàn)在有一個攝像頭,我如果對著一個物體晃一晃掃一掃,我能不能把這個三維物體的模型能建起來?我對整個環(huán)境掃一掃,能不能把三維的環(huán)境建起來?所以說三維視覺一直是人工智能中間一個很重要的分支,不管是 VR 也好,AR 也好,它的最重要的技術(shù)基礎(chǔ)就是三維視覺,沒有三維視覺是沒有 VR 也沒有 AR 的,因為它需要知道你現(xiàn)在戴的這個頭盔或者是一個別的什么設(shè)備也好相對于你這個物理坐標(biāo)系在哪里,這六自由度是從哪里來的,這個必須要從三維的計算機視覺中得到,所以,AR 和 VR 一定是人工智能的一個部分。
第二,我對 VR 和 AR 怎么看?它們的應(yīng)用場景可能不是完全一樣的。VR 可能對一些非交互性的、單邊內(nèi)容的傳輸會很有效果,比如說我們想看一個 3D 的電影,你戴上一個VR的眼鏡可以享受一款非常好的 3D 的電影,甚至我們打一個 3D 的 Game,有交互,但是你可能不能站起來,就是 VR 和 AR 一個很不一樣的地方是戴VR頭盔的朋友,我建議你們坐在椅子上玩比較好,因為你太投入的時候會出問題的,因為你這個時候要么有一根線拽在后面或者怎么樣,其實你很投入的時候已經(jīng)沉浸在一個 VR 的世界里面,一根線把你頭拽住了,可能會摔倒,這是VR對于玩兒 Game 和看電影是非常有好處的。
AR 是完全另外一個不同的場景,AR 最重要的是它是一個增強的現(xiàn)實。增強的現(xiàn)實其實是把物理世界和虛擬世界無縫地給拼在一起,最簡單的一個 AR,比如我看到某個人,我如果戴著一個 AR 的眼鏡,我突然忘了,這人好面熟,就想不起來上次在哪見的,有這個 AR 的眼鏡之后,它最簡單的功能就是做出人臉識別,告訴我這是誰誰誰,上次我們是在哪在哪見的面,這個可能會免去很多的社交上的尷尬。
但這個 AR 只是一個最初級的,它只是在物理實體的邊上加上一些虛擬的信息,更有意思的 AR 是物理和實體能夠相互交互。比如說我們現(xiàn)在打一款游戲。VR 可能跟你現(xiàn)在這個房間是一點關(guān)系都沒有的,但是 AR 游戲,我如果戴上 AR 眼鏡,它其實是可以根據(jù)我現(xiàn)在這個會議室的物理場景給我設(shè)計一個打游戲的過程,我待會兒去另外一個會議室,回到我酒店的房間,物理場景不一樣,它給設(shè)計的 Game 也都不一樣,所以我覺得這是一個非常不一樣的地方。
所以,在我個人看來,從平臺角度看,可能 AR 會是今后一個更大的平臺,如果我們把幾個垂直行業(yè)能落地得很好,這個可能是一個很大的平臺,前景會非常非常好。我們在聯(lián)想公司也好,聯(lián)想研究院也好,我們在這方面都會有大的投入。
問:現(xiàn)在AI人才是全球都在爭奪的,聯(lián)想在這方面準(zhǔn)備出什么自己的獨家秘招呢?
(雷鋒網(wǎng)在提出這個問題時,芮勇博士先是風(fēng)趣地開了個小玩笑,用一句“我就是那個獨家秘笈”引起了全場一陣歡笑。)
芮勇:現(xiàn)在 AI 的人大家都在搶,我最近也在招這方面的人才,因為我們要成立一個 AI 方面的大的團隊,競爭都很激烈。我覺得聯(lián)想能告訴一些有志于人工智能產(chǎn)業(yè)人才的事情就是把人工智能能做好的那四點:好的算法、強大的運算力、大數(shù)據(jù)和垂直領(lǐng)域能不能接地氣。我覺得這四個方面,聯(lián)想都是有優(yōu)勢的:
第一,好的算法,當(dāng)然我們希望這個人來了以后就有好的算法,這些是他可以做的事情。
第二,運算力,前 500 名我們占了 99 名,并且我們現(xiàn)在不僅看 CPU 的集群,我們看 GPU 的集群,我們看 FPGA 的集群。
第三,聯(lián)想有很多大的數(shù)據(jù)。公司內(nèi)部也有很多很多的數(shù)據(jù)。我現(xiàn)在不是擔(dān)心我們沒有數(shù)據(jù)怎么辦,而是我現(xiàn)在數(shù)據(jù)很多,我現(xiàn)在要有足夠的 AI 的人才來幫我分析這些數(shù)據(jù)。
第四,其實我們有很多垂直領(lǐng)域,在國內(nèi)我們跟醫(yī)院、運營商、零售行業(yè)有很多的合作,這些垂直領(lǐng)域,我們都可以幫助它的人才把具體的算法落地到某一個領(lǐng)域,這些可能是最吸引人才的地方。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。