1
雷鋒網(wǎng)按:這輪 AI 熱潮的很大一個特點就是底層技術(shù)方面在打通,雖然說過去對通用人工智能大家曾經(jīng)有過很高的期望,但一直沒有落地。這次,深度學習給大家?guī)砹撕芏鄼C會,使得我們在底層技術(shù)方面有了越來越多的共性。然而深度學習并不是萬能的,那么它的局限性在哪里?當遇到天花板時又該如何呢?
4月8日,在 ADL 第78期“深度學習:從算法到應(yīng)用”的 Panel 環(huán)節(jié),四位頂級 AI 學術(shù)大牛同臺縱論驅(qū)動這一輪 AI 浪潮的底層技術(shù),主題為“深度學習和大數(shù)據(jù)結(jié)合的紅利還能持續(xù)多久”。
從左到右分別是:山世光、顏水成、李航、俞凱(雷鋒網(wǎng)現(xiàn)場拍攝)
四位分別是:
中科院計算所研究員、博導,中科視拓創(chuàng)始人、董事長兼 CTO 山世光
360副總裁、 首席科學家顏水成
華為諾亞方舟實驗室主任李航
上海交通大學研究院、思必馳創(chuàng)始人兼首席科學家俞凱
于 2017 年 4 月 7-9 日舉辦的中國計算機學會學科前沿講習班(CCF Advanced Disciplines Lectures,簡稱 ADL)第 78 期,是由 CCF 和 KDD China 聯(lián)合主辦的高端學術(shù)及技術(shù)系列性品牌活動。
下面是雷鋒網(wǎng)對 Panel 環(huán)節(jié)的整理(包含不改變原意的刪減)。
山世光:今天的三位大咖里,俞凱老師做語音識別,顏水成老師主攻視覺方向,而李航老師則在自然語言的理解處理領(lǐng)域非常資深,而且在更加廣泛的人工智能上問題上也有研究,包含了聲、圖、文三個領(lǐng)域。我們今天討論的題目就是“深度學習和大數(shù)據(jù)的紅利在 AI 領(lǐng)域還能持續(xù)多久”,既然不同研究領(lǐng)域的人都坐到一起了,那我們就先講講這個大家互相跨界的情況。為什么這么說呢?因為我個人覺得這一輪AI熱潮很大的一個特點就是底層技術(shù)方面在打通。雖然過去我們對通用的人工智能曾經(jīng)有過很高的期望,但是實際上一直沒有落地,但是如今深度學習給大家?guī)砹撕芏嗟臋C會,而且底層的技術(shù)有了越來越多的共性,比如說卷積神經(jīng)網(wǎng)絡(luò)不僅在語音里面有用,在自然語言處理里面也有應(yīng)用,所以我想請三位從這個視角談一下,這一輪AI在通用技術(shù)方面有什么樣的進展?
俞凱:稍微糾正一下,大家不要以為我是做語音識別的,我一定要說這句話,為什么?我所做的事情其實是口語對話系統(tǒng),包括語音識別、語音合成等大家可以想得到的東西。更重要的是,我做的是對話,或者說是以交互為主要方式的人機口語對話系統(tǒng)。
對話實際上是認知控制,你可以認為我做的是以口語作為主要通道的感知加上認知,在這一點上我和李航老師是有重疊的,都是交互的自然語言處理。我為什么會提這個?因為聲、圖、文,如果從這個角度分的話,實際上都可以看是成感知層面的東西,但是它后面所對接的都是理解、交互的控制、人的決策和推理,這些部分是在聲圖文領(lǐng)域的從業(yè)者或多或少都會涉及到的,無論是顏水成老師還是李航老師。所以我想把它分成兩層,從感知上看我們做的不一樣的,但是后面的東西,大家做的很多都是類似的,比如大家會做到理解這一層,而我還會做到交互這一層。
關(guān)于這一輪的AI潮,我說一下自己的感受。我先拋一個觀點,凡是在機器學習范式上一樣的東西,聲圖文全都可以用,而且任何一個機器學習方法在這三樣里面都可以用。什么叫范式?比如說分類問題,CNN之所以在語音識別里用的多,很重要的一點就是它能夠處理高度非線性的映射,有非常好的分類能力。只要是面對這樣的問題,就一定可用,所以我們現(xiàn)在也很關(guān)注圖像方面的東西。
(山世光:這個我可能會有不同意的觀點,我個人覺得更多的是學Feature。)
只要是能夠歸結(jié)為范式性的東西,第一是分類,第二是回歸,這是最典型的兩類事,第三是序列標注。只要能歸屬這三類的,幾乎都可以通用,只是用的方法不一樣。
李航:你剛才提到深度學習和大數(shù)據(jù)的結(jié)合紅利,以及人工智能在技術(shù)層面上的打通,未來在應(yīng)用層面上也會有很多的機會。
現(xiàn)在在UC Berkeley有一種研究,就是給機器人看一段“人開門”的視頻,機器人在看完視頻之后,可以學會自己用手去開門。以前這種運動和視頻的理解是完全不同的領(lǐng)域。大家自然可以想到相關(guān)的,比如我跟你說一段話,這個機器會不會理解,能做什么事情,這種可能性在未來應(yīng)該是有的。在深度學習、大數(shù)據(jù)這些技術(shù)的延長線上,假設(shè)有很多的數(shù)據(jù),以及很強的計算能力,這種跨模態(tài)、跨領(lǐng)域的應(yīng)用,應(yīng)該是未來發(fā)展的一個增長點。
顏水成:大部分人對于通用智能的理解,目前還停留在概念階段。可能大家主要想的是通用人工智能是什么樣的,但是對于怎么樣讓機器實現(xiàn)或者產(chǎn)生通用人工智能,其實討論的不是特別多??偟膩碚f通用人工智能暫時是遙不可及的事情。
山世光:我把剛才這個問題換一個問法。比如說過去做人臉職別,我們可能連計算機識別領(lǐng)域的其他的子問題怎么做都不關(guān)心。但是現(xiàn)在不一樣,現(xiàn)在要做人臉識別,只看人臉識別的論文肯定是不行了,還要看其他類似領(lǐng)域或者更通用的論文。從這個聲圖文這三個大的領(lǐng)域來說,它們之間的相互借鑒和技術(shù)層面的交叉,我覺得已經(jīng)越來越多了。像CNN是從圖像領(lǐng)域里面起來的,1989年就開始在做了。不知道俞凱老師是不是可以介紹一下,在語音方面的應(yīng)用和圖像方面的應(yīng)用會有什么樣的差別?
顏水成:根據(jù)我的觀察,在聲圖文領(lǐng)域里,聲音的問題相對來說比較少一些,比如像語音識別、TTS、或者聲紋識別,而圖像領(lǐng)域的問題太多了,而且落地的方式比語音多很多。這也許是為什么計算機視覺領(lǐng)域的從業(yè)者比語音識別更多。
山世光:俞凱老師同意這個觀點嗎?
俞凱:我覺得顏水成老師是一語中的,但這個觀點我肯定是不同意的(指聲音領(lǐng)域的問題相對較少的觀點),其實是語音的人看起來借鑒圖像的人比較多。
顏水成:但是深度學習在語音上是最早成功的。
俞凱:實際上不只是深度學習,真正圖像的人看語音的論文相對來說比較少的,這跟整個領(lǐng)域的覆蓋有關(guān),所以我覺得剛才是一語中的,主要就是對問題的挖掘,這跟整個的歷史發(fā)展是相關(guān)的,這是事實。但是倒過來講,我是不太同意的,原因很簡單,語音放在那,它就是一個模態(tài),里面涉及到環(huán)節(jié)非常多,所以就會出現(xiàn)一個現(xiàn)象,真正搞語音的人出來創(chuàng)業(yè)的比較少,特別難做,為什么呢?因為你必須什么都懂,包括那些學術(shù)界還沒弄出來的,但是你必須弄出來,才能最終變成一個系統(tǒng)。
顏水成:所以它是一個閉環(huán)的,包含麥克風陣列、降噪、語音識別等一系列問題。
俞凱:語音最大的特點是什么呢?它不像圖象,任何一個子問題馬上都能看得見,你必須得繞一個圈,要么回答你了,要么看到識別的結(jié)果才可以。它的鏈條是非常長的,從剛才說到的硬件、軟件、信號、特征、模型、再到后處理,這一系列完了之后才能看到一個結(jié)果,很難知道哪一塊做的好或者做的不好,因此對后面的結(jié)果有重大的影響。如果你從中單獨拎出去一塊,想要直接評估它的指標并不是那么容易,所以這個是語音發(fā)展的一個特點。
我為什么把它當做特點呢?因為它既是好處也是壞處。壞處就是說,對于整個領(lǐng)域的問題,大家的認識不夠大,我也在聯(lián)合一些語音圈的同仁,把一些問題明確的提出來。好處是什么呢?就像賣鞋一樣,如果各位去賣鞋,你是會去都有鞋穿的地方去賣,還是去一個沒有鞋穿的地方去賣?兩個各有好處和壞處,如果都不穿鞋,你就沒市場了。如果都穿了鞋,你怎么賣?市場飽和了。所以從語音的角度講,我的感覺是,在研究問題的提出上可能是under-developed,但是在問題的解決上跟圖像相比其實是over-developed。
我舉一些例子,比如剛才提到的互相借鑒的問題,大家直接就談到了深度學習,很多人看待語音的角度,“不就是分類的問題嘛”,反正有深度學習的人,有圖像領(lǐng)域的人,有全世界的人,大家都能解決這個事。好,我們都來借鑒,大家的成果都可以用。但是我看這個事,不是從分類的角度去看,我可能要去改它的criteria,什么意思呢?比如說,我們現(xiàn)在要做語音識別,我是給一定的聲音,然后識別出文字,這是一個criterion,我訓練的時候,在傳統(tǒng)的語音識別模型里面,它是一個隱馬爾可夫模型。我要訓練的就是一個聲學模型,如果我換一個特別難的criterion,就會使我的測試和訓練是匹配的,就不會存在很直接的過訓練的問題,因為過訓練不單單是這個問題,還有一個準則不匹配的問題。
所以我們很多時候會關(guān)注這樣一類,這些角度是不一樣的,實際上是在范式上有所不同。所以今天提到的大數(shù)據(jù)和深度學習這塊,我的第二個觀點是什么呢?我個人認為,從具體的深度學習方法中跳出來,其實在深度學習的發(fā)展歷史中,它會經(jīng)歷范式的變化,在第一個十年,大概是06年到16年,實際上第一個八年吧,我認為深度學習和大數(shù)據(jù)的結(jié)合在傳統(tǒng)機器學習范式上幾乎達到飽和,后面還可以再研究,但是它的邊際效益降低了。
什么叫傳統(tǒng)?比如說分類問題,比如說回歸問題,它們的范式都有一個特點,我把這個特點稱為開環(huán)學習。就是說你有一個模型,我有一個數(shù)據(jù)進來,你要優(yōu)化一個準則,然后你出去,就這么簡單,你只需要去想這個模型怎么變。但是從2013、2014年開始,出現(xiàn)了另外一個方向,這個方向可能跟大數(shù)據(jù)在一定程度上有矛盾,因為前面的開環(huán)學習,必須要有足夠多的大數(shù)據(jù),而且什么叫多?不是數(shù)量,一定指的是質(zhì)量,要能夠覆蓋各種各樣的可能性,完了之后你去學它,主要依靠大數(shù)據(jù),以及模型強大的非線性運算的能力。到了后面出現(xiàn)了一個問題是,“我沒有數(shù)據(jù)怎么辦”,或者“我數(shù)據(jù)不均衡怎么辦”。于是我們有了強化學習(reinforcement learning),生成對抗網(wǎng)絡(luò)(GANs),還有微軟的對偶學習(dual learning)。這些學習都有一個特點,可以歸為一類,叫閉環(huán)學習,什么意思?它的數(shù)據(jù)也好,它的準則也好,它都不是一個開環(huán)的,都要有feedback signal,這個feddback signal往往是從不可預計的外部環(huán)境來的。
在你們做了前面所有的學習的時候,比如監(jiān)督學習(supervised learning),它的系統(tǒng)是你預先設(shè)計好的,所以你必須收集數(shù)據(jù),必須預先設(shè)置好signal,但是到了第二個階段,這些signal是沒有設(shè)定好的,它是自己出來的。比如說強化學習,它是和環(huán)境交互,比如說生成式對抗網(wǎng)絡(luò)和對偶學習,它是和自己交互。這個紅利能持續(xù)多久,取決于這個范式的變化,這是我拋的第二個觀點。
山世光:其實我覺得視覺和語音領(lǐng)域,還是借鑒很多來自于自然語言理解領(lǐng)域的一些技術(shù)方法,比如說上一代的一些模型,已經(jīng)在視覺領(lǐng)域里面用了好多年,在深度學習出來之前,基本上是這一套。那么除了這個之外的話,據(jù)您(李航老師)的了解,還有什么樣的技術(shù)可能是在原理或者歷史上,也借鑒了自然語言理解的技術(shù)?或者反過來說,自然語言的理解領(lǐng)域的同行們,他們會不會也關(guān)注語音或者視覺這些領(lǐng)域的進展?
李航:剛才你說那個現(xiàn)象,以前可能在自然語言和其他的人工智能領(lǐng)域之間也是這樣,大家不會關(guān)注視覺和語音方面的事情?,F(xiàn)在這個界限慢慢越來越模糊了,大家會互相借鑒,這個現(xiàn)象可能是歷史上沒有發(fā)生過的。然后你們剛剛說的這個聲圖文,其實“文”里面有一個和聲、圖本質(zhì)上不一樣的地方,它有這個符號(symbol),它的本質(zhì)的特點就是在語音識別以后,轉(zhuǎn)換成了符號。在語言表達的時候,我們認為我們能夠理解一些概念,傳達一些概念的時候,其實是有對應(yīng)的符號的,這個就是跟語音和圖像不太一樣的地方。
說到深度學習,剛才俞凱老師說的我也挺同意的,2014年左右,有一個頂峰過去了,下一波從我們自然語言處理的角度來看的話,怎么樣能夠把深度學習的技術(shù)neural processing和symbol processing結(jié)合起來,是自然語言未來必然要去解決的問題。這里面有很多挑戰(zhàn),首先就是目前還不清楚人的大腦里面這種符號到底對應(yīng)的是什么東西,怎么樣能夠像做CNN一樣擴展現(xiàn)在的深度模型也不是很清楚。符號其實是挺硬的東西,而深度學習、神經(jīng)網(wǎng)絡(luò)是很軟的東西,我們處理人的語言,包括對話的理解,從文本里面獲取知識,理解文本的內(nèi)容,這些應(yīng)用都是需要這種軟、硬處理的結(jié)合。我認為自然語言處理和深度學習未來發(fā)展的重要關(guān)鍵就是“怎樣做neural symbolic processing”,這塊是可能跟其他兩類不太一樣。
山世光:我最近其實特別羨慕做語音的,為什么這么說呢?因為語音這個領(lǐng)域,它處理的結(jié)果直接變成了符號,但是視覺這塊,我們自己說一圖勝千言,好象是說一張圖可以有很多很多的符號出來,但是它其實和非常精確的命令,比如說我們?nèi)タ刂埔粋€東西,和語音以及語言是直接相關(guān)的,從這點來講的話,語音就有非常豐富的內(nèi)容,可以很精確的去表達,這也是為什么說語音的應(yīng)用比視覺更早了一步。特別是語音識別,跟自然語言理解的連接更加直接一點,而視覺這塊就稍微弱了一點,但是最近兩年有一個專門話題是vision和language(視覺和語言),大概是從2015年才開始的,之前也有人做,但是做的很爛。2015年之后看起來好像有一些聲稱通過了圖靈測試,但是我覺得還是有點弱。從這點來講的話,比如說做APP,我自己去創(chuàng)業(yè)的時候,別人都會說視覺能不能做一個單獨的APP給用戶用,而不是說作為一個錦上添花的東西嵌入到一個已有的系統(tǒng)里面去,是不是視覺會有這種缺陷?
顏水成:現(xiàn)在還是有不少這種純視覺的APP的,比如美圖秀秀、FaceU,這些就是典型的視覺。我個人覺得視覺這個領(lǐng)域的話,因為它經(jīng)??梢杂胁煌膭?chuàng)新,比如說今年非常典型的熱點就是短視頻的生產(chǎn)和聚合,各大創(chuàng)業(yè)公司(以今日頭條為代表),以及傳統(tǒng)的IT公司(比如360、百度、騰訊),都在推動短視頻,這些東西跟傳統(tǒng)的純粹圖像分析不一樣。短視頻興起后,你的計算模型的efficiency,推薦算法等,都會跟以前完全不一樣。比如圖文的時候,可以用surrounding text做一些事情,那么短視頻出現(xiàn)之后的話,可能就沒有什么太多的caption(字幕)或者title(標題)的東西,這個時候主要依賴的是視覺的東西。無論是學術(shù)界工業(yè)界,其實對短視頻的分析的投入和研發(fā)的力度是加強了的。雖然聲音還在里面,但是可能對于文本的依賴性變?nèi)趿?。從視覺維度來說的話,深度學習和大數(shù)據(jù)結(jié)合紅利又一波又要來了,而不是到了瓶頸期。
山世光:就是視頻的結(jié)構(gòu)化、符號化和后端的搜索、應(yīng)用的連接。
李航:這是個挺好的例子,其實剛才我們提到的語音,俞凱老師做的東西跟語言相關(guān),只不過是從語音對話的角度去看這個東西,其實語音和語言比較容易自然的結(jié)合在一起,現(xiàn)在已經(jīng)變成一個相對比較大的領(lǐng)域。我對未來的預測是,真正做語音識別的人會越來越少,而做語音對話的人會越來越多,這是一個整體的大的領(lǐng)域,而語音識別是其中一部分。
顏水成:對于語音對話這塊,我個人的觀點有點不一樣,對話非常依賴于語料,這樣的話,只有兩類公司比較適合做這個事情。一類的話就是有search engine的公司,還有一類就是以騰訊、微軟為代表的,有instant message產(chǎn)品的公司,比如微信、Skype。這些公司有天然的優(yōu)勢。
李航:我們倆說的其實不矛盾,這個領(lǐng)域有這樣的應(yīng)用,那么自然就需要將語音、語言的處理技術(shù)融合起來。相對來說,傳統(tǒng)的語音識別和語言處理的人會越來越少,而在更大的應(yīng)用背景下,更大的技術(shù)范圍內(nèi),人會越來越多,這是我的預測。
俞凱:其實是這樣,對話也分很多種類,剛才所說的open domain(開放領(lǐng)域),其實只是其中的一小類,而且是離商業(yè)化最遠的一類。
顏水成:但是老百姓最期待的可能是這個玩意。
俞凱:其實不是,從投資的角度、以及技術(shù)的角度來講的話,最集中的就是垂直領(lǐng)域的任務(wù)性對話,這個是一定的。
顏水成:對,這是落地性非常好的,但是我們看到的科幻片,或者老百姓他不能區(qū)分什么是task,什么是open domain。他們想的是,可能會有一個新的機器人出現(xiàn),它可以安慰我,給我提供各種各樣的信息,但是我們現(xiàn)在真正能夠提供的,還是像Alexa Skills這樣的東西。
俞凱:從這個角度來講,其實那些比較open的語料,對于研究來說是有一定價值的,對于未來暢想也很有意思,但是從實際落地和真正的研究語義區(qū)分角度來講,其實大公司并沒有優(yōu)勢,原因非常簡單,就是在機器學習的范式上,它不再是一個基于離線語料的學習,尤其是對話決策這一類,機器學習是需要在線和環(huán)境交互,才能真正去學的,而這樣一類事情,全世界都才開始做。所以我覺得,細分下來的話,在對話的領(lǐng)域里面,至少有聊天、問答、任務(wù)性對話三個比較難的課題。我把open domain看成是特殊的聊天。
這三種用的技術(shù)都不一樣,而它的商業(yè)化模式區(qū)別也比較大。所以我會有一個感覺,可能細分能讓大家把這件事看的更具體一點。回答剛才山世光老師提到的關(guān)于圖像商業(yè)化這個問題,我也再說一個觀點:不解決痛點,只解決癢點。什么意思呢?就是我一天不上微信,我簡直就不行,我昨天兩點鐘到了賓館,我睡覺之前一定要看微信,因為在飛機上沒法看,那個是痛點,真的很痛,我如果忘了這個,比如說李老師給我發(fā)了微信,我如果不知道,這后面就麻煩了,但是如果我不打開那個對話APP,這是沒事的,所以這是癢點,這一點特別關(guān)鍵,它到底是疼的還是癢的。而從視覺的角度上講,其實我的感覺是有很多痛點的,而且比以前還痛,這就是為什么,雖然現(xiàn)在語音的發(fā)展?jié)摿Ψ浅4螅菑默F(xiàn)實的情況上來看,整體上視覺公司估值已經(jīng)比語音這邊高,而整個核心的應(yīng)用是一個什么東西呢?安防。安防這件事情是非常清晰的應(yīng)用。剛才提到的好幾類,包括說這個APP的問題,第一要區(qū)分你做這個APP的性質(zhì)是什么,到底是工具性,還是社交性的,如果連這個都不區(qū)分的話,你的方向就不清楚,你就不知道,技術(shù)在里面占多大比例,工具性的占的比例高一點,但是社交性的、游戲性的技術(shù)比例可能很低很低。而在安防領(lǐng)域,其實圖像是完全dominant的。
顏水成:安防其實也有個問題,其實公司都是都希望自己的技術(shù)能直接與用戶做交互,而做安防的話其實是默默的在后臺弄這個東西,普通老百姓不一定知道這個東西的存在,這可能是它的一個缺點。其實我覺得做視覺的人,還是希望能讓用戶看見,就是做2C(to customer)東西。
俞凱:我個人感覺,如果是2C的話,也只有兩種情況,一種情況就是你就是一個感知工具,這個感知工具是不可或缺的,比如輸入法,這個在自然語言處理里面是完全不可或缺的東西。還有一個方向就是必須得是個系統(tǒng),單獨語音可能不行,單獨圖像可能也不行,它可能會以其中一個為主 ,但是必須是個系統(tǒng)。
顏水成:我覺得可能要等到AR眼鏡所有的技術(shù)都成熟了,而且用戶量比較大了,才能夠讓視覺成為dominant的東西。
山世光:會不會把希望寄托在了一件不可能發(fā)生的事情上?大家可以現(xiàn)場調(diào)研一下,有多少人愿意天天戴一個AR眼鏡。
顏水成:請問現(xiàn)場有多少人體驗過HoloLens?(現(xiàn)場觀眾舉手),看起來二十分之一都不到。我們現(xiàn)在在座的根本沒有多少人知道AR當前的現(xiàn)狀是怎樣的,沒有體驗過AR眼鏡目前處于什么水平。我第一次帶HoloLens眼鏡的時候,只是在實驗室里面體驗了十分鐘,用起來特別麻煩,因為微軟一定要把它的賬號跟HoloLens綁起來,又不好輸入,我又不熟,搞的非常痛苦。但是有一次我太太恰好去外邊旅游,我一個人在家里,我就用了整整半天的時間,在家里把HoloLens設(shè)置好,把里面各種各樣的功能體驗了一遍,然后就覺得這個東西還不錯,離我想象的科幻電影里的樣子又近了一點,但是還是有問題,HoloLens太沉了,視野太窄,而且續(xù)航也不太給力。后來看到Lumus這個專門做光學鏡片的公司,它的產(chǎn)品能夠把信息從側(cè)面投影出來,通過光波導這種形式把信號反射到你的眼睛里面,能把眼鏡做的和真的眼鏡大小差不多。這樣的話,極有可能能做到一款和普通的眼鏡大小差不多的AR眼鏡。
此外還有一些人在做SLAM技術(shù),以及一些配套的手勢控制的技術(shù)。特別是當我看到Lumus的那個眼鏡,加上一個叫Infinity公司的SLAM技術(shù),合在一起的時候,你就會覺得這個眼鏡可以做的很小,并不是遙不可及的,我覺得AR眼鏡發(fā)展的腳步比我們想象的快了一些。所以大家有機會的話,應(yīng)該去體驗一下。
山世光:我們還是回到這個話題上來,我解讀一下這個話題為什么這樣去設(shè)置。其實這里面有兩個問題。第一個問題是說深度學習加上大數(shù)據(jù)這樣一個模式的,會不會出現(xiàn)天花板的情況?昨天余凱(平線機器人創(chuàng)始人兼 CEO,前百度研究院執(zhí)行院長)的PPT里面正好有一張圖片,橫坐標是數(shù)據(jù)量,縱坐標是performance,那么這個曲線的走勢是會逐漸趨于平緩呢?還是會一直往上走?
第二個問題就是天花板出現(xiàn)了之后怎么辦,就是你有了大數(shù)據(jù),但是達到了天花板,你還沒有滿足用戶的需求,那你還有沒有其他的技術(shù)。人很多時候并不是依靠大數(shù)據(jù)來學習,我們是不是在下一波里面會更重視這種不需要大量數(shù)據(jù)的學習算法。之前也有討論,有多少人工智能,就有多少人工數(shù)據(jù)標注的工作,是不是可以避免這個問題?請三位從這兩個角度解讀一下。
俞凱:我把我剛才說的擴展一下,先倒著來說,就是第二個問題,我的一個基本觀點就是閉環(huán)的將會成為未來的一個研究主流,甚至有可能是工業(yè)界的主流,它最大的特點就是對于人工標注數(shù)據(jù)的需求大大降低,這個是我特別明確的感受。比如GAN,它是機器自己生成數(shù)據(jù),只是這個生成方法是閉環(huán)的,所以使得它生成的數(shù)據(jù)特別好,要是強化學習的話,直接和環(huán)境進行交互,它們利用都不是一個一個正常的、離線的、大規(guī)模的人工預標注。因此從第二個問題的角度上講,我會認為閉環(huán)學習是一個比較大的方向。另外一個事情就是,觀看機器學習的整體發(fā)展進程,我特別同意李老師的觀點,他說的是符號學習和深度學習,我的觀點就是數(shù)據(jù)和知識雙驅(qū)動,我覺得這個方向?qū)俏磥硖貏e特別重要的方向。
李航:關(guān)于第一個問題,其實大數(shù)據(jù)永遠解決不了長尾問題,自然語言處理的這個傾向非常明顯。比如說現(xiàn)在的輸入法、語音識別,在有專有名詞、術(shù)語、或者夾雜英語單詞的時候,肯定識別不好,不管你灌多大的數(shù)據(jù)。因為你收集的語料越多,新詞的量也在同時增加,永遠會有長尾的詞出現(xiàn),那么怎么樣去處理?至少現(xiàn)在用深度學習或者自然語言處理的方法,還不能很好的解決這個問題,其實語音識別也是一樣的,還沒有完全解決這個問題。但是人肯定不會有這個問題,一個是語言的使用能力,你可以認為是人類幾百萬年進化出來的能力,讓你在聽到一個陌生的單詞的時候,可以利用你的語言能力做推理,做聯(lián)想,做判斷,來彌補這些問題。我們現(xiàn)在的深度學習,或者整個人工智能領(lǐng)域都沒有這樣的技術(shù)去彌補這樣的事情。這塊的話,明顯說明大數(shù)據(jù)、深度學習不是萬能的。我們可以在未來短期的時間里面,解決一些問題,比如剛才說到這個輸入法的問題,我可以把它變成personalised(個性化),或者是context dependent(基于上下文)來處理,可能做的更好一些。模型上,我可以嫁接在sequence to sequence learning這種大的框架里面,我可以把一些事情做的很漂亮,也很有效。但是本質(zhì)上,并不是像人一樣處理長尾現(xiàn)象,因此大數(shù)據(jù)、深度學習肯定不是萬能的。
山世光:其實之前俞凱老師講到自動駕駛的時候,就有一個collide case,比如說車禍,它其實不是經(jīng)常發(fā)生的,很難采集這樣的數(shù)據(jù),但是這個我們也有討論,是不是可以合成這樣的數(shù)據(jù)。但是如果能合成出來大量的這類數(shù)據(jù),而且是很接近真實的,那也許就不需要深度學習了,因為你本來就知道這個事情怎么產(chǎn)生的。
顏水成:其實說到長尾問題,讓我想起去年在上海紐約大學,Zhang Zheng老師組織了一個關(guān)于neural science vs. computer science的討論。人是怎么解決長尾的問題呢?當時我們就覺得人腦里面有可能有兩個模型,一個叫參數(shù)模型,一個叫非參模型。其實長尾這個東西,可能就是由幾個instance存在那里。參數(shù)模型或者深度學習的模型有兩個能力,一個是能分類,能做prediction,同時還有一個能力,就是能判斷對這個樣本(能)不能prediction,(如果不能,)那么就把這個樣本拉出來,用非參方法一一比較一下。
人是怎么處理長尾問題的呢?我們當時有一個假設(shè),其實也沒有很多道理,就是聽起來比較reasonable。你的學習過程中非參樣本是逐漸增多的,比較多的時候就形成一個概念,參數(shù)模型就會增加一個節(jié)點。但是當你長久不看,就遺忘了,有些概念就消失了,有些樣本就會退回到參數(shù)模型里面,這可能能夠解釋,為什么有些時候你會覺得有個東西可能認識,但是死活都想不起來,這個時候就意味著參數(shù)模型不能識別樣本是么東西,但是可能在非參模型里有。在非參模型存的數(shù)據(jù)可能非常非常多,這樣的話就不停地去搜,不斷地想,想著想著就想出來了,有可能在非參數(shù)模型就把它匹配上了。
李航:其實我不太同意這個觀點。人是肯定是有這部分的能力,這是模式識別的思維方式。比如你第一次聽“他在微信里潛水”這句話,你可能要琢磨一下這是什么意思,你第一次聽,你可能會想潛水有什么特性,做一些聯(lián)想,然后大概猜出這個是什么意思,這是個長尾的事情,語言理解原理有部分是聯(lián)想,也有一些推理,當然你得到的結(jié)論也不一定對,有可能誤解了。對這塊認知科學也沒有說清楚,人的推理,或者自然的聯(lián)想,或者比喻的能力(理解比喻和造比喻的能力),到底有什么不同?我個人理解,有一部分能力已經(jīng)超脫了模式識別的能力。讓現(xiàn)在的計算機架構(gòu)做這樣的事情的話,相當于需要做窮舉的全集的近似度計算,當然也不完全是這么回事兒,但是人為什么能夠很快地做這樣的相似度計算,判斷說這個事情是這么個事。
俞凱:我覺得剛剛顏水成老師說的這個角度我是比較同意的,他說的兩種不同的方式去做,一個方式是計算的方式,另外一個方式是存儲和尋址的方式。這兩個方式的結(jié)合實際上是人腦的一個點,計算的方式需要存的東西比較少,但是需要在線去推理,尋址的話就相當于比較簡單的映射。
山世光:我覺得李航老師說這個,它不僅僅是一個簡單的存儲,而是可以去聯(lián)想,可以舉一反三的。
俞凱:長尾的數(shù)據(jù)問題,其實還有另外的一件事情,目前學術(shù)界不是特別重視,但是工業(yè)界其實特別重視,未來很可能會推動大數(shù)據(jù)和深度學習的結(jié)合。由于傳統(tǒng)問題很多被解決了,所以它會推動新問題的產(chǎn)生,這個新問題是什么呢?我舉例子,就是剛才提到的performnce問題,這個指標,不是真實的產(chǎn)業(yè)界定的,是學術(shù)界在最開始定義這個問題的時候提出的,比如說我舉這個例子——詞錯率(word error rate),但是這個指標現(xiàn)在看起來好像已經(jīng)快達到飽和了,人們就會說,實際上99%和97%的識別率有差別嗎?那么什么東西有差別呢?我們就要想,語義理解可能有差別,那么你怎么定義有效的語義理解?你定義出來以后,你的輸入就不是文字的語義理解了,你現(xiàn)在說的是語音,現(xiàn)在識別的有錯誤,在這個錯誤的情況下,導致的理解是什么樣,你就把它連成一個新問題,這個問題可能就會變成對于語音終極的理解的誤差有多少,但是這個誤差怎么定義現(xiàn)在沒有一個共識。我覺得這會產(chǎn)生一系列新的問題,而這些問題會推動深度學習新的模式和新型態(tài)的大數(shù)據(jù)結(jié)構(gòu)的發(fā)展。
山世光:我覺得這個非常好,我在計算所經(jīng)常跟一些做系統(tǒng)的人打交道,他們就特別不理解我們這個領(lǐng)域,他們認為,“你們老是說今天有進步,明天有進步,到底這個AI領(lǐng)域的進步是怎么評價的?”他們的評價標準很清楚,有個benchmark,新機器造出來,把這個benchmark一跑,我現(xiàn)在是多少,原來是多少,很清楚,但是整個AI界他們找不到能夠理解的,你去年是這個指標,明年是這么一個指標,怎么評價AI整個的發(fā)展?最后大家沒辦法,寄希望于圖靈測試,但是圖靈測試不能很好的度量進步。這樣一個指標是不是我們這個領(lǐng)域值得思考的問題?
俞凱:我覺得指標會不斷地變化。其實說白了,任何科學最關(guān)鍵的是先定義問題,然后才是怎么去解決它。科學的發(fā)展往往是問題導向的,我感覺現(xiàn)在就處在一個新問題出現(xiàn)的前夜,但是這種事在學術(shù)界其實很難被人承認的。根據(jù)我自己的經(jīng)驗,我曾經(jīng)投過很多關(guān)于變一個criterion的論文,但是這種論文被接收的概率比我改一個算法被接收概率要低得多。
顏水成:其實圖像跟語音、語義還有另外一個很明顯的差別。圖像是一個universal problem,無論中國還是美國做的其實是一模一樣的,但是語音和語義還有一個language問題,即使外國做的很好,但是那個模型并不一定能夠在中文上做到非常好的效果,這個可能還是有一些差別的。
山世光:再回到剛才的這個問題上,我想問一下俞凱老師,在語音識別的這個領(lǐng)域,你剛才提到詞錯率這個指標基本上要飽和了,這是說再增加更多的數(shù)據(jù)性能也沒法上升了呢?還是說已經(jīng)做的足夠好了?
俞凱:我們這個概念就是說相對錯誤率的下降。在語音識別歷史上,相對錯誤率下降30%屬于歷史上大的進步,之前還有幾個技術(shù)也是這樣,相對錯誤率下降30%,可問題是我現(xiàn)在的錯誤率只是10%,你相對下降30%這個概念,已經(jīng)變成了7%,你再相對30%,變到了多少?你會發(fā)現(xiàn)實際的絕對值特別小。我說的飽和就是表面上看技術(shù)還是在不斷地進步,但是給人的感覺就是,對于這個問題本身,它的邊際效應(yīng)已經(jīng)特別低了?,F(xiàn)在比較難的是處理抗噪、倆人同時說話等問題。因為這樣的東西,它的錯誤率特別特別的高,那樣的情況,它的研究價值就大于工業(yè)價值,否則很多事就讓工業(yè)去做了。之前微軟將Conversational Speech Recognition的詞錯率做到了5.9%,和人的錯誤率已經(jīng)一樣了。從某種意義上講,在限定的條件下,這事已經(jīng)算解決了,但是在非限定條件下或者非配合條件下,這個事情才剛剛開始。
山世光:回到“如何在沒有大量的數(shù)據(jù)情況下怎么去做學習”的這個問題。之前我們也討論,一個思路就是做強化學習,做交互相關(guān)的這種可能。另外一個就是說貝葉斯網(wǎng)絡(luò)和深度學習的結(jié)合形成一套新的機制,也許可以在一定程度上解決這樣的問題,大家是同意還是批判?
李航:貝葉斯網(wǎng)絡(luò)那個不好評論。但是我覺得非監(jiān)督學習一定要小心,其實非監(jiān)督學習指的東西現(xiàn)在越來越不一樣了,傳統(tǒng)的非監(jiān)督學習真的是一大堆數(shù)據(jù),learning from the scratch,找到這個數(shù)據(jù)里的規(guī)律,沒有任何指導。我們?nèi)似鋵崯o師自通能學到一些東西,聽起來好像能做這個非監(jiān)督學習,但是這個能力的本質(zhì)是不一樣的。人類進化這么長時間,我們學習的能力在DNA里面已經(jīng)有了。我們生長的過程當中,學到了大量的知識,也就是說成年之前學到很多東西,在成年的時候,一般的人學任何一個東西,你也可能說小數(shù)據(jù),或者無監(jiān)督的學習,但是其實之前的那些知識、能力都會幫助你。這種意義上其實大家也在做,就是遷移學習,半監(jiān)督學習,最近他們比較關(guān)注的meta learning(谷歌提出來的東西)。就是說我學各種各樣的分類器,各種各樣的知識,這些東西怎么樣能有效的結(jié)合起來,幫助我只用小數(shù)據(jù)或者不用數(shù)據(jù),就能把這些新的東西學好,這樣學習的范式更接近人,比如Bayesian Program Learning這種新的想法,都是在朝這個方向走。要么人給的知識,要么機器自動學的各種各樣的知識,如何把這些有效的利用起來,再去學新的知識,這塊我覺得是很有意思的方向。
山世光:我覺得李航老師說的這個引到了一個非常重要的話題上來。我就觀察我家小孩,我感覺他在七八歲之前,學每一個技能其實都挺困難的,比如你讓他系個扣子的話(這個跟智能沒有什么關(guān)系),他要學蠻久的,但是你會發(fā)現(xiàn)他不同層面、不同角度的能力,在逐漸積累一段時間之后,在有了自學的能力時候,智力的發(fā)育不是線性的,那時候就會突然爆發(fā)性的自己去學。這個對機器來說,它可能有視覺、聽覺等各種各樣的能力,但是沒有把這些結(jié)合在一起,去誕生一個智力,這塊如果有突破話真的會是一個大的突破。
俞凱:我的感覺其實還是反饋通道的問題。其實很多時候是因為扣子系不好無所謂,他不知道應(yīng)該把扣子系好,或者說扣子系不好就沒有批評他。就是他的學習能力強了,我感覺有一個很重要的問題,他無時無刻都有新的數(shù)據(jù)接觸,這些數(shù)據(jù)是沒有l(wèi)abel的,但是有compact,所以他對compact感知形成了一種感知能力的時候,他有這個信號了,然后他就可以把整個的學習流程,加上好的結(jié)構(gòu),然后貫穿起來。小的時候是因為這個信號就很簡單,打一下疼了,餓了就叫,這是非常簡單的。當這個compact越來越豐富,而且當他越來越能理解這個compact以后,他的學習能力才能體現(xiàn)出來,我感覺這也是對外部認知反饋信號的能力。
李航:這個我同意。小腦最基本的能力都像是監(jiān)督學習(supervised learning),而大腦和其他海馬體還不太一樣。小腦的話,比如小的時候?qū)W游泳,學騎自行車,通過大量的訓練,后面有一定的能力積累之后,這些動作都是一樣的,還包括走路。在這個環(huán)境里面,就像俞凱老師現(xiàn)在說的,你有一些反饋,然后你會根據(jù)reward去調(diào)整,以組合的方式去學習。
山世光:這好像也不不僅僅是小腦,剛開始學一加一等于二這個基礎(chǔ)的時候也不那么容易,當然對于我們來說非常非常容易,但是他開始的時候其實不是那么容易,不過到了一定時間之后就會很快。
李航:反正也有相似的地方吧,我也同意,好像不太完全一樣。這樣形容比較好,我感覺學動作這樣的東西,和學知識性的東西(數(shù)學、語言),仔細觀察的話也不太一樣。
問:剛才俞凱老師提到的閉環(huán)學習,像生成式對抗網(wǎng)絡(luò)這種,雖然說它不需要很多標注數(shù)據(jù),但是還是需要很多數(shù)據(jù)的。還有之前提到的one shot learning,它之所以能夠從一個樣本學出來,是因為它需要很多經(jīng)驗知識。所以我覺得所謂的這些小數(shù)據(jù)它還是需要很多大數(shù)據(jù)來給它提供經(jīng)驗知識的,所以想聽聽四位老師的看法。
俞凱:我剛才在那個觀點里提了兩條,第一條是從開環(huán)學習到閉環(huán)學習,第二條就是從數(shù)據(jù)驅(qū)動到知識和數(shù)據(jù)雙驅(qū)動,恰好就把這兩條都說了。我覺得這里面有一個關(guān)鍵點,就是無標注的數(shù)據(jù)和有標注的數(shù)據(jù)是有本質(zhì)區(qū)別的。因為無標注的數(shù)據(jù)你可以認為它的獲取是沒有cost的,就像一個人的成長一樣,你只要在社會里面,在現(xiàn)實世界里面,你就會接收到這些數(shù)據(jù),所以這件事可以認為是沒有cost的。如果說可以使用比較無標注的數(shù)據(jù),通過閉環(huán)的辦法,使得無標注數(shù)據(jù)的內(nèi)部結(jié)構(gòu)可以被發(fā)現(xiàn),這件事本身就是一個非常大的進步,你可以認為它是不需要數(shù)據(jù)的,我一般指的是不需要有標注的數(shù)據(jù),我認為這個至少在現(xiàn)階段是一個可以被認可的點。
第二個事情就是one shot learning問題。實際上就是像人學習一樣,當我們說人能夠?qū)W的很厲害,不單單意味著人這個個體有學習能力,還意味著你也上學。如果你不上學,沒有知識的積累,也沒有辦法變的很厲害。所以當你說需要這些經(jīng)驗知識的時候,我覺得這個不能說需要大數(shù)據(jù),那個東西不是一般意義上的數(shù)據(jù),更多的是某種模型結(jié)構(gòu)的積累,就是剛才前面提到的有監(jiān)督的、非監(jiān)督的,參數(shù)、非參數(shù)的,非參數(shù)那部分就有可能是尋址,他去尋你的memory里面的址,那個memory是人類的記憶,這種記憶是結(jié)構(gòu)化的記憶。所以這個東西是經(jīng)過人類多年的積累已經(jīng)現(xiàn)存的東西,它不是一個需要重新獲取的東西。我的觀點就是會有這個范式的變化,但是這兩個模式都是未來很重要的模式。
顏水成:人的學習并不是start from scratch,其實從父母的基因那你已經(jīng)繼承了很多有用的信息過來了,那個也是通過大數(shù)據(jù)積累起來的東西。至于one shot learning,其實人有一個能力就是,新的class(類別)出現(xiàn)之后,就可以很快對這個新的concept(概念)建立一個模型出來。早期的時候有人做了一些研究,就是說你假設(shè)有了一個一千類的模型,現(xiàn)在又有了一個新的類,但是我給你的數(shù)據(jù)就是三四張圖片,那你怎么樣可以把這個一千類模型adapt成一個一千零一類的模型。此前有人做過相關(guān)的研究,但是后來這塊基本確實沒有人來做了,但是我覺得這個方向其實還是有一定的學術(shù)價值的。
李航:關(guān)于人的基因里面語言學習的能力,有很多的研究,有一個很有名的例子,就是觀察小孩如何學習英語動詞的過去時態(tài)。研究發(fā)現(xiàn),小孩在以開始的時候是基于實例來學的,如果你說“Daddy came home”,然后他就會說“Daddy came home”,也沒有g(shù)eneralize,過了一段時間他發(fā)現(xiàn)這個動詞的過去時都會加ED,小孩就會困惑,有一段時間既會說“Daddy came home”,又會說“Daddy comed home”,就會出錯。再過一段時間,就真正學會了過去式有特殊的變化形式。他會準確的說“Daddy came home”,同時也知道別的動詞是加“ed”。從這個例子可以看出來,人在語言學習的過程中,有g(shù)eneralization的能力,但是開始的時候就是基于instance,比如你說“came”,他就記住“came”,后來他就會嘗試有保守的去做generalization,有時候還會做over-generalization,但是又會做簡單的調(diào)整,最后能夠正確的把這些區(qū)分的比較好。還有很多其他的例子,這說明人還是有先天的能力的,否則很難解釋怎么那么快學到這些東西,但是這個現(xiàn)象還是非常復雜的。
【招聘】雷鋒網(wǎng)堅持在人工智能、無人駕駛、VR/AR、Fintech、未來醫(yī)療等領(lǐng)域第一時間提供海外科技動態(tài)與資訊。我們需要若干關(guān)注國際新聞、具有一定的科技新聞選題能力,翻譯及寫作能力優(yōu)良的外翻編輯加入。
簡歷投遞至 wudexin@leiphone.com,工作地 北京。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。