1
雷鋒網(wǎng)按:這輪 AI 熱潮的很大一個(gè)特點(diǎn)就是底層技術(shù)方面在打通,雖然說(shuō)過(guò)去對(duì)通用人工智能大家曾經(jīng)有過(guò)很高的期望,但一直沒(méi)有落地。這次,深度學(xué)習(xí)給大家?guī)?lái)了很多機(jī)會(huì),使得我們?cè)诘讓蛹夹g(shù)方面有了越來(lái)越多的共性。然而深度學(xué)習(xí)并不是萬(wàn)能的,那么它的局限性在哪里?當(dāng)遇到天花板時(shí)又該如何呢?
4月8日,在 ADL 第78期“深度學(xué)習(xí):從算法到應(yīng)用”的 Panel 環(huán)節(jié),四位頂級(jí) AI 學(xué)術(shù)大牛同臺(tái)縱論驅(qū)動(dòng)這一輪 AI 浪潮的底層技術(shù),主題為“深度學(xué)習(xí)和大數(shù)據(jù)結(jié)合的紅利還能持續(xù)多久”。
從左到右分別是:山世光、顏水成、李航、俞凱(雷鋒網(wǎng)現(xiàn)場(chǎng)拍攝)
四位分別是:
中科院計(jì)算所研究員、博導(dǎo),中科視拓創(chuàng)始人、董事長(zhǎng)兼 CTO 山世光
360副總裁、 首席科學(xué)家顏水成
華為諾亞方舟實(shí)驗(yàn)室主任李航
上海交通大學(xué)研究院、思必馳創(chuàng)始人兼首席科學(xué)家俞凱
于 2017 年 4 月 7-9 日舉辦的中國(guó)計(jì)算機(jī)學(xué)會(huì)學(xué)科前沿講習(xí)班(CCF Advanced Disciplines Lectures,簡(jiǎn)稱 ADL)第 78 期,是由 CCF 和 KDD China 聯(lián)合主辦的高端學(xué)術(shù)及技術(shù)系列性品牌活動(dòng)。
下面是雷鋒網(wǎng)對(duì) Panel 環(huán)節(jié)的整理(包含不改變?cè)獾膭h減)。
山世光:今天的三位大咖里,俞凱老師做語(yǔ)音識(shí)別,顏水成老師主攻視覺(jué)方向,而李航老師則在自然語(yǔ)言的理解處理領(lǐng)域非常資深,而且在更加廣泛的人工智能上問(wèn)題上也有研究,包含了聲、圖、文三個(gè)領(lǐng)域。我們今天討論的題目就是“深度學(xué)習(xí)和大數(shù)據(jù)的紅利在 AI 領(lǐng)域還能持續(xù)多久”,既然不同研究領(lǐng)域的人都坐到一起了,那我們就先講講這個(gè)大家互相跨界的情況。為什么這么說(shuō)呢?因?yàn)槲覀€(gè)人覺(jué)得這一輪AI熱潮很大的一個(gè)特點(diǎn)就是底層技術(shù)方面在打通。雖然過(guò)去我們對(duì)通用的人工智能曾經(jīng)有過(guò)很高的期望,但是實(shí)際上一直沒(méi)有落地,但是如今深度學(xué)習(xí)給大家?guī)?lái)了很多的機(jī)會(huì),而且底層的技術(shù)有了越來(lái)越多的共性,比如說(shuō)卷積神經(jīng)網(wǎng)絡(luò)不僅在語(yǔ)音里面有用,在自然語(yǔ)言處理里面也有應(yīng)用,所以我想請(qǐng)三位從這個(gè)視角談一下,這一輪AI在通用技術(shù)方面有什么樣的進(jìn)展?
俞凱:稍微糾正一下,大家不要以為我是做語(yǔ)音識(shí)別的,我一定要說(shuō)這句話,為什么?我所做的事情其實(shí)是口語(yǔ)對(duì)話系統(tǒng),包括語(yǔ)音識(shí)別、語(yǔ)音合成等大家可以想得到的東西。更重要的是,我做的是對(duì)話,或者說(shuō)是以交互為主要方式的人機(jī)口語(yǔ)對(duì)話系統(tǒng)。
對(duì)話實(shí)際上是認(rèn)知控制,你可以認(rèn)為我做的是以口語(yǔ)作為主要通道的感知加上認(rèn)知,在這一點(diǎn)上我和李航老師是有重疊的,都是交互的自然語(yǔ)言處理。我為什么會(huì)提這個(gè)?因?yàn)槁?、圖、文,如果從這個(gè)角度分的話,實(shí)際上都可以看是成感知層面的東西,但是它后面所對(duì)接的都是理解、交互的控制、人的決策和推理,這些部分是在聲圖文領(lǐng)域的從業(yè)者或多或少都會(huì)涉及到的,無(wú)論是顏水成老師還是李航老師。所以我想把它分成兩層,從感知上看我們做的不一樣的,但是后面的東西,大家做的很多都是類似的,比如大家會(huì)做到理解這一層,而我還會(huì)做到交互這一層。
關(guān)于這一輪的AI潮,我說(shuō)一下自己的感受。我先拋一個(gè)觀點(diǎn),凡是在機(jī)器學(xué)習(xí)范式上一樣的東西,聲圖文全都可以用,而且任何一個(gè)機(jī)器學(xué)習(xí)方法在這三樣里面都可以用。什么叫范式?比如說(shuō)分類問(wèn)題,CNN之所以在語(yǔ)音識(shí)別里用的多,很重要的一點(diǎn)就是它能夠處理高度非線性的映射,有非常好的分類能力。只要是面對(duì)這樣的問(wèn)題,就一定可用,所以我們現(xiàn)在也很關(guān)注圖像方面的東西。
(山世光:這個(gè)我可能會(huì)有不同意的觀點(diǎn),我個(gè)人覺(jué)得更多的是學(xué)Feature。)
只要是能夠歸結(jié)為范式性的東西,第一是分類,第二是回歸,這是最典型的兩類事,第三是序列標(biāo)注。只要能歸屬這三類的,幾乎都可以通用,只是用的方法不一樣。
李航:你剛才提到深度學(xué)習(xí)和大數(shù)據(jù)的結(jié)合紅利,以及人工智能在技術(shù)層面上的打通,未來(lái)在應(yīng)用層面上也會(huì)有很多的機(jī)會(huì)。
現(xiàn)在在UC Berkeley有一種研究,就是給機(jī)器人看一段“人開(kāi)門(mén)”的視頻,機(jī)器人在看完視頻之后,可以學(xué)會(huì)自己用手去開(kāi)門(mén)。以前這種運(yùn)動(dòng)和視頻的理解是完全不同的領(lǐng)域。大家自然可以想到相關(guān)的,比如我跟你說(shuō)一段話,這個(gè)機(jī)器會(huì)不會(huì)理解,能做什么事情,這種可能性在未來(lái)應(yīng)該是有的。在深度學(xué)習(xí)、大數(shù)據(jù)這些技術(shù)的延長(zhǎng)線上,假設(shè)有很多的數(shù)據(jù),以及很強(qiáng)的計(jì)算能力,這種跨模態(tài)、跨領(lǐng)域的應(yīng)用,應(yīng)該是未來(lái)發(fā)展的一個(gè)增長(zhǎng)點(diǎn)。
顏水成:大部分人對(duì)于通用智能的理解,目前還停留在概念階段??赡艽蠹抑饕氲氖峭ㄓ萌斯ぶ悄苁鞘裁礃拥?,但是對(duì)于怎么樣讓機(jī)器實(shí)現(xiàn)或者產(chǎn)生通用人工智能,其實(shí)討論的不是特別多。總的來(lái)說(shuō)通用人工智能暫時(shí)是遙不可及的事情。
山世光:我把剛才這個(gè)問(wèn)題換一個(gè)問(wèn)法。比如說(shuō)過(guò)去做人臉職別,我們可能連計(jì)算機(jī)識(shí)別領(lǐng)域的其他的子問(wèn)題怎么做都不關(guān)心。但是現(xiàn)在不一樣,現(xiàn)在要做人臉識(shí)別,只看人臉識(shí)別的論文肯定是不行了,還要看其他類似領(lǐng)域或者更通用的論文。從這個(gè)聲圖文這三個(gè)大的領(lǐng)域來(lái)說(shuō),它們之間的相互借鑒和技術(shù)層面的交叉,我覺(jué)得已經(jīng)越來(lái)越多了。像CNN是從圖像領(lǐng)域里面起來(lái)的,1989年就開(kāi)始在做了。不知道俞凱老師是不是可以介紹一下,在語(yǔ)音方面的應(yīng)用和圖像方面的應(yīng)用會(huì)有什么樣的差別?
顏水成:根據(jù)我的觀察,在聲圖文領(lǐng)域里,聲音的問(wèn)題相對(duì)來(lái)說(shuō)比較少一些,比如像語(yǔ)音識(shí)別、TTS、或者聲紋識(shí)別,而圖像領(lǐng)域的問(wèn)題太多了,而且落地的方式比語(yǔ)音多很多。這也許是為什么計(jì)算機(jī)視覺(jué)領(lǐng)域的從業(yè)者比語(yǔ)音識(shí)別更多。
山世光:俞凱老師同意這個(gè)觀點(diǎn)嗎?
俞凱:我覺(jué)得顏水成老師是一語(yǔ)中的,但這個(gè)觀點(diǎn)我肯定是不同意的(指聲音領(lǐng)域的問(wèn)題相對(duì)較少的觀點(diǎn)),其實(shí)是語(yǔ)音的人看起來(lái)借鑒圖像的人比較多。
顏水成:但是深度學(xué)習(xí)在語(yǔ)音上是最早成功的。
俞凱:實(shí)際上不只是深度學(xué)習(xí),真正圖像的人看語(yǔ)音的論文相對(duì)來(lái)說(shuō)比較少的,這跟整個(gè)領(lǐng)域的覆蓋有關(guān),所以我覺(jué)得剛才是一語(yǔ)中的,主要就是對(duì)問(wèn)題的挖掘,這跟整個(gè)的歷史發(fā)展是相關(guān)的,這是事實(shí)。但是倒過(guò)來(lái)講,我是不太同意的,原因很簡(jiǎn)單,語(yǔ)音放在那,它就是一個(gè)模態(tài),里面涉及到環(huán)節(jié)非常多,所以就會(huì)出現(xiàn)一個(gè)現(xiàn)象,真正搞語(yǔ)音的人出來(lái)創(chuàng)業(yè)的比較少,特別難做,為什么呢?因?yàn)槟惚仨毷裁炊级切W(xué)術(shù)界還沒(méi)弄出來(lái)的,但是你必須弄出來(lái),才能最終變成一個(gè)系統(tǒng)。
顏水成:所以它是一個(gè)閉環(huán)的,包含麥克風(fēng)陣列、降噪、語(yǔ)音識(shí)別等一系列問(wèn)題。
俞凱:語(yǔ)音最大的特點(diǎn)是什么呢?它不像圖象,任何一個(gè)子問(wèn)題馬上都能看得見(jiàn),你必須得繞一個(gè)圈,要么回答你了,要么看到識(shí)別的結(jié)果才可以。它的鏈條是非常長(zhǎng)的,從剛才說(shuō)到的硬件、軟件、信號(hào)、特征、模型、再到后處理,這一系列完了之后才能看到一個(gè)結(jié)果,很難知道哪一塊做的好或者做的不好,因此對(duì)后面的結(jié)果有重大的影響。如果你從中單獨(dú)拎出去一塊,想要直接評(píng)估它的指標(biāo)并不是那么容易,所以這個(gè)是語(yǔ)音發(fā)展的一個(gè)特點(diǎn)。
我為什么把它當(dāng)做特點(diǎn)呢?因?yàn)樗仁呛锰幰彩菈奶帯奶幘褪钦f(shuō),對(duì)于整個(gè)領(lǐng)域的問(wèn)題,大家的認(rèn)識(shí)不夠大,我也在聯(lián)合一些語(yǔ)音圈的同仁,把一些問(wèn)題明確的提出來(lái)。好處是什么呢?就像賣鞋一樣,如果各位去賣鞋,你是會(huì)去都有鞋穿的地方去賣,還是去一個(gè)沒(méi)有鞋穿的地方去賣??jī)蓚€(gè)各有好處和壞處,如果都不穿鞋,你就沒(méi)市場(chǎng)了。如果都穿了鞋,你怎么賣?市場(chǎng)飽和了。所以從語(yǔ)音的角度講,我的感覺(jué)是,在研究問(wèn)題的提出上可能是under-developed,但是在問(wèn)題的解決上跟圖像相比其實(shí)是over-developed。
我舉一些例子,比如剛才提到的互相借鑒的問(wèn)題,大家直接就談到了深度學(xué)習(xí),很多人看待語(yǔ)音的角度,“不就是分類的問(wèn)題嘛”,反正有深度學(xué)習(xí)的人,有圖像領(lǐng)域的人,有全世界的人,大家都能解決這個(gè)事。好,我們都來(lái)借鑒,大家的成果都可以用。但是我看這個(gè)事,不是從分類的角度去看,我可能要去改它的criteria,什么意思呢?比如說(shuō),我們現(xiàn)在要做語(yǔ)音識(shí)別,我是給一定的聲音,然后識(shí)別出文字,這是一個(gè)criterion,我訓(xùn)練的時(shí)候,在傳統(tǒng)的語(yǔ)音識(shí)別模型里面,它是一個(gè)隱馬爾可夫模型。我要訓(xùn)練的就是一個(gè)聲學(xué)模型,如果我換一個(gè)特別難的criterion,就會(huì)使我的測(cè)試和訓(xùn)練是匹配的,就不會(huì)存在很直接的過(guò)訓(xùn)練的問(wèn)題,因?yàn)檫^(guò)訓(xùn)練不單單是這個(gè)問(wèn)題,還有一個(gè)準(zhǔn)則不匹配的問(wèn)題。
所以我們很多時(shí)候會(huì)關(guān)注這樣一類,這些角度是不一樣的,實(shí)際上是在范式上有所不同。所以今天提到的大數(shù)據(jù)和深度學(xué)習(xí)這塊,我的第二個(gè)觀點(diǎn)是什么呢?我個(gè)人認(rèn)為,從具體的深度學(xué)習(xí)方法中跳出來(lái),其實(shí)在深度學(xué)習(xí)的發(fā)展歷史中,它會(huì)經(jīng)歷范式的變化,在第一個(gè)十年,大概是06年到16年,實(shí)際上第一個(gè)八年吧,我認(rèn)為深度學(xué)習(xí)和大數(shù)據(jù)的結(jié)合在傳統(tǒng)機(jī)器學(xué)習(xí)范式上幾乎達(dá)到飽和,后面還可以再研究,但是它的邊際效益降低了。
什么叫傳統(tǒng)?比如說(shuō)分類問(wèn)題,比如說(shuō)回歸問(wèn)題,它們的范式都有一個(gè)特點(diǎn),我把這個(gè)特點(diǎn)稱為開(kāi)環(huán)學(xué)習(xí)。就是說(shuō)你有一個(gè)模型,我有一個(gè)數(shù)據(jù)進(jìn)來(lái),你要優(yōu)化一個(gè)準(zhǔn)則,然后你出去,就這么簡(jiǎn)單,你只需要去想這個(gè)模型怎么變。但是從2013、2014年開(kāi)始,出現(xiàn)了另外一個(gè)方向,這個(gè)方向可能跟大數(shù)據(jù)在一定程度上有矛盾,因?yàn)榍懊娴拈_(kāi)環(huán)學(xué)習(xí),必須要有足夠多的大數(shù)據(jù),而且什么叫多?不是數(shù)量,一定指的是質(zhì)量,要能夠覆蓋各種各樣的可能性,完了之后你去學(xué)它,主要依靠大數(shù)據(jù),以及模型強(qiáng)大的非線性運(yùn)算的能力。到了后面出現(xiàn)了一個(gè)問(wèn)題是,“我沒(méi)有數(shù)據(jù)怎么辦”,或者“我數(shù)據(jù)不均衡怎么辦”。于是我們有了強(qiáng)化學(xué)習(xí)(reinforcement learning),生成對(duì)抗網(wǎng)絡(luò)(GANs),還有微軟的對(duì)偶學(xué)習(xí)(dual learning)。這些學(xué)習(xí)都有一個(gè)特點(diǎn),可以歸為一類,叫閉環(huán)學(xué)習(xí),什么意思?它的數(shù)據(jù)也好,它的準(zhǔn)則也好,它都不是一個(gè)開(kāi)環(huán)的,都要有feedback signal,這個(gè)feddback signal往往是從不可預(yù)計(jì)的外部環(huán)境來(lái)的。
在你們做了前面所有的學(xué)習(xí)的時(shí)候,比如監(jiān)督學(xué)習(xí)(supervised learning),它的系統(tǒng)是你預(yù)先設(shè)計(jì)好的,所以你必須收集數(shù)據(jù),必須預(yù)先設(shè)置好signal,但是到了第二個(gè)階段,這些signal是沒(méi)有設(shè)定好的,它是自己出來(lái)的。比如說(shuō)強(qiáng)化學(xué)習(xí),它是和環(huán)境交互,比如說(shuō)生成式對(duì)抗網(wǎng)絡(luò)和對(duì)偶學(xué)習(xí),它是和自己交互。這個(gè)紅利能持續(xù)多久,取決于這個(gè)范式的變化,這是我拋的第二個(gè)觀點(diǎn)。
山世光:其實(shí)我覺(jué)得視覺(jué)和語(yǔ)音領(lǐng)域,還是借鑒很多來(lái)自于自然語(yǔ)言理解領(lǐng)域的一些技術(shù)方法,比如說(shuō)上一代的一些模型,已經(jīng)在視覺(jué)領(lǐng)域里面用了好多年,在深度學(xué)習(xí)出來(lái)之前,基本上是這一套。那么除了這個(gè)之外的話,據(jù)您(李航老師)的了解,還有什么樣的技術(shù)可能是在原理或者歷史上,也借鑒了自然語(yǔ)言理解的技術(shù)?或者反過(guò)來(lái)說(shuō),自然語(yǔ)言的理解領(lǐng)域的同行們,他們會(huì)不會(huì)也關(guān)注語(yǔ)音或者視覺(jué)這些領(lǐng)域的進(jìn)展?
李航:剛才你說(shuō)那個(gè)現(xiàn)象,以前可能在自然語(yǔ)言和其他的人工智能領(lǐng)域之間也是這樣,大家不會(huì)關(guān)注視覺(jué)和語(yǔ)音方面的事情?,F(xiàn)在這個(gè)界限慢慢越來(lái)越模糊了,大家會(huì)互相借鑒,這個(gè)現(xiàn)象可能是歷史上沒(méi)有發(fā)生過(guò)的。然后你們剛剛說(shuō)的這個(gè)聲圖文,其實(shí)“文”里面有一個(gè)和聲、圖本質(zhì)上不一樣的地方,它有這個(gè)符號(hào)(symbol),它的本質(zhì)的特點(diǎn)就是在語(yǔ)音識(shí)別以后,轉(zhuǎn)換成了符號(hào)。在語(yǔ)言表達(dá)的時(shí)候,我們認(rèn)為我們能夠理解一些概念,傳達(dá)一些概念的時(shí)候,其實(shí)是有對(duì)應(yīng)的符號(hào)的,這個(gè)就是跟語(yǔ)音和圖像不太一樣的地方。
說(shuō)到深度學(xué)習(xí),剛才俞凱老師說(shuō)的我也挺同意的,2014年左右,有一個(gè)頂峰過(guò)去了,下一波從我們自然語(yǔ)言處理的角度來(lái)看的話,怎么樣能夠把深度學(xué)習(xí)的技術(shù)neural processing和symbol processing結(jié)合起來(lái),是自然語(yǔ)言未來(lái)必然要去解決的問(wèn)題。這里面有很多挑戰(zhàn),首先就是目前還不清楚人的大腦里面這種符號(hào)到底對(duì)應(yīng)的是什么東西,怎么樣能夠像做CNN一樣擴(kuò)展現(xiàn)在的深度模型也不是很清楚。符號(hào)其實(shí)是挺硬的東西,而深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)是很軟的東西,我們處理人的語(yǔ)言,包括對(duì)話的理解,從文本里面獲取知識(shí),理解文本的內(nèi)容,這些應(yīng)用都是需要這種軟、硬處理的結(jié)合。我認(rèn)為自然語(yǔ)言處理和深度學(xué)習(xí)未來(lái)發(fā)展的重要關(guān)鍵就是“怎樣做neural symbolic processing”,這塊是可能跟其他兩類不太一樣。
山世光:我最近其實(shí)特別羨慕做語(yǔ)音的,為什么這么說(shuō)呢?因?yàn)檎Z(yǔ)音這個(gè)領(lǐng)域,它處理的結(jié)果直接變成了符號(hào),但是視覺(jué)這塊,我們自己說(shuō)一圖勝千言,好象是說(shuō)一張圖可以有很多很多的符號(hào)出來(lái),但是它其實(shí)和非常精確的命令,比如說(shuō)我們?nèi)タ刂埔粋€(gè)東西,和語(yǔ)音以及語(yǔ)言是直接相關(guān)的,從這點(diǎn)來(lái)講的話,語(yǔ)音就有非常豐富的內(nèi)容,可以很精確的去表達(dá),這也是為什么說(shuō)語(yǔ)音的應(yīng)用比視覺(jué)更早了一步。特別是語(yǔ)音識(shí)別,跟自然語(yǔ)言理解的連接更加直接一點(diǎn),而視覺(jué)這塊就稍微弱了一點(diǎn),但是最近兩年有一個(gè)專門(mén)話題是vision和language(視覺(jué)和語(yǔ)言),大概是從2015年才開(kāi)始的,之前也有人做,但是做的很爛。2015年之后看起來(lái)好像有一些聲稱通過(guò)了圖靈測(cè)試,但是我覺(jué)得還是有點(diǎn)弱。從這點(diǎn)來(lái)講的話,比如說(shuō)做APP,我自己去創(chuàng)業(yè)的時(shí)候,別人都會(huì)說(shuō)視覺(jué)能不能做一個(gè)單獨(dú)的APP給用戶用,而不是說(shuō)作為一個(gè)錦上添花的東西嵌入到一個(gè)已有的系統(tǒng)里面去,是不是視覺(jué)會(huì)有這種缺陷?
顏水成:現(xiàn)在還是有不少這種純視覺(jué)的APP的,比如美圖秀秀、FaceU,這些就是典型的視覺(jué)。我個(gè)人覺(jué)得視覺(jué)這個(gè)領(lǐng)域的話,因?yàn)樗?jīng)常可以有不同的創(chuàng)新,比如說(shuō)今年非常典型的熱點(diǎn)就是短視頻的生產(chǎn)和聚合,各大創(chuàng)業(yè)公司(以今日頭條為代表),以及傳統(tǒng)的IT公司(比如360、百度、騰訊),都在推動(dòng)短視頻,這些東西跟傳統(tǒng)的純粹圖像分析不一樣。短視頻興起后,你的計(jì)算模型的efficiency,推薦算法等,都會(huì)跟以前完全不一樣。比如圖文的時(shí)候,可以用surrounding text做一些事情,那么短視頻出現(xiàn)之后的話,可能就沒(méi)有什么太多的caption(字幕)或者title(標(biāo)題)的東西,這個(gè)時(shí)候主要依賴的是視覺(jué)的東西。無(wú)論是學(xué)術(shù)界工業(yè)界,其實(shí)對(duì)短視頻的分析的投入和研發(fā)的力度是加強(qiáng)了的。雖然聲音還在里面,但是可能對(duì)于文本的依賴性變?nèi)趿?。從視覺(jué)維度來(lái)說(shuō)的話,深度學(xué)習(xí)和大數(shù)據(jù)結(jié)合紅利又一波又要來(lái)了,而不是到了瓶頸期。
山世光:就是視頻的結(jié)構(gòu)化、符號(hào)化和后端的搜索、應(yīng)用的連接。
李航:這是個(gè)挺好的例子,其實(shí)剛才我們提到的語(yǔ)音,俞凱老師做的東西跟語(yǔ)言相關(guān),只不過(guò)是從語(yǔ)音對(duì)話的角度去看這個(gè)東西,其實(shí)語(yǔ)音和語(yǔ)言比較容易自然的結(jié)合在一起,現(xiàn)在已經(jīng)變成一個(gè)相對(duì)比較大的領(lǐng)域。我對(duì)未來(lái)的預(yù)測(cè)是,真正做語(yǔ)音識(shí)別的人會(huì)越來(lái)越少,而做語(yǔ)音對(duì)話的人會(huì)越來(lái)越多,這是一個(gè)整體的大的領(lǐng)域,而語(yǔ)音識(shí)別是其中一部分。
顏水成:對(duì)于語(yǔ)音對(duì)話這塊,我個(gè)人的觀點(diǎn)有點(diǎn)不一樣,對(duì)話非常依賴于語(yǔ)料,這樣的話,只有兩類公司比較適合做這個(gè)事情。一類的話就是有search engine的公司,還有一類就是以騰訊、微軟為代表的,有instant message產(chǎn)品的公司,比如微信、Skype。這些公司有天然的優(yōu)勢(shì)。
李航:我們倆說(shuō)的其實(shí)不矛盾,這個(gè)領(lǐng)域有這樣的應(yīng)用,那么自然就需要將語(yǔ)音、語(yǔ)言的處理技術(shù)融合起來(lái)。相對(duì)來(lái)說(shuō),傳統(tǒng)的語(yǔ)音識(shí)別和語(yǔ)言處理的人會(huì)越來(lái)越少,而在更大的應(yīng)用背景下,更大的技術(shù)范圍內(nèi),人會(huì)越來(lái)越多,這是我的預(yù)測(cè)。
俞凱:其實(shí)是這樣,對(duì)話也分很多種類,剛才所說(shuō)的open domain(開(kāi)放領(lǐng)域),其實(shí)只是其中的一小類,而且是離商業(yè)化最遠(yuǎn)的一類。
顏水成:但是老百姓最期待的可能是這個(gè)玩意。
俞凱:其實(shí)不是,從投資的角度、以及技術(shù)的角度來(lái)講的話,最集中的就是垂直領(lǐng)域的任務(wù)性對(duì)話,這個(gè)是一定的。
顏水成:對(duì),這是落地性非常好的,但是我們看到的科幻片,或者老百姓他不能區(qū)分什么是task,什么是open domain。他們想的是,可能會(huì)有一個(gè)新的機(jī)器人出現(xiàn),它可以安慰我,給我提供各種各樣的信息,但是我們現(xiàn)在真正能夠提供的,還是像Alexa Skills這樣的東西。
俞凱:從這個(gè)角度來(lái)講,其實(shí)那些比較open的語(yǔ)料,對(duì)于研究來(lái)說(shuō)是有一定價(jià)值的,對(duì)于未來(lái)暢想也很有意思,但是從實(shí)際落地和真正的研究語(yǔ)義區(qū)分角度來(lái)講,其實(shí)大公司并沒(méi)有優(yōu)勢(shì),原因非常簡(jiǎn)單,就是在機(jī)器學(xué)習(xí)的范式上,它不再是一個(gè)基于離線語(yǔ)料的學(xué)習(xí),尤其是對(duì)話決策這一類,機(jī)器學(xué)習(xí)是需要在線和環(huán)境交互,才能真正去學(xué)的,而這樣一類事情,全世界都才開(kāi)始做。所以我覺(jué)得,細(xì)分下來(lái)的話,在對(duì)話的領(lǐng)域里面,至少有聊天、問(wèn)答、任務(wù)性對(duì)話三個(gè)比較難的課題。我把open domain看成是特殊的聊天。
這三種用的技術(shù)都不一樣,而它的商業(yè)化模式區(qū)別也比較大。所以我會(huì)有一個(gè)感覺(jué),可能細(xì)分能讓大家把這件事看的更具體一點(diǎn)。回答剛才山世光老師提到的關(guān)于圖像商業(yè)化這個(gè)問(wèn)題,我也再說(shuō)一個(gè)觀點(diǎn):不解決痛點(diǎn),只解決癢點(diǎn)。什么意思呢?就是我一天不上微信,我簡(jiǎn)直就不行,我昨天兩點(diǎn)鐘到了賓館,我睡覺(jué)之前一定要看微信,因?yàn)樵陲w機(jī)上沒(méi)法看,那個(gè)是痛點(diǎn),真的很痛,我如果忘了這個(gè),比如說(shuō)李老師給我發(fā)了微信,我如果不知道,這后面就麻煩了,但是如果我不打開(kāi)那個(gè)對(duì)話APP,這是沒(méi)事的,所以這是癢點(diǎn),這一點(diǎn)特別關(guān)鍵,它到底是疼的還是癢的。而從視覺(jué)的角度上講,其實(shí)我的感覺(jué)是有很多痛點(diǎn)的,而且比以前還痛,這就是為什么,雖然現(xiàn)在語(yǔ)音的發(fā)展?jié)摿Ψ浅4?,但是從現(xiàn)實(shí)的情況上來(lái)看,整體上視覺(jué)公司估值已經(jīng)比語(yǔ)音這邊高,而整個(gè)核心的應(yīng)用是一個(gè)什么東西呢?安防。安防這件事情是非常清晰的應(yīng)用。剛才提到的好幾類,包括說(shuō)這個(gè)APP的問(wèn)題,第一要區(qū)分你做這個(gè)APP的性質(zhì)是什么,到底是工具性,還是社交性的,如果連這個(gè)都不區(qū)分的話,你的方向就不清楚,你就不知道,技術(shù)在里面占多大比例,工具性的占的比例高一點(diǎn),但是社交性的、游戲性的技術(shù)比例可能很低很低。而在安防領(lǐng)域,其實(shí)圖像是完全dominant的。
顏水成:安防其實(shí)也有個(gè)問(wèn)題,其實(shí)公司都是都希望自己的技術(shù)能直接與用戶做交互,而做安防的話其實(shí)是默默的在后臺(tái)弄這個(gè)東西,普通老百姓不一定知道這個(gè)東西的存在,這可能是它的一個(gè)缺點(diǎn)。其實(shí)我覺(jué)得做視覺(jué)的人,還是希望能讓用戶看見(jiàn),就是做2C(to customer)東西。
俞凱:我個(gè)人感覺(jué),如果是2C的話,也只有兩種情況,一種情況就是你就是一個(gè)感知工具,這個(gè)感知工具是不可或缺的,比如輸入法,這個(gè)在自然語(yǔ)言處理里面是完全不可或缺的東西。還有一個(gè)方向就是必須得是個(gè)系統(tǒng),單獨(dú)語(yǔ)音可能不行,單獨(dú)圖像可能也不行,它可能會(huì)以其中一個(gè)為主 ,但是必須是個(gè)系統(tǒng)。
顏水成:我覺(jué)得可能要等到AR眼鏡所有的技術(shù)都成熟了,而且用戶量比較大了,才能夠讓視覺(jué)成為dominant的東西。
山世光:會(huì)不會(huì)把希望寄托在了一件不可能發(fā)生的事情上?大家可以現(xiàn)場(chǎng)調(diào)研一下,有多少人愿意天天戴一個(gè)AR眼鏡。
顏水成:請(qǐng)問(wèn)現(xiàn)場(chǎng)有多少人體驗(yàn)過(guò)HoloLens?(現(xiàn)場(chǎng)觀眾舉手),看起來(lái)二十分之一都不到。我們現(xiàn)在在座的根本沒(méi)有多少人知道AR當(dāng)前的現(xiàn)狀是怎樣的,沒(méi)有體驗(yàn)過(guò)AR眼鏡目前處于什么水平。我第一次帶HoloLens眼鏡的時(shí)候,只是在實(shí)驗(yàn)室里面體驗(yàn)了十分鐘,用起來(lái)特別麻煩,因?yàn)槲④浺欢ㄒ阉馁~號(hào)跟HoloLens綁起來(lái),又不好輸入,我又不熟,搞的非常痛苦。但是有一次我太太恰好去外邊旅游,我一個(gè)人在家里,我就用了整整半天的時(shí)間,在家里把HoloLens設(shè)置好,把里面各種各樣的功能體驗(yàn)了一遍,然后就覺(jué)得這個(gè)東西還不錯(cuò),離我想象的科幻電影里的樣子又近了一點(diǎn),但是還是有問(wèn)題,HoloLens太沉了,視野太窄,而且續(xù)航也不太給力。后來(lái)看到Lumus這個(gè)專門(mén)做光學(xué)鏡片的公司,它的產(chǎn)品能夠把信息從側(cè)面投影出來(lái),通過(guò)光波導(dǎo)這種形式把信號(hào)反射到你的眼睛里面,能把眼鏡做的和真的眼鏡大小差不多。這樣的話,極有可能能做到一款和普通的眼鏡大小差不多的AR眼鏡。
此外還有一些人在做SLAM技術(shù),以及一些配套的手勢(shì)控制的技術(shù)。特別是當(dāng)我看到Lumus的那個(gè)眼鏡,加上一個(gè)叫Infinity公司的SLAM技術(shù),合在一起的時(shí)候,你就會(huì)覺(jué)得這個(gè)眼鏡可以做的很小,并不是遙不可及的,我覺(jué)得AR眼鏡發(fā)展的腳步比我們想象的快了一些。所以大家有機(jī)會(huì)的話,應(yīng)該去體驗(yàn)一下。
山世光:我們還是回到這個(gè)話題上來(lái),我解讀一下這個(gè)話題為什么這樣去設(shè)置。其實(shí)這里面有兩個(gè)問(wèn)題。第一個(gè)問(wèn)題是說(shuō)深度學(xué)習(xí)加上大數(shù)據(jù)這樣一個(gè)模式的,會(huì)不會(huì)出現(xiàn)天花板的情況?昨天余凱(平線機(jī)器人創(chuàng)始人兼 CEO,前百度研究院執(zhí)行院長(zhǎng))的PPT里面正好有一張圖片,橫坐標(biāo)是數(shù)據(jù)量,縱坐標(biāo)是performance,那么這個(gè)曲線的走勢(shì)是會(huì)逐漸趨于平緩呢?還是會(huì)一直往上走?
第二個(gè)問(wèn)題就是天花板出現(xiàn)了之后怎么辦,就是你有了大數(shù)據(jù),但是達(dá)到了天花板,你還沒(méi)有滿足用戶的需求,那你還有沒(méi)有其他的技術(shù)。人很多時(shí)候并不是依靠大數(shù)據(jù)來(lái)學(xué)習(xí),我們是不是在下一波里面會(huì)更重視這種不需要大量數(shù)據(jù)的學(xué)習(xí)算法。之前也有討論,有多少人工智能,就有多少人工數(shù)據(jù)標(biāo)注的工作,是不是可以避免這個(gè)問(wèn)題?請(qǐng)三位從這兩個(gè)角度解讀一下。
俞凱:我把我剛才說(shuō)的擴(kuò)展一下,先倒著來(lái)說(shuō),就是第二個(gè)問(wèn)題,我的一個(gè)基本觀點(diǎn)就是閉環(huán)的將會(huì)成為未來(lái)的一個(gè)研究主流,甚至有可能是工業(yè)界的主流,它最大的特點(diǎn)就是對(duì)于人工標(biāo)注數(shù)據(jù)的需求大大降低,這個(gè)是我特別明確的感受。比如GAN,它是機(jī)器自己生成數(shù)據(jù),只是這個(gè)生成方法是閉環(huán)的,所以使得它生成的數(shù)據(jù)特別好,要是強(qiáng)化學(xué)習(xí)的話,直接和環(huán)境進(jìn)行交互,它們利用都不是一個(gè)一個(gè)正常的、離線的、大規(guī)模的人工預(yù)標(biāo)注。因此從第二個(gè)問(wèn)題的角度上講,我會(huì)認(rèn)為閉環(huán)學(xué)習(xí)是一個(gè)比較大的方向。另外一個(gè)事情就是,觀看機(jī)器學(xué)習(xí)的整體發(fā)展進(jìn)程,我特別同意李老師的觀點(diǎn),他說(shuō)的是符號(hào)學(xué)習(xí)和深度學(xué)習(xí),我的觀點(diǎn)就是數(shù)據(jù)和知識(shí)雙驅(qū)動(dòng),我覺(jué)得這個(gè)方向?qū)?huì)是未來(lái)特別特別重要的方向。
李航:關(guān)于第一個(gè)問(wèn)題,其實(shí)大數(shù)據(jù)永遠(yuǎn)解決不了長(zhǎng)尾問(wèn)題,自然語(yǔ)言處理的這個(gè)傾向非常明顯。比如說(shuō)現(xiàn)在的輸入法、語(yǔ)音識(shí)別,在有專有名詞、術(shù)語(yǔ)、或者夾雜英語(yǔ)單詞的時(shí)候,肯定識(shí)別不好,不管你灌多大的數(shù)據(jù)。因?yàn)槟闶占恼Z(yǔ)料越多,新詞的量也在同時(shí)增加,永遠(yuǎn)會(huì)有長(zhǎng)尾的詞出現(xiàn),那么怎么樣去處理?至少現(xiàn)在用深度學(xué)習(xí)或者自然語(yǔ)言處理的方法,還不能很好的解決這個(gè)問(wèn)題,其實(shí)語(yǔ)音識(shí)別也是一樣的,還沒(méi)有完全解決這個(gè)問(wèn)題。但是人肯定不會(huì)有這個(gè)問(wèn)題,一個(gè)是語(yǔ)言的使用能力,你可以認(rèn)為是人類幾百萬(wàn)年進(jìn)化出來(lái)的能力,讓你在聽(tīng)到一個(gè)陌生的單詞的時(shí)候,可以利用你的語(yǔ)言能力做推理,做聯(lián)想,做判斷,來(lái)彌補(bǔ)這些問(wèn)題。我們現(xiàn)在的深度學(xué)習(xí),或者整個(gè)人工智能領(lǐng)域都沒(méi)有這樣的技術(shù)去彌補(bǔ)這樣的事情。這塊的話,明顯說(shuō)明大數(shù)據(jù)、深度學(xué)習(xí)不是萬(wàn)能的。我們可以在未來(lái)短期的時(shí)間里面,解決一些問(wèn)題,比如剛才說(shuō)到這個(gè)輸入法的問(wèn)題,我可以把它變成personalised(個(gè)性化),或者是context dependent(基于上下文)來(lái)處理,可能做的更好一些。模型上,我可以嫁接在sequence to sequence learning這種大的框架里面,我可以把一些事情做的很漂亮,也很有效。但是本質(zhì)上,并不是像人一樣處理長(zhǎng)尾現(xiàn)象,因此大數(shù)據(jù)、深度學(xué)習(xí)肯定不是萬(wàn)能的。
山世光:其實(shí)之前俞凱老師講到自動(dòng)駕駛的時(shí)候,就有一個(gè)collide case,比如說(shuō)車禍,它其實(shí)不是經(jīng)常發(fā)生的,很難采集這樣的數(shù)據(jù),但是這個(gè)我們也有討論,是不是可以合成這樣的數(shù)據(jù)。但是如果能合成出來(lái)大量的這類數(shù)據(jù),而且是很接近真實(shí)的,那也許就不需要深度學(xué)習(xí)了,因?yàn)槟惚緛?lái)就知道這個(gè)事情怎么產(chǎn)生的。
顏水成:其實(shí)說(shuō)到長(zhǎng)尾問(wèn)題,讓我想起去年在上海紐約大學(xué),Zhang Zheng老師組織了一個(gè)關(guān)于neural science vs. computer science的討論。人是怎么解決長(zhǎng)尾的問(wèn)題呢?當(dāng)時(shí)我們就覺(jué)得人腦里面有可能有兩個(gè)模型,一個(gè)叫參數(shù)模型,一個(gè)叫非參模型。其實(shí)長(zhǎng)尾這個(gè)東西,可能就是由幾個(gè)instance存在那里。參數(shù)模型或者深度學(xué)習(xí)的模型有兩個(gè)能力,一個(gè)是能分類,能做prediction,同時(shí)還有一個(gè)能力,就是能判斷對(duì)這個(gè)樣本(能)不能prediction,(如果不能,)那么就把這個(gè)樣本拉出來(lái),用非參方法一一比較一下。
人是怎么處理長(zhǎng)尾問(wèn)題的呢?我們當(dāng)時(shí)有一個(gè)假設(shè),其實(shí)也沒(méi)有很多道理,就是聽(tīng)起來(lái)比較reasonable。你的學(xué)習(xí)過(guò)程中非參樣本是逐漸增多的,比較多的時(shí)候就形成一個(gè)概念,參數(shù)模型就會(huì)增加一個(gè)節(jié)點(diǎn)。但是當(dāng)你長(zhǎng)久不看,就遺忘了,有些概念就消失了,有些樣本就會(huì)退回到參數(shù)模型里面,這可能能夠解釋,為什么有些時(shí)候你會(huì)覺(jué)得有個(gè)東西可能認(rèn)識(shí),但是死活都想不起來(lái),這個(gè)時(shí)候就意味著參數(shù)模型不能識(shí)別樣本是么東西,但是可能在非參模型里有。在非參模型存的數(shù)據(jù)可能非常非常多,這樣的話就不停地去搜,不斷地想,想著想著就想出來(lái)了,有可能在非參數(shù)模型就把它匹配上了。
李航:其實(shí)我不太同意這個(gè)觀點(diǎn)。人是肯定是有這部分的能力,這是模式識(shí)別的思維方式。比如你第一次聽(tīng)“他在微信里潛水”這句話,你可能要琢磨一下這是什么意思,你第一次聽(tīng),你可能會(huì)想潛水有什么特性,做一些聯(lián)想,然后大概猜出這個(gè)是什么意思,這是個(gè)長(zhǎng)尾的事情,語(yǔ)言理解原理有部分是聯(lián)想,也有一些推理,當(dāng)然你得到的結(jié)論也不一定對(duì),有可能誤解了。對(duì)這塊認(rèn)知科學(xué)也沒(méi)有說(shuō)清楚,人的推理,或者自然的聯(lián)想,或者比喻的能力(理解比喻和造比喻的能力),到底有什么不同?我個(gè)人理解,有一部分能力已經(jīng)超脫了模式識(shí)別的能力。讓現(xiàn)在的計(jì)算機(jī)架構(gòu)做這樣的事情的話,相當(dāng)于需要做窮舉的全集的近似度計(jì)算,當(dāng)然也不完全是這么回事兒,但是人為什么能夠很快地做這樣的相似度計(jì)算,判斷說(shuō)這個(gè)事情是這么個(gè)事。
俞凱:我覺(jué)得剛剛顏水成老師說(shuō)的這個(gè)角度我是比較同意的,他說(shuō)的兩種不同的方式去做,一個(gè)方式是計(jì)算的方式,另外一個(gè)方式是存儲(chǔ)和尋址的方式。這兩個(gè)方式的結(jié)合實(shí)際上是人腦的一個(gè)點(diǎn),計(jì)算的方式需要存的東西比較少,但是需要在線去推理,尋址的話就相當(dāng)于比較簡(jiǎn)單的映射。
山世光:我覺(jué)得李航老師說(shuō)這個(gè),它不僅僅是一個(gè)簡(jiǎn)單的存儲(chǔ),而是可以去聯(lián)想,可以舉一反三的。
俞凱:長(zhǎng)尾的數(shù)據(jù)問(wèn)題,其實(shí)還有另外的一件事情,目前學(xué)術(shù)界不是特別重視,但是工業(yè)界其實(shí)特別重視,未來(lái)很可能會(huì)推動(dòng)大數(shù)據(jù)和深度學(xué)習(xí)的結(jié)合。由于傳統(tǒng)問(wèn)題很多被解決了,所以它會(huì)推動(dòng)新問(wèn)題的產(chǎn)生,這個(gè)新問(wèn)題是什么呢?我舉例子,就是剛才提到的performnce問(wèn)題,這個(gè)指標(biāo),不是真實(shí)的產(chǎn)業(yè)界定的,是學(xué)術(shù)界在最開(kāi)始定義這個(gè)問(wèn)題的時(shí)候提出的,比如說(shuō)我舉這個(gè)例子——詞錯(cuò)率(word error rate),但是這個(gè)指標(biāo)現(xiàn)在看起來(lái)好像已經(jīng)快達(dá)到飽和了,人們就會(huì)說(shuō),實(shí)際上99%和97%的識(shí)別率有差別嗎?那么什么東西有差別呢?我們就要想,語(yǔ)義理解可能有差別,那么你怎么定義有效的語(yǔ)義理解?你定義出來(lái)以后,你的輸入就不是文字的語(yǔ)義理解了,你現(xiàn)在說(shuō)的是語(yǔ)音,現(xiàn)在識(shí)別的有錯(cuò)誤,在這個(gè)錯(cuò)誤的情況下,導(dǎo)致的理解是什么樣,你就把它連成一個(gè)新問(wèn)題,這個(gè)問(wèn)題可能就會(huì)變成對(duì)于語(yǔ)音終極的理解的誤差有多少,但是這個(gè)誤差怎么定義現(xiàn)在沒(méi)有一個(gè)共識(shí)。我覺(jué)得這會(huì)產(chǎn)生一系列新的問(wèn)題,而這些問(wèn)題會(huì)推動(dòng)深度學(xué)習(xí)新的模式和新型態(tài)的大數(shù)據(jù)結(jié)構(gòu)的發(fā)展。
山世光:我覺(jué)得這個(gè)非常好,我在計(jì)算所經(jīng)常跟一些做系統(tǒng)的人打交道,他們就特別不理解我們這個(gè)領(lǐng)域,他們認(rèn)為,“你們老是說(shuō)今天有進(jìn)步,明天有進(jìn)步,到底這個(gè)AI領(lǐng)域的進(jìn)步是怎么評(píng)價(jià)的?”他們的評(píng)價(jià)標(biāo)準(zhǔn)很清楚,有個(gè)benchmark,新機(jī)器造出來(lái),把這個(gè)benchmark一跑,我現(xiàn)在是多少,原來(lái)是多少,很清楚,但是整個(gè)AI界他們找不到能夠理解的,你去年是這個(gè)指標(biāo),明年是這么一個(gè)指標(biāo),怎么評(píng)價(jià)AI整個(gè)的發(fā)展?最后大家沒(méi)辦法,寄希望于圖靈測(cè)試,但是圖靈測(cè)試不能很好的度量進(jìn)步。這樣一個(gè)指標(biāo)是不是我們這個(gè)領(lǐng)域值得思考的問(wèn)題?
俞凱:我覺(jué)得指標(biāo)會(huì)不斷地變化。其實(shí)說(shuō)白了,任何科學(xué)最關(guān)鍵的是先定義問(wèn)題,然后才是怎么去解決它。科學(xué)的發(fā)展往往是問(wèn)題導(dǎo)向的,我感覺(jué)現(xiàn)在就處在一個(gè)新問(wèn)題出現(xiàn)的前夜,但是這種事在學(xué)術(shù)界其實(shí)很難被人承認(rèn)的。根據(jù)我自己的經(jīng)驗(yàn),我曾經(jīng)投過(guò)很多關(guān)于變一個(gè)criterion的論文,但是這種論文被接收的概率比我改一個(gè)算法被接收概率要低得多。
顏水成:其實(shí)圖像跟語(yǔ)音、語(yǔ)義還有另外一個(gè)很明顯的差別。圖像是一個(gè)universal problem,無(wú)論中國(guó)還是美國(guó)做的其實(shí)是一模一樣的,但是語(yǔ)音和語(yǔ)義還有一個(gè)language問(wèn)題,即使外國(guó)做的很好,但是那個(gè)模型并不一定能夠在中文上做到非常好的效果,這個(gè)可能還是有一些差別的。
山世光:再回到剛才的這個(gè)問(wèn)題上,我想問(wèn)一下俞凱老師,在語(yǔ)音識(shí)別的這個(gè)領(lǐng)域,你剛才提到詞錯(cuò)率這個(gè)指標(biāo)基本上要飽和了,這是說(shuō)再增加更多的數(shù)據(jù)性能也沒(méi)法上升了呢?還是說(shuō)已經(jīng)做的足夠好了?
俞凱:我們這個(gè)概念就是說(shuō)相對(duì)錯(cuò)誤率的下降。在語(yǔ)音識(shí)別歷史上,相對(duì)錯(cuò)誤率下降30%屬于歷史上大的進(jìn)步,之前還有幾個(gè)技術(shù)也是這樣,相對(duì)錯(cuò)誤率下降30%,可問(wèn)題是我現(xiàn)在的錯(cuò)誤率只是10%,你相對(duì)下降30%這個(gè)概念,已經(jīng)變成了7%,你再相對(duì)30%,變到了多少?你會(huì)發(fā)現(xiàn)實(shí)際的絕對(duì)值特別小。我說(shuō)的飽和就是表面上看技術(shù)還是在不斷地進(jìn)步,但是給人的感覺(jué)就是,對(duì)于這個(gè)問(wèn)題本身,它的邊際效應(yīng)已經(jīng)特別低了。現(xiàn)在比較難的是處理抗噪、倆人同時(shí)說(shuō)話等問(wèn)題。因?yàn)檫@樣的東西,它的錯(cuò)誤率特別特別的高,那樣的情況,它的研究?jī)r(jià)值就大于工業(yè)價(jià)值,否則很多事就讓工業(yè)去做了。之前微軟將Conversational Speech Recognition的詞錯(cuò)率做到了5.9%,和人的錯(cuò)誤率已經(jīng)一樣了。從某種意義上講,在限定的條件下,這事已經(jīng)算解決了,但是在非限定條件下或者非配合條件下,這個(gè)事情才剛剛開(kāi)始。
山世光:回到“如何在沒(méi)有大量的數(shù)據(jù)情況下怎么去做學(xué)習(xí)”的這個(gè)問(wèn)題。之前我們也討論,一個(gè)思路就是做強(qiáng)化學(xué)習(xí),做交互相關(guān)的這種可能。另外一個(gè)就是說(shuō)貝葉斯網(wǎng)絡(luò)和深度學(xué)習(xí)的結(jié)合形成一套新的機(jī)制,也許可以在一定程度上解決這樣的問(wèn)題,大家是同意還是批判?
李航:貝葉斯網(wǎng)絡(luò)那個(gè)不好評(píng)論。但是我覺(jué)得非監(jiān)督學(xué)習(xí)一定要小心,其實(shí)非監(jiān)督學(xué)習(xí)指的東西現(xiàn)在越來(lái)越不一樣了,傳統(tǒng)的非監(jiān)督學(xué)習(xí)真的是一大堆數(shù)據(jù),learning from the scratch,找到這個(gè)數(shù)據(jù)里的規(guī)律,沒(méi)有任何指導(dǎo)。我們?nèi)似鋵?shí)無(wú)師自通能學(xué)到一些東西,聽(tīng)起來(lái)好像能做這個(gè)非監(jiān)督學(xué)習(xí),但是這個(gè)能力的本質(zhì)是不一樣的。人類進(jìn)化這么長(zhǎng)時(shí)間,我們學(xué)習(xí)的能力在DNA里面已經(jīng)有了。我們生長(zhǎng)的過(guò)程當(dāng)中,學(xué)到了大量的知識(shí),也就是說(shuō)成年之前學(xué)到很多東西,在成年的時(shí)候,一般的人學(xué)任何一個(gè)東西,你也可能說(shuō)小數(shù)據(jù),或者無(wú)監(jiān)督的學(xué)習(xí),但是其實(shí)之前的那些知識(shí)、能力都會(huì)幫助你。這種意義上其實(shí)大家也在做,就是遷移學(xué)習(xí),半監(jiān)督學(xué)習(xí),最近他們比較關(guān)注的meta learning(谷歌提出來(lái)的東西)。就是說(shuō)我學(xué)各種各樣的分類器,各種各樣的知識(shí),這些東西怎么樣能有效的結(jié)合起來(lái),幫助我只用小數(shù)據(jù)或者不用數(shù)據(jù),就能把這些新的東西學(xué)好,這樣學(xué)習(xí)的范式更接近人,比如Bayesian Program Learning這種新的想法,都是在朝這個(gè)方向走。要么人給的知識(shí),要么機(jī)器自動(dòng)學(xué)的各種各樣的知識(shí),如何把這些有效的利用起來(lái),再去學(xué)新的知識(shí),這塊我覺(jué)得是很有意思的方向。
山世光:我覺(jué)得李航老師說(shuō)的這個(gè)引到了一個(gè)非常重要的話題上來(lái)。我就觀察我家小孩,我感覺(jué)他在七八歲之前,學(xué)每一個(gè)技能其實(shí)都挺困難的,比如你讓他系個(gè)扣子的話(這個(gè)跟智能沒(méi)有什么關(guān)系),他要學(xué)蠻久的,但是你會(huì)發(fā)現(xiàn)他不同層面、不同角度的能力,在逐漸積累一段時(shí)間之后,在有了自學(xué)的能力時(shí)候,智力的發(fā)育不是線性的,那時(shí)候就會(huì)突然爆發(fā)性的自己去學(xué)。這個(gè)對(duì)機(jī)器來(lái)說(shuō),它可能有視覺(jué)、聽(tīng)覺(jué)等各種各樣的能力,但是沒(méi)有把這些結(jié)合在一起,去誕生一個(gè)智力,這塊如果有突破話真的會(huì)是一個(gè)大的突破。
俞凱:我的感覺(jué)其實(shí)還是反饋通道的問(wèn)題。其實(shí)很多時(shí)候是因?yàn)榭圩酉挡缓脽o(wú)所謂,他不知道應(yīng)該把扣子系好,或者說(shuō)扣子系不好就沒(méi)有批評(píng)他。就是他的學(xué)習(xí)能力強(qiáng)了,我感覺(jué)有一個(gè)很重要的問(wèn)題,他無(wú)時(shí)無(wú)刻都有新的數(shù)據(jù)接觸,這些數(shù)據(jù)是沒(méi)有l(wèi)abel的,但是有compact,所以他對(duì)compact感知形成了一種感知能力的時(shí)候,他有這個(gè)信號(hào)了,然后他就可以把整個(gè)的學(xué)習(xí)流程,加上好的結(jié)構(gòu),然后貫穿起來(lái)。小的時(shí)候是因?yàn)檫@個(gè)信號(hào)就很簡(jiǎn)單,打一下疼了,餓了就叫,這是非常簡(jiǎn)單的。當(dāng)這個(gè)compact越來(lái)越豐富,而且當(dāng)他越來(lái)越能理解這個(gè)compact以后,他的學(xué)習(xí)能力才能體現(xiàn)出來(lái),我感覺(jué)這也是對(duì)外部認(rèn)知反饋信號(hào)的能力。
李航:這個(gè)我同意。小腦最基本的能力都像是監(jiān)督學(xué)習(xí)(supervised learning),而大腦和其他海馬體還不太一樣。小腦的話,比如小的時(shí)候?qū)W游泳,學(xué)騎自行車,通過(guò)大量的訓(xùn)練,后面有一定的能力積累之后,這些動(dòng)作都是一樣的,還包括走路。在這個(gè)環(huán)境里面,就像俞凱老師現(xiàn)在說(shuō)的,你有一些反饋,然后你會(huì)根據(jù)reward去調(diào)整,以組合的方式去學(xué)習(xí)。
山世光:這好像也不不僅僅是小腦,剛開(kāi)始學(xué)一加一等于二這個(gè)基礎(chǔ)的時(shí)候也不那么容易,當(dāng)然對(duì)于我們來(lái)說(shuō)非常非常容易,但是他開(kāi)始的時(shí)候其實(shí)不是那么容易,不過(guò)到了一定時(shí)間之后就會(huì)很快。
李航:反正也有相似的地方吧,我也同意,好像不太完全一樣。這樣形容比較好,我感覺(jué)學(xué)動(dòng)作這樣的東西,和學(xué)知識(shí)性的東西(數(shù)學(xué)、語(yǔ)言),仔細(xì)觀察的話也不太一樣。
問(wèn):剛才俞凱老師提到的閉環(huán)學(xué)習(xí),像生成式對(duì)抗網(wǎng)絡(luò)這種,雖然說(shuō)它不需要很多標(biāo)注數(shù)據(jù),但是還是需要很多數(shù)據(jù)的。還有之前提到的one shot learning,它之所以能夠從一個(gè)樣本學(xué)出來(lái),是因?yàn)樗枰芏嘟?jīng)驗(yàn)知識(shí)。所以我覺(jué)得所謂的這些小數(shù)據(jù)它還是需要很多大數(shù)據(jù)來(lái)給它提供經(jīng)驗(yàn)知識(shí)的,所以想聽(tīng)聽(tīng)四位老師的看法。
俞凱:我剛才在那個(gè)觀點(diǎn)里提了兩條,第一條是從開(kāi)環(huán)學(xué)習(xí)到閉環(huán)學(xué)習(xí),第二條就是從數(shù)據(jù)驅(qū)動(dòng)到知識(shí)和數(shù)據(jù)雙驅(qū)動(dòng),恰好就把這兩條都說(shuō)了。我覺(jué)得這里面有一個(gè)關(guān)鍵點(diǎn),就是無(wú)標(biāo)注的數(shù)據(jù)和有標(biāo)注的數(shù)據(jù)是有本質(zhì)區(qū)別的。因?yàn)闊o(wú)標(biāo)注的數(shù)據(jù)你可以認(rèn)為它的獲取是沒(méi)有cost的,就像一個(gè)人的成長(zhǎng)一樣,你只要在社會(huì)里面,在現(xiàn)實(shí)世界里面,你就會(huì)接收到這些數(shù)據(jù),所以這件事可以認(rèn)為是沒(méi)有cost的。如果說(shuō)可以使用比較無(wú)標(biāo)注的數(shù)據(jù),通過(guò)閉環(huán)的辦法,使得無(wú)標(biāo)注數(shù)據(jù)的內(nèi)部結(jié)構(gòu)可以被發(fā)現(xiàn),這件事本身就是一個(gè)非常大的進(jìn)步,你可以認(rèn)為它是不需要數(shù)據(jù)的,我一般指的是不需要有標(biāo)注的數(shù)據(jù),我認(rèn)為這個(gè)至少在現(xiàn)階段是一個(gè)可以被認(rèn)可的點(diǎn)。
第二個(gè)事情就是one shot learning問(wèn)題。實(shí)際上就是像人學(xué)習(xí)一樣,當(dāng)我們說(shuō)人能夠?qū)W的很厲害,不單單意味著人這個(gè)個(gè)體有學(xué)習(xí)能力,還意味著你也上學(xué)。如果你不上學(xué),沒(méi)有知識(shí)的積累,也沒(méi)有辦法變的很厲害。所以當(dāng)你說(shuō)需要這些經(jīng)驗(yàn)知識(shí)的時(shí)候,我覺(jué)得這個(gè)不能說(shuō)需要大數(shù)據(jù),那個(gè)東西不是一般意義上的數(shù)據(jù),更多的是某種模型結(jié)構(gòu)的積累,就是剛才前面提到的有監(jiān)督的、非監(jiān)督的,參數(shù)、非參數(shù)的,非參數(shù)那部分就有可能是尋址,他去尋你的memory里面的址,那個(gè)memory是人類的記憶,這種記憶是結(jié)構(gòu)化的記憶。所以這個(gè)東西是經(jīng)過(guò)人類多年的積累已經(jīng)現(xiàn)存的東西,它不是一個(gè)需要重新獲取的東西。我的觀點(diǎn)就是會(huì)有這個(gè)范式的變化,但是這兩個(gè)模式都是未來(lái)很重要的模式。
顏水成:人的學(xué)習(xí)并不是start from scratch,其實(shí)從父母的基因那你已經(jīng)繼承了很多有用的信息過(guò)來(lái)了,那個(gè)也是通過(guò)大數(shù)據(jù)積累起來(lái)的東西。至于one shot learning,其實(shí)人有一個(gè)能力就是,新的class(類別)出現(xiàn)之后,就可以很快對(duì)這個(gè)新的concept(概念)建立一個(gè)模型出來(lái)。早期的時(shí)候有人做了一些研究,就是說(shuō)你假設(shè)有了一個(gè)一千類的模型,現(xiàn)在又有了一個(gè)新的類,但是我給你的數(shù)據(jù)就是三四張圖片,那你怎么樣可以把這個(gè)一千類模型adapt成一個(gè)一千零一類的模型。此前有人做過(guò)相關(guān)的研究,但是后來(lái)這塊基本確實(shí)沒(méi)有人來(lái)做了,但是我覺(jué)得這個(gè)方向其實(shí)還是有一定的學(xué)術(shù)價(jià)值的。
李航:關(guān)于人的基因里面語(yǔ)言學(xué)習(xí)的能力,有很多的研究,有一個(gè)很有名的例子,就是觀察小孩如何學(xué)習(xí)英語(yǔ)動(dòng)詞的過(guò)去時(shí)態(tài)。研究發(fā)現(xiàn),小孩在以開(kāi)始的時(shí)候是基于實(shí)例來(lái)學(xué)的,如果你說(shuō)“Daddy came home”,然后他就會(huì)說(shuō)“Daddy came home”,也沒(méi)有g(shù)eneralize,過(guò)了一段時(shí)間他發(fā)現(xiàn)這個(gè)動(dòng)詞的過(guò)去時(shí)都會(huì)加ED,小孩就會(huì)困惑,有一段時(shí)間既會(huì)說(shuō)“Daddy came home”,又會(huì)說(shuō)“Daddy comed home”,就會(huì)出錯(cuò)。再過(guò)一段時(shí)間,就真正學(xué)會(huì)了過(guò)去式有特殊的變化形式。他會(huì)準(zhǔn)確的說(shuō)“Daddy came home”,同時(shí)也知道別的動(dòng)詞是加“ed”。從這個(gè)例子可以看出來(lái),人在語(yǔ)言學(xué)習(xí)的過(guò)程中,有g(shù)eneralization的能力,但是開(kāi)始的時(shí)候就是基于instance,比如你說(shuō)“came”,他就記住“came”,后來(lái)他就會(huì)嘗試有保守的去做generalization,有時(shí)候還會(huì)做over-generalization,但是又會(huì)做簡(jiǎn)單的調(diào)整,最后能夠正確的把這些區(qū)分的比較好。還有很多其他的例子,這說(shuō)明人還是有先天的能力的,否則很難解釋怎么那么快學(xué)到這些東西,但是這個(gè)現(xiàn)象還是非常復(fù)雜的。
【招聘】雷鋒網(wǎng)堅(jiān)持在人工智能、無(wú)人駕駛、VR/AR、Fintech、未來(lái)醫(yī)療等領(lǐng)域第一時(shí)間提供海外科技動(dòng)態(tài)與資訊。我們需要若干關(guān)注國(guó)際新聞、具有一定的科技新聞選題能力,翻譯及寫(xiě)作能力優(yōu)良的外翻編輯加入。
簡(jiǎn)歷投遞至 wudexin@leiphone.com,工作地 北京。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。