0
本文作者: 王悅 | 2024-03-23 18:39 |
Sora 發(fā)布至今,雖然仍未正式對(duì)外開(kāi)放,但對(duì)其技術(shù)細(xì)節(jié)、切實(shí)影響的討論從未停歇。討論的背后,是為了探索人工智能的更本質(zhì)問(wèn)題。
對(duì)舊有視覺(jué)生成思路的檢驗(yàn)和校正,是 Sora 帶來(lái)的直觀(guān)影響。在此基礎(chǔ)上,Sora 所引發(fā)的思考,如多模態(tài)大模型和物理世界、AGI 技術(shù)實(shí)現(xiàn)路徑等等,更值得深思。
問(wèn)題之一是,Sora 的生成效果確實(shí)驚艷,較高分辨率和鏡頭多角度變換后的主體一致性,這種程度的生成效果是否意味著 Sora 是世界模型?在能夠生成逼真視頻的基礎(chǔ)上,是否可以說(shuō) Sora 可以理解物理世界?
問(wèn)題之二是,OpenAI 所堅(jiān)信的大力出奇跡的 Scaling Law 邊界在哪?純數(shù)據(jù)驅(qū)動(dòng)路線(xiàn)能不能實(shí)現(xiàn) AGI ?
在此背景下,2024 年 3 月 20 日,中國(guó)人民大學(xué)高瓴人工智能學(xué)院舉辦了一場(chǎng)關(guān)于 Sora 的思辯會(huì),碰撞出諸多之前不曾考慮到的觀(guān)點(diǎn),同樣可以引發(fā)行業(yè)內(nèi)人士的深思。
文繼榮院長(zhǎng)在辯論會(huì)現(xiàn)場(chǎng)談到,ChatGPT 出來(lái)后,學(xué)院拿出了「 All in 大模型」的決心;Sora 出現(xiàn)的2024年,全院也在商討新的定位和前進(jìn)路徑,但無(wú)論如何終究會(huì)回到高瓴人工智能學(xué)院的 Slogan :創(chuàng)造智能而有溫度的未來(lái)。
以下為辯論現(xiàn)場(chǎng)實(shí)錄,AI 科技評(píng)論在不影響語(yǔ)意的前提下進(jìn)行調(diào)整:
一、智能還是偽裝:Sora 到底懂不懂物理世界?
正方黃文炳:
我們認(rèn)為 Sora 懂物理世界。根據(jù) Sora 發(fā)布的視頻,我們可以觀(guān)察到,無(wú)論鏡頭怎么旋轉(zhuǎn),畫(huà)面所呈現(xiàn)的時(shí)間連續(xù)性、空間角度切換后的不變性、光影的反射和變化都和物理世界規(guī)律相符。從這個(gè)角度來(lái)講,如果這些不是物理規(guī)律,那是什么呢?
第二個(gè)角度我們強(qiáng)調(diào)的是:Sora 懂物理規(guī)律,而不是說(shuō)懂物理學(xué)規(guī)律,物理規(guī)律和物理學(xué)規(guī)律不是一個(gè)概念。
基本的物理規(guī)律就是指大多數(shù)人在現(xiàn)實(shí)生活中的直接感受,比如自由落體,可以觀(guān)察到一個(gè)球從高處往低處掉。可以看到 Sora 生成的絕大部分的視頻都是滿(mǎn)足日常生活中物理規(guī)律的運(yùn)動(dòng)。
而物理學(xué)的規(guī)律是指物理學(xué)家通過(guò)這個(gè)實(shí)驗(yàn)或者理論推導(dǎo)出來(lái)的嚴(yán)格的物理公式或規(guī)則。
今天的辯題是懂不懂物理世界,這個(gè)物理世界不是指物理學(xué)家的世界,而是我們絕大多數(shù)人懂得且感受到的一般的物理世界。
第三個(gè)角度是關(guān)于什么叫「懂」,或者說(shuō)什么叫「學(xué)到」。有些人會(huì)從 Sora 不懂物理公式,或不懂嚴(yán)格的物理過(guò)程,判斷 Sora 不懂物理世界,但這個(gè)懂一定是 AI 的懂嗎?
這里需要回顧一下圖靈測(cè)試。圖靈測(cè)試就是指在測(cè)試者和被測(cè)試者被隔開(kāi)的情況下,對(duì)兩者進(jìn)行隨意提問(wèn),如果大多數(shù)人都無(wú)法區(qū)分兩者的行為的話(huà),就代表這一 AI 系統(tǒng)具備了智能,那從這個(gè)角度來(lái)說(shuō)生成即智能、生成即智能、生成即智能(現(xiàn)場(chǎng)笑)。
只要 Sora 生成的東西,大家通過(guò)常理判斷出來(lái)是真的,且沒(méi)辦法區(qū)分出是人還是 AI,我們認(rèn)為它就是學(xué)到了,是懂的。
反方孫浩:
我為正方辯友被 Sora 的表象欺騙了深表遺憾(現(xiàn)場(chǎng)笑),同時(shí)也為對(duì)方辯友對(duì)物理規(guī)律的理解偏差表示遺憾。
首先來(lái)糾正下物理世界的基本定義。物理世界是指自然規(guī)律和物理學(xué)定律支配的世界,例如守恒、對(duì)稱(chēng)等等,它包括我們所有能觀(guān)察到的物質(zhì)還有運(yùn)動(dòng)的基本的現(xiàn)象,實(shí)際上是客觀(guān)存在的這個(gè)宇宙。如果 Sora 能懂物理世界,那么它生成的視頻必然就得懂相關(guān)的規(guī)律,能模擬、準(zhǔn)確地來(lái)刻畫(huà)這種規(guī)律,但顯然 Sora 現(xiàn)在是達(dá)不到的。
其次,Sora 的基本運(yùn)行的機(jī)制就是基于 Diffusion Transformer 對(duì)視頻、語(yǔ)言的數(shù)據(jù)進(jìn)行壓縮,并且把它的分布給學(xué)習(xí)出來(lái)。然而,僅僅依靠視頻、語(yǔ)言來(lái)去描述我們客觀(guān)的三維世界顯然是不足的,它是有很強(qiáng)的界限的。
許多介質(zhì)的演化,比如說(shuō)流體,需要特殊的狀態(tài)量去把它描述出來(lái)才行,因此僅僅基于有限維的視頻和語(yǔ)言的數(shù)據(jù)來(lái)訓(xùn)練模型,那它的表達(dá)能力實(shí)際上是不夠的。即便生成出來(lái)的內(nèi)容顯得比較逼真,但是它和「真」完全是兩個(gè)概念。
所以,還需理清一下逼真和真實(shí)概念之間的差別。Sora 生成的視頻確實(shí)是很逼真的,但是它只是停留在視頻的表象,缺乏實(shí)質(zhì)。傳統(tǒng)的生成動(dòng)畫(huà)的渲染技術(shù)也可以達(dá)到一樣的效果,這并不能代表 Sora 具有模擬和理解現(xiàn)實(shí)世界的能力。
但我們也沒(méi)法否定 Sora 在創(chuàng)作設(shè)計(jì)、視覺(jué)效果等領(lǐng)域的巨大潛力。
正方魏哲巍:
著名物理學(xué)家費(fèi)曼說(shuō)過(guò)一句話(huà):What I cannot create ,I don‘t understand. 即,我不能生成的東西,我就不能理解。從數(shù)學(xué)的角度來(lái)看,這句話(huà)的逆否命題就是:我能夠理解的,我就能生成。反過(guò)來(lái)看,是不是生成的就能理解呢?我認(rèn)為是。
比如水浪表象的背后一定有一系列的波動(dòng)方程,但人是不是通過(guò)這個(gè)方程去理解它?大部分的人真的懂動(dòng)力學(xué)方程嗎?不是。但是不是大多數(shù)人都理解水的物理形態(tài)呢?我認(rèn)為是理解了的。
這個(gè)理解可以從兩個(gè)層面去理解,一個(gè)是我們知道物體基于重力會(huì)下落,水會(huì)有一個(gè)波動(dòng)的過(guò)程;另一個(gè)是,真正知道它背后運(yùn)動(dòng)的方程,那這個(gè)方程是不是人通過(guò)表象抽象出來(lái)的呢?
我認(rèn)為絕大部分不是,比如牛頓抽象出重力學(xué)的方程的過(guò)程,是不是真的有一個(gè)蘋(píng)果砸到腦袋上之后就突然蹦出一個(gè)方程?其實(shí)不是的。它從很早之前的各種各樣的公式、論文中推導(dǎo)出來(lái),絕對(duì)不是僅僅有視頻就能把方程推導(dǎo)出來(lái)。
但從人理解物理世界的角度來(lái)說(shuō),我們跟 Sora 應(yīng)該是完全一樣的。所以我們認(rèn)為 Sora 既然生成了,那么它就是理解了。
反方徐君:
Sora 不能夠理解物理世界的一個(gè)重要原因是,它企圖從大量的非實(shí)驗(yàn)數(shù)據(jù)里面去發(fā)現(xiàn)物理規(guī)律。也就是說(shuō)它不做實(shí)驗(yàn),它只是被動(dòng)地觀(guān)察我們這個(gè)世界。
基于統(tǒng)計(jì)因果中的結(jié)論“非干預(yù),不因果”:如果不能去實(shí)施干預(yù),算法就不能發(fā)現(xiàn)統(tǒng)計(jì)因果規(guī)律。如果連統(tǒng)計(jì)的因果規(guī)律都不能發(fā)現(xiàn)的話(huà),那么更不要說(shuō)是物理的規(guī)律,物理規(guī)律的一個(gè)特征就是表述物理世界中各種現(xiàn)象的因果關(guān)系。
所以無(wú)論是 Sora 還是 ChatGPT,如果只是以現(xiàn)在這種形式被動(dòng)地搜集數(shù)據(jù),然后去訓(xùn)練一個(gè)大模型的話(huà),它是可以被欺騙的,它所學(xué)到的內(nèi)容只是「相關(guān)」,而不是「因果」。這是第一個(gè)論點(diǎn)。
第二點(diǎn),從人類(lèi)最近幾百年發(fā)現(xiàn)物理規(guī)律的進(jìn)程來(lái)看,科學(xué)發(fā)現(xiàn)不僅僅需要實(shí)際的數(shù)據(jù)和觀(guān)察現(xiàn)象,更加需要人類(lèi)反直覺(jué)的思考和假設(shè)。
亞里士多德的直覺(jué)觀(guān)念“物體在不受力的情況下會(huì)保持靜止”在現(xiàn)實(shí)生活中是一個(gè)非常正常、符合直覺(jué)的現(xiàn)象。這個(gè)錯(cuò)誤的直覺(jué)觀(guān)念的引導(dǎo)下,人類(lèi)數(shù)個(gè)世紀(jì)都沒(méi)有能夠發(fā)現(xiàn)正確的物理學(xué)定律。直到伽利略、牛頓意識(shí)到物體在不受力的情況下會(huì)保持勻速直線(xiàn)運(yùn)動(dòng)這種反直覺(jué)的規(guī)律,這才創(chuàng)造了今天的物理學(xué)大廈。以直覺(jué)為主導(dǎo)的推理方法是靠不住的,基于直接觀(guān)察的直覺(jué)結(jié)論并不總是可靠。
類(lèi)似的例子還有很多,物理學(xué)里面有很多理想模型:像黑體,現(xiàn)實(shí)世界無(wú)論怎么觀(guān)測(cè)都找不到一個(gè)真正的黑體。雖然我們?cè)趯?shí)際生活中永遠(yuǎn)觀(guān)察不到,但是它對(duì)我們發(fā)現(xiàn)物理學(xué)的規(guī)律極其重要,如果沒(méi)有這些理想化的假設(shè),物理學(xué)的大廈無(wú)法建立起來(lái)。所以說(shuō),如果 Sora 僅僅是被動(dòng)地觀(guān)察世界,而沒(méi)有辦法進(jìn)行類(lèi)似人類(lèi)的反直覺(jué)推理假設(shè),它永遠(yuǎn)不能構(gòu)建正確的物理規(guī)律。
可見(jiàn),Sora 僅僅依托了它的直覺(jué)去擬合非實(shí)驗(yàn)的觀(guān)測(cè)數(shù)據(jù),不引入反直覺(jué)思考,不干預(yù)世界,它發(fā)現(xiàn)不了真正的物理規(guī)律。
正方宋睿華:
對(duì)方辯友認(rèn)為,要想掌握人類(lèi)的物理規(guī)律,是需要一些反直覺(jué)的思考和假設(shè),以及需要干預(yù)、驗(yàn)證物理世界。我方認(rèn)為這樣的觀(guān)點(diǎn)完全錯(cuò)誤地闡釋了什么叫物理世界,因?yàn)檫@種觀(guān)點(diǎn)太以人為中心了。其實(shí)這個(gè)世界無(wú)論有沒(méi)有人,它都是物理世界,不能說(shuō)只有人能理解的物理世界才叫物理世界。
說(shuō)回到機(jī)器學(xué)習(xí)的核心,就是有了一些模型和未知的參數(shù),同時(shí)在現(xiàn)實(shí)的數(shù)據(jù)上可以定義一個(gè)損失或者說(shuō)人為地評(píng)價(jià)它,最后再進(jìn)行一個(gè)優(yōu)化。
物理學(xué)家基本上也采用這樣的范式。他們先反直覺(jué)地發(fā)明一些公式,同時(shí)會(huì)加進(jìn)來(lái)一些參數(shù),接著在理想化的假設(shè)條件下做了一些實(shí)驗(yàn)的數(shù)據(jù),干預(yù)了這個(gè)世界,然后得到一些數(shù)據(jù),就可以去算公式有多大的損失,接著又進(jìn)行了一個(gè)非常充分的、聰明的思考,從而優(yōu)化這個(gè)模型。
而今天的神經(jīng)網(wǎng)絡(luò),當(dāng)增加寬度時(shí)相當(dāng)于多段線(xiàn)性折線(xiàn)函數(shù),可以趨近連續(xù)曲線(xiàn),接著當(dāng)它的層次加深的時(shí)候,它還可以表示更為復(fù)雜的函數(shù),所以它比之前那些聰明的物理學(xué)家所知道的公式范圍還要大。
如果神經(jīng)網(wǎng)絡(luò)這樣的一個(gè)學(xué)習(xí)過(guò)程都不能被稱(chēng)為智能,難道人就是嗎?為什么非要是人提出的公式、做的實(shí)驗(yàn)才叫智能呢?
再?gòu)臋C(jī)器學(xué)習(xí)的角度來(lái)說(shuō),對(duì)方辯友認(rèn)為做了一些理想的假設(shè)、實(shí)驗(yàn)后,發(fā)現(xiàn)了一些所謂的放之四海而皆準(zhǔn)、其實(shí)也并非的規(guī)律,難道不是傳統(tǒng)機(jī)器學(xué)習(xí)的一種 feature engineering 嗎?你其實(shí)只是發(fā)現(xiàn)了其中一條比較管用的feature,然后再做了一些實(shí)驗(yàn)來(lái)驗(yàn)證它是 99% 或者更高的適用性,這是更為狹隘的對(duì)物理世界的刻畫(huà)。
目前 Sora 的確還有一些反物理世界的現(xiàn)象存在。但更重要的是,「懂物理世界」和「精確地懂物理世界」并不是等同的。人也是同樣的道理,難道說(shuō)讓一個(gè)人閉著眼睛在腦海中想 Sora 生成的這種兩個(gè)海盜船在這咖啡杯里航行的畫(huà)面,人就能夠精確地模擬出來(lái)畫(huà)面嗎?
反方許洪騰:
首先,能生成逼真的視頻和懂物理世界兩者之間本來(lái)就沒(méi)有必然聯(lián)系。
類(lèi)比人類(lèi)世界,人類(lèi)的建筑師、畫(huà)家,他們能畫(huà)出這個(gè)世界、甚至能創(chuàng)造出這個(gè)世界的實(shí)體,但也并不代表他們真的懂物理世界。因?yàn)樵谌硕锢硎澜缰?,比如原始時(shí)期,我們就可以用石頭搭房子了、在石壁上畫(huà)下壁畫(huà)。
那個(gè)時(shí)候可能還都還不存在真正意義上的懂不懂物理世界這一回事,但是已經(jīng)可以去創(chuàng)造相應(yīng)的藝術(shù)作品或相應(yīng)的客觀(guān)實(shí)體。從這個(gè)角度來(lái)講,我不認(rèn)為現(xiàn)在 Sora 現(xiàn)在具備生成逼真視頻的能力,就真的懂物理世界。
其次,人類(lèi)對(duì)物理世界的理解跟掌握是有一套嚴(yán)格的方法論的,我們會(huì)去做假設(shè)、做觀(guān)測(cè),然后會(huì)通過(guò)實(shí)驗(yàn)最終實(shí)現(xiàn)對(duì)物理現(xiàn)象的反演。但目前能看到的是, Sora 這樣的生成式模型的學(xué)習(xí)范式就是數(shù)據(jù)驅(qū)動(dòng)。
喂給 Sora 數(shù)據(jù)之后,最多可以說(shuō)它觀(guān)測(cè)到了一些數(shù)據(jù),且這些數(shù)據(jù)還不是在一個(gè)嚴(yán)格的實(shí)驗(yàn)環(huán)境下得到的。在這種條件下,如果說(shuō)他能理解物理世界的話(huà),也肯定是用一種超出我們認(rèn)知范圍內(nèi)的方式在去理解。但是現(xiàn)階段我們還沒(méi)有看到任何的人工智能能夠真正在通用性或者對(duì)世界的理解上真的能達(dá)到人的水平。
最后,我覺(jué)得Sora 之所以這么強(qiáng)大,也許正是因?yàn)樗欢锢硎澜纭ora 基于它的學(xué)習(xí)范式,它能夠掌握統(tǒng)計(jì)規(guī)律,它能把有關(guān)聯(lián)性的事物融合起來(lái)。比如它可以生成龜殼像水晶球一樣的烏龜,包括在咖啡杯里戰(zhàn)斗的海盜船,這是超現(xiàn)實(shí)的,這跟物理世界沒(méi)有必然聯(lián)系。
更早期的,以 stable diffusion 為代表的圖像生成模型,可以生成太空上騎馬、火星上騎馬等畫(huà)面,顯然這些現(xiàn)象都不是符合我們所在的物理世界的規(guī)律的,并不是理解物理世界的一種表現(xiàn)。正是因?yàn)樗荒芾斫馕锢硎澜?,Sora才可以基于統(tǒng)計(jì)相關(guān)性構(gòu)筑它自己的世界。所以說(shuō)我認(rèn)為 Sora 是不懂物理世界的。
自由PK環(huán)節(jié):
正方:
有一種說(shuō)法是,ChatGPT不懂文字或者不懂語(yǔ)言。但 OpenAI 首席科學(xué)家伊利亞依然認(rèn)為,做 next token prediction,即能夠預(yù)測(cè)下一個(gè)詞、生成下一個(gè)詞,這就是理解了語(yǔ)言。伊利亞也舉了一個(gè)例子,喂給大模型一篇懸疑小說(shuō),指令是預(yù)測(cè)懸疑小說(shuō)里邊的兇手是誰(shuí)。如果他能夠準(zhǔn)確地預(yù)測(cè)出這個(gè)兇手是誰(shuí),那他到底是不是懂這篇小說(shuō)?是不是理解這篇小說(shuō)?
反方:
圖靈測(cè)試其實(shí)是工程的測(cè)試,就是說(shuō)你沒(méi)有通過(guò)圖靈測(cè)試,你是沒(méi)有這個(gè)能力,但是通過(guò)了你未必有這個(gè)能力。
以考試為例,如果一位同學(xué)沒(méi)有通過(guò)一場(chǎng)考試,這說(shuō)明這個(gè)同學(xué)沒(méi)學(xué)懂,但是通過(guò)了這場(chǎng)考試并不代表你已經(jīng)懂了,因?yàn)橛锌赡芡ㄟ^(guò)用強(qiáng)記的方式把所有的知識(shí)記憶下來(lái),所以圖靈測(cè)試并不具有很強(qiáng)的說(shuō)服力。
正方:
我恰恰覺(jué)得 Sora 是通過(guò)圖靈測(cè)試的,其實(shí)圖靈測(cè)試就兩點(diǎn),第一是要與人比,第二是要用問(wèn)答。其實(shí) ChatGPT 還是問(wèn)答的形式,但是 Sora 已經(jīng)不是了,它其實(shí)在做的是一種電影測(cè)試。
電影測(cè)試,一方面是讓人看,生成視頻后讓人去辨別它有沒(méi)有錯(cuò)誤;另一方面,它不是問(wèn)答,而是用視覺(jué)的方式讓人去判斷有沒(méi)有智能。
反方:
什么叫懂物理世界?這個(gè)物理必須跟真世界是一致的,部分 AI 可能懂懸疑小說(shuō),但他不懂物理世界。如果 Sora 所有的數(shù)據(jù)數(shù)據(jù)都來(lái)自哈利波特的魔法世界,他一樣能預(yù)測(cè)下一幀,那他能懂物理嗎?并不是,它懂的是魔法。
正方:
關(guān)于懂物理世界,我方堅(jiān)持認(rèn)為達(dá)到常人的理解即可不需要懂物理公式。比如在生活中,在馬路上來(lái)了一輛車(chē),你會(huì)用牛二定律去算它是多長(zhǎng)時(shí)間能到面前嗎?并不用,就自己腦補(bǔ)一下,預(yù)測(cè)未來(lái)可能車(chē)撞過(guò)來(lái)了,躲開(kāi)就 OK 了。這種理解有誤差、有偏差,沒(méi)有關(guān)系。
另外,人類(lèi)對(duì)物理的理解也是片面的,不斷進(jìn)步的。不能說(shuō)現(xiàn)在穿越回去對(duì)亞里士德說(shuō)你根本就不懂物理,我比你懂物理懂得多。也不能說(shuō)我們現(xiàn)在對(duì)物理的理解就是對(duì)的。
物理規(guī)律是怎么來(lái)的?很多時(shí)候也是物理學(xué)家統(tǒng)計(jì)出來(lái)的規(guī)律,在我們有限的觀(guān)察下去驗(yàn)證它是不是對(duì)的,然后基于我們現(xiàn)在的理解,認(rèn)為它能解釋一些問(wèn)題,形成的物理規(guī)律。但隨著時(shí)間的演化,人類(lèi)對(duì)物理世界的理解也在加深,一些物理定律也隨著觀(guān)察的增多失效,所以我們不能要求 Sora 一出來(lái),就要求它懂牛二定律,這個(gè)肯定不合適。
二、純數(shù)據(jù)驅(qū)動(dòng)路線(xiàn)能不能實(shí)現(xiàn)通用人工智能?
反方許洪騰:
我理解的通用人工智能,其實(shí)就是類(lèi)人的人工智能,希望最后的人工智能跟人一樣具有一定的通用性。那么人是怎么學(xué)習(xí)的?人是從數(shù)據(jù)中學(xué)習(xí)的。我們從出生開(kāi)始一直都在接收數(shù)據(jù),訓(xùn)練自己。這至少可以證明從數(shù)據(jù)中接收信息,讓人去進(jìn)行學(xué)習(xí)這件事情是可行的,不管是我們自己的體驗(yàn)還是現(xiàn)在的Sora。
但我為什么反對(duì)這樣的技術(shù)路線(xiàn)?是因?yàn)槲矣X(jué)得這個(gè)路線(xiàn)效率是非常低的,從算力或者數(shù)據(jù)的角度來(lái)講是不可行的。人其實(shí)是有初始設(shè)計(jì)的,或者說(shuō)我們是一種特殊的動(dòng)物,我們的大腦結(jié)構(gòu)跟別的動(dòng)物的大腦結(jié)構(gòu)不一樣。那這個(gè)結(jié)構(gòu)是怎么來(lái)的?結(jié)構(gòu)是經(jīng)過(guò)億萬(wàn)年物種演化而來(lái),5億年前三葉蟲(chóng)才開(kāi)始出現(xiàn)眼睛這個(gè)器官,才能夠接觸到視覺(jué)信息,然后逐步一直演化到人類(lèi)的大腦,人類(lèi)的眼睛,中間經(jīng)過(guò)了5億年的時(shí)間,無(wú)數(shù)代的生物迭代和數(shù)據(jù)接收。
這是目前為止我們已知的產(chǎn)生效智能的一種方式,但這種方式的效率我覺(jué)得是非常低的。我不認(rèn)為這種方式是能夠?qū)崿F(xiàn)通用人工智能的一種合理的技術(shù)路線(xiàn),這是我的一個(gè)主要觀(guān)點(diǎn)。
另外,現(xiàn)在我們已經(jīng)面臨能源和數(shù)據(jù)量的瓶頸。按照 OpenAI 的數(shù)據(jù)消耗速度和增長(zhǎng)趨勢(shì),很快訓(xùn)練用的視頻數(shù)據(jù)消耗速度就可能會(huì)超過(guò)我們能夠產(chǎn)生的速度。到那個(gè)時(shí)候很可能需要由 Sora 來(lái)自己產(chǎn)生數(shù)據(jù),然后來(lái)自我訓(xùn)練。如果是這樣,這種情況下是不是還是我們傳統(tǒng)意義上說(shuō)的純數(shù)據(jù)驅(qū)動(dòng)?它是否還能自我進(jìn)化?我認(rèn)為這是存疑的,所以我現(xiàn)在反對(duì)這個(gè)觀(guān)點(diǎn)。
正方毛佳昕:
第一點(diǎn)我覺(jué)得這個(gè)問(wèn)題跟第一個(gè)議題是兩個(gè)完全不一樣的議題。第一個(gè)議題其實(shí)是關(guān)于一個(gè)現(xiàn)在已經(jīng)發(fā)生的事情,它到底能不能懂物理,理論上這是有客觀(guān)答案的。
第二個(gè)是對(duì)未來(lái)的預(yù)測(cè),我們接著往下走能不能實(shí)現(xiàn),我們覺(jué)得成功的概率非常大,我們站的觀(guān)點(diǎn)是數(shù)據(jù)驅(qū)動(dòng)是 work 的,所以我從一個(gè)數(shù)據(jù)驅(qū)動(dòng)的角度來(lái)回答這個(gè)問(wèn)題。
首先我們?cè)趺凑覕?shù)據(jù)呢?先看歷史,看人工智能發(fā)展的歷史。一開(kāi)始大家的想法是要做個(gè)人工智能,但是過(guò)去差不多 60 多年來(lái)的發(fā)展,發(fā)現(xiàn)感知很難做不了,后來(lái)發(fā)現(xiàn)有足夠的數(shù)據(jù)可以解決感知的問(wèn)題;后來(lái)覺(jué)得語(yǔ)言很難,認(rèn)知很難,但是ChatGPT出來(lái)又解決了這個(gè)問(wèn)題。所以從歷史數(shù)據(jù)看,我們覺(jué)得數(shù)據(jù)驅(qū)動(dòng)是一條正確的路徑。
第二點(diǎn),我們看歷史數(shù)據(jù),看其他可以類(lèi)比的數(shù)據(jù)是什么?那什么是通用人工智能,我們覺(jué)得人類(lèi)是通用人工智能,那人類(lèi)是怎么學(xué)習(xí)的呢?我覺(jué)得人類(lèi)很多情況下,是通過(guò)數(shù)據(jù)來(lái)學(xué)習(xí)的,比如我學(xué)物理的方式就是我看了很多物理的書(shū),我做了很多題目,我去考試。這個(gè)事情其實(shí)基本上跟我們現(xiàn)在訓(xùn)練大模型去做物理題的數(shù)據(jù)驅(qū)動(dòng)方式是一樣的,所以人的學(xué)習(xí)物理方式跟現(xiàn)在大模型學(xué)物理是一樣的。
第三點(diǎn),為什么反對(duì)技術(shù)路線(xiàn)的原因是有效率方面的問(wèn)題,這個(gè)問(wèn)題我覺(jué)得 Hinton 也在想這個(gè)問(wèn)題,因?yàn)?月份他在北京智源人工智能大會(huì)的時(shí)候做一個(gè)報(bào)告,最近也在牛津做了一個(gè)報(bào)告,他那個(gè)報(bào)告里面提到一個(gè)什么東西呢?大家知道Hinton其實(shí)是一個(gè)認(rèn)知科學(xué)家,他會(huì)類(lèi)比人腦和計(jì)算機(jī)的差別。他說(shuō)人腦是一個(gè)很高效的系統(tǒng),同樣說(shuō)一句話(huà),人腦的用的功率比大模型小得多。但人腦的缺點(diǎn)是什么?是人腦里面的神經(jīng)網(wǎng)絡(luò)的權(quán)重沒(méi)辦法告訴另外一個(gè)人,在通訊效率上很差。
最后我想說(shuō),這個(gè)辯題里面數(shù)據(jù)驅(qū)動(dòng)的反面是什么,反面是理論驅(qū)動(dòng),theory driven,這個(gè) theory 是什么呢?其實(shí)并不是物理定律,因?yàn)槲锢韺W(xué)知識(shí)對(duì)大模型來(lái)說(shuō),其實(shí)是數(shù)據(jù),而不是theory,所以這個(gè) theory 其實(shí)是關(guān)于認(rèn)知的theory。
所以數(shù)據(jù)驅(qū)動(dòng)的路線(xiàn)對(duì)應(yīng)的另外一條路線(xiàn),是基于人工智能的理論驅(qū)動(dòng)的路徑,或者是基于人是怎么認(rèn)知這個(gè)世界的理論來(lái)驅(qū)動(dòng)的路徑。
Hinton 之前是這個(gè)路徑的,比如,他之前經(jīng)常討論神經(jīng)網(wǎng)絡(luò)和學(xué)習(xí)算法是否是biological plausible的。但他最近的觀(guān)點(diǎn)發(fā)生了改變,他認(rèn)為人腦雖然在計(jì)算效率上存在優(yōu)勢(shì),但在通訊效率上遠(yuǎn)比不上數(shù)字計(jì)算機(jī)。
反方沈蔚然:
我想說(shuō)兩個(gè)觀(guān)點(diǎn),第一個(gè)觀(guān)點(diǎn)是我們現(xiàn)在所謂的通用人工智能是一個(gè)什么樣子的概念?剛才徐老師提到通用人工智能可能是一個(gè)比較接近人的,但是如果你去翻閱相關(guān)的文獻(xiàn),它的定義上實(shí)際上還有一個(gè)就是我們要超過(guò)人。
因?yàn)楝F(xiàn)在很多單個(gè)任務(wù)都超過(guò)人,我們希望能做一個(gè)通用人工智能的一個(gè)算法或者模型,在大部分任務(wù)上都能夠超過(guò)人,這才是我們的目標(biāo)。
我們對(duì)通用人工智能的期待非常高,那么純數(shù)據(jù)驅(qū)動(dòng)的路線(xiàn)能不能實(shí)現(xiàn)這樣一個(gè)事情呢?對(duì)方辯友說(shuō)我們學(xué)習(xí)物理通過(guò)看書(shū)做題是接收的數(shù)據(jù),但我不這么認(rèn)為,從物理學(xué)的角度來(lái)講,數(shù)據(jù)應(yīng)該是做實(shí)驗(yàn)得到的數(shù)據(jù),你看書(shū)上的理論,這是你接受別人前人總結(jié)的結(jié)果。
這恰恰是我想表達(dá)第二個(gè)觀(guān)點(diǎn),就是說(shuō)現(xiàn)在的這種數(shù)據(jù)驅(qū)動(dòng)的方式,它沒(méi)有辦法把數(shù)據(jù)總結(jié)成一些比較簡(jiǎn)潔、比較容易理解的理論,然后在此基礎(chǔ)上做進(jìn)一步的推導(dǎo)。我覺(jué)得這是要實(shí)現(xiàn)一個(gè)通用的人工智能,要想在很多方面做得比人更好,這是目前還回避不掉的一個(gè)事情。
你光用數(shù)據(jù),可以擬合很多函數(shù),理論上講你有無(wú)窮多的數(shù)據(jù)是可以擬合這些,但是你的效率會(huì)非常低,而且數(shù)學(xué)上有很多的函數(shù),你要想完整地?cái)M合它,你需要無(wú)窮多的數(shù)據(jù),這是不可能的。但是用數(shù)學(xué)的語(yǔ)言可以很簡(jiǎn)單地描述這件事情,而我覺(jué)得要想達(dá)到通用人工智能,這些函數(shù)可能是過(guò)不去的,因?yàn)樗谖覀兡壳暗墓こ炭茖W(xué)領(lǐng)域當(dāng)中應(yīng)用非常廣泛。
正方林衍凱:
我發(fā)現(xiàn)對(duì)方辯友使用了很多辯論技巧,其實(shí)對(duì)方辯友一直在切換我們的辯題。首先剛開(kāi)始把「純數(shù)據(jù)驅(qū)動(dòng)路線(xiàn)能夠不能使實(shí)現(xiàn)通用人工智能」切換成「能不能在有限的能源下實(shí)現(xiàn)通用人工智能」,或者說(shuō)「在高效的能源下實(shí)現(xiàn)通用人工智能」,這并不是我們的辯題。還有辯友一上來(lái)把通用人工智能定義又做了一個(gè)切換,說(shuō)要達(dá)到超過(guò)人的智力水平。
我回到 technical 的角度去討論第一點(diǎn),大模型無(wú)法總結(jié)這種物理規(guī)律,或者說(shuō)無(wú)法總結(jié)規(guī)律,他們做的更多的是這種 memory combination 的事情,但其實(shí)這一點(diǎn)在我們現(xiàn)在很多大模型的研究中,其實(shí)并不是這么指向的。
大模型干的是什么事情?干的是壓縮,壓縮的基礎(chǔ)剛開(kāi)始是memory。其實(shí)我們?cè)谟?xùn)練的過(guò)程中,大模型為了去最優(yōu)化它的函數(shù),就是在找尋更好的能擬合這些數(shù)據(jù)的規(guī)律,而且能發(fā)生所謂的blocking。那么這一層其實(shí)是指向——我們做這種數(shù)據(jù)驅(qū)動(dòng),其實(shí)能像人一樣發(fā)生思考的演化的。
再者,大家也提到目前的數(shù)據(jù)是有限,其實(shí)對(duì)于我來(lái)說(shuō)真實(shí)世界的數(shù)據(jù)是無(wú)限的。大家把數(shù)據(jù)停留在網(wǎng)上,已經(jīng)產(chǎn)生了文本數(shù)據(jù)、視頻數(shù)據(jù),大模型基于這些數(shù)據(jù)驅(qū)動(dòng),大模型可以自主地探索這個(gè)物理世界的,那么它能接受到的數(shù)據(jù)其實(shí)是無(wú)限的。在此基礎(chǔ)上,我們根據(jù)這種數(shù)據(jù)去學(xué)習(xí)更多的知識(shí),學(xué)習(xí)更多的物理規(guī)律其實(shí)是可行的。
反方孫浩:
雙方在理解上出現(xiàn)了一些偏差,首先這個(gè)問(wèn)題叫「純數(shù)據(jù)驅(qū)動(dòng)路線(xiàn)能不能實(shí)現(xiàn)通用人工智能」?它其實(shí)一個(gè)關(guān)鍵的要素是實(shí)現(xiàn),那么你在資源有限的情況下是不是能夠去做到這個(gè)事情?這實(shí)際上是一個(gè)很大的問(wèn)題。
如果一個(gè)事情我們明知道這個(gè)做不到,但是我們知道它的路徑可能是可行的,但最終說(shuō)我能不能去實(shí)現(xiàn),答案是否定的。所以我認(rèn)為徐老師和沈老師提出來(lái)的觀(guān)點(diǎn)從現(xiàn)實(shí)意義上是很能站得住的。
那么我們?cè)賮?lái)看一下「純數(shù)據(jù)驅(qū)動(dòng)能不能實(shí)現(xiàn)通用人工智能」,它的另一個(gè)要素是數(shù)據(jù)驅(qū)動(dòng)這一塊。實(shí)際上我們復(fù)雜的世界,不僅僅是物理世界,還有很多包括人的情感等等世界構(gòu)成的,是極其復(fù)雜的,我們能觀(guān)測(cè)到的,或者說(shuō)能獲取到的數(shù)據(jù)去描述這樣的世界,它是極其稀疏,甚至可能是缺失的。
那基于這樣的數(shù)據(jù),再去訓(xùn)練一個(gè)人工智能的模型,它很難達(dá)到一個(gè)我們真正想要的這種通用的、類(lèi)人的智能形式。所以說(shuō)數(shù)據(jù)驅(qū)動(dòng)只是其中一個(gè)要素,但是它最終能不能實(shí)現(xiàn),不能完全依靠它,這是第一個(gè)觀(guān)點(diǎn)。
第二個(gè)觀(guān)點(diǎn)還是我剛才講的世界是復(fù)雜的,但描述世界的方式是非常簡(jiǎn)潔的,那么我們?nèi)フJ(rèn)知這個(gè)世界,不同的科學(xué)領(lǐng)域都有認(rèn)知這個(gè)世界的語(yǔ)音和方式,例如可以用微分方程的形式去描述它,它就具有很強(qiáng)的通用性。而它基于的數(shù)據(jù)卻是極其稀疏非常少的,基于人的假設(shè)、推斷、猜想形成的這套理論,那么像這種模型可以在某些特定的或者廣泛的任務(wù)上能夠?qū)崿F(xiàn)這種通用的能力的。
所以我雖然覺(jué)得數(shù)據(jù)是其中非常關(guān)鍵的一個(gè)要素,但它不是唯一的要素,而對(duì)方辨友如果把它給當(dāng)成唯一的要素去實(shí)現(xiàn)通用人工智能,我認(rèn)為這從觀(guān)點(diǎn)和定義上存在一個(gè)理解的偏差。
正方黃文炳:
我想反問(wèn)對(duì)方辯友可能沒(méi)有仔細(xì)看這個(gè)辯題,我們問(wèn)純數(shù)據(jù)驅(qū)動(dòng)路線(xiàn)能不能實(shí)現(xiàn)通用人工智能,是說(shuō)能不能?你只要回答能還是不能?你不要給他加限制條件,我們并沒(méi)有強(qiáng)調(diào)說(shuō)這個(gè)數(shù)據(jù)能不能獲取,而是說(shuō)在足夠數(shù)據(jù)的條件之上,能不能實(shí)現(xiàn)通用人工智能。
而且還有兩個(gè)觀(guān)點(diǎn)我也不敢茍同,第一個(gè)是談到人工智能到底是什么的定義。我們認(rèn)為通用人工智能指的是機(jī)器所能掌握的處理大多數(shù)任務(wù)的一般的通用的能力。我們看到定義為AGI,不是AUI,不是 Artificial universal intelligence,它不是萬(wàn)有的能力,我們說(shuō)純數(shù)據(jù)驅(qū)動(dòng)能不能實(shí)現(xiàn)通用人工智能,它并不一定包括它能解決科學(xué)領(lǐng)域的方程、實(shí)驗(yàn)的結(jié)果,但是它一定能實(shí)現(xiàn)大多數(shù)人在日常生活中所掌握的通用的智能的能力。這是我方的觀(guān)點(diǎn)。
當(dāng)然,我們也承認(rèn),包括我們自己做的研究也承認(rèn)數(shù)據(jù)驅(qū)動(dòng)不一定能實(shí)現(xiàn)所有的智能,包括物理的人工智能,就是說(shuō)在物理的世界里,數(shù)據(jù)的獲取確實(shí)不容易。但它跟我們今天的辯題不矛盾啊。
同時(shí)在物理的場(chǎng)景里,確實(shí)有很多嚴(yán)格的假設(shè),例如對(duì)稱(chēng)性的假設(shè),流體力學(xué)的方程,在這些場(chǎng)景下純數(shù)據(jù)能不能實(shí)現(xiàn)通用人工智能,那種智能還不一定是人工智能,我認(rèn)為是不行的。但是這并不影響今天的辯題。
自由PK環(huán)節(jié):
反方 :
我的答案是不能。為什么呢?
從一個(gè)角度來(lái)看,就是假設(shè)說(shuō)了有兩個(gè)版本,第一個(gè)版本他認(rèn)為這個(gè)世界是不一樣的,第二個(gè)版本他的參數(shù)不一樣,他認(rèn)為這個(gè)世界是另外一個(gè)樣子的。那么現(xiàn)在的一個(gè)問(wèn)題是這兩個(gè)版本到底哪個(gè)是對(duì)的?那么只有兩種情況,第一種情況是其中一個(gè)是對(duì)的,另外一種情況就是兩個(gè)都是錯(cuò)的。所以說(shuō)從目前的情況來(lái)看,我們覺(jué)得 Sara 他在認(rèn)識(shí)物理世界的時(shí)候,他是有很大的一個(gè)偏差的?;谶@樣的一個(gè)極不穩(wěn)定的一個(gè)模型,它版本的更新是不是我們對(duì)于這個(gè)世界的認(rèn)識(shí)也得跟著它刷新一遍?這個(gè)肯定是不合適的,這是第一個(gè)。
第二個(gè)關(guān)于我們對(duì)于認(rèn)識(shí)這個(gè)世界,除了數(shù)據(jù)之外,它其實(shí)還有模型的一個(gè)處理能力,包括我們?nèi)艘惨粯?,我們?nèi)瞬粌H僅有認(rèn)識(shí)這個(gè)世界數(shù)據(jù)的經(jīng)驗(yàn),還有我們的理性的處理,也就是說(shuō)對(duì)這個(gè)世界的處理能力,數(shù)據(jù)的處理能力,這個(gè)康德已經(jīng)說(shuō)的很清楚。
所以如果從這個(gè)角度上看的話(huà),Sora不僅要接收來(lái)自這個(gè)世界不同經(jīng)驗(yàn)的數(shù)據(jù),同時(shí)它需要具備像人一樣,甚至超過(guò)人的理性的思維去處理這些數(shù)據(jù),兩者缺一不可。
那么如果我們現(xiàn)在從數(shù)據(jù)的角度來(lái)看,Sora目前僅僅介紹了文本、視頻和圖像,那么我們世界有很多其他的數(shù)據(jù),各個(gè)領(lǐng)域的數(shù)據(jù)它通通都沒(méi)有接觸到,所以在數(shù)據(jù)這個(gè)角度AGI已經(jīng)鎖死了它。
第二個(gè),從模型的角度來(lái)看,目前它基于Diffusion Model和transformer這種簡(jiǎn)單的結(jié)構(gòu),不可能去產(chǎn)生理性的分析以及想象的能力的。所以從模型的處理能力上也鎖死了,所以我覺(jué)得不管從經(jīng)驗(yàn)的角度來(lái)看,還是從理性分析的角度來(lái)看,我覺(jué)得AGI都被圈住了。
正方:
我首先要補(bǔ)充下剛剛沒(méi)有說(shuō)完的,從效率上講,Hinton原來(lái)是支持人腦非常高效,那應(yīng)該要模擬一個(gè)人腦的,最近他的觀(guān)念發(fā)生了變化,為什么呢?因?yàn)槿四X非常高效,但是人腦這種大腦它的最大缺陷是我們的交流能力非常差,比如說(shuō)我要把我的想法傳遞給大家,效率可低了,但是大模型這種基于數(shù)字計(jì)算機(jī)的這種架構(gòu),它在模型之間傳遞信息的效率非常高,我可以把整個(gè)模型的數(shù)據(jù)拷貝一份,或者我在訓(xùn)練的時(shí)候所有梯度去做一個(gè)reduce,這個(gè)效率比人腦高太多了。
你可以想象大模型在做的是什么呢?是一萬(wàn)個(gè)、一億個(gè)跟你一樣聰明的人在不斷地讀書(shū),然后他能獲得智能,大家能想象下這是什么水平。
第二個(gè)問(wèn)題回應(yīng)下兩位老師,他們覺(jué)得人可能會(huì)有一個(gè)東西叫做理性,這種理性是人腦所具備的一種內(nèi)在的能力,而這種能力是進(jìn)化產(chǎn)生的,然后說(shuō)現(xiàn)在的模型不具備這樣能力,并且現(xiàn)在的模型好像沒(méi)有進(jìn)化出這個(gè)機(jī)制,那你想想我們學(xué)院現(xiàn)在在干嘛呢?我們學(xué)院在不斷地改架構(gòu),我們學(xué)院在把神經(jīng)網(wǎng)絡(luò)進(jìn)化,沒(méi)有什么理由認(rèn)為我們這種操作比大自然的自然選擇低效,所以那未來(lái)的模型會(huì)不會(huì)具備人類(lèi)內(nèi)在的理性的能力呢?
反方:
剛剛正方辯友的觀(guān)點(diǎn)恰恰說(shuō)明你是認(rèn)可架構(gòu)的重要性的,而架構(gòu)本質(zhì)上它其實(shí)并不是純數(shù)據(jù)驅(qū)動(dòng),它其實(shí)對(duì)應(yīng)的還是知識(shí)。而且回到這個(gè)辯題,純數(shù)據(jù)驅(qū)動(dòng)能不能實(shí)現(xiàn)通用人工智能?如果即使是按照正方辯友講的,就是一種類(lèi)人的具有一定通用性的人工智能。
除了效率和資源上會(huì)制約這種純數(shù)據(jù)的數(shù)據(jù)路線(xiàn)的發(fā)展之外,另外一點(diǎn)重要的就是這種純數(shù)據(jù)的路線(xiàn)它歸根到底學(xué)習(xí)到的是統(tǒng)計(jì)規(guī)律,而統(tǒng)計(jì)規(guī)律它必然就會(huì)兩個(gè)問(wèn)題,一個(gè)是它的外推,或者說(shuō)是泛化,或者說(shuō)是外差的能力,這是統(tǒng)計(jì)機(jī)器學(xué)習(xí)里面一直存在的一個(gè)困境,也就是它沒(méi)有這種外推去產(chǎn)生新的知識(shí)或者說(shuō)新的能力,這個(gè)是它存在的瓶頸,包括劉老師也是做這個(gè)泛化性的研究的。
第二點(diǎn),不管是架構(gòu)的演化,還是人大腦的演化,其中除了這種連續(xù)的、平滑的過(guò)程之外,很重要的一點(diǎn)是突變,這種突變其實(shí)并不是通過(guò)數(shù)據(jù)來(lái)催化,它是具有高度的隨機(jī)性跟偶然性的,那這種突變能否用純數(shù)據(jù)的方式去驅(qū)動(dòng)?至少這件事情現(xiàn)在還是存疑的。我的觀(guān)點(diǎn)就是這樣。
正方 :
我們反問(wèn)對(duì)方辯友,您在日常的吃飯、睡覺(jué),看電腦、看電視的時(shí)候到底是用相關(guān)性做決策,還是用因果性做決策?
反方:
這個(gè)問(wèn)題非常好,這個(gè)事情如果很重要的話(huà),我會(huì)用因果性決策。如果這個(gè)事情很隨意的話(huà),我自己的決策其實(shí)就是隨機(jī)的。
反方:
我補(bǔ)充一點(diǎn),我覺(jué)得人類(lèi)理性決策很重要的一個(gè)點(diǎn),仍然是需要從直覺(jué)走到反直覺(jué)。
正方 :
當(dāng)你說(shuō)到直覺(jué)反直覺(jué)的時(shí)候,你也得通過(guò)說(shuō)出話(huà)來(lái),你才知道什么叫是這個(gè)反直覺(jué)和直覺(jué),從這個(gè)角度來(lái)說(shuō),我還是堅(jiān)持我在第一個(gè)辯題時(shí)候發(fā)表的一個(gè)觀(guān)點(diǎn),就是正方的觀(guān)點(diǎn),生成就是智能。
在生成的時(shí)候,我完全可以在我生成的內(nèi)容里面完成所謂的反直覺(jué),完成所謂的因果推斷,完成所謂的關(guān)聯(lián),就是說(shuō)你作為一個(gè)人,你在這個(gè)世界上的時(shí)候,你難道不說(shuō)話(huà),整天在那里面就可以因果發(fā)現(xiàn)了嗎?你肯定不是,你肯定得通過(guò)說(shuō)話(huà)。說(shuō)話(huà)是什么,是數(shù)據(jù),你肯定得通過(guò)記錄,記錄是什么,是數(shù)據(jù),你肯定得做實(shí)驗(yàn),去做實(shí)驗(yàn)也是一個(gè)數(shù)據(jù),然后記錄結(jié)果。這些都是什么?都是數(shù)據(jù),這些都是純數(shù)據(jù)驅(qū)動(dòng)。
反方 :
生成即是智能其實(shí)是一個(gè)謬論。你生成的東西有可能是完全違反一些實(shí)際存在的一些基本認(rèn)知的,有可能是完全錯(cuò)誤的、不存在的,虛幻出來(lái)的一個(gè)東西。你如果從只是把生成內(nèi)容這個(gè)過(guò)程當(dāng)做是智能的話(huà),這個(gè)實(shí)際上是個(gè)謬論,所以說(shuō)請(qǐng)對(duì)方辯友不要再堅(jiān)持這么一個(gè)觀(guān)點(diǎn)。
正方:
孫老師,難道你生成的東西就都是對(duì)的嗎?還有人生成的東西就是對(duì)的嗎?不對(duì)呢,就不是人嗎?就不是通用人工智能嗎?我想你覺(jué)得通用人工智能最高標(biāo)準(zhǔn),現(xiàn)在通用人工智能的標(biāo)準(zhǔn)應(yīng)該是和一個(gè)人對(duì)齊,一個(gè)普通人對(duì)齊。人也有對(duì)錯(cuò),不是說(shuō)生成的東西一定要是對(duì)的,我方并不持這種觀(guān)點(diǎn)。
反方:
生成的東西不一定是對(duì)的,但是我們必須突破這種直覺(jué)性的理解,才能實(shí)現(xiàn)我們?nèi)说闹悄堋1热缯f(shuō)我舉一個(gè)例子,每天早上都聽(tīng)到公雞打鳴后太陽(yáng)就升起了,所以我們就認(rèn)為太陽(yáng)是公雞叫出來(lái)的,這是一個(gè)謬論。
正方:
Sora 從數(shù)據(jù)里頭一樣能學(xué)出來(lái),太陽(yáng)升起來(lái)公雞才會(huì)叫啊。我們說(shuō)到Sora有一個(gè)版本跟另一個(gè)版本不一樣這個(gè)問(wèn)題,但其實(shí)人認(rèn)知也是不一樣的,拿一個(gè)同樣的問(wèn)題來(lái)問(wèn)我們?cè)谧拿恳粋€(gè)人,像現(xiàn)在這個(gè)問(wèn)題我們都有不同的見(jiàn)解,但不代表我們的不一樣,生成出來(lái)的結(jié)果就不智能。
反方:
你剛剛說(shuō)的我們生成的東西是錯(cuò)的,就不是人了。關(guān)鍵是我們能夠判斷人是具有——如果要類(lèi)人一樣的人工智能,對(duì)于特定或者說(shuō)是很寬泛的一個(gè)事物,它是具有判斷或者正確與否的依據(jù)的,到目前為止,我們沒(méi)有發(fā)現(xiàn)有這個(gè)依據(jù)。
正方:
大模型有。大模型也在判斷正確與否,你說(shuō)看到Sora生成的視頻為什么比別的算法生成的更加流暢,它甚至在變換視角的時(shí)候還是有這種三維的一致性的,一定是有一種判斷在的。
反方:
判斷并不是基于純數(shù)據(jù)的方式的,這里面有大量的架構(gòu)和知識(shí)來(lái)理解的。
正方:
我反駁一下對(duì)方辯友的觀(guān)點(diǎn),第一,純數(shù)據(jù)驅(qū)動(dòng)跟基于純架構(gòu),架構(gòu)跟數(shù)據(jù)并不是兩個(gè)相互對(duì)立的topic,純數(shù)據(jù)驅(qū)動(dòng)一般對(duì)應(yīng)的是符號(hào)驅(qū)動(dòng),是理性主義跟經(jīng)驗(yàn)主義的對(duì)立,而不是說(shuō)純數(shù)據(jù)驅(qū)動(dòng)就不需要模型架構(gòu)了,感覺(jué)對(duì)方辯友一直在企圖用一些跟辯題無(wú)關(guān)的話(huà)題來(lái)詭辯。
反方:
我覺(jué)得任何問(wèn)題都需要增加一定的條件,如果我花了很長(zhǎng)時(shí)間,用了大量數(shù)據(jù),以至于整個(gè)地球的數(shù)據(jù)都不足以來(lái)訓(xùn)練我的模型,這其實(shí)是沒(méi)有意義的。這在很多科學(xué)中都是如此,比如密碼學(xué)中,如果說(shuō)花了非常多時(shí)間,幾十萬(wàn)年,幾千萬(wàn)年的時(shí)間才能解答這個(gè)密碼,那這個(gè)密碼其實(shí)就是無(wú)解的。
所以我認(rèn)為在現(xiàn)實(shí)世界中一定要加上一個(gè)限定詞,我要在多少時(shí)間內(nèi)才能把這個(gè)問(wèn)題給解決掉,或者需要多大的資源。但是我的觀(guān)點(diǎn)其實(shí)跟大家可能有點(diǎn)不一樣,這個(gè)問(wèn)題我覺(jué)得更突出是一個(gè)「純」字,我認(rèn)為純數(shù)據(jù)的驅(qū)動(dòng),它是不能解決通用人工智能問(wèn)題的。
架構(gòu)也是有用的,隨著架構(gòu)的不斷優(yōu)化,那我們?cè)谟?xùn)練數(shù)據(jù)的時(shí)候,可能會(huì)使訓(xùn)練的數(shù)據(jù)量形式的降低,如果我們?cè)黾恿艘恍┮蚬脑?,物理的原理,那我們可以把?shù)據(jù)訓(xùn)練的成本降低,所以我認(rèn)為純數(shù)據(jù)驅(qū)動(dòng)是不能的,但是數(shù)據(jù)有一定作用,但是物理驅(qū)動(dòng)或者因果的原理同樣發(fā)揮著非常重要的作用。
正方 :
我反駁一下對(duì)方辯友的兩個(gè)觀(guān)點(diǎn)。這個(gè)辯題我們就考慮在理想情況下,我們能不能達(dá)到 AGI,第二個(gè)后面說(shuō)的純數(shù)據(jù)驅(qū)動(dòng)的問(wèn)題,我就問(wèn)一下,Sora 算不算純數(shù)據(jù)驅(qū)動(dòng),它有沒(méi)有用Transformer 架構(gòu)?
反方:
實(shí)際上 Sora 用的 Transformer 架構(gòu),Transformer 架構(gòu)本身也是基于知識(shí)去設(shè)計(jì)的,比如說(shuō)它里面的幾個(gè)QVK,實(shí)際上是從物理的張量分析里面有一些理論基礎(chǔ)在里面去支撐它,然后去設(shè)計(jì)這個(gè)架構(gòu)的。
我們一直在講實(shí)際上的數(shù)據(jù)驅(qū)動(dòng),一定是能夠輔助我們?nèi)?shí)現(xiàn)通用人工智能,但純數(shù)據(jù)驅(qū)動(dòng)不加知識(shí)的,不加我們對(duì)于客觀(guān)事件理解的,甚至一些先驗(yàn)的規(guī)律的,我們認(rèn)為這樣設(shè)計(jì)出來(lái)的模型是很難去達(dá)到一個(gè)通用人工智能。我覺(jué)得你們對(duì)這個(gè)議題的理解,純數(shù)據(jù)驅(qū)動(dòng)這一塊還沒(méi)有理解很深刻,那么未來(lái)人工智能發(fā)展可能若干年以后會(huì)發(fā)現(xiàn)純數(shù)據(jù)驅(qū)動(dòng)走不通了,最后又回到了數(shù)據(jù)加知識(shí)驅(qū)動(dòng),最后實(shí)現(xiàn)通用人工智能。
正方 :
如果transformer結(jié)構(gòu)沒(méi)有數(shù)據(jù)的話(huà),你的模型參數(shù)怎么確定?你能一個(gè)結(jié)構(gòu)就能做成Sora那樣嗎?所以說(shuō)其實(shí)人工智能三起兩落,那兩落大家現(xiàn)在看來(lái)都是因?yàn)闆](méi)有走純數(shù)據(jù)驅(qū)動(dòng)的方式,所以我們現(xiàn)在大家坐在一起討論就是因?yàn)橛辛思償?shù)據(jù)驅(qū)動(dòng)的Sora,要不然我們沒(méi)有討論這個(gè)的意義。
還有剛才很多老師提了計(jì)算效率的問(wèn)題,現(xiàn)在純數(shù)據(jù)驅(qū)動(dòng)一個(gè)典型方法機(jī)器學(xué)習(xí),其實(shí)考慮的就是泛化性,考慮樣本有效性,你能說(shuō)他沒(méi)有考慮真正的計(jì)算資源該怎么在有限的情況下去計(jì)算?而且以后可能會(huì)有更大的突破。
我們考慮的是未來(lái),我們考慮未來(lái)能不能去實(shí)現(xiàn),那么人類(lèi)其實(shí)就是通過(guò)觀(guān)察數(shù)據(jù),包括剛才提到的因果,其實(shí)也是數(shù)據(jù),反事實(shí)數(shù)據(jù),還有干預(yù)數(shù)據(jù),通過(guò)數(shù)據(jù)我們得到一些知識(shí)。
我們?cè)谟懻撨@個(gè)問(wèn)題的時(shí)候,其實(shí)最重要的不是人工智能怎么更強(qiáng),而是我們?cè)趺锤斯ぶ悄芤黄鹑ズ椭C共生。那么既然我們處理數(shù)據(jù),我們?nèi)祟?lèi)不如計(jì)算機(jī),為什么我們不讓計(jì)算機(jī)用 AI 去處理,而我們?nèi)祟?lèi)去處理一些規(guī)則,處理一些公式,處理一些定理,那所以說(shuō)我們覺(jué)得純數(shù)據(jù)驅(qū)動(dòng)是實(shí)現(xiàn)人工智能,包括有溫度的人工智能的一個(gè)最終的愿景。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))雷峰網(wǎng)雷峰網(wǎng)
大家怎么看?
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。