0
導語:知識與智能是兩個概念。
訪談 | 陳彩嫻
撰文丨馬蕊蕾
編輯丨陳彩嫻
當多數(shù)人將 Scaling Law(規(guī)模定律)作為信仰并投身其中時,馬毅卻選擇了一條少有人走的路。
「模型無所謂大小,我們說正確的模型,主要看機制是否正確,這才是智能的本質?!?/p>
在他看來,真正的智能不應該僅僅是數(shù)據(jù)和算力的堆砌,而應該是更深層次的理解——其中包括對數(shù)據(jù)壓縮、模式識別和自主學習的深刻洞察。
作為計算機視覺領域的知名學者,馬毅目前擔任香港大學計算機系主任和數(shù)據(jù)科學研究院院長。加入香港大學之前,他還是加州大學伯克利分校電子工程與計算機系教授。
2023 年 6 月,馬毅教授帶領的團隊開創(chuàng)性地提出了一種「白盒」Transformer 構架——CRATE,能在保持模型良好性能的同時,大大增強模型的可解釋性,試圖解決現(xiàn)有深度學習模型普遍難以解釋的「黑盒」問題。
同年 9 月,馬毅創(chuàng)立「憶生科技」。馬毅認為人的記憶就是對世界的建模,「憶生」就是「記憶生成」的縮寫 ?!鸽m然記憶本身是死的,但生成可以是活的?!?/p>
在談及 AGI 時,他拋出一個問題:GPT-4 和剛出生的嬰兒,誰更有知識?誰更有智能?
在他看來,知識和智能的概念被混淆了?!钢悄苁谦@取新知識、改進舊知識的能力,知識只是智能系統(tǒng)活動的結果積累?!?/p>
他認為,GPT-4就像一座圖書館,它更有知識但沒有智能;而剛出生的嬰兒雖然知識少、但更有智能,因為他們可以把現(xiàn)有知識中不足的地方加以自主學習。DNA 是基礎,后天的適應才是真正智能最高形式的體現(xiàn)。
沒有人能說出真理是什么,但每個人都能說出自己認為的真理。在這場洶涌的浪潮中,在少有人相信的道路上,馬毅認為我們對于智能的理解其實才剛剛開始,還有很長的路要走。
以下是 AI 科技評論的訪談實錄,作者進行了不改原意的編輯整理:
黑盒模型的研究瓶頸與創(chuàng)業(yè)動機
AI 科技評論:當前大模型的研究路徑以黑盒模型為主,通過堆積參數(shù)來實現(xiàn)模型的智能水平。您怎么看待這條技術路線?
馬毅:雖然大家還在相信 Scaling Law,但至少在視覺和自然語言的結合方面,Scaling Law 技術路線已經遇到了瓶頸。
比如我們與謝賽寧、Yann LeCun 等人合作的、在今年 CVPR 上也會重點做 oral 報告的工作(如下),我們就發(fā)現(xiàn),基于 Transformer 開發(fā)的黑盒視覺語言大模型如 GPT-4V 在九個基礎視覺任務上存在系統(tǒng)性缺陷。多模態(tài)又是 AI 的未來發(fā)展方向。
論文地址:https://arxiv.org/pdf/2401.06209
目前很多技術模型,實際上非常粗暴,甚至是一種相對原始的方法。擴展可以越多越好,但(我們)需要思考擴展的必要性以及能否找到正確的系統(tǒng)來擴展,這才是正確的理解 Scaling Law,而不是不計成本和效率地去擴展。
為什么我們要擴展正確的模型?因為 Transformer 的「黑盒」是經驗設計的方式,我們很難了解它的利用率,所以我們要通過訓練一系列的深度網(wǎng)絡來 Transformer 這樣的黑盒模型工作的原理。
但我們其實可以采用一種更為合理的方式去優(yōu)化。有一個詞叫「Minimonistic Approach」(最小化方法),即用最簡約的方法來設計模型,最后訓練得到的模型,其可解釋性和可控性也能得到提升。
AI 科技評論:在這一波浪潮里,您以前任職的伯克利大學(UC Berkeley)在大模型方面產出了很多杰出成果。
馬毅:頂尖院校一般都會在現(xiàn)有的技術上做一些領先的工作,比如 Sora 的團隊研發(fā)負責人也是伯克利人工智能專業(yè)的畢業(yè)生。
在工業(yè)界,你要把事情做得越來越「好」,而在學術界你要把事情做得越來越「對」。兩者的分工是有區(qū)分的。
目前許多高校的老師很迷茫,認為學校沒有資源、沒有數(shù)據(jù)、沒有算力甚至沒有人才,好像就無法參與 AGI 或大模型的研究。但說實話,我們對于智能的理解其實才剛剛開始,還有很長的路要走。
AI 科技評論:我聽說了一個有趣的數(shù)據(jù),去年伯克利畢業(yè)了大約 30 位 AI 博士生,超過 90% 的學生都去了 OpenAI?,F(xiàn)在 AI 人才都往工業(yè)界發(fā)展了。
馬毅:在過去,AI 畢業(yè)生去工業(yè)界的薪資可能只是學術界的 2-3 倍,但現(xiàn)在基本接近 10 倍,這對年輕人很大的誘惑。現(xiàn)在去學術界需要一點情懷。
但院校也是一個能驗證 AI 想法的好地方,比如近幾年視覺領域兩個奠基性的工作——NeRF 與 Diffusion Model,就是在伯克利誕生的 。
如果想產生好的效果,工業(yè)界是一個好去處。
像神經網(wǎng)絡,一開始訓練一個模型需要好幾天,初期也只有學術價值,但英偉達這些公司用大量的卡堆,很快就將過去十年同等規(guī)模的模型訓練時間縮短到幾分鐘甚至幾秒鐘。擴散模型也是,前期好幾撥人都沒做起來,最后 Stability AI 花了幾千萬美元做出 Midjourney,就把它的潛質放大出來,讓大家看到了效果。
這也是我選擇創(chuàng)業(yè)的原因之一。
白盒理論的探索與實踐
AI 科技評論:您的白盒理論有「4C」,Consistent(一致性)、Controllable(可控性)、Correct(正確性),還有一個 C 是什么?
馬毅:還有一個「Complete」(完備性)。
Consistent 是說人對世界的理解要與物理世界保持一致,AI 模型也同樣如此。比如,我們對特定場景的理解,看完場景后、閉上眼睛想一遍,再畫出來的場景和現(xiàn)有場景一定是一致的。就像我眼前有兩個背包,你看到的和與閉眼畫出來的一定是「兩個」背包。如果不一致,我們就會做糾錯。
「畫」就是生成。2022 年以來文生圖、文生視頻很火,但生成具體的細節(jié)是很難的。想要生出更細節(jié)、更可控的內容,就是 Controllable。
接下來是 Correct,人對系統(tǒng)的理解要正確。如果我們要擴展一個系統(tǒng),就要擴展一個正確的系統(tǒng),這個系統(tǒng)不能是黑盒子,Correct 是要實現(xiàn)網(wǎng)絡結構。
Complete是在 Correct 的基礎上更上一個層次,實現(xiàn)有關現(xiàn)有系統(tǒng)的完整性。雖然我們的記憶是一個完整的系統(tǒng),既能識別,也能預測,但現(xiàn)在黑盒模型的實驗系統(tǒng)只是我們記憶系統(tǒng)的一部分,并不完整。怎么實現(xiàn)一個完整的系統(tǒng)呢?這是一個問題,需要我們共同探究,但至少現(xiàn)有的系統(tǒng)還沒有達到 Complete 的層面。
AI 科技評論:您是哪一年提出白盒理論的?
馬毅:我們關于白盒理論的首個工作 ReduNet在 2021 年就發(fā)表在 NeurIPS 上,當時探討了有關編碼率減少度量信息增益的內容問題。
論文地址:https://arxiv.org/pdf/2105.10446
學習實際上是增大我們對世界的信息理解和獲取能力,學術里把它叫做「信息增益」( Information Gain)。這是一個非常客觀的量,體現(xiàn)你獲取的外部知識在內在大腦的表達中信息的爭議性有多大。如果你去優(yōu)化這個問題,神經網(wǎng)絡就在優(yōu)化這個量,你可以用目標函數(shù)從這個優(yōu)化算法里推導出來。這樣你就可以實現(xiàn)必要的知識,把冗余的東西全都去除。
我們主要是從概念和理論的基本算法上理解,現(xiàn)在也看到了白盒理論和擴散模型、Transformer 的聯(lián)系。目前我們的理論框架的高效性和有效性都得到了驗證,但一直講理論其實很難說服別人,很多人不太熟悉數(shù)學的概念,只有把它實現(xiàn)到一定規(guī)模、得到驗證,才能讓大家信服。
所以,目前在智能領域,雖然規(guī)模是有效的,但是去擴展正確的系統(tǒng),才是 Scaling Law 真正的骸骨。
你要真的了解系統(tǒng),知道哪個系統(tǒng)比較正確、或更具性價比,才去進行擴展。我個人認為,我們需要先看到一些更加可控的、可解釋的甚至更完整的系統(tǒng),再去研究它的下一步,看是否能把該系統(tǒng)工程化的實現(xiàn),做出完整的自主型系統(tǒng)。
AI 科技評論:您的團隊在白盒理論研究中的代表作是 CRATE 嗎?目前它在實際應用中有什么優(yōu)勢和挑戰(zhàn)?
馬毅:目前 CRATE 是讓公眾看到這套框架從算法層面推導的過程、去噪擴散模型、與神經網(wǎng)絡架構之間的聯(lián)系。目前我們可以對現(xiàn)有的很多監(jiān)督和非監(jiān)督學習的框架做得更加高效,一旦了解這個原理可以解釋現(xiàn)有的方法都在做什么,那我們就可以棄之而不顧去設計更高效的系統(tǒng)。
現(xiàn)在 CRATE 面臨的只是時間和資源的問題。在 Transformer 已經實現(xiàn)的場景下,我們能做的基本上都測試了,比如Bert、 MAE、GPT 等。所有的 Transformer 用到的場景,我們都能跟它接近,甚至是超過他們。在初期,確實只能先從這些有限的場景來驗證我們的方法是正確的、并且模型是高效的。
AI 科技評論:業(yè)內也有關于取代 Transformer 的討論,一些團隊提出了跟 Transformer 不同的架構。您怎么看這些架構?
馬毅: 目前很多是在某一些任務上相對有效果,但并沒有證明這個架構很通用。即使你覺得它的效率更高,你也不知道原因。也就是說,這些架構都沒有脫離黑盒模型的范式。
深度網(wǎng)絡本身不是目的, 只是我們實現(xiàn)智能目標的手段而已,為了我們增加獲取外部世界的信息。
最近我們有個工作還沒完全公開,是有關根據(jù)白盒框架可以推導出注意力機制(Attention)的。Transformer 層面比較貴,如果你的長度是 n 個 token,它的復雜度就是 n 的平方,或者你的特征尺寸是 d,它就是 d 的平方。所以模型復雜度比較高的同時、也會影響它的規(guī)模,這就是為什么現(xiàn)在大模型需要很多卡的原因(更多信息可以閱讀 AI 科技評論以往報道:《誰將替代 Transformer?》)。
實際上這件事情(投入大量卡)又不是必要的。我們現(xiàn)在的白盒工作在計算上完全可以實現(xiàn)線性復雜,跟 Mamba 等架構有同樣的選擇。但是跟它們不一樣的是,我們推導出了模型的背后工作原理,并且知道一個模型的組成部分是完全可以完成它所設計的目標。
AI 科技評論: 您目前對于白盒理論從理論到落地的規(guī)劃是什么?
馬毅:過去幾年,我們的(白盒)理論框架開發(fā)了一些算法,雖然比較基礎,但在這個理論框架的指導下,我們已經能很好地提高模型訓練的效率,甚至找到更完整系統(tǒng)的方法。我個人認為,至少在概念和驗證的層面,我們能從學術上做的事情基本上都做到了,包括理論保障和算法設計,分析的也非常完整。
那么下一部分,可能就需要比較規(guī)范的工程化和規(guī)模化的驗證了。在一些真實的應用層面上,把這些新方法的價值展現(xiàn)出來,因為這些價值只能通過更大的規(guī)模去驗證,才能讓公眾更好的看到它們的價值潛力。
在更大規(guī)模的視覺理解層面上,它的潛力至少是大腦的記憶模型,包括記憶如何生存、改進以及提高,從而把它做成一個完整的生成記憶的系統(tǒng)。
「智能」不等同于「知識」
AI 科技評論:您認可 AGI 這個詞嗎?
馬毅:一個系統(tǒng)「有知識」和「有智能」,是兩個概念。
智能是獲取新知識,改進舊知識的能力,知識只是智能系統(tǒng)這個活動的結果積累,就像人類的知識是我們這么多人大腦的積累。智能的本質是生存記憶,找到這個世界可控和可預測的規(guī)律,不斷進行改進和增加新的知識進來。知識是積分,智能是微分,知識是可以大家一起來積累的。
我經常舉例子,GPT-4和一個出生的嬰兒,誰更有知識?誰更有智能?GPT-4就像一座圖書館,它更有知識但沒有智能,但剛出生的嬰兒卻有可能是下一個愛因斯坦,因為他們可以把現(xiàn)有知識中不足的地方加以自主學習,這才是智能的本質。
再看一個簡單的現(xiàn)象,我們認為智能越高級的動物越不依賴于我們 DNA 傳承的東西。如果你認為“智力”越多,越依賴于靠記憶和純粹的死記硬背,這是“智能”的話,那么人的“智能”是非常少的。你會發(fā)現(xiàn)越高級的智能,它學習時長也就越長,從而獲取知識的能力就越強。DNA 是一個基礎,但它后天的適應才是真正智能最高形式的體現(xiàn)。
AI 科技評論:現(xiàn)在國內面壁智能、國外 Mistral 等團隊從 Scaling Law 入手,也能將曲線不斷往回移,提高模型的計算效率,您怎么看?
馬毅: 目前大家普遍用經驗在做嘗試,沒有比較完善和清晰的理論來做指導,試錯時間會比較長。像現(xiàn)在流行的 MoE(Mixture of Experts)技術,它的框架用白盒理論能推導出來,其實就是殘差神經網(wǎng)絡(ResNet)在優(yōu)化信息爭議的過程中自然會推導出來的結構,每一層都會有多個途徑。
我們的 CRATE 也是同樣類似的結構,大家嘗試出來和推導出來的都是一樣的,試出來有它的道理,但是如果有原理,你就可以了解出現(xiàn)的原因。大家目前還是在遵循 Transformer 的思路,所以在尋找新架構的時候沒有理論的指引,就會缺乏自信。
從 19 世紀 40 年代到 80 年代的人工智能歷史,其實有很多人是不太了解的。正是因為目前我們對這些歷史概念梳理的缺失,才導致很多概念雖然被重塑了,但還是缺少了系統(tǒng)性和連貫性。不是提出一個概念,這個技術就是我發(fā)明的,因為到目前為止這個世界還沒有發(fā)現(xiàn)這種新鮮事。
過去十年,大家雖然看到技術蓬勃發(fā)展,但實際上沒有什么新概念,甚至很多概念都混淆了。我們做學問的人要把歷史概念梳理清楚,讓大家知道事物發(fā)展的過程和傳承,這樣歷史上得到的很多深入的教訓和知識,才能更好地實現(xiàn)。這是現(xiàn)在我們還沒做到的,我們必須得承認。
AI 科技評論:目前除了算法層,底層計算層也出現(xiàn)了許多圍繞英偉達 GPU 生態(tài)改善的創(chuàng)業(yè)公司,比如 Groq、 OpenAI 投的芯片公司 Cerebras System 等。如果大模型的耗能問題解決,那么白盒理論的研究價值是否會受到挑戰(zhàn)?
馬毅:完全不會。芯片領域的這一進展恰恰是我們所希望看到的。
大家往往認為智能在做一件很了不起或者很復雜的事情,但其實不是,智能應該是以最小的代價把最容易的事情先做好。最早圖靈時代,試圖設計一個信息機器去計算世界上所有可算的東西,實際上我們生存所用的功能是很有限的。后來發(fā)現(xiàn)很多是很難被計算的,因為它們沒有交互性,所以才有 P 問題(Polynomial Problem)和 NP 問題(Non-deterministic Polynomial Problem)的區(qū)別。
現(xiàn)在我們的生物是要從海量高維數(shù)據(jù)當中去提煉它可預期的規(guī)律,像二階復雜度、三階復雜度和高階復雜度,雖然都是多項式,但都是用不了的。這樣高維的數(shù)據(jù)、圖像和聲音,必須要非??蓴U展的算法。自然界的優(yōu)化一定不是用全面優(yōu)化的方法,而是用非常局部的增量優(yōu)化的方法。
所以,真正的智能所需要的計算實際上是非常高效和簡潔的,我們的白盒理論就是要告訴大家什么樣的計算是智能真正需要的,把黑盒理論當中不必要的冗余全部舍去。
我不做芯片,但我相信現(xiàn)在通用機器的 GPU 有點大材小用,完全不是智能本身所需要的東西。所以現(xiàn)在我們這套白盒理論就是告訴大家,哪些是最本質需要的,只需要實現(xiàn)智能系統(tǒng)真正所需要的計算進行優(yōu)化就好了。智能就是先把最容易、最好解的、對生存最有利的東西,用最小的代價先把它最大規(guī)模的實現(xiàn)了,然后再逐步的往上近一步的去解決其他的問題。
AI 科技評論:您在做一件蠻大膽的事情,賠率很高,如果一旦成功就會直接推翻現(xiàn)有的所有工作。
馬毅:我覺得學校就應該做這種事情。第一,正確理解模型的理論,理解模型 work 的原因、還能有哪些創(chuàng)新等等。第二,把理論簡化或者統(tǒng)一,把現(xiàn)有的不高效的點做成一個經驗方法的歸納。
現(xiàn)在通過大量經驗找到的方法也有它的道理,但你需要把它本質的道理和原因搞明白才能看見未來。所以理論本身并不是目的,也不一定要去顛覆,而是為了簡化,去幫助大家通過演繹的方法來預測未來怎么改進。
(雷峰網(wǎng))
(雷峰網(wǎng)(公眾號:雷峰網(wǎng)))
雷峰網(wǎng)原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。