丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給馬蕊蕾
發(fā)送

0

港大馬毅:現(xiàn)在的大模型只有「知識」,沒有「智能」

本文作者: 馬蕊蕾 2024-07-09 15:31
導(dǎo)語:導(dǎo)語:知識與智能是兩個概念。

港大馬毅:現(xiàn)在的大模型只有「知識」,沒有「智能」

導(dǎo)語:知識與智能是兩個概念。


訪談 | 陳彩嫻

撰文丨馬蕊蕾

編輯丨陳彩嫻


當(dāng)多數(shù)人將 Scaling Law(規(guī)模定律)作為信仰并投身其中時,馬毅卻選擇了一條少有人走的路。

「模型無所謂大小,我們說正確的模型,主要看機(jī)制是否正確,這才是智能的本質(zhì)?!?/p>

在他看來,真正的智能不應(yīng)該僅僅是數(shù)據(jù)和算力的堆砌,而應(yīng)該是更深層次的理解——其中包括對數(shù)據(jù)壓縮、模式識別和自主學(xué)習(xí)的深刻洞察。

作為計(jì)算機(jī)視覺領(lǐng)域的知名學(xué)者,馬毅目前擔(dān)任香港大學(xué)計(jì)算機(jī)系主任和數(shù)據(jù)科學(xué)研究院院長。加入香港大學(xué)之前,他還是加州大學(xué)伯克利分校電子工程與計(jì)算機(jī)系教授。

2023 年 6 月,馬毅教授帶領(lǐng)的團(tuán)隊(duì)開創(chuàng)性地提出了一種「白盒」Transformer 構(gòu)架——CRATE,能在保持模型良好性能的同時,大大增強(qiáng)模型的可解釋性,試圖解決現(xiàn)有深度學(xué)習(xí)模型普遍難以解釋的「黑盒」問題。

同年 9 月,馬毅創(chuàng)立「憶生科技」。馬毅認(rèn)為人的記憶就是對世界的建模,「憶生」就是「記憶生成」的縮寫 ?!鸽m然記憶本身是死的,但生成可以是活的。」

在談及 AGI 時,他拋出一個問題:GPT-4 和剛出生的嬰兒,誰更有知識?誰更有智能?

在他看來,知識和智能的概念被混淆了?!钢悄苁谦@取新知識、改進(jìn)舊知識的能力,知識只是智能系統(tǒng)活動的結(jié)果積累?!?/p>

他認(rèn)為,GPT-4就像一座圖書館,它更有知識但沒有智能;而剛出生的嬰兒雖然知識少、但更有智能,因?yàn)樗麄兛梢园熏F(xiàn)有知識中不足的地方加以自主學(xué)習(xí)。DNA 是基礎(chǔ),后天的適應(yīng)才是真正智能最高形式的體現(xiàn)。

沒有人能說出真理是什么,但每個人都能說出自己認(rèn)為的真理。在這場洶涌的浪潮中,在少有人相信的道路上,馬毅認(rèn)為我們對于智能的理解其實(shí)才剛剛開始,還有很長的路要走。

以下是 AI 科技評論的訪談實(shí)錄,作者進(jìn)行了不改原意的編輯整理:

黑盒模型的研究瓶頸與創(chuàng)業(yè)動機(jī)

AI 科技評論:當(dāng)前大模型的研究路徑以黑盒模型為主,通過堆積參數(shù)來實(shí)現(xiàn)模型的智能水平。您怎么看待這條技術(shù)路線?

馬毅:雖然大家還在相信 Scaling Law,但至少在視覺和自然語言的結(jié)合方面,Scaling Law 技術(shù)路線已經(jīng)遇到了瓶頸。

比如我們與謝賽寧、Yann LeCun 等人合作的、在今年 CVPR 上也會重點(diǎn)做 oral 報(bào)告的工作(如下),我們就發(fā)現(xiàn),基于 Transformer 開發(fā)的黑盒視覺語言大模型如 GPT-4V 在九個基礎(chǔ)視覺任務(wù)上存在系統(tǒng)性缺陷。多模態(tài)又是 AI 的未來發(fā)展方向。

港大馬毅:現(xiàn)在的大模型只有「知識」,沒有「智能」

論文地址:https://arxiv.org/pdf/2401.06209

目前很多技術(shù)模型,實(shí)際上非常粗暴,甚至是一種相對原始的方法。擴(kuò)展可以越多越好,但(我們)需要思考擴(kuò)展的必要性以及能否找到正確的系統(tǒng)來擴(kuò)展,這才是正確的理解 Scaling Law,而不是不計(jì)成本和效率地去擴(kuò)展。

為什么我們要擴(kuò)展正確的模型?因?yàn)?Transformer 的「黑盒」是經(jīng)驗(yàn)設(shè)計(jì)的方式,我們很難了解它的利用率,所以我們要通過訓(xùn)練一系列的深度網(wǎng)絡(luò)來 Transformer 這樣的黑盒模型工作的原理。

但我們其實(shí)可以采用一種更為合理的方式去優(yōu)化。有一個詞叫「Minimonistic Approach」(最小化方法),即用最簡約的方法來設(shè)計(jì)模型,最后訓(xùn)練得到的模型,其可解釋性和可控性也能得到提升。

AI 科技評論:在這一波浪潮里,您以前任職的伯克利大學(xué)(UC Berkeley)在大模型方面產(chǎn)出了很多杰出成果。

馬毅:頂尖院校一般都會在現(xiàn)有的技術(shù)上做一些領(lǐng)先的工作,比如 Sora 的團(tuán)隊(duì)研發(fā)負(fù)責(zé)人也是伯克利人工智能專業(yè)的畢業(yè)生。

在工業(yè)界,你要把事情做得越來越「好」,而在學(xué)術(shù)界你要把事情做得越來越「對」。兩者的分工是有區(qū)分的。

目前許多高校的老師很迷茫,認(rèn)為學(xué)校沒有資源、沒有數(shù)據(jù)、沒有算力甚至沒有人才,好像就無法參與 AGI 或大模型的研究。但說實(shí)話,我們對于智能的理解其實(shí)才剛剛開始,還有很長的路要走。

AI 科技評論:我聽說了一個有趣的數(shù)據(jù),去年伯克利畢業(yè)了大約 30 位 AI 博士生,超過 90% 的學(xué)生都去了 OpenAI?,F(xiàn)在 AI 人才都往工業(yè)界發(fā)展了。

馬毅:在過去,AI 畢業(yè)生去工業(yè)界的薪資可能只是學(xué)術(shù)界的 2-3 倍,但現(xiàn)在基本接近 10 倍,這對年輕人很大的誘惑?,F(xiàn)在去學(xué)術(shù)界需要一點(diǎn)情懷。

但院校也是一個能驗(yàn)證 AI 想法的好地方,比如近幾年視覺領(lǐng)域兩個奠基性的工作——NeRF 與 Diffusion Model,就是在伯克利誕生的 。

如果想產(chǎn)生好的效果,工業(yè)界是一個好去處。

像神經(jīng)網(wǎng)絡(luò),一開始訓(xùn)練一個模型需要好幾天,初期也只有學(xué)術(shù)價(jià)值,但英偉達(dá)這些公司用大量的卡堆,很快就將過去十年同等規(guī)模的模型訓(xùn)練時間縮短到幾分鐘甚至幾秒鐘。擴(kuò)散模型也是,前期好幾撥人都沒做起來,最后 Stability AI 花了幾千萬美元做出 Midjourney,就把它的潛質(zhì)放大出來,讓大家看到了效果。

這也是我選擇創(chuàng)業(yè)的原因之一。

白盒理論的探索與實(shí)踐

AI 科技評論:您的白盒理論有「4C」,Consistent(一致性)、Controllable(可控性)、Correct(正確性),還有一個 C 是什么?

馬毅:還有一個「Complete」(完備性)。

Consistent 是說人對世界的理解要與物理世界保持一致,AI 模型也同樣如此。比如,我們對特定場景的理解,看完場景后、閉上眼睛想一遍,再畫出來的場景和現(xiàn)有場景一定是一致的。就像我眼前有兩個背包,你看到的和與閉眼畫出來的一定是「兩個」背包。如果不一致,我們就會做糾錯。

「畫」就是生成。2022 年以來文生圖、文生視頻很火,但生成具體的細(xì)節(jié)是很難的。想要生出更細(xì)節(jié)、更可控的內(nèi)容,就是 Controllable。

接下來是 Correct,人對系統(tǒng)的理解要正確。如果我們要擴(kuò)展一個系統(tǒng),就要擴(kuò)展一個正確的系統(tǒng),這個系統(tǒng)不能是黑盒子,Correct 是要實(shí)現(xiàn)網(wǎng)絡(luò)結(jié)構(gòu)。

Complete是在 Correct 的基礎(chǔ)上更上一個層次,實(shí)現(xiàn)有關(guān)現(xiàn)有系統(tǒng)的完整性。雖然我們的記憶是一個完整的系統(tǒng),既能識別,也能預(yù)測,但現(xiàn)在黑盒模型的實(shí)驗(yàn)系統(tǒng)只是我們記憶系統(tǒng)的一部分,并不完整。怎么實(shí)現(xiàn)一個完整的系統(tǒng)呢?這是一個問題,需要我們共同探究,但至少現(xiàn)有的系統(tǒng)還沒有達(dá)到 Complete 的層面。

AI 科技評論:您是哪一年提出白盒理論的?

馬毅:我們關(guān)于白盒理論的首個工作 ReduNet在 2021 年就發(fā)表在 NeurIPS 上,當(dāng)時探討了有關(guān)編碼率減少度量信息增益的內(nèi)容問題。

港大馬毅:現(xiàn)在的大模型只有「知識」,沒有「智能」

論文地址:https://arxiv.org/pdf/2105.10446

學(xué)習(xí)實(shí)際上是增大我們對世界的信息理解和獲取能力,學(xué)術(shù)里把它叫做「信息增益」( Information Gain)。這是一個非??陀^的量,體現(xiàn)你獲取的外部知識在內(nèi)在大腦的表達(dá)中信息的爭議性有多大。如果你去優(yōu)化這個問題,神經(jīng)網(wǎng)絡(luò)就在優(yōu)化這個量,你可以用目標(biāo)函數(shù)從這個優(yōu)化算法里推導(dǎo)出來。這樣你就可以實(shí)現(xiàn)必要的知識,把冗余的東西全都去除。

我們主要是從概念和理論的基本算法上理解,現(xiàn)在也看到了白盒理論和擴(kuò)散模型、Transformer 的聯(lián)系。目前我們的理論框架的高效性和有效性都得到了驗(yàn)證,但一直講理論其實(shí)很難說服別人,很多人不太熟悉數(shù)學(xué)的概念,只有把它實(shí)現(xiàn)到一定規(guī)模、得到驗(yàn)證,才能讓大家信服。

所以,目前在智能領(lǐng)域,雖然規(guī)模是有效的,但是去擴(kuò)展正確的系統(tǒng),才是 Scaling Law 真正的骸骨。

你要真的了解系統(tǒng),知道哪個系統(tǒng)比較正確、或更具性價(jià)比,才去進(jìn)行擴(kuò)展。我個人認(rèn)為,我們需要先看到一些更加可控的、可解釋的甚至更完整的系統(tǒng),再去研究它的下一步,看是否能把該系統(tǒng)工程化的實(shí)現(xiàn),做出完整的自主型系統(tǒng)。

AI 科技評論:您的團(tuán)隊(duì)在白盒理論研究中的代表作是 CRATE 嗎?目前它在實(shí)際應(yīng)用中有什么優(yōu)勢和挑戰(zhàn)?

馬毅:目前 CRATE 是讓公眾看到這套框架從算法層面推導(dǎo)的過程、去噪擴(kuò)散模型、與神經(jīng)網(wǎng)絡(luò)架構(gòu)之間的聯(lián)系。目前我們可以對現(xiàn)有的很多監(jiān)督和非監(jiān)督學(xué)習(xí)的框架做得更加高效,一旦了解這個原理可以解釋現(xiàn)有的方法都在做什么,那我們就可以棄之而不顧去設(shè)計(jì)更高效的系統(tǒng)。

現(xiàn)在 CRATE 面臨的只是時間和資源的問題。在 Transformer 已經(jīng)實(shí)現(xiàn)的場景下,我們能做的基本上都測試了,比如Bert、 MAE、GPT 等。所有的 Transformer 用到的場景,我們都能跟它接近,甚至是超過他們。在初期,確實(shí)只能先從這些有限的場景來驗(yàn)證我們的方法是正確的、并且模型是高效的。

AI 科技評論:業(yè)內(nèi)也有關(guān)于取代 Transformer 的討論,一些團(tuán)隊(duì)提出了跟 Transformer 不同的架構(gòu)。您怎么看這些架構(gòu)?

馬毅: 目前很多是在某一些任務(wù)上相對有效果,但并沒有證明這個架構(gòu)很通用。即使你覺得它的效率更高,你也不知道原因。也就是說,這些架構(gòu)都沒有脫離黑盒模型的范式。

深度網(wǎng)絡(luò)本身不是目的, 只是我們實(shí)現(xiàn)智能目標(biāo)的手段而已,為了我們增加獲取外部世界的信息。

最近我們有個工作還沒完全公開,是有關(guān)根據(jù)白盒框架可以推導(dǎo)出注意力機(jī)制(Attention)的。Transformer 層面比較貴,如果你的長度是 n 個 token,它的復(fù)雜度就是 n 的平方,或者你的特征尺寸是 d,它就是 d 的平方。所以模型復(fù)雜度比較高的同時、也會影響它的規(guī)模,這就是為什么現(xiàn)在大模型需要很多卡的原因(更多信息可以閱讀 AI 科技評論以往報(bào)道:《誰將替代 Transformer?》)。

實(shí)際上這件事情(投入大量卡)又不是必要的。我們現(xiàn)在的白盒工作在計(jì)算上完全可以實(shí)現(xiàn)線性復(fù)雜,跟 Mamba 等架構(gòu)有同樣的選擇。但是跟它們不一樣的是,我們推導(dǎo)出了模型的背后工作原理,并且知道一個模型的組成部分是完全可以完成它所設(shè)計(jì)的目標(biāo)。

AI 科技評論: 您目前對于白盒理論從理論到落地的規(guī)劃是什么?

馬毅:過去幾年,我們的(白盒)理論框架開發(fā)了一些算法,雖然比較基礎(chǔ),但在這個理論框架的指導(dǎo)下,我們已經(jīng)能很好地提高模型訓(xùn)練的效率,甚至找到更完整系統(tǒng)的方法。我個人認(rèn)為,至少在概念和驗(yàn)證的層面,我們能從學(xué)術(shù)上做的事情基本上都做到了,包括理論保障和算法設(shè)計(jì),分析的也非常完整。

那么下一部分,可能就需要比較規(guī)范的工程化和規(guī)?;尿?yàn)證了。在一些真實(shí)的應(yīng)用層面上,把這些新方法的價(jià)值展現(xiàn)出來,因?yàn)檫@些價(jià)值只能通過更大的規(guī)模去驗(yàn)證,才能讓公眾更好的看到它們的價(jià)值潛力。

在更大規(guī)模的視覺理解層面上,它的潛力至少是大腦的記憶模型,包括記憶如何生存、改進(jìn)以及提高,從而把它做成一個完整的生成記憶的系統(tǒng)。

「智能」不等同于「知識」

AI 科技評論:您認(rèn)可 AGI 這個詞嗎?

馬毅:一個系統(tǒng)「有知識」和「有智能」,是兩個概念。

智能是獲取新知識,改進(jìn)舊知識的能力,知識只是智能系統(tǒng)這個活動的結(jié)果積累,就像人類的知識是我們這么多人大腦的積累。智能的本質(zhì)是生存記憶,找到這個世界可控和可預(yù)測的規(guī)律,不斷進(jìn)行改進(jìn)和增加新的知識進(jìn)來。知識是積分,智能是微分,知識是可以大家一起來積累的。

我經(jīng)常舉例子,GPT-4和一個出生的嬰兒,誰更有知識?誰更有智能?GPT-4就像一座圖書館,它更有知識但沒有智能,但剛出生的嬰兒卻有可能是下一個愛因斯坦,因?yàn)樗麄兛梢园熏F(xiàn)有知識中不足的地方加以自主學(xué)習(xí),這才是智能的本質(zhì)。

再看一個簡單的現(xiàn)象,我們認(rèn)為智能越高級的動物越不依賴于我們 DNA 傳承的東西。如果你認(rèn)為“智力”越多,越依賴于靠記憶和純粹的死記硬背,這是“智能”的話,那么人的“智能”是非常少的。你會發(fā)現(xiàn)越高級的智能,它學(xué)習(xí)時長也就越長,從而獲取知識的能力就越強(qiáng)。DNA 是一個基礎(chǔ),但它后天的適應(yīng)才是真正智能最高形式的體現(xiàn)。

AI 科技評論:現(xiàn)在國內(nèi)面壁智能、國外 Mistral 等團(tuán)隊(duì)從 Scaling Law 入手,也能將曲線不斷往回移,提高模型的計(jì)算效率,您怎么看?

馬毅: 目前大家普遍用經(jīng)驗(yàn)在做嘗試,沒有比較完善和清晰的理論來做指導(dǎo),試錯時間會比較長。像現(xiàn)在流行的 MoE(Mixture of Experts)技術(shù),它的框架用白盒理論能推導(dǎo)出來,其實(shí)就是殘差神經(jīng)網(wǎng)絡(luò)(ResNet)在優(yōu)化信息爭議的過程中自然會推導(dǎo)出來的結(jié)構(gòu),每一層都會有多個途徑。

我們的 CRATE 也是同樣類似的結(jié)構(gòu),大家嘗試出來和推導(dǎo)出來的都是一樣的,試出來有它的道理,但是如果有原理,你就可以了解出現(xiàn)的原因。大家目前還是在遵循 Transformer 的思路,所以在尋找新架構(gòu)的時候沒有理論的指引,就會缺乏自信。

從 19 世紀(jì) 40 年代到 80 年代的人工智能歷史,其實(shí)有很多人是不太了解的。正是因?yàn)槟壳拔覀儗@些歷史概念梳理的缺失,才導(dǎo)致很多概念雖然被重塑了,但還是缺少了系統(tǒng)性和連貫性。不是提出一個概念,這個技術(shù)就是我發(fā)明的,因?yàn)榈侥壳盀橹惯@個世界還沒有發(fā)現(xiàn)這種新鮮事。

過去十年,大家雖然看到技術(shù)蓬勃發(fā)展,但實(shí)際上沒有什么新概念,甚至很多概念都混淆了。我們做學(xué)問的人要把歷史概念梳理清楚,讓大家知道事物發(fā)展的過程和傳承,這樣歷史上得到的很多深入的教訓(xùn)和知識,才能更好地實(shí)現(xiàn)。這是現(xiàn)在我們還沒做到的,我們必須得承認(rèn)。

AI 科技評論:目前除了算法層,底層計(jì)算層也出現(xiàn)了許多圍繞英偉達(dá) GPU 生態(tài)改善的創(chuàng)業(yè)公司,比如 Groq、 OpenAI 投的芯片公司 Cerebras System 等。如果大模型的耗能問題解決,那么白盒理論的研究價(jià)值是否會受到挑戰(zhàn)?

馬毅:完全不會。芯片領(lǐng)域的這一進(jìn)展恰恰是我們所希望看到的。

大家往往認(rèn)為智能在做一件很了不起或者很復(fù)雜的事情,但其實(shí)不是,智能應(yīng)該是以最小的代價(jià)把最容易的事情先做好。最早圖靈時代,試圖設(shè)計(jì)一個信息機(jī)器去計(jì)算世界上所有可算的東西,實(shí)際上我們生存所用的功能是很有限的。后來發(fā)現(xiàn)很多是很難被計(jì)算的,因?yàn)樗鼈儧]有交互性,所以才有 P 問題(Polynomial Problem)和 NP 問題(Non-deterministic Polynomial Problem)的區(qū)別。

現(xiàn)在我們的生物是要從海量高維數(shù)據(jù)當(dāng)中去提煉它可預(yù)期的規(guī)律,像二階復(fù)雜度、三階復(fù)雜度和高階復(fù)雜度,雖然都是多項(xiàng)式,但都是用不了的。這樣高維的數(shù)據(jù)、圖像和聲音,必須要非??蓴U(kuò)展的算法。自然界的優(yōu)化一定不是用全面優(yōu)化的方法,而是用非常局部的增量優(yōu)化的方法。

所以,真正的智能所需要的計(jì)算實(shí)際上是非常高效和簡潔的,我們的白盒理論就是要告訴大家什么樣的計(jì)算是智能真正需要的,把黑盒理論當(dāng)中不必要的冗余全部舍去。

我不做芯片,但我相信現(xiàn)在通用機(jī)器的 GPU 有點(diǎn)大材小用,完全不是智能本身所需要的東西。所以現(xiàn)在我們這套白盒理論就是告訴大家,哪些是最本質(zhì)需要的,只需要實(shí)現(xiàn)智能系統(tǒng)真正所需要的計(jì)算進(jìn)行優(yōu)化就好了。智能就是先把最容易、最好解的、對生存最有利的東西,用最小的代價(jià)先把它最大規(guī)模的實(shí)現(xiàn)了,然后再逐步的往上近一步的去解決其他的問題。

AI 科技評論:您在做一件蠻大膽的事情,賠率很高,如果一旦成功就會直接推翻現(xiàn)有的所有工作。

馬毅:我覺得學(xué)校就應(yīng)該做這種事情。第一,正確理解模型的理論,理解模型 work 的原因、還能有哪些創(chuàng)新等等。第二,把理論簡化或者統(tǒng)一,把現(xiàn)有的不高效的點(diǎn)做成一個經(jīng)驗(yàn)方法的歸納。

現(xiàn)在通過大量經(jīng)驗(yàn)找到的方法也有它的道理,但你需要把它本質(zhì)的道理和原因搞明白才能看見未來。所以理論本身并不是目的,也不一定要去顛覆,而是為了簡化,去幫助大家通過演繹的方法來預(yù)測未來怎么改進(jìn)。

(雷峰網(wǎng)(公眾號:雷峰網(wǎng))

(雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

港大馬毅:現(xiàn)在的大模型只有「知識」,沒有「智能」

分享:
相關(guān)文章

主筆

有關(guān)智能硬件行業(yè)里扣人心弦的人與故事,歡迎添加微信rl0209-,期待和你交流。
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說