丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能開發(fā)者 正文
發(fā)私信給鄭佳美
發(fā)送

0

李飛飛最新思考:語言模型救不了機器人

本文作者: 鄭佳美   2025-11-18 11:59
導(dǎo)語:聊天模型卷不動未來,空間智能才是真正的戰(zhàn)場。

過去幾年里,AI 行業(yè)的節(jié)奏快得近乎失真。模型一次次刷新極限,產(chǎn)品迭代像在搶時間,討論從“推理成本”到“智能涌現(xiàn)”再到“AGI 時間表”,情緒在樂觀與焦慮之間來回擺動。

在這樣密集的技術(shù)周期里,很少有人愿意停下來思考一個更基本的問題:我們到底在追求怎樣的智能?語言之上,是否還有尚未被充分理解的能力?

一周前,李飛飛用一篇關(guān)于世界模型的長文把這個問題重新擺上了臺面,這篇文章沒有渲染革命,也沒有給出輕松的未來,它的分量在于指出當(dāng)下技術(shù)正在繞開的那些硬骨頭:空間理解、物理推理、具身行為以及真實世界的不確定性,這些長期被回避的難題在文中被逐一攤開,也迅速 AI 圈內(nèi)部關(guān)于世界模型的激烈討論。

一周后,李飛飛在最新的訪談再次提及那篇文章里尚未說盡的部分,把那些自己反復(fù)思考卻在長文里無法完全展開的問題細(xì)致拆解,從語言模型在世界理解上的結(jié)構(gòu)性短板,到三維空間在智能形成中扮演的基礎(chǔ)角色,再到機器人長期停滯背后那些難以繞過的現(xiàn)實條件,她都給出了更具體的解釋。

隨著這些碎片化的線索被重新理順,這次訪談本身也像是那篇長文的延續(xù)與補全,讓外界得以更清楚地看到她真正關(guān)注的技術(shù)方向以及其中的邏輯。

對此,AI 科技評論將訪談內(nèi)容做了不改變原意的編譯:

李飛飛最新思考:語言模型救不了機器人

從圖靈問題到深度學(xué)習(xí)的七十年

主持人:今天的嘉賓是李飛飛博士,被譽為 AI 教母。她一直是推動這場人工智能革命的關(guān)鍵人物,主導(dǎo)了許多重要突破。她牽頭創(chuàng)建了 ImageNet 數(shù)據(jù)集,提出了一個影響深遠(yuǎn)的觀點,也就是人工智能要變得更聰明,需要海量而干凈的標(biāo)注數(shù)據(jù)。這個數(shù)據(jù)集成為一個轉(zhuǎn)折點,為今天模型的訓(xùn)練方式和規(guī)?;於嘶A(chǔ)。她曾擔(dān)任谷歌云的首席 AI 科學(xué)家,參與并推動了早期多項重大技術(shù)的誕生。

她還在斯坦福大學(xué)領(lǐng)導(dǎo)人工智能實驗室,培養(yǎng)了很多頂尖人才。同時,她和同事共同創(chuàng)立了斯坦福以人為本人工智能研究所,這個機構(gòu)正深刻影響著未來 AI 的發(fā)展方向。她也曾在推特董事會任職,被《時代》雜志評為全球百位 AI 影響力人物,并入選聯(lián)合國顧問委員會。

李飛飛:謝謝,能來到這里我很開心。

主持人:我想先用一段評價來鋪墊一下背景?!哆B線》雜志說過,李飛飛是那一小群推動人工智能近年巨大進(jìn)步的科學(xué)家之一,這個群體小到用一張餐桌都能坐下。很多人叫你 AI 教母,還有一點和許多 AI 領(lǐng)域的領(lǐng)導(dǎo)者不同,你對 AI 充滿樂觀。你不認(rèn)為 AI 會取代人類,不會搶走所有工作,更不會帶來毀滅。所以我想先從這個問題開始,你覺得從長遠(yuǎn)看,AI 會怎樣影響人類。

李飛飛:我可能要先澄清一下,我不是烏托邦主義者。我并不是說 AI 不會對就業(yè)或社會產(chǎn)生影響。事實上,我更愿意把自己稱為人文主義者。我一直相信,AI 現(xiàn)在能做什么、未來能走多遠(yuǎn),都取決于我們,都取決于人類自己。

如果把視角放到人類文明的長河中來看,技術(shù)整體上始終是推動力。我們是一個天生愛創(chuàng)新的物種,從最早的文字記載直到今天,人類一直在不斷發(fā)明、不斷改進(jìn)工具。正是依靠這些,我們改善生活、提升工作方式、建設(shè)文明。

我堅信 AI 也是這條道路的一部分,這就是我保持樂觀的原因。不過任何技術(shù)都有兩面,如果我們作為物種、社會、社群、個人沒有做出正確選擇,也可能把事情帶到糟糕的方向。

我二十五年前就開始研究人工智能,過去二十年也在帶學(xué)生。幾乎每個從我實驗室畢業(yè)的學(xué)生,我都會提醒他們,你們研究的叫人工智能,可真正重要的部分從來不是人工,而是智能。

主持人:回到你剛才說的,AI 的未來走向取決于我們自己。你覺得我們需要做些什么,才能讓 AI 往正確的方向發(fā)展?我知道這是很難回答的問題,你有沒有一些建議?

李飛飛:我始終覺得,每個人都應(yīng)該做一個有責(zé)任感的個體。不管做什么,我們從小就教孩子要有責(zé)任心,作為成年人更要做到這一點。

無論你是在研發(fā)、部署還是使用 AI,甚至在技術(shù)越來越普及的情況下,大多數(shù)人都會在不同環(huán)節(jié)和 AI 打交道,都應(yīng)該帶著負(fù)責(zé)的態(tài)度,真正關(guān)心它的發(fā)展,而且是認(rèn)真地關(guān)心。

現(xiàn)在,每個人都需要關(guān)注 AI,因為它會影響你的生活、你的社區(qū)、整個社會,甚至影響下一代。以負(fù)責(zé)任的心態(tài)去面對 AI,是第一步,也是最重要的一步。

主持人:那在 ImageNet 出現(xiàn)之前,AI 的世界是什么樣的?你為什么要創(chuàng)建它?它是如何成為后續(xù)革命的分水嶺的?從那之后又發(fā)生了什么?

李飛飛:老實說,我有時會忘了,對大多數(shù)人來說 AI 還是件相對新的事情。我這一生幾乎都在做 AI,從十幾歲因為好奇心走進(jìn)這個領(lǐng)域,到今天它變成可能改變整個人類文明的技術(shù),我覺得這是非常幸運的事情。

不過嚴(yán)格來說,我不算第一代 AI 研究者。第一代 AI 要追溯到二十世紀(jì)五六十年代,甚至更早。在四十年代,Alan Turing 就已經(jīng)提出了一個相當(dāng)前瞻的問題,我們能不能造出會思考的機器?他還提出了一種測試方法,也就是對話形式的機器測試。按照這個標(biāo)準(zhǔn),我們現(xiàn)在確實已經(jīng)擁有能“對話”的機器了,不過那更像是一則具有啟發(fā)意義的小故事。

AI 真正作為一個學(xué)科起步是在五十年代,當(dāng)時的計算機科學(xué)家們聚在一起,討論如何用程序和算法做一些原本只有人類才能完成的認(rèn)知任務(wù)。

1956 年的達(dá)特茅斯會議被認(rèn)為是 AI 的正式誕生點,John McCarthy 教授在那次會議上第一次提出“人工智能”一詞。從五十年代到八十年代,是 AI 的早期探索期,出現(xiàn)了邏輯系統(tǒng)、專家系統(tǒng),也開始有了對神經(jīng)網(wǎng)絡(luò)的初步嘗試。

到了八十年代末、九十年代到二十一世紀(jì)初,機器學(xué)習(xí)開始興起,它把計算機編程和統(tǒng)計學(xué)習(xí)結(jié)合到一起,帶來了一個非常重要的理念,也就是單靠規(guī)則和程序,是無法讓機器擁有我們期望的那種龐大認(rèn)知能力的。

我們必須讓機器自己去學(xué)習(xí)模式。一旦它能學(xué)模式,就有希望延展能力。比如給它看三只貓,我們的目標(biāo)不是讓它認(rèn)出這三只,而是讓它能認(rèn)出接下來無數(shù)只貓。這種學(xué)習(xí)能力是人類和動物的基本能力,AI 也應(yīng)該具備這一點。

我在二十一世紀(jì)初正式進(jìn)入 AI 領(lǐng)域,2000 年在加州理工開始讀博士。我算是第一代機器學(xué)習(xí)研究者。當(dāng)時我們已經(jīng)開始學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)等概念,我在加州理工上的第一門課就是神經(jīng)網(wǎng)絡(luò),但學(xué)得非常吃力。當(dāng)時正好處在“AI 寒冬”的中間階段,公眾并不關(guān)注,資金也有限,但同時也有很多有意思的新想法不斷冒出來。

而我之所以后來能和現(xiàn)代 AI 的起點緊密聯(lián)系在一起,主要有兩個原因。第一是我選擇從視覺智能來切入 AI。人類本質(zhì)上是高度依賴視覺的生物,我們的大部分智能都建立在視覺感知和空間理解上,不只是一種語言能力,這兩者是相輔相成的。

所以在博士階段和職業(yè)生涯的早期,我和學(xué)生們一直在研究一個核心問題,就是物體識別。因為物體識別是理解世界的基礎(chǔ)。我們在現(xiàn)實中行動、觀察、推理、互動,很大程度上都是基于“物體”這個層級的。我們不會在每次操作時把世界拆成分子層面,比如拿起茶壺時,你不會想著這東西由很多碎片組成,而是直接把它當(dāng)作一個整體來互動。

但研究物體識別時,我們嘗試過各種數(shù)學(xué)模型,包括神經(jīng)網(wǎng)絡(luò)和貝葉斯網(wǎng)絡(luò),卻遇到了一個非常突出的瓶頸,就是數(shù)據(jù)不夠。那時整個領(lǐng)域大多把注意力放在模型本身上,可我漸漸意識到,人類的學(xué)習(xí)方式、甚至生物進(jìn)化,都是一種不斷吸收大量經(jīng)驗的過程。

人通過接觸海量經(jīng)歷不斷學(xué)習(xí),動物在進(jìn)化時也是不斷體驗世界。因此,我和學(xué)生漸漸意識到,讓 AI 真正“活”起來,有一個被忽略但極其關(guān)鍵的因素,就是大規(guī)模數(shù)據(jù)。

于是我們在 2006 年和 2007 年啟動了 ImageNet 項目。當(dāng)時我們非常有野心,想把互聯(lián)網(wǎng)上所有和物體相關(guān)的圖像都收集起來。當(dāng)然,那時候互聯(lián)網(wǎng)規(guī)模還遠(yuǎn)沒現(xiàn)在這么大,所以這個想法聽起來還算合理。放到今天,絕對不可能靠幾個學(xué)生和一個教授完成。

但我們真的做出來了。我們從互聯(lián)網(wǎng)上精挑細(xì)選了大約一千五百萬張圖像,借鑒了 WordNet 的體系,構(gòu)建了兩萬多個概念類別,最終形成了 ImageNet,并把它開源給全世界的研究者。我們還舉辦年度 ImageNet 挑戰(zhàn)賽,邀請大家一起參與,同時也繼續(xù)推進(jìn)自己的研究。

2012 年被很多人視為現(xiàn)代深度學(xué)習(xí)的起點。那一年 Geoff Hinton 教授帶領(lǐng)多倫多大學(xué)團隊參加 ImageNet 挑戰(zhàn),他們用 ImageNet 的大數(shù)據(jù)和兩塊英偉達(dá) GPU 訓(xùn)練出一個神經(jīng)網(wǎng)絡(luò)模型。雖然它沒有完全解決物體識別,但帶來了突破性的提升。

大數(shù)據(jù)、神經(jīng)網(wǎng)絡(luò)和 GPU 這三個因素疊加,成了現(xiàn)代 AI 的黃金組合。

快進(jìn)到 ChatGPT 的發(fā)布,這是 AI 真正進(jìn)入公眾視野的時刻。從技術(shù)角度看,ChatGPT 的出現(xiàn)依然離不開這三大核心要素,只是數(shù)據(jù)規(guī)模變成了互聯(lián)網(wǎng)級,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)更復(fù)雜,用的 GPU 數(shù)量也更多,但底層的邏輯和原理并沒有改變。這三件事到現(xiàn)在仍然是現(xiàn)代 AI 的基石。

主持人:你當(dāng)時就是覺得,要推動 AI 發(fā)展,ImageNet 必須做,然后就去做了。不過在那個時期,大家更常用的說法是機器學(xué)習(xí),對嗎?

李飛飛:當(dāng)時 AI 和機器學(xué)習(xí)這兩個詞是交替使用的。大概在 2015 年年中到 2016 年年中,一些科技公司會刻意回避用 AI 這個詞,因為他們擔(dān)心這個詞會不會變成負(fù)面標(biāo)簽。但我一直鼓勵大家勇敢使用 AI 這個詞。因為在我看來,讓機器變得智能,是人類在科技探索中提出過最大膽的問題之一,我對這個詞非常自豪。不過確實,在早期,很多人是有顧慮的。

主持人:那是哪一年開始,AI 這個詞逐漸被廣泛接受的?

李飛飛:我覺得是 2016 年吧那算是一個轉(zhuǎn)折點,那時起有些人開始愿意用 AI 這個詞了。再往后,如果你看硅谷公司的宣傳,大概 2017 年左右,才真正出現(xiàn)公司開始把自己定位成 AI 公司。

主持人:說到那段早期歷史,你覺得有沒有什么重要但大家可能不知道的事值得分享?

李飛飛:我覺得和所有歷史一樣,雖然我被視為這段發(fā)展的一部分,但背后有太多無名英雄和研究者。這是幾代人一起耕耘出來的結(jié)果。在我的職業(yè)生涯中,有無數(shù)人給過我啟發(fā),我在書里也提到過這些。

不過我們的文化,特別是硅谷文化,總習(xí)慣把功勞集中在某一個人身上。雖然這樣做有它的價值,但我想提醒大家,AI 的發(fā)展已經(jīng)持續(xù)了七十年,是好幾代研究者共同鋪出來的路,不可能靠某一個人的力量走到今天。

AI 的「人本」視角

主持人:你覺得我們距離 AGI 還有多遠(yuǎn)?按照現(xiàn)在的發(fā)展趨勢,我們能實現(xiàn)它嗎?需要更多技術(shù)突破嗎?現(xiàn)有的技術(shù)路徑足夠支撐我們走到那一步嗎?

李飛飛:這是個很有意思的概念。我不確定有沒有誰真正給過 AGI 一個嚴(yán)謹(jǐn)?shù)亩x。不同的人有不同的理解,有人認(rèn)為是讓機器擁有某種超能力,有人認(rèn)為是讓機器成為社會里能獨立立足的主體,比如能自己創(chuàng)造價值。這樣的標(biāo)準(zhǔn)算是 AGI 嗎?

作為科學(xué)家,我習(xí)慣非常嚴(yán)謹(jǐn)?shù)乜创龁栴}。我進(jìn)入這個領(lǐng)域,就是因為被“機器能否像人一樣思考和行動”這個大膽問題所吸引。對我來說,這一直是人工智能的核心目標(biāo)。

從這個角度看,我不覺得 AI 和 AGI 有本質(zhì)區(qū)別。我們在某些方向上已經(jīng)取得了不錯的進(jìn)展,比如對話系統(tǒng),但離全面實現(xiàn)人工智能還有一段距離。如果你現(xiàn)在去問 Alan Turing,他大概會說,這不就是我在二十世紀(jì)四十年代就提出的問題嗎。

所以我不想陷入對 AI 和 AGI 的定義之爭。在我看來,AGI 更像是營銷語言,而不是科學(xué)術(shù)語。對我來說,人工智能就是我所追求的目標(biāo),也是整個領(lǐng)域的真正目標(biāo)。大家愿意怎么稱呼它都可以。

主持人:就像你前面說的,從 ImageNet 和 AlexNet 開始,我們靠著一些關(guān)鍵要素走到了今天,比如 GPU、數(shù)據(jù)、標(biāo)注數(shù)據(jù)和模型算法,而 Transformer 架構(gòu)似乎也是這條路線上的重要一步。

你覺得這些現(xiàn)有要素能不能讓我們繼續(xù)做出強大十倍、足以改變世界的模型?我們還需要哪些突破?我知道我們待會會聊世界模型,那可能是其中一個方向,但除此之外,你覺得還有哪些瓶頸?換句話說,現(xiàn)在的技術(shù)是不是只要往上堆數(shù)據(jù)、堆算力、堆 GPU 就能繼續(xù)往前走?

李飛飛:我覺得我們一定需要更多創(chuàng)新。增加數(shù)據(jù)、增加 GPU、放大模型規(guī)模,這些方向當(dāng)然還有空間,但我始終相信我們需要更多根本性的創(chuàng)新。

在人類的科學(xué)史上,沒有任何一門成熟的學(xué)科會說自己已經(jīng)不需要創(chuàng)新了。人工智能雖然已經(jīng)發(fā)展了幾十年,但相比其他學(xué)科,它仍然非常年輕,我們現(xiàn)在不過剛剛開始。

舉個例子,我們之后會聊世界模型。你給一個當(dāng)前的模型看一段辦公室的視頻,讓它數(shù)清楚里面有多少把椅子,這對幼兒園小朋友或者小學(xué)生來說都不難,可 AI 現(xiàn)在還做不到。更別說像牛頓那樣,通過觀察天體運動推導(dǎo)出適用于所有物體的運動規(guī)律。

那種創(chuàng)造力、推理能力和抽象能力,我們現(xiàn)在完全無法讓機器具備。再看看情感智能,一個學(xué)生走進(jìn)老師辦公室,談自己的動力、興趣、困擾,今天的對話系統(tǒng)在情緒理解和表達(dá)上還遠(yuǎn)達(dá)不到這種水平。

所以我們還有太多可以提升的地方,我完全不認(rèn)為創(chuàng)新已經(jīng)走到盡頭。

語言之外,智能世界模型登場

主持人:那你覺得什么是世界模型,它為什么如此重要?

李飛飛:我這一輩子都在思考怎么推動 AI 向前走。過去幾年,學(xué)界和像 OpenAI 這樣的機構(gòu)陸續(xù)推出的大型語言模型,對我這樣的長期研究者來說,都帶來了很強的啟發(fā)。

我記得 GPT-2 推出時是 2020 年底,當(dāng)時我在斯坦福大學(xué)以人為本人工智能研究所擔(dān)任聯(lián)合主任,現(xiàn)在依然在這個崗位,不過那時是全職投入。那時候公眾還意識不到大型語言模型的潛力,但我們研究者已經(jīng)看到了未來的模樣。

我和做自然語言處理的同事們聊過很多次,我們都覺得這項技術(shù)的影響會非常深遠(yuǎn)。斯坦福的以人為本人工智能研究所 是最早建立完整基礎(chǔ)模型研究中心的機構(gòu)之一,很多研究者還主導(dǎo)發(fā)表了第一篇關(guān)于基礎(chǔ)模型的論文,這些都令我很受鼓舞。

不過我出身于視覺智能方向,我一直在想,除了語言之外,其實還有非常大的空間可以發(fā)展。

因為人類很多重要能力,是依賴空間智能和對真實世界的理解完成的。你如果處在一個混亂的應(yīng)急救援場景里,不管是火災(zāi)、車禍還是自然災(zāi)害,你會發(fā)現(xiàn)人們組織救援、阻止災(zāi)情擴散、撲滅火勢,有大量能力是來自行動本身、來自對物體和環(huán)境的即時理解,還有對情境的把握。語言當(dāng)然有用,但在很多情況下,光靠語言并不能讓你穿上消防服沖進(jìn)去救人。

這就是我一直反復(fù)思考的問題。我同時還做了大量機器人研究,漸漸意識到,要打通語言之外的其他智能,要真正連接具身智能和視覺智能,關(guān)鍵就在于機器理解世界的空間能力。

在 2024 年的 TED 演講中,我談到空間智能和世界模型。其實這個想法早在 2022 年就開始成形了,來自我在機器人和計算機視覺方向的持續(xù)研究。后來我想得越來越清楚,我希望和最頂尖的技術(shù)人才合作,把這些能力盡快從實驗室?guī)У浆F(xiàn)實世界,于是我們創(chuàng)辦了 World Labs,名字里有 world,就是因為我們堅信世界建模和空間智能的巨大價值。

主持人:很多人對聊天機器人很熟悉,會覺得大型語言模型就是一種對話工具。那世界模型是不是可以理解成,你描述一個場景,它就能生成一個能隨意探索的世界?我們之后會附上你們的產(chǎn)品鏈接,不過這個理解準(zhǔn)確嗎?算是世界模型的一部分嗎?

李飛飛:可以說是一部分。世界模型的一個直觀理解是,你可以用一句話或一張圖,在腦海中構(gòu)建出任何世界,并且可以在這個世界里互動,比如觀察、走動、拿起物體、調(diào)整場景,同時還能在里面進(jìn)行推理。

如果使用這個世界模型的是機器人,它就應(yīng)該能規(guī)劃路線、整理廚房之類的。所以世界模型更像一個基礎(chǔ)平臺,你可以在上面推理、互動、創(chuàng)造各種世界。

主持人:你剛才說,要讓機器人真正能在現(xiàn)實世界里發(fā)揮作用,關(guān)鍵就在于理解世界的運行方式,這正是目前缺少的那一塊。

李飛飛:首先,我覺得受影響的不只是機器人,但你說得很對。世界建模和空間智能確實是具身智能短板所在。同時,我們也不應(yīng)該忽略人類本身作為具身主體的屬性,人類同樣能通過 AI 獲得能力提升。

就像人類是依賴語言的生物,AI 在語言方面已經(jīng)給我們提供了巨大幫助??晌覀兺雎粤?,作為具身主體的人類,其實也能從世界模型和空間智能模型中受益匪淺,就和機器人一樣。

此外,這對設(shè)計領(lǐng)域也非常關(guān)鍵。人類在設(shè)計機器、建筑、家居用品等時都離不開對空間和物體的理解。再看看科學(xué)發(fā)現(xiàn)的過程,我特別想舉 DNA 結(jié)構(gòu)發(fā)現(xiàn)的例子。Rosalind Franklin 拍攝的那張 X 射線衍射照片非常關(guān)鍵,那是一張二維平面圖像,展示的是交叉的衍射圖案。研究者們正是結(jié)合這張照片和其他信息,通過三維空間推理,推導(dǎo)出了 DNA 雙螺旋的三維結(jié)構(gòu)。

這種復(fù)雜結(jié)構(gòu)不可能在二維層面得出,必須依賴三維空間思維和人類強大的空間智能。所以我認(rèn)為,在科學(xué)發(fā)現(xiàn)領(lǐng)域,空間智能乃至 AI 輔助的空間智能同樣至關(guān)重要。

「慘痛教訓(xùn)」教不出機器人

主持人:那為什么說“慘痛教訓(xùn)”理論單獨用在機器人領(lǐng)域可能行不通?

首先,“慘痛教訓(xùn)”有不同的表述方式,但大家通常指的是 Richard S. Sutton 近期發(fā)表的那篇論文。他剛拿到圖靈獎,是強化學(xué)習(xí)領(lǐng)域非常重要的人物。Sutton 在論文里回顧了人工智能算法的發(fā)展,指出歷史上最終勝出的,往往是依賴海量數(shù)據(jù)的簡單模型,而不是依賴少量數(shù)據(jù)的復(fù)雜模型。

這篇論文是 ImageNet 之后很多年發(fā)表的。對我來說,它一點都不慘痛,甚至可以說是一種甜蜜的驗證。這正是我當(dāng)初做 ImageNet 的原因,我本來就相信大數(shù)據(jù)的價值。

但你問為什么“慘痛教訓(xùn)”單獨放在機器人領(lǐng)域可能不太奏效,原因有幾個。首先,我們要肯定當(dāng)前的進(jìn)展。機器人研究還處于非常早期的實驗階段,遠(yuǎn)不如語言模型成熟?,F(xiàn)在很多團隊都在嘗試不同的算法,其中有一些確實依賴大數(shù)據(jù),所以大數(shù)據(jù)在機器人上依然會發(fā)揮作用。雷峰網(wǎng)

不過機器人領(lǐng)域有一些特別的挑戰(zhàn)。第一是數(shù)據(jù)獲取難度更高。你可能會說現(xiàn)在可以用網(wǎng)絡(luò)視頻,確實最新的機器人研究開始這么做,這也能帶來一定幫助。但從我做計算機視覺和空間智能的角度來說,我真的很羨慕做自然語言處理的同事:他們的所有訓(xùn)練數(shù)據(jù)都是文字,模型輸出也是文字。

也就是說,訓(xùn)練數(shù)據(jù)和訓(xùn)練目標(biāo)之間是完美對齊的。而機器人不是,空間智能也不是。我們的目標(biāo)是讓機器人輸出動作,但訓(xùn)練數(shù)據(jù)里恰恰缺少三維世界里的動作信息,而動作是機器人必須具備的核心能力。

這就造成訓(xùn)練過程有點方枘圓鑿,我們必須用其他方式來補這個缺口,比如加入遠(yuǎn)程操控的數(shù)據(jù)或生成的數(shù)據(jù),讓機器人也能依靠海量數(shù)據(jù)進(jìn)行學(xué)習(xí)。我認(rèn)為這是有希望的,因為我們做的世界建模,未來會給機器人提供大量這樣的信息來源。

但我們也要保持冷靜,因為目前還在非常早期的階段,“慘痛教訓(xùn)”能不能在機器人領(lǐng)域完全成立,還需要時間驗證。畢竟我們還沒真正解決機器人需要的大規(guī)模數(shù)據(jù)問題。

還有一點需要記住,機器人是物理系統(tǒng)。這一點讓它們更像自動駕駛汽車,而不是大型語言模型。這點非常關(guān)鍵。讓機器人工作得很好,不只是軟件層面的事,還需要合適的硬件,以及明確的應(yīng)用場景。

想想自動駕駛汽車的發(fā)展:我的同事 Sebastian Thrun 帶著斯坦福團隊在 2005 年前后贏得了 DARPA 大賽。從那輛能在內(nèi)華達(dá)沙漠跑一百三十英里的原型車,到今天舊金山街頭能看到的 Waymo,已經(jīng)過了二十年,可我們?nèi)匀粵]有完全攻克自動駕駛。

而且自動駕駛比機器人簡單多了,自動駕駛只是讓一輛金屬盒子在二維平面上移動,目標(biāo)是不撞任何東西。機器人則是在三維世界里運作的三維實體,它不僅不能撞東西,還要與物體互動。

所以機器人技術(shù)的推進(jìn)要素更多、難度更高,發(fā)展的周期會更長。當(dāng)然有人會說,自動駕駛早期還在深度學(xué)習(xí)出現(xiàn)之前,現(xiàn)在深度學(xué)習(xí)可能會加速整個進(jìn)程,我同意這一點,這也是我對機器人和空間智能感到興奮的原因。但別忘了,汽車行業(yè)已經(jīng)非常成熟了,要規(guī)?;涞兀€需要成熟的供應(yīng)鏈、硬件體系和實際應(yīng)用場景。

所以現(xiàn)在正是研究這些問題的好時機。但你說得沒錯,我們大概率還會在機器人領(lǐng)域經(jīng)歷不少真正意義上的慘痛教訓(xùn)。

主持人:在做這些工作的時候,你會不會經(jīng)常對人類大腦感到敬畏?畢竟人類可以輕松完成很多復(fù)雜任務(wù),而讓機器做到哪怕只是走路、不摔倒、不撞東西都這么難。這會不會讓你更加感嘆人類的能力?

李飛飛:當(dāng)然。人類大腦的能耗大概只有二十瓦,甚至比我所在房間里的燈泡還暗,但它卻能做到那么多事情。事實上,我在 AI 里投入得越深,就越敬畏人類本身。

影子,與真正的世界

主持人:我們再來聊聊你們剛推出的產(chǎn)品 Marble。它究竟是什么?

李飛飛:Marble 是 World Labs 推出的第一款產(chǎn)品。World Labs 是一家專注前沿基礎(chǔ)模型的公司,由四位有深厚技術(shù)背景的創(chuàng)始人共同創(chuàng)辦。我的聯(lián)合創(chuàng)始人都來自人工智能、計算機圖形學(xué)和計算機視覺領(lǐng)域。我們一直相信,空間智能和世界建模的重要性不亞于語言模型,甚至在某些方面更有價值,而且兩者之間是相互支持的。

所以我們希望抓住這個機會,打造一個深度技術(shù)實驗室,讓前沿模型真正走向產(chǎn)品。Marble 就是基于我們構(gòu)建的前沿模型開發(fā)的應(yīng)用。我們花了一年多時間,構(gòu)建出了全球首個能夠真正生成三維世界的生成式模型。這件事的難度極高,研發(fā)過程也非常艱辛,我們的核心團隊來自許多頂尖技術(shù)團隊。

就在一兩個月前,我們第一次實現(xiàn)了用一句話、一張圖片或幾張圖片作為提示,生成一個可以自由探索的三維世界。如果你戴上 VR 眼鏡,還能真的走進(jìn)去。這項技術(shù)我們已經(jīng)研究很久了,但當(dāng)它真正成功的時候,我們自己都非常激動。

我們也希望把它交到需要的人手中。我們知道,創(chuàng)作者、設(shè)計師、機器人仿真研究者、游戲開發(fā)者,還有任何需要可導(dǎo)航、可交互、沉浸式世界的人,都會在其中發(fā)現(xiàn)價值。

所以我們發(fā)布了 Marble 作為第一步。雖然它仍處于早期,但已經(jīng)是全球第一個能做到這一點的模型,也是第一款讓用戶通過提示詞創(chuàng)建三維世界的產(chǎn)品。

作為做研究的人,這對我們來說也是一次學(xué)習(xí)。比如那些幫助用戶進(jìn)入世界的“點”,其實是我們專門設(shè)計的可視化方式,不是模型本身。模型真正的任務(wù)是生成世界,而我們要找到方式讓用戶順利進(jìn)入這個世界。

我們的工程師嘗試了多個版本,最后選定用點云來引導(dǎo)用戶。對我們來說,看到一個不是模型本身、而是用于用戶體驗設(shè)計的小功能這么受歡迎,是一種特別的成就感。

主持人:那如果有人現(xiàn)在就想體驗或使用 Marble,它已經(jīng)可以用在哪些場景里?你們這次推出的目標(biāo)是什么?

李飛飛:首先是電影虛擬制作。影視團隊需要三維世界來做攝像機校準(zhǔn),讓演員在表演時,工作人員能準(zhǔn)確控制鏡頭走位。我們已經(jīng)看到特別好的應(yīng)用效果。你在發(fā)布視頻中看到的內(nèi)容,就是由一家虛擬制作公司完成的,我們和索尼合作,他們用 Marble 實現(xiàn)了視頻拍攝。

技術(shù)藝術(shù)家和導(dǎo)演告訴我們,Marble 讓制作效率提高了大概四十倍。我們當(dāng)時只有一個月時間完成這個項目,而且他們需要拍很多內(nèi)容。Marble 極大地加快了視覺特效和虛擬制作的流程。

第二個應(yīng)用是游戲開發(fā)。用戶可以把 Marble 生成的場景導(dǎo)出為網(wǎng)格文件,直接導(dǎo)入 VR 游戲或其他自研游戲里。我們已經(jīng)展示了相關(guān)案例。

第三個是機器人仿真。我一直在做機器人訓(xùn)練研究,其中最大的難題之一就是為訓(xùn)練生成合成數(shù)據(jù)。這些數(shù)據(jù)必須非常多樣化,要來自不同環(huán)境,還要包含豐富的可操作物體,而通過計算機仿真生成是最高效的方式。

如果不這樣做,人類必須手工創(chuàng)建每一個訓(xùn)練場景,工作量會指數(shù)級增長。已經(jīng)有研究團隊聯(lián)系到我們,希望用 Marble 來生成機器人訓(xùn)練需要的合成環(huán)境。

還有一些我們原本沒想到的應(yīng)用。例如有個心理學(xué)研究團隊找到我們,他們研究某些精神疾病患者,需要不同特點的沉浸式環(huán)境來觀察大腦反應(yīng)。但這類環(huán)境很難獲取,構(gòu)建起來也很費時,而 Marble 能幾乎即時生成大量這樣的實驗場景。

所以我們已經(jīng)看到不少清晰的應(yīng)用方向。視覺特效、游戲開發(fā)、仿真研究、設(shè)計領(lǐng)域的人都對 Marble 表現(xiàn)出強烈興趣。

主持人:那 Marble 和其他視頻生成模型有什么區(qū)別?

李飛飛:World Labs 的核心理念是,空間智能非常重要,而空間智能絕不只是生成視頻。

視頻本質(zhì)上是一種被動呈現(xiàn)的二維畫面。我很喜歡用柏拉圖的“洞穴寓言”來解釋視覺。想象一個囚犯被固定在洞穴里的椅子上,不能回頭,只能看見墻壁;而洞穴外的真實世界里,人們在表演,光線把他們的影子投射到墻上,囚犯只能通過這些影子來揣測真實發(fā)生了什么。

這個例子雖然極端,但非常準(zhǔn)確地刻畫了視覺的本質(zhì)。我們總是從二維畫面中去理解一個三維甚至四維的世界。而對我來說,空間智能不是生成二維內(nèi)容,而是讓模型具備生成、推理、交互、理解深度空間世界的能力。這正是 World Labs 專注的方向。

當(dāng)然,生成視頻本身也屬于空間智能的一部分。就在幾周前,我們展示了全球首個能在單塊 H100 GPU 上實時生成視頻的演示。

所以我們的技術(shù)也能生成視頻,但 Marble 的核心區(qū)別在于:它讓創(chuàng)作者、設(shè)計師、開發(fā)者能夠使用一個真正具備三維結(jié)構(gòu)的世界生成模型,用它來完成自己的工作。這就是 Marble 與現(xiàn)有視頻生成模型最大的不同。

順便說一下,Marble 也支持導(dǎo)出視頻。比如你創(chuàng)建了一個霍比特人洞穴的世界,你可以根據(jù)自己的想法設(shè)計攝像機的移動軌跡,然后直接從 Marble 里導(dǎo)出這段視頻。

主持人:打造這樣一款產(chǎn)品需要什么條件?比如團隊規(guī)模大嗎?用到多少 GPU?

李飛飛:最核心的是“腦力”。每個人類的大腦功耗大概只有二十瓦,從數(shù)字上看很小,但正是億萬年的進(jìn)化,讓我們擁有了這些能力。

我們目前的團隊大概三十人左右,主要是研究員和研究工程師,也有設(shè)計和產(chǎn)品方面的同事。我們始終相信,要打造一家以空間智能深度技術(shù)為核心的公司,同時也要交付真正能用的產(chǎn)品。所以我們讓研發(fā)和產(chǎn)品化緊密結(jié)合。當(dāng)然,我們也用到了大量 GPU,這一點毫無疑問。

做前沿領(lǐng)域的無畏者

主持人:你的這家公司是什么時候成立的?兩三年前?

李飛飛:大概一年前,準(zhǔn)確來說差不多十八個月。

主持人:如果你能回到十八個月前,對那時候的自己悄悄說一句話,你希望告訴自己什么?

李飛飛:我一直希望自己能提前洞察技術(shù)的未來。其實,能預(yù)見趨勢也是我們創(chuàng)業(yè)的優(yōu)勢之一,我們通常能比絕大多數(shù)人更早看到方向。但即便如此,未知的一切和未來的挑戰(zhàn)依然讓人既緊張又興奮。

我知道你問這個問題,更多是想聽聽我對技術(shù)未來的感悟。但其實從創(chuàng)業(yè)角度來看,我二十歲時也沒有創(chuàng)辦過這種規(guī)模的公司。十九歲的時候我開過一家干洗店,規(guī)模小太多了。后來我參與創(chuàng)立谷歌云的 AI 部門,也在斯坦福創(chuàng)辦了研究所,但這些經(jīng)歷和如今的創(chuàng)業(yè)完全不是一回事。

作為創(chuàng)業(yè)者,我覺得自己比二十歲左右的人更能承受這種高強度的節(jié)奏,但還是會不斷遇到意外。比如我沒想到 AI 領(lǐng)域的競爭會這么激烈,不管是模型、技術(shù),還是人才,都卷得超乎想象。

創(chuàng)辦公司時,我也完全沒想到頂尖人才的成本會高到這種程度。這類事情不斷讓我重新認(rèn)識現(xiàn)實,也逼著我時刻保持敏銳。雷峰網(wǎng)(公眾號:雷峰網(wǎng))

主持人:那對于那些希望在人生中做出突破、走在時代前沿的人來說,你從一個地方到另一個地方、加入這些核心團隊的過程,是否有一條持續(xù)貫穿的主線?也許能夠給大家一些啟發(fā)。

李飛飛:確實有。我也想過這個問題。很明顯,是好奇心和熱情把我?guī)肓?AI 領(lǐng)域,這更像是一種純粹的科學(xué)追求,我從不在乎 AI 當(dāng)時是不是熱門。但至于我為什么會選那些特定的地方去工作,包括后來創(chuàng)辦 World Labs,背后有更深的原因。

我很慶幸自己是一個在求知上無所畏懼的人。我在招年輕人的時候也很看重這一點。因為如果一個人想推動改變,就必須接受自己要去創(chuàng)造新事物,要進(jìn)入無人探索的領(lǐng)域。意識到這一點后,你就得學(xué)會讓自己無畏。

比如,當(dāng)年我從普林斯頓跳槽到斯坦福時,我在普林斯頓的學(xué)術(shù)職位已經(jīng)快拿到終身教職,也就是所謂的鐵飯碗。但我還是選擇了回斯坦福,因為我熱愛那所學(xué)校,那里的同事非常優(yōu)秀,硅谷的生態(tài)也無比動人。我愿意冒險,從頭開始新的終身教職考核,還成為斯坦福人工智能實驗室的第一位女性主任。

那時我其實還算年輕,但我愿意這么做,因為我在乎那個社群,也沒花太多時間擔(dān)心失敗。當(dāng)然,我很幸運,資深教員都非常支持我。我只是在努力為這個領(lǐng)域做一些事情。

后來加入谷歌也是類似的情況,我想和杰夫·迪恩、杰夫·辛頓這樣杰出的科學(xué)家共事。創(chuàng)辦 World Labs 也一樣,我對空間智能充滿熱情,也相信志同道合的人能夠一起創(chuàng)造出真正重要的東西。

所以這就是貫穿我職業(yè)生涯的主線:我不會過度擔(dān)心那些可能會出錯的事情,因為如果想把它們一條條想清楚,那可太多了。

主持人:你現(xiàn)在在斯坦福大學(xué)以人為本人工智能研究所主要負(fù)責(zé)哪些事務(wù)?

李飛飛:以人為本人工智能研究所是我和幾位教授在 2018 年共同創(chuàng)辦的。當(dāng)時我剛結(jié)束在谷歌的休假,面臨一個重要決定:繼續(xù)留在行業(yè),還是回到學(xué)術(shù)界。

在谷歌的經(jīng)歷讓我真正意識到,AI 已經(jīng)成為一項文明級別的技術(shù),它對人類的重要性非常深遠(yuǎn)。同一年,我在《紐約時報》發(fā)表了一篇文章,呼吁建立一套框架來指導(dǎo) AI 的研發(fā)和應(yīng)用,而這套框架必須以人類的善意和人的主體性為核心。

我認(rèn)為,斯坦福作為全球頂尖學(xué)府,位于孕育了英偉達(dá)、谷歌等公司的硅谷中央,應(yīng)該承擔(dān)起思想領(lǐng)導(dǎo)的角色,建立這套以人為本的 AI 框架,并把它融入研究、教育、政策與生態(tài)建設(shè)。

如今六七年過去了,以人為本人工智能研究所已經(jīng)成為全球最大的 AI 研究所,專注于以人為中心的研究、教育、生態(tài)拓展和政策影響。研究所覆蓋斯坦福八個學(xué)院的數(shù)百位教授,領(lǐng)域從醫(yī)學(xué)、教育、可持續(xù)發(fā)展、商業(yè),到工程、人文、法律等非常廣泛。

我們支持跨學(xué)科研究,從數(shù)字人文、法律與治理,到藥物研發(fā)和新型算法。同時,我們也非常重視政策工作。在創(chuàng)辦研究所時,我就注意到硅谷和華盛頓、布魯塞爾等政策制定者之間缺乏溝通。而 AI 這么重要,我們必須讓更多人參與進(jìn)來。

主持人:聽你說完我才意識到,你做的事情遠(yuǎn)比我想像的更多。這讓我想到 Charlie Munger 的那句話,“接受一個簡單的理念,并認(rèn)真踐行它?!?你在多個領(lǐng)域通過不斷踐行自己的理念產(chǎn)生了非常深遠(yuǎn)的影響。最后,你有什么想對聽眾說的嗎?

李飛飛:我對 AI 的未來非常期待。我想回答一個我在世界各地旅行時常被問到的問題:“如果我是音樂家、中學(xué)老師、護士、會計師或農(nóng)民,我在 AI 時代還有位置嗎?AI 會不會奪走我的生活或工作?”

我認(rèn)為這是關(guān)于 AI 最關(guān)鍵的問題。在硅谷,我們常常沒有好好和外界交流,只是拋出“無限生產(chǎn)力”“無限閑暇”“無限權(quán)力”這樣的詞匯。但 AI 的根本是關(guān)于人的。

對這個問題,我的答案永遠(yuǎn)是肯定的:每個人在 AI 時代都有自己的角色。你的位置取決于你想做什么、愿意做什么。任何技術(shù)都不應(yīng)剝奪人的尊嚴(yán),人的主體性必須始終處于技術(shù)研發(fā)、部署和治理的中心。

如果你是年輕的藝術(shù)家,熱愛講故事,那就把 AI 當(dāng)工具,用它來擴展你的創(chuàng)作邊界,甚至可以試試 Marble。你講故事的方式是獨特的,這個世界始終需要這樣的聲音,關(guān)鍵在于你如何用這項強大的工具更生動地表達(dá)它。

如果你是一位即將退休的農(nóng)民,AI 也與你密切相關(guān)。作為公民,你有權(quán)參與社區(qū)決策,對 AI 的使用方式發(fā)聲,也可以鼓勵周圍的人用 AI 讓生活更便利。

如果你是護士,我想特別告訴你,在我的職業(yè)生涯中,我投入了大量精力在醫(yī)療和健康研究上。我相信醫(yī)護人員理應(yīng)得到 AI 的支持,無論是提供更多信息的智能攝像頭,還是輔助照護的機器人。我們的護士太辛苦了,而隨著社會老齡化加劇,我們需要更多支持去照顧他人,AI 完全可以在這方面幫助我們。

所以我想說,即使作為一個深度參與技術(shù)的人,我也真心相信:每一個人,在 AI 時代都有屬于自己的位置。

主持人:這個結(jié)尾太精彩了,完美呼應(yīng)了我們開場時的主題。AI 的未來取決于我們每一個人,我們也要為它在生活中產(chǎn)生的影響承擔(dān)起責(zé)任。

博客地址:https://www.lennysnewsletter.com/p/the-godmother-of-ai

視頻地址:https://www.youtube.com/watch?v=Ctjiatnd6Xk

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

李飛飛最新思考:語言模型救不了機器人

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說