Andrej Karpathy：自動駕駛已經(jīng)實現(xiàn)AGI，汽車其實就是機(jī)器人

本文作者：劉潔

2024-09-12 10:42

導(dǎo)語：Transformer記憶的人類思維，突破了自動駕駛、人形機(jī)器人和AI個性教育的邊界

自己稱贊自己千句，不如別人稱贊你一句。

例如馬斯克在播客、推特上經(jīng)常自稱特斯拉的自動駕駛和機(jī)器人“天下第一”，但這樣的話看多了，難免也有些審美疲勞。不過，前幾天，Andrej Karpathy在No Priors播客中現(xiàn)身，透露了特斯拉在Optimus人形機(jī)器人和自動駕駛領(lǐng)域的一些鮮為人知的進(jìn)展。

Karpathy曾追隨馬斯克，從OpenAI轉(zhuǎn)戰(zhàn)特斯拉，從無到有親手打造了特斯拉的計算機(jī)視覺團(tuán)隊。

然而，隨著團(tuán)隊逐漸壯大，他的角色也從技術(shù)專家轉(zhuǎn)為管理者，這與他專注技術(shù)工作的初衷相違背。對于Karpathy來說，從頭開始構(gòu)建事物才是他熱愛和擅長的事情。因此，他不得不做出“艱難的決定”，在團(tuán)隊成長到足夠自主的同時遺憾地告別了特斯拉。

去年，Karpathy重返OpenAI，但不久后又因為相似的原因離開。今年七月，他創(chuàng)立了自己的初創(chuàng)公司Eureka Labs，致力于將AI與教育相結(jié)合。

Andrej Karpathy：自動駕駛已經(jīng)實現(xiàn)AGI，汽車其實就是機(jī)器人

Karpathy的離職推文：“離開OpenAI沒有什么特別原因，計劃開展個人項目，但請繼續(xù)提出陰謀論因為那很有趣?！?/p>

盡管如此，Karpathy對特斯拉的情感依舊深厚。他在訪談中公開表示對特斯拉在AGI、機(jī)器人以及自動駕駛領(lǐng)域的贊賞，并透露了未來可能重返特斯拉的意愿。

在這期播客節(jié)目中，Karpathy不止分享了過去在特斯拉收獲的有關(guān)自動駕駛和人形機(jī)器人的思考，還有他對Scaling Law和AI發(fā)展的理解以及對AI教育的展望。

在談到自動駕駛時，Karpathy回憶起自己十年前第一次體驗Waymo的自動駕駛的經(jīng)歷，那時Waymo在街區(qū)的表現(xiàn)已經(jīng)非常接近完美。經(jīng)過十年的發(fā)展，這項技術(shù)終于從demo演變成了真正的商業(yè)產(chǎn)品。

Karpathy認(rèn)為現(xiàn)在的自動駕駛其實已經(jīng)達(dá)到了類似AGI的水平，只是受限于技術(shù)和監(jiān)管，全球范圍內(nèi)的全面普及仍然是個難題。

Karpathy還把Waymo和特斯拉做了比較，非常有信心地肯定了特斯拉的自動駕駛技術(shù)。他透露，自己剛體驗了特斯拉的最新版本，感受非常驚艷，對其表現(xiàn)非常滿意。

在人形機(jī)器人方面，Karpathy提出了獨特的觀點。他認(rèn)為，汽車本質(zhì)上就是一種機(jī)器人。他還提到，在特斯拉早期的Optimus人形機(jī)器人開發(fā)中，汽車和機(jī)器人在硬件、工具以及研究人員方面基本都是共享的。

Karpathy特別分享了對人形設(shè)計的思考，他認(rèn)為保持人形設(shè)計是為了更好地集中研究，利用人類最熟悉的姿態(tài)來幫助收集和處理數(shù)據(jù)，同時也使機(jī)器人更容易融入人類社會。

至于更深層次的技術(shù)方面，Karpathy 談到了對Scaling Law的理解。

雖然OpenAI以大參數(shù)模型而聞名，曾引領(lǐng)了一段時間的大參數(shù)模型風(fēng)潮，但如今主流模型已經(jīng)轉(zhuǎn)向小參數(shù)設(shè)計。在Karpathy的Youtube賬號，最近一條是三個月前重現(xiàn)GPT-2 124M參數(shù)的教學(xué)視頻，時長4個多小時，這或許也間接反映出Karpathy對Scaling Law的不同看法。

Karpathy 指出，當(dāng)前AI發(fā)展的的瓶頸已經(jīng)不再是參數(shù)和神經(jīng)網(wǎng)絡(luò)，而要是數(shù)據(jù)集的規(guī)模和質(zhì)量。未來的發(fā)展將更多依賴合成數(shù)據(jù)的生成，而合成數(shù)據(jù)的多樣性和“熵”尤為重要。模型輸出的多樣性如果降低，會導(dǎo)致數(shù)據(jù)集失去活力。

節(jié)目的最后，Karpathy回到了他目前專注的AI教育領(lǐng)域。他相信在AI的幫助下，一對一個性化課程有著巨大的潛力和市場，并透露自己正在籌備一門關(guān)于AI的課程，預(yù)計會在晚些時候上線。

完整播客視頻可以點以下鏈接觀看：

https://www.youtube.com/watch?v=hM_h0UA7upI

AI科技評論摘取了部分播客內(nèi)容，做了不改原意的精編處理：

自動駕駛

Sarah Guo：你曾在特斯拉領(lǐng)導(dǎo)自動駕駛部門，現(xiàn)在自動駕駛汽車已經(jīng)可以上路。你認(rèn)為當(dāng)前技術(shù)處于什么水平？我們需要多長時間才能看到技術(shù)的進(jìn)一步提升或更廣泛的普及？

Andrej Karpathy：我在自動駕駛領(lǐng)域工作了大約五年，對這個領(lǐng)域非常了解。我覺得我們現(xiàn)在的自動駕駛技術(shù)已經(jīng)達(dá)到了類似AGI的水平。

今天的一些系統(tǒng)已經(jīng)允許付費用戶在城市中使用，尤其是在舊金山，這種情況非常普遍。我個人已經(jīng)體驗過很多次，這些系統(tǒng)真的很神奇，可以將你送到任何地方。

十年前，我第一次體驗了Waymo的自動駕駛。當(dāng)時，我的一位朋友在Waymo工作，他給我展示了一個demo。那時候，Waymo在街區(qū)內(nèi)的駕駛已經(jīng)非常接近完美。

經(jīng)過十年的發(fā)展，它終于從demo成為了付費產(chǎn)品，并且在城市范圍內(nèi)不斷擴(kuò)展。

Waymo自動駕駛汽車

Elad Gil：你覺得自動駕駛技術(shù)的進(jìn)展主要受到監(jiān)管還是技術(shù)的影響？你認(rèn)為這項技術(shù)何時會真正成熟？

Andrej Karpathy：技術(shù)方面，演示和實際應(yīng)用之間有很大差距。你在短時間的演示中不會遇到他們在過去十年里處理的所有問題。

此外，監(jiān)管因素也起了重要作用。雖然我們在軟件方面已經(jīng)接近實現(xiàn)AGI，但全球范圍的普及還遠(yuǎn)未實現(xiàn)。演示與全球化之間的差距很大。

雖然很多人認(rèn)為Waymo領(lǐng)先于特斯拉，但我個人認(rèn)為特斯拉在自動駕駛領(lǐng)域更具領(lǐng)先優(yōu)勢。雖然目前看起來可能不是這樣，但我對特斯拉的自動駕駛項目非常看好。

特斯拉面臨的軟件問題比Waymo的硬件問題要容易解決得多。特斯拉已經(jīng)在全球范圍內(nèi)大規(guī)模部署了汽車，而Waymo還在努力實現(xiàn)這一目標(biāo)。一旦特斯拉能夠全面實現(xiàn)其技術(shù)，并成功部署這些車輛，將會是非常令人驚嘆的。

我昨天剛試駕了最新版的特斯拉，感覺他們最近做了很多出色的改進(jìn)。

Elad Gil：我最近也用過這個系統(tǒng)，感覺確實很棒。

Andrej Karpathy：的確如此。昨天它為我完成了一些非常出色的駕駛?cè)蝿?wù)。我對團(tuán)隊的進(jìn)展印象深刻。

我還是認(rèn)為特斯拉面臨的主要問題是軟件，而Waymo則主要是硬件問題。目前，Waymo在這方面似乎稍占優(yōu)勢。

不過，十年后我們再來看誰真正實現(xiàn)了規(guī)?；?，并且從中獲利，我相信特斯拉會保持領(lǐng)先。

Elad Gil：你認(rèn)為解決軟件問題的關(guān)鍵時刻還遠(yuǎn)嗎？正如你所說，很多汽車使用昂貴的激光雷達(dá)和傳感器來支持軟件系統(tǒng)。特斯拉的方法是只用攝像頭，這樣可以顯著降低成本和復(fù)雜性，并能在多種車型上應(yīng)用。你認(rèn)為這種轉(zhuǎn)變會在什么時候發(fā)生？

Andrej Karpathy：我希望在幾年內(nèi)能看到這種轉(zhuǎn)變。

實際上，有趣的是，特斯拉在訓(xùn)練階段使用了很多昂貴的傳感器。雖然他們在實際部署中主要依靠攝像頭，但他們在訓(xùn)練時使用了激光雷達(dá)和其他傳感器來構(gòu)建地圖和收集數(shù)據(jù)。這種做法既聰明又有效，因為它利用了傳感器的信息來優(yōu)化軟件。

我認(rèn)為這種策略還沒有被充分認(rèn)識到，但它會非常有效。盡管在訓(xùn)練階段傳感器非常有用，但在實際測試中，攝像頭提供的信息已足夠支持系統(tǒng)的運行。

Elad Gil：另一種轉(zhuǎn)變是從啟發(fā)式學(xué)習(xí)轉(zhuǎn)向端到端的深度學(xué)習(xí)。你怎么看這個問題？

Andrej Karpathy：是的，特斯拉的策略一直很明確。

最初，特斯拉系統(tǒng)中有很多C++代碼，但現(xiàn)在神經(jīng)網(wǎng)絡(luò)已經(jīng)接管了許多功能，C++代碼的使用減少了。這表明神經(jīng)網(wǎng)絡(luò)逐漸接管了系統(tǒng)的各個部分，從處理圖像到多圖像預(yù)測，最終系統(tǒng)只需輸出轉(zhuǎn)向指令。

特斯拉在這方面做得很好。相比之下，Waymo嘗試了不同的方法，但似乎沒有完全實現(xiàn)他們的目標(biāo)。因為Waymo對具體細(xì)節(jié)保密，我們不完全了解他們的做法，但我相信特斯拉的逐步推進(jìn)方法是有效的。

未來，特斯拉的端到端系統(tǒng)可能完全依賴神經(jīng)網(wǎng)絡(luò)，通過視頻流直接生成指令。

不過，實現(xiàn)這一目標(biāo)需要時間，因為要逐步建立系統(tǒng)并處理各種中間預(yù)測。即使在端到端系統(tǒng)中，中間表征和特征檢測器仍然重要，它們可以簡化最終系統(tǒng)的設(shè)計。

訓(xùn)練一個龐大的神經(jīng)網(wǎng)絡(luò)進(jìn)行端到端駕駛時，監(jiān)督信號不足是一個挑戰(zhàn)。因此，中間層的表征和檢測器能幫助解決這個問題，使端到端訓(xùn)練更可行。

盡管我不是這個團(tuán)隊的一部分，我相信特斯拉通過大量的預(yù)訓(xùn)練可以逐步優(yōu)化端到端系統(tǒng)?？傮w來說，特斯拉的逐步推進(jìn)方法是合理且有效的。

人形機(jī)器人

Sarah Guo：你之前研究過特斯拉的人形機(jī)器人項目。我有很多問題，其中一個是，是否有技術(shù)或經(jīng)驗的轉(zhuǎn)移？

Andrej Karpathy：幾乎所有東西都在轉(zhuǎn)移，我覺得很多人并沒有意識到這一點。

實際上，汽車本身就是一種機(jī)器人。而我并不認(rèn)為特斯拉是一家汽車公司，這種看法其實有些誤導(dǎo)。特斯拉更像是一家機(jī)器人公司，尤其是在大規(guī)模生產(chǎn)機(jī)器人方面，因為規(guī)?；莻€獨立的變量。

他們不僅僅是在制造某一件產(chǎn)品，而是在制造生產(chǎn)這件產(chǎn)品的機(jī)器，這也是一種完全不同的能力。所以，特斯拉就是一家規(guī)模化的機(jī)器人公司。

從汽車到人形機(jī)器人之間的技術(shù)轉(zhuǎn)移，其實并沒有那么困難。

事實上，早期版本的機(jī)器人“擎天柱”一度以為自己是輛汽車，因為它使用了同樣的計算機(jī)和攝像頭。

非常有趣的是，我們在機(jī)器人上運行的是汽車的算法，而它卻在辦公室里四處移動，試圖識別可駕駛的空間，但實際上它面對的是步行空間。雖然有些細(xì)微的調(diào)整需要做，但基本上，它在開車的環(huán)境里運行，實際上只是在行走。

Andrej Karpathy：自動駕駛已經(jīng)實現(xiàn)AGI，汽車其實就是機(jī)器人

Sarah Guo：這么說的話，確實可以從一個機(jī)器人視角去思考這個問題。許多技術(shù)可以直接轉(zhuǎn)移，只是缺少了一些駕駛相關(guān)的數(shù)據(jù)和控制模塊。

Andrej Karpathy：沒錯，確實會缺少一些關(guān)鍵的組件。

但另一件讓我印象深刻的是，Optimus項目啟動的速度非?？?。當(dāng)Elon宣布這個項目時，所有相關(guān)的工具、CAD模型、供應(yīng)鏈管理等就迅速到位了。這讓我意識到，特斯拉內(nèi)部其實積累了大量制造機(jī)器人的專業(yè)知識。

所有這些工具其實是通用的，只是被從汽車項目中重新配置和調(diào)整了一下。你需要的硬件、規(guī)模化生產(chǎn)的工具，甚至是背后控制這些工具的大腦，其實都差不多。

所以，不僅是技術(shù)網(wǎng)絡(luò)的轉(zhuǎn)移，還涉及到各種工作方法的轉(zhuǎn)移。比如，標(biāo)簽團(tuán)隊的工作方式、協(xié)調(diào)方法，以及整個項目團(tuán)隊的運作方式，這些都需要進(jìn)行大量的轉(zhuǎn)移和調(diào)整。

Elad Gil：你有沒有想過人形機(jī)器人或類似技術(shù)的第一個實際應(yīng)用領(lǐng)域是什么？

Andrej Karpathy：我認(rèn)為，最初的應(yīng)用領(lǐng)域應(yīng)該是公司內(nèi)部自己使用。我非?？春锰厮估麄兛赡軙扇∵@種方式。

如果公司能意識到第一個客戶是自己，那么可以在工廠內(nèi)部進(jìn)行項目孵化，處理如材料搬運等任務(wù)。這樣一來，就可以避免與第三方簽訂復(fù)雜的合同，省去法律上的麻煩。

在內(nèi)部成功孵化之后，可以進(jìn)入B2B市場，向擁有大型倉庫的公司推廣。這些公司需要處理材料搬運等任務(wù)，合同和安全措施也能就緒。

等到在多家公司內(nèi)部成功應(yīng)用后，才是進(jìn)入B2C市場的時機(jī)。我相信我們會看到B2C領(lǐng)域的機(jī)器人出現(xiàn)，例如像Unitree這樣的公司也在推出令人期待的機(jī)器人。

Andrej Karpathy：自動駕駛已經(jīng)實現(xiàn)AGI，汽車其實就是機(jī)器人

Unitree推出的G1機(jī)器人

Sarah Guo：我現(xiàn)在有一個G1機(jī)器人。

Andrej Karpathy：我也可能會考慮買一個。未來可能還會圍繞這些平臺形成一個生態(tài)系統(tǒng)，人們會基于這些平臺進(jìn)行開發(fā)。

雖然從規(guī)?；慕嵌葋砜?，這種方法是有前景的，但在初期階段，主要還是處理材料搬運任務(wù)，之后再逐步向更復(fù)雜的高復(fù)雜性任務(wù)（HKC）發(fā)展。

其中一個讓我非常興奮的項目是“吹葉機(jī)挑戰(zhàn)”。我希望看到Optimus機(jī)器人能在街上像踮著腳尖一樣小心翼翼地?fù)炱鹈恳黄淙~，這樣我們就不再需要那些噪音大的吹葉機(jī)了。

我覺得這是一項很有前景的任務(wù)，也希望這是最早的應(yīng)用之一。

Sarah Guo：我們可以聊聊人形機(jī)器人的設(shè)計邏輯嗎？最簡單的說法是：世界是為人類設(shè)計的，所以如果你制造一套硬件，最合理的做法就是讓這個模型在這套硬件上完成越來越多的任務(wù)。另一方面，有人認(rèn)為，人類并不是在所有任務(wù)中的最佳選擇。你可以讓它們更強壯、更大或者更小，那為什么不嘗試做一些超越人類能力的事情呢？你怎么理解這個問題？

Andrej Karpathy：我覺得人們可能低估了每個平臺的固定成本的復(fù)雜性。實際上，每個平臺都有很高的固定成本，因此集中化、讓一個平臺能夠處理所有任務(wù)是非常有意義的。

此外，人形設(shè)計也很吸引人，因為人類可以輕松操作它，這在數(shù)據(jù)收集方面也非常有幫助。我認(rèn)為這一點經(jīng)常被忽視。

你提到的世界為人類設(shè)計的因素當(dāng)然也很重要。我認(rèn)為我們會看到一些人形平臺的變體，但每個平臺的固定成本都是巨大的。

另外一個重要因素是多任務(wù)學(xué)習(xí)。我們希望有一個能夠處理多種任務(wù)的單一神經(jīng)網(wǎng)絡(luò)，從中獲得所有的智能和能力。

這也是語言模型如此有趣的原因之一，因為它們在統(tǒng)一的文本領(lǐng)域中處理多種任務(wù)，不同的問題之間共享知識，都結(jié)合在一個單一的神經(jīng)網(wǎng)絡(luò)中。

你需要這樣的平臺。希望為葉子撿拾收集的數(shù)據(jù)能對其他任務(wù)也有幫助。如果你為特定任務(wù)構(gòu)建專用系統(tǒng)，就不能從其他任務(wù)中獲得遷移學(xué)習(xí)的好處。

Sarah Guo：我聽說G1的價格大約是3萬美元，對吧？但似乎很難在特定預(yù)算下制造出一個功能非常強大的仿人機(jī)器人。如果你想在輪子上裝一個能做事的手臂，也許一開始用更便宜的方法來實現(xiàn)一個通用平臺會更實際。

Andrej Karpathy：這個觀點很有道理。你可以在上面裝一個輪子來替代腳。

我不確定這種做法是否會降低機(jī)器人的效果，但我覺得選擇一個平臺，讓它在長期使用中表現(xiàn)出色是非常重要的。

另外，人形機(jī)器人也有一種心理上的優(yōu)勢，因為它們看起來更熟悉，人們更容易理解和互動。

不過，這也可能帶來恐懼感，人們可能更喜歡更抽象的設(shè)計。我不確定是否會出現(xiàn)某種“真正的怪物”，但這確實是一個有趣的問題。

Elad Gil：你認(rèn)為實現(xiàn)這一未來技術(shù)里程碑還缺少什么？

Andrej Karpathy：我不確定自己是否有一個完全清晰的視角來解答這個問題。

不過，有一個有趣的方面是，在人體形態(tài)的設(shè)計中，下半身可能需要模仿學(xué)習(xí)，因為它涉及大量的鐘擺式控制和類似的技術(shù)，而上半身則需要處理遠(yuǎn)程操作、數(shù)據(jù)收集和端到端的訓(xùn)練。因此，整體來看，這些系統(tǒng)之間的互動變得非常復(fù)雜。

在初期階段，我預(yù)計很多工作將依賴于遠(yuǎn)程操作，從地面開始模仿，這可能會在95%的情況下有效。

接下來，討論人與機(jī)器人之間的比例時，人們可能會逐漸轉(zhuǎn)變?yōu)闄C(jī)器人的監(jiān)督者，而不是直接完成任務(wù)。這個過程將隨著時間推移逐步發(fā)生。

至于技術(shù)上的障礙，我不確定是否有某一件具體的事情阻礙了我們。

我覺得目前很多工具都已經(jīng)可以使用。像Transformer這種技術(shù)就像是一種美麗的組織結(jié)構(gòu)，只需要將數(shù)據(jù)以正確的形式輸入，然后進(jìn)行訓(xùn)練、實驗、部署和迭代。

這些過程確實繁瑣，但我不清楚是否有單獨的技術(shù)問題在阻礙我們的進(jìn)展。

Scaling Law與“數(shù)據(jù)墻”

Sarah Guo：我們現(xiàn)在所處的狀態(tài)是怎樣的？

Andrej Karpathy：我們目前的狀態(tài)非常好。我覺得大家可能還沒有完全理解Transformer的真正神奇之處。它不僅僅是另一個普通的神經(jīng)網(wǎng)絡(luò)，而是一個非常通用且強大的網(wǎng)絡(luò)架構(gòu)。

舉個例子，當(dāng)人們談?wù)撋窠?jīng)網(wǎng)絡(luò)中的“Scaling Law”時，這個法則實際上在很大程度上是Transformer的特性。

在Transformer出現(xiàn)之前，人們使用的是LSTM（長短期記憶網(wǎng)絡(luò)），將其層層堆疊，但卻無法得到清晰的Scaling Law。LSTM的訓(xùn)練效果也不理想，而Transformer則徹底改變了這一點。它是第一個能夠真正體現(xiàn)Scaling Law的架構(gòu)，一切都變得更加合理。

可以說，Transformer就像是一個通用的“可微分計算機(jī)”（differentiable computer）。

你可以向它輸入、輸出大量數(shù)據(jù)，利用反向傳播進(jìn)行訓(xùn)練。它可以自我組織起來，完成任務(wù)。我認(rèn)為這是我們在算法領(lǐng)域無意中發(fā)現(xiàn)的一個神奇現(xiàn)象。

其中當(dāng)然有一些關(guān)鍵的創(chuàng)新，比如殘差連接（residual connections）、層歸一化（layer normalization）和注意力機(jī)制（attention module）。

同時，它也避免了一些常見的飽和性非線性（如早期神經(jīng)網(wǎng)絡(luò)中的激活函數(shù)），因為這些會削弱梯度信號。于是，幾項重要的創(chuàng)新組合在一起，形成了Transformer。

谷歌的論文展示了這一點，這種架構(gòu)真正可以有效訓(xùn)練，而且你會發(fā)現(xiàn)它可以輕松實現(xiàn)Scaling Law。可以說，這是一項重大的突破。

Sarah Guo：感覺我們還沒有真正達(dá)到發(fā)展的極限，我想討論“數(shù)據(jù)墻”問題，以及未來一代產(chǎn)品的成本和規(guī)模會有多高。你對此怎么看？

Andrej Karpathy：這正是我們現(xiàn)在面臨的核心問題。我不認(rèn)為神經(jīng)網(wǎng)絡(luò)的架構(gòu)會阻礙我們進(jìn)一步發(fā)展，至少它已經(jīng)不是瓶頸了。

在前幾代模型中，Transformer確實是一個瓶頸，但現(xiàn)在情況不同了。所以我們現(xiàn)在更多討論的是：該使用什么損失函數(shù)？數(shù)據(jù)集在哪里？這些問題逐漸成為了新的瓶頸。

其實，神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)已經(jīng)比較成熟，很多公司和使用這項技術(shù)的人已經(jīng)不再關(guān)注Transformer的架構(gòu)創(chuàng)新。

比如，Llama發(fā)布的Transformer架構(gòu)也沒有太大變化，唯一的顯著更新就是增加了“繩索位置編碼”。其他方面的改進(jìn)，像是一些小的調(diào)整，可能總共也只帶來了3%左右的性能提升。

所以，從架構(gòu)角度看，過去五年里沒有太多革命性的變化，大家現(xiàn)在已經(jīng)把它視為理所當(dāng)然，直接使用并進(jìn)行訓(xùn)練。

現(xiàn)在，大部分的創(chuàng)新都集中在數(shù)據(jù)集和功能細(xì)節(jié)的優(yōu)化上。這是目前行業(yè)內(nèi)活躍的討論和改進(jìn)領(lǐng)域。

Sarah Guo：對吧？但在數(shù)據(jù)獲取方面也有很多爭論。當(dāng)我們能夠輕松獲取互聯(lián)網(wǎng)數(shù)據(jù)時，問題不大，但一旦這些數(shù)據(jù)不再可用，情況就復(fù)雜了。比如，合成數(shù)據(jù)或者更昂貴的數(shù)據(jù)采集方式成為了現(xiàn)實中的挑戰(zhàn)。

Andrej Karpathy：是的，這確實是個好問題。現(xiàn)在，很多工作都在語言模型（LMS）上進(jìn)行。

而互聯(lián)網(wǎng)數(shù)據(jù)并不是我們理想中的Transformer訓(xùn)練數(shù)據(jù)。它就像是一個“近鄰”，能讓你走得很遠(yuǎn)，效果出乎意料地好。

但說到底，互聯(lián)網(wǎng)數(shù)據(jù)本質(zhì)上就是一堆網(wǎng)頁，而我們真正想要的，是更接近人類大腦中的“內(nèi)心獨白”那種數(shù)據(jù)。

Sarah Guo：對，這正是我們的思路——捕捉大腦中的軌跡，思維的軌跡。

Andrej Karpathy：當(dāng)你在解決問題時，你的大腦會產(chǎn)生一系列思維軌跡。如果我們能得到上億條這樣的數(shù)據(jù)，類似于AGI的想法，那我們就能取得很大進(jìn)展。但目前我們還沒有達(dá)到這個水平。

所以，現(xiàn)在很多工作都圍繞著互聯(lián)網(wǎng)數(shù)據(jù)展開。這些數(shù)據(jù)雖然不是完美的，但已經(jīng)非常接近，因為互聯(lián)網(wǎng)上有足夠的推理痕跡和豐富的知識，而Transformer的作用就是讓這些數(shù)據(jù)得以有效利用。

我認(rèn)為，接下來很多工作將聚焦于如何將數(shù)據(jù)集重構(gòu)為更類似于“內(nèi)心獨白”的格式。合成數(shù)據(jù)的生成在這方面能提供很大幫助。

有趣的是，當(dāng)前的模型在很大程度上幫助我們構(gòu)建下一代模型。它就像在攀登樓梯，一步步向前推進(jìn)。

Elad Gil：你覺得合成數(shù)據(jù)在這一過程中有多大的作用？合成數(shù)據(jù)能帶我們走多遠(yuǎn)？因為是的，每一代模型的訓(xùn)練都會幫助我們改進(jìn)下一代模型，提供更多工具、數(shù)據(jù)標(biāo)簽，甚至生成部分合成數(shù)據(jù)。你認(rèn)為這些合成數(shù)據(jù)片段的重要性有多大？

Andrej Karpathy：是的，我認(rèn)為合成數(shù)據(jù)的確是我們進(jìn)步的關(guān)鍵之一，但一個常見的問題是，模型在生成內(nèi)容時可能出現(xiàn)“坍塌”現(xiàn)象，輸出變得單一。

比如，讓ChatGPT講笑話時，它可能只會重復(fù)三四個笑話，缺乏足夠的變化。這種“熵”降低現(xiàn)象表現(xiàn)在單個結(jié)果上并不明顯，但從整體來看，模型的輸出會失去多樣性和豐富性。

如果你沒有保持這種“熵”——即數(shù)據(jù)的隨機(jī)性和多樣性——你就會得到一個貧瘠的數(shù)據(jù)集，失去了原有的活力。這種問題在表面上不易察覺，但實際上它會極大影響模型的性能。

因此，在生成合成數(shù)據(jù)時，你必須非常小心，確保數(shù)據(jù)集中保留足夠的熵。

有些人發(fā)布過虛擬人物數(shù)據(jù)集，里面有上億個性化的背景資料，類似于虛構(gòu)的人物檔案。

比如“我是一個老師”或者“我是一個藝術(shù)家”，這類背景設(shè)定。通過這種方式，你不僅僅是在完成一個任務(wù)，還在逼迫模型探索更多可能的空間，從而增加了數(shù)據(jù)的多樣性。

總的來說，我認(rèn)為合成數(shù)據(jù)在未來會占據(jù)非常重要的地位，我們不會面臨數(shù)據(jù)枯竭的困境。但在使用時需要非常小心，確保數(shù)據(jù)集保持足夠的豐富性和多樣性。

Sarah Guo：你認(rèn)為我們從這項研究中對人類認(rèn)知了解了什么？比如，弄清楚我們推理的方式，是否真的能幫助我們更好地理解大腦的工作原理？

Andrej Karpathy：我會對這種類比保持謹(jǐn)慎?？傮w而言，這兩者還是有很大差異的，但確實有一些相似之處。

舉個例子，我覺得在很多方面，Transformer比人腦更高效。它們之所以還不如人腦，主要是因為數(shù)據(jù)問題——這算是一個大概的解釋。

比如，Transformer在記憶序列方面比人類強多了。你給它一個序列，它可以在前后進(jìn)行操作，記住并完成整個序列。而人類，只看一遍是記不住的。

所以在某些方面，像Transformer這樣的模型，尤其是在梯度優(yōu)化上，可能比大腦還要有效。盡管它們還不完美，但在很多認(rèn)知任務(wù)上，我認(rèn)為它們有很大的潛力。

Sarah Guo：只要有足夠的數(shù)據(jù)輸入，它們就會表現(xiàn)得更好。

Elad Gil：是的，這是計算機(jī)的典型優(yōu)勢，在某些應(yīng)用上，它們比人類更擅長。

Andrej Karpathy：沒錯，尤其在記憶方面。人類大腦有很多限制，比如工作記憶容量非常小。而Transformer有更大的工作記憶，并且是更高效的學(xué)習(xí)者。

人類大腦在很多環(huán)境和生物限制下工作，比如人類沒有類似于反向傳播的機(jī)制，這本身就不直觀。人腦是一個復(fù)雜的動態(tài)系統(tǒng)，受到很多約束。

而我們現(xiàn)在的AI系統(tǒng)在某些方面可能已經(jīng)比大腦更好，只是還沒達(dá)到大腦的整體水平。

人工智能與未來教育

Sarah Guo：你離開了OpenAI，現(xiàn)在從事教育工作。是什么讓你對教育如此熱衷？

Andrej Karpathy：我一直對學(xué)習(xí)和教學(xué)充滿熱情。這不僅是我長期以來的興趣，還因為我認(rèn)為AI的目標(biāo)不僅是自動化，更是賦予人們更多能力。我希望AI能幫助人們提升自我，而不是僅僅取代工作。如果能有理想的課程和導(dǎo)師，人們的成長會更快。

Elad Gil：80年代的研究表明個性化輔導(dǎo)能提高成績。AI要如何發(fā)揮作用？初期可能會出現(xiàn)什么產(chǎn)品？

Andrej Karpathy：我受到了這些研究的啟發(fā)。

現(xiàn)在，我在嘗試建立一個類似的課程，希望它能像你想學(xué)習(xí)AI那樣提供幫助。問題在于如何將這些課程擴(kuò)展到全球80億人，他們有不同的語言和能力水平。

與每個人一對一的授課是不現(xiàn)實的。因此，我認(rèn)為AI可以用來模擬優(yōu)秀的教師。

雖然現(xiàn)有的AI模型可能還不足以創(chuàng)建完美的課程，但它們可以作為學(xué)生的前端，為他們解釋課程內(nèi)容。老師將專注于設(shè)計課程內(nèi)容，而AI則負(fù)責(zé)與學(xué)生互動，支持多種語言，并引導(dǎo)他們完成學(xué)習(xí)過程。

Andrej Karpathy：自動駕駛已經(jīng)實現(xiàn)AGI，汽車其實就是機(jī)器人

Eureka Labs計劃推出的第一門AI課程

Sarah Guo：我應(yīng)該把這看作是類似于AI作為前端的經(jīng)歷嗎？這種類比是否適用？

Andrej Karpathy：是的，我認(rèn)為AI可以作為學(xué)生的前端，實際與學(xué)生互動并引導(dǎo)他們完成課程，只是目前還沒有完全實現(xiàn)。

隨著時間的推移和技術(shù)的進(jìn)步，這種設(shè)置可以不斷優(yōu)化。很多公司可能對現(xiàn)有AI能力的理解還不夠深入，導(dǎo)致他們構(gòu)建的工具可能過于前瞻或不夠?qū)嶋H，但AI在教育中的潛力非常令人興奮。

Sarah Guo：我們還未完全利用好學(xué)習(xí)工具，你認(rèn)為如果我們使用更多工具和課程，人類能否變得更好？

Andrej Karpathy ：確實如此。我們還沒有完全意識到可能性有多大。我認(rèn)為有兩個關(guān)鍵維度：一是全球化維度，希望每個人都能接受優(yōu)質(zhì)教育；另一個是個體能力的提升。兩者都非常有趣且令人興奮。

Elad Gil：一對一學(xué)習(xí)通常強調(diào)適應(yīng)性，特別是如何根據(jù)每個人的學(xué)習(xí)水平調(diào)整。你認(rèn)為現(xiàn)在的AI能做到這一點嗎，還是這還是未來的事？目前的AI主要關(guān)注影響力和多語言支持。

Andrej Karpathy：AI確實在翻譯和處理材料方面非常擅長，這些功能已經(jīng)很強大。

但對于個性化適應(yīng)性，AI現(xiàn)在還處于起步階段。盡管當(dāng)前的模型在某種程度上能夠根據(jù)背景進(jìn)行調(diào)整，但真正高效的適應(yīng)性還需要進(jìn)一步發(fā)展。

例如，如果你對某個學(xué)科有背景，AI能夠類比你已有的知識，這在教育中會非常有用。雖然我們看到了一些進(jìn)展，但真正的有效性還有待提高。雷峰網(wǎng)雷峰網(wǎng)(公眾號：雷峰網(wǎng))

Elad Gil：適應(yīng)性學(xué)習(xí)的關(guān)鍵是調(diào)整內(nèi)容以匹配學(xué)習(xí)者的背景和能力水平。隨著時間推移，可以調(diào)整模型以適應(yīng)學(xué)習(xí)者的優(yōu)缺點。你怎么看待這種情況？

Andrej Karpathy：目前，我們看到的更多是演示效果，而真正的產(chǎn)品還遠(yuǎn)未成熟。適應(yīng)性學(xué)習(xí)在理論上接近，但在實際應(yīng)用中仍有很多挑戰(zhàn)。

Elad Gil：非常感謝，今天的討論很精彩。

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

劉潔

編輯

發(fā)私信

當(dāng)月熱門文章

Andrej Karpathy：自動駕駛已經(jīng)實現(xiàn)AGI，汽車其實就是機(jī)器人

自動駕駛

人形機(jī)器人

Scaling Law與“數(shù)據(jù)墻”

人工智能與未來教育

Andrej Karpathy：自動駕駛已經(jīng)實現(xiàn)AGI，汽車其實就是機(jī)器人