0
本文作者: 劉潔 | 2024-09-12 10:42 |
自己稱贊自己千句,不如別人稱贊你一句。
例如馬斯克在播客、推特上經(jīng)常自稱特斯拉的自動駕駛和機(jī)器人“天下第一”,但這樣的話看多了,難免也有些審美疲勞。不過,前幾天,Andrej Karpathy在No Priors播客中現(xiàn)身,透露了特斯拉在Optimus人形機(jī)器人和自動駕駛領(lǐng)域的一些鮮為人知的進(jìn)展。
Karpathy曾追隨馬斯克,從OpenAI轉(zhuǎn)戰(zhàn)特斯拉,從無到有親手打造了特斯拉的計算機(jī)視覺團(tuán)隊。
然而,隨著團(tuán)隊逐漸壯大,他的角色也從技術(shù)專家轉(zhuǎn)為管理者,這與他專注技術(shù)工作的初衷相違背。對于Karpathy來說,從頭開始構(gòu)建事物才是他熱愛和擅長的事情。因此,他不得不做出“艱難的決定”,在團(tuán)隊成長到足夠自主的同時遺憾地告別了特斯拉。
去年,Karpathy重返OpenAI,但不久后又因為相似的原因離開。今年七月,他創(chuàng)立了自己的初創(chuàng)公司Eureka Labs,致力于將AI與教育相結(jié)合。
Karpathy的離職推文:“離開OpenAI沒有什么特別原因,計劃開展個人項目,但請繼續(xù)提出陰謀論因為那很有趣?!?/p>
盡管如此,Karpathy對特斯拉的情感依舊深厚。他在訪談中公開表示對特斯拉在AGI、機(jī)器人以及自動駕駛領(lǐng)域的贊賞,并透露了未來可能重返特斯拉的意愿。
在這期播客節(jié)目中,Karpathy不止分享了過去在特斯拉收獲的有關(guān)自動駕駛和人形機(jī)器人的思考,還有他對Scaling Law和AI發(fā)展的理解以及對AI教育的展望。
在談到自動駕駛時,Karpathy回憶起自己十年前第一次體驗Waymo的自動駕駛的經(jīng)歷,那時Waymo在街區(qū)的表現(xiàn)已經(jīng)非常接近完美。經(jīng)過十年的發(fā)展,這項技術(shù)終于從demo演變成了真正的商業(yè)產(chǎn)品。
Karpathy認(rèn)為現(xiàn)在的自動駕駛其實已經(jīng)達(dá)到了類似AGI的水平,只是受限于技術(shù)和監(jiān)管,全球范圍內(nèi)的全面普及仍然是個難題。
Karpathy還把Waymo和特斯拉做了比較,非常有信心地肯定了特斯拉的自動駕駛技術(shù)。他透露,自己剛體驗了特斯拉的最新版本,感受非常驚艷,對其表現(xiàn)非常滿意。
在人形機(jī)器人方面,Karpathy提出了獨特的觀點。他認(rèn)為,汽車本質(zhì)上就是一種機(jī)器人。他還提到,在特斯拉早期的Optimus人形機(jī)器人開發(fā)中,汽車和機(jī)器人在硬件、工具以及研究人員方面基本都是共享的。
Karpathy特別分享了對人形設(shè)計的思考,他認(rèn)為保持人形設(shè)計是為了更好地集中研究,利用人類最熟悉的姿態(tài)來幫助收集和處理數(shù)據(jù),同時也使機(jī)器人更容易融入人類社會。
至于更深層次的技術(shù)方面,Karpathy 談到了對Scaling Law的理解。
雖然OpenAI以大參數(shù)模型而聞名,曾引領(lǐng)了一段時間的大參數(shù)模型風(fēng)潮,但如今主流模型已經(jīng)轉(zhuǎn)向小參數(shù)設(shè)計。在Karpathy的Youtube賬號,最近一條是三個月前重現(xiàn)GPT-2 124M參數(shù)的教學(xué)視頻,時長4個多小時,這或許也間接反映出Karpathy對Scaling Law的不同看法。
Karpathy 指出,當(dāng)前AI發(fā)展的的瓶頸已經(jīng)不再是參數(shù)和神經(jīng)網(wǎng)絡(luò),而要是數(shù)據(jù)集的規(guī)模和質(zhì)量。未來的發(fā)展將更多依賴合成數(shù)據(jù)的生成,而合成數(shù)據(jù)的多樣性和“熵”尤為重要。模型輸出的多樣性如果降低,會導(dǎo)致數(shù)據(jù)集失去活力。
節(jié)目的最后,Karpathy回到了他目前專注的AI教育領(lǐng)域。他相信在AI的幫助下,一對一個性化課程有著巨大的潛力和市場,并透露自己正在籌備一門關(guān)于AI的課程,預(yù)計會在晚些時候上線。
完整播客視頻可以點以下鏈接觀看:
https://www.youtube.com/watch?v=hM_h0UA7upI
AI科技評論摘取了部分播客內(nèi)容,做了不改原意的精編處理:
Sarah Guo:你曾在特斯拉領(lǐng)導(dǎo)自動駕駛部門,現(xiàn)在自動駕駛汽車已經(jīng)可以上路。你認(rèn)為當(dāng)前技術(shù)處于什么水平?我們需要多長時間才能看到技術(shù)的進(jìn)一步提升或更廣泛的普及?
Andrej Karpathy:我在自動駕駛領(lǐng)域工作了大約五年,對這個領(lǐng)域非常了解。我覺得我們現(xiàn)在的自動駕駛技術(shù)已經(jīng)達(dá)到了類似AGI的水平。
今天的一些系統(tǒng)已經(jīng)允許付費用戶在城市中使用,尤其是在舊金山,這種情況非常普遍。我個人已經(jīng)體驗過很多次,這些系統(tǒng)真的很神奇,可以將你送到任何地方。
十年前,我第一次體驗了Waymo的自動駕駛。當(dāng)時,我的一位朋友在Waymo工作,他給我展示了一個demo。那時候,Waymo在街區(qū)內(nèi)的駕駛已經(jīng)非常接近完美。
經(jīng)過十年的發(fā)展,它終于從demo成為了付費產(chǎn)品,并且在城市范圍內(nèi)不斷擴(kuò)展。
Waymo自動駕駛汽車
Elad Gil:你覺得自動駕駛技術(shù)的進(jìn)展主要受到監(jiān)管還是技術(shù)的影響?你認(rèn)為這項技術(shù)何時會真正成熟?
Andrej Karpathy:技術(shù)方面,演示和實際應(yīng)用之間有很大差距。你在短時間的演示中不會遇到他們在過去十年里處理的所有問題。
此外,監(jiān)管因素也起了重要作用。雖然我們在軟件方面已經(jīng)接近實現(xiàn)AGI,但全球范圍的普及還遠(yuǎn)未實現(xiàn)。演示與全球化之間的差距很大。
雖然很多人認(rèn)為Waymo領(lǐng)先于特斯拉,但我個人認(rèn)為特斯拉在自動駕駛領(lǐng)域更具領(lǐng)先優(yōu)勢。雖然目前看起來可能不是這樣,但我對特斯拉的自動駕駛項目非常看好。
特斯拉面臨的軟件問題比Waymo的硬件問題要容易解決得多。特斯拉已經(jīng)在全球范圍內(nèi)大規(guī)模部署了汽車,而Waymo還在努力實現(xiàn)這一目標(biāo)。一旦特斯拉能夠全面實現(xiàn)其技術(shù),并成功部署這些車輛,將會是非常令人驚嘆的。
我昨天剛試駕了最新版的特斯拉,感覺他們最近做了很多出色的改進(jìn)。
Elad Gil:我最近也用過這個系統(tǒng),感覺確實很棒。
Andrej Karpathy:的確如此。昨天它為我完成了一些非常出色的駕駛?cè)蝿?wù)。我對團(tuán)隊的進(jìn)展印象深刻。
我還是認(rèn)為特斯拉面臨的主要問題是軟件,而Waymo則主要是硬件問題。目前,Waymo在這方面似乎稍占優(yōu)勢。
不過,十年后我們再來看誰真正實現(xiàn)了規(guī)?;?,并且從中獲利,我相信特斯拉會保持領(lǐng)先。
Elad Gil:你認(rèn)為解決軟件問題的關(guān)鍵時刻還遠(yuǎn)嗎?正如你所說,很多汽車使用昂貴的激光雷達(dá)和傳感器來支持軟件系統(tǒng)。特斯拉的方法是只用攝像頭,這樣可以顯著降低成本和復(fù)雜性,并能在多種車型上應(yīng)用。你認(rèn)為這種轉(zhuǎn)變會在什么時候發(fā)生?
Andrej Karpathy:我希望在幾年內(nèi)能看到這種轉(zhuǎn)變。
實際上,有趣的是,特斯拉在訓(xùn)練階段使用了很多昂貴的傳感器。雖然他們在實際部署中主要依靠攝像頭,但他們在訓(xùn)練時使用了激光雷達(dá)和其他傳感器來構(gòu)建地圖和收集數(shù)據(jù)。這種做法既聰明又有效,因為它利用了傳感器的信息來優(yōu)化軟件。
我認(rèn)為這種策略還沒有被充分認(rèn)識到,但它會非常有效。盡管在訓(xùn)練階段傳感器非常有用,但在實際測試中,攝像頭提供的信息已足夠支持系統(tǒng)的運行。
Elad Gil:另一種轉(zhuǎn)變是從啟發(fā)式學(xué)習(xí)轉(zhuǎn)向端到端的深度學(xué)習(xí)。你怎么看這個問題?
Andrej Karpathy:是的,特斯拉的策略一直很明確。
最初,特斯拉系統(tǒng)中有很多C++代碼,但現(xiàn)在神經(jīng)網(wǎng)絡(luò)已經(jīng)接管了許多功能,C++代碼的使用減少了。這表明神經(jīng)網(wǎng)絡(luò)逐漸接管了系統(tǒng)的各個部分,從處理圖像到多圖像預(yù)測,最終系統(tǒng)只需輸出轉(zhuǎn)向指令。
特斯拉在這方面做得很好。相比之下,Waymo嘗試了不同的方法,但似乎沒有完全實現(xiàn)他們的目標(biāo)。因為Waymo對具體細(xì)節(jié)保密,我們不完全了解他們的做法,但我相信特斯拉的逐步推進(jìn)方法是有效的。
未來,特斯拉的端到端系統(tǒng)可能完全依賴神經(jīng)網(wǎng)絡(luò),通過視頻流直接生成指令。
不過,實現(xiàn)這一目標(biāo)需要時間,因為要逐步建立系統(tǒng)并處理各種中間預(yù)測。即使在端到端系統(tǒng)中,中間表征和特征檢測器仍然重要,它們可以簡化最終系統(tǒng)的設(shè)計。
訓(xùn)練一個龐大的神經(jīng)網(wǎng)絡(luò)進(jìn)行端到端駕駛時,監(jiān)督信號不足是一個挑戰(zhàn)。因此,中間層的表征和檢測器能幫助解決這個問題,使端到端訓(xùn)練更可行。
盡管我不是這個團(tuán)隊的一部分,我相信特斯拉通過大量的預(yù)訓(xùn)練可以逐步優(yōu)化端到端系統(tǒng)??傮w來說,特斯拉的逐步推進(jìn)方法是合理且有效的。
Sarah Guo:你之前研究過特斯拉的人形機(jī)器人項目。我有很多問題,其中一個是,是否有技術(shù)或經(jīng)驗的轉(zhuǎn)移?
Andrej Karpathy:幾乎所有東西都在轉(zhuǎn)移,我覺得很多人并沒有意識到這一點。
實際上,汽車本身就是一種機(jī)器人。而我并不認(rèn)為特斯拉是一家汽車公司,這種看法其實有些誤導(dǎo)。特斯拉更像是一家機(jī)器人公司,尤其是在大規(guī)模生產(chǎn)機(jī)器人方面,因為規(guī)?;莻€獨立的變量。
他們不僅僅是在制造某一件產(chǎn)品,而是在制造生產(chǎn)這件產(chǎn)品的機(jī)器,這也是一種完全不同的能力。所以,特斯拉就是一家規(guī)模化的機(jī)器人公司。
從汽車到人形機(jī)器人之間的技術(shù)轉(zhuǎn)移,其實并沒有那么困難。
事實上,早期版本的機(jī)器人“擎天柱”一度以為自己是輛汽車,因為它使用了同樣的計算機(jī)和攝像頭。
非常有趣的是,我們在機(jī)器人上運行的是汽車的算法,而它卻在辦公室里四處移動,試圖識別可駕駛的空間,但實際上它面對的是步行空間。雖然有些細(xì)微的調(diào)整需要做,但基本上,它在開車的環(huán)境里運行,實際上只是在行走。
Sarah Guo:這么說的話,確實可以從一個機(jī)器人視角去思考這個問題。許多技術(shù)可以直接轉(zhuǎn)移,只是缺少了一些駕駛相關(guān)的數(shù)據(jù)和控制模塊。
Andrej Karpathy:沒錯,確實會缺少一些關(guān)鍵的組件。
但另一件讓我印象深刻的是,Optimus項目啟動的速度非???。當(dāng)Elon宣布這個項目時,所有相關(guān)的工具、CAD模型、供應(yīng)鏈管理等就迅速到位了。這讓我意識到,特斯拉內(nèi)部其實積累了大量制造機(jī)器人的專業(yè)知識。
所有這些工具其實是通用的,只是被從汽車項目中重新配置和調(diào)整了一下。你需要的硬件、規(guī)模化生產(chǎn)的工具,甚至是背后控制這些工具的大腦,其實都差不多。
所以,不僅是技術(shù)網(wǎng)絡(luò)的轉(zhuǎn)移,還涉及到各種工作方法的轉(zhuǎn)移。比如,標(biāo)簽團(tuán)隊的工作方式、協(xié)調(diào)方法,以及整個項目團(tuán)隊的運作方式,這些都需要進(jìn)行大量的轉(zhuǎn)移和調(diào)整。
Elad Gil:你有沒有想過人形機(jī)器人或類似技術(shù)的第一個實際應(yīng)用領(lǐng)域是什么?
Andrej Karpathy:我認(rèn)為,最初的應(yīng)用領(lǐng)域應(yīng)該是公司內(nèi)部自己使用。我非??春锰厮估麄兛赡軙扇∵@種方式。
如果公司能意識到第一個客戶是自己,那么可以在工廠內(nèi)部進(jìn)行項目孵化,處理如材料搬運等任務(wù)。這樣一來,就可以避免與第三方簽訂復(fù)雜的合同,省去法律上的麻煩。
在內(nèi)部成功孵化之后,可以進(jìn)入B2B市場,向擁有大型倉庫的公司推廣。這些公司需要處理材料搬運等任務(wù),合同和安全措施也能就緒。
等到在多家公司內(nèi)部成功應(yīng)用后,才是進(jìn)入B2C市場的時機(jī)。我相信我們會看到B2C領(lǐng)域的機(jī)器人出現(xiàn),例如像Unitree這樣的公司也在推出令人期待的機(jī)器人。
Unitree推出的G1機(jī)器人
Sarah Guo:我現(xiàn)在有一個G1機(jī)器人。
Andrej Karpathy:我也可能會考慮買一個。未來可能還會圍繞這些平臺形成一個生態(tài)系統(tǒng),人們會基于這些平臺進(jìn)行開發(fā)。
雖然從規(guī)?;慕嵌葋砜?,這種方法是有前景的,但在初期階段,主要還是處理材料搬運任務(wù),之后再逐步向更復(fù)雜的高復(fù)雜性任務(wù)(HKC)發(fā)展。
其中一個讓我非常興奮的項目是“吹葉機(jī)挑戰(zhàn)”。我希望看到Optimus機(jī)器人能在街上像踮著腳尖一樣小心翼翼地?fù)炱鹈恳黄淙~,這樣我們就不再需要那些噪音大的吹葉機(jī)了。
我覺得這是一項很有前景的任務(wù),也希望這是最早的應(yīng)用之一。
Sarah Guo:我們可以聊聊人形機(jī)器人的設(shè)計邏輯嗎?最簡單的說法是:世界是為人類設(shè)計的,所以如果你制造一套硬件,最合理的做法就是讓這個模型在這套硬件上完成越來越多的任務(wù)。另一方面,有人認(rèn)為,人類并不是在所有任務(wù)中的最佳選擇。你可以讓它們更強壯、更大或者更小,那為什么不嘗試做一些超越人類能力的事情呢?你怎么理解這個問題?
Andrej Karpathy:我覺得人們可能低估了每個平臺的固定成本的復(fù)雜性。實際上,每個平臺都有很高的固定成本,因此集中化、讓一個平臺能夠處理所有任務(wù)是非常有意義的。
此外,人形設(shè)計也很吸引人,因為人類可以輕松操作它,這在數(shù)據(jù)收集方面也非常有幫助。我認(rèn)為這一點經(jīng)常被忽視。
你提到的世界為人類設(shè)計的因素當(dāng)然也很重要。我認(rèn)為我們會看到一些人形平臺的變體,但每個平臺的固定成本都是巨大的。
另外一個重要因素是多任務(wù)學(xué)習(xí)。我們希望有一個能夠處理多種任務(wù)的單一神經(jīng)網(wǎng)絡(luò),從中獲得所有的智能和能力。
這也是語言模型如此有趣的原因之一,因為它們在統(tǒng)一的文本領(lǐng)域中處理多種任務(wù),不同的問題之間共享知識,都結(jié)合在一個單一的神經(jīng)網(wǎng)絡(luò)中。
你需要這樣的平臺。希望為葉子撿拾收集的數(shù)據(jù)能對其他任務(wù)也有幫助。如果你為特定任務(wù)構(gòu)建專用系統(tǒng),就不能從其他任務(wù)中獲得遷移學(xué)習(xí)的好處。
Sarah Guo:我聽說G1的價格大約是3萬美元,對吧?但似乎很難在特定預(yù)算下制造出一個功能非常強大的仿人機(jī)器人。如果你想在輪子上裝一個能做事的手臂,也許一開始用更便宜的方法來實現(xiàn)一個通用平臺會更實際。
Andrej Karpathy:這個觀點很有道理。你可以在上面裝一個輪子來替代腳。
我不確定這種做法是否會降低機(jī)器人的效果,但我覺得選擇一個平臺,讓它在長期使用中表現(xiàn)出色是非常重要的。
另外,人形機(jī)器人也有一種心理上的優(yōu)勢,因為它們看起來更熟悉,人們更容易理解和互動。
不過,這也可能帶來恐懼感,人們可能更喜歡更抽象的設(shè)計。我不確定是否會出現(xiàn)某種“真正的怪物”,但這確實是一個有趣的問題。
Elad Gil:你認(rèn)為實現(xiàn)這一未來技術(shù)里程碑還缺少什么?
Andrej Karpathy:我不確定自己是否有一個完全清晰的視角來解答這個問題。
不過,有一個有趣的方面是,在人體形態(tài)的設(shè)計中,下半身可能需要模仿學(xué)習(xí),因為它涉及大量的鐘擺式控制和類似的技術(shù),而上半身則需要處理遠(yuǎn)程操作、數(shù)據(jù)收集和端到端的訓(xùn)練。因此,整體來看,這些系統(tǒng)之間的互動變得非常復(fù)雜。
在初期階段,我預(yù)計很多工作將依賴于遠(yuǎn)程操作,從地面開始模仿,這可能會在95%的情況下有效。
接下來,討論人與機(jī)器人之間的比例時,人們可能會逐漸轉(zhuǎn)變?yōu)闄C(jī)器人的監(jiān)督者,而不是直接完成任務(wù)。這個過程將隨著時間推移逐步發(fā)生。
至于技術(shù)上的障礙,我不確定是否有某一件具體的事情阻礙了我們。
我覺得目前很多工具都已經(jīng)可以使用。像Transformer這種技術(shù)就像是一種美麗的組織結(jié)構(gòu),只需要將數(shù)據(jù)以正確的形式輸入,然后進(jìn)行訓(xùn)練、實驗、部署和迭代。
這些過程確實繁瑣,但我不清楚是否有單獨的技術(shù)問題在阻礙我們的進(jìn)展。
Sarah Guo:我們現(xiàn)在所處的狀態(tài)是怎樣的?
Andrej Karpathy:我們目前的狀態(tài)非常好。我覺得大家可能還沒有完全理解Transformer的真正神奇之處。它不僅僅是另一個普通的神經(jīng)網(wǎng)絡(luò),而是一個非常通用且強大的網(wǎng)絡(luò)架構(gòu)。
舉個例子,當(dāng)人們談?wù)撋窠?jīng)網(wǎng)絡(luò)中的“Scaling Law”時,這個法則實際上在很大程度上是Transformer的特性。
在Transformer出現(xiàn)之前,人們使用的是LSTM(長短期記憶網(wǎng)絡(luò)),將其層層堆疊,但卻無法得到清晰的Scaling Law。LSTM的訓(xùn)練效果也不理想,而Transformer則徹底改變了這一點。它是第一個能夠真正體現(xiàn)Scaling Law的架構(gòu),一切都變得更加合理。
可以說,Transformer就像是一個通用的“可微分計算機(jī)”(differentiable computer)。
你可以向它輸入、輸出大量數(shù)據(jù),利用反向傳播進(jìn)行訓(xùn)練。它可以自我組織起來,完成任務(wù)。我認(rèn)為這是我們在算法領(lǐng)域無意中發(fā)現(xiàn)的一個神奇現(xiàn)象。
其中當(dāng)然有一些關(guān)鍵的創(chuàng)新,比如殘差連接(residual connections)、層歸一化(layer normalization)和注意力機(jī)制(attention module)。
同時,它也避免了一些常見的飽和性非線性(如早期神經(jīng)網(wǎng)絡(luò)中的激活函數(shù)),因為這些會削弱梯度信號。于是,幾項重要的創(chuàng)新組合在一起,形成了Transformer。
谷歌的論文展示了這一點,這種架構(gòu)真正可以有效訓(xùn)練,而且你會發(fā)現(xiàn)它可以輕松實現(xiàn)Scaling Law。可以說,這是一項重大的突破。
Sarah Guo:感覺我們還沒有真正達(dá)到發(fā)展的極限,我想討論“數(shù)據(jù)墻”問題,以及未來一代產(chǎn)品的成本和規(guī)模會有多高。你對此怎么看?
Andrej Karpathy:這正是我們現(xiàn)在面臨的核心問題。我不認(rèn)為神經(jīng)網(wǎng)絡(luò)的架構(gòu)會阻礙我們進(jìn)一步發(fā)展,至少它已經(jīng)不是瓶頸了。
在前幾代模型中,Transformer確實是一個瓶頸,但現(xiàn)在情況不同了。所以我們現(xiàn)在更多討論的是:該使用什么損失函數(shù)?數(shù)據(jù)集在哪里?這些問題逐漸成為了新的瓶頸。
其實,神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)已經(jīng)比較成熟,很多公司和使用這項技術(shù)的人已經(jīng)不再關(guān)注Transformer的架構(gòu)創(chuàng)新。
比如,Llama發(fā)布的Transformer架構(gòu)也沒有太大變化,唯一的顯著更新就是增加了“繩索位置編碼”。其他方面的改進(jìn),像是一些小的調(diào)整,可能總共也只帶來了3%左右的性能提升。
所以,從架構(gòu)角度看,過去五年里沒有太多革命性的變化,大家現(xiàn)在已經(jīng)把它視為理所當(dāng)然,直接使用并進(jìn)行訓(xùn)練。
現(xiàn)在,大部分的創(chuàng)新都集中在數(shù)據(jù)集和功能細(xì)節(jié)的優(yōu)化上。這是目前行業(yè)內(nèi)活躍的討論和改進(jìn)領(lǐng)域。
Sarah Guo:對吧?但在數(shù)據(jù)獲取方面也有很多爭論。當(dāng)我們能夠輕松獲取互聯(lián)網(wǎng)數(shù)據(jù)時,問題不大,但一旦這些數(shù)據(jù)不再可用,情況就復(fù)雜了。比如,合成數(shù)據(jù)或者更昂貴的數(shù)據(jù)采集方式成為了現(xiàn)實中的挑戰(zhàn)。
Andrej Karpathy:是的,這確實是個好問題。現(xiàn)在,很多工作都在語言模型(LMS)上進(jìn)行。
而互聯(lián)網(wǎng)數(shù)據(jù)并不是我們理想中的Transformer訓(xùn)練數(shù)據(jù)。它就像是一個“近鄰”,能讓你走得很遠(yuǎn),效果出乎意料地好。
但說到底,互聯(lián)網(wǎng)數(shù)據(jù)本質(zhì)上就是一堆網(wǎng)頁,而我們真正想要的,是更接近人類大腦中的“內(nèi)心獨白”那種數(shù)據(jù)。
Sarah Guo:對,這正是我們的思路——捕捉大腦中的軌跡,思維的軌跡。
Andrej Karpathy:當(dāng)你在解決問題時,你的大腦會產(chǎn)生一系列思維軌跡。如果我們能得到上億條這樣的數(shù)據(jù),類似于AGI的想法,那我們就能取得很大進(jìn)展。但目前我們還沒有達(dá)到這個水平。
所以,現(xiàn)在很多工作都圍繞著互聯(lián)網(wǎng)數(shù)據(jù)展開。這些數(shù)據(jù)雖然不是完美的,但已經(jīng)非常接近,因為互聯(lián)網(wǎng)上有足夠的推理痕跡和豐富的知識,而Transformer的作用就是讓這些數(shù)據(jù)得以有效利用。
我認(rèn)為,接下來很多工作將聚焦于如何將數(shù)據(jù)集重構(gòu)為更類似于“內(nèi)心獨白”的格式。合成數(shù)據(jù)的生成在這方面能提供很大幫助。
有趣的是,當(dāng)前的模型在很大程度上幫助我們構(gòu)建下一代模型。它就像在攀登樓梯,一步步向前推進(jìn)。
Elad Gil:你覺得合成數(shù)據(jù)在這一過程中有多大的作用?合成數(shù)據(jù)能帶我們走多遠(yuǎn)?因為是的,每一代模型的訓(xùn)練都會幫助我們改進(jìn)下一代模型,提供更多工具、數(shù)據(jù)標(biāo)簽,甚至生成部分合成數(shù)據(jù)。你認(rèn)為這些合成數(shù)據(jù)片段的重要性有多大?
Andrej Karpathy:是的,我認(rèn)為合成數(shù)據(jù)的確是我們進(jìn)步的關(guān)鍵之一,但一個常見的問題是,模型在生成內(nèi)容時可能出現(xiàn)“坍塌”現(xiàn)象,輸出變得單一。
比如,讓ChatGPT講笑話時,它可能只會重復(fù)三四個笑話,缺乏足夠的變化。這種“熵”降低現(xiàn)象表現(xiàn)在單個結(jié)果上并不明顯,但從整體來看,模型的輸出會失去多樣性和豐富性。
如果你沒有保持這種“熵”——即數(shù)據(jù)的隨機(jī)性和多樣性——你就會得到一個貧瘠的數(shù)據(jù)集,失去了原有的活力。這種問題在表面上不易察覺,但實際上它會極大影響模型的性能。
因此,在生成合成數(shù)據(jù)時,你必須非常小心,確保數(shù)據(jù)集中保留足夠的熵。
有些人發(fā)布過虛擬人物數(shù)據(jù)集,里面有上億個性化的背景資料,類似于虛構(gòu)的人物檔案。
比如“我是一個老師”或者“我是一個藝術(shù)家”,這類背景設(shè)定。通過這種方式,你不僅僅是在完成一個任務(wù),還在逼迫模型探索更多可能的空間,從而增加了數(shù)據(jù)的多樣性。
總的來說,我認(rèn)為合成數(shù)據(jù)在未來會占據(jù)非常重要的地位,我們不會面臨數(shù)據(jù)枯竭的困境。但在使用時需要非常小心,確保數(shù)據(jù)集保持足夠的豐富性和多樣性。
Sarah Guo:你認(rèn)為我們從這項研究中對人類認(rèn)知了解了什么?比如,弄清楚我們推理的方式,是否真的能幫助我們更好地理解大腦的工作原理?
Andrej Karpathy:我會對這種類比保持謹(jǐn)慎??傮w而言,這兩者還是有很大差異的,但確實有一些相似之處。
舉個例子,我覺得在很多方面,Transformer比人腦更高效。它們之所以還不如人腦,主要是因為數(shù)據(jù)問題——這算是一個大概的解釋。
比如,Transformer在記憶序列方面比人類強多了。你給它一個序列,它可以在前后進(jìn)行操作,記住并完成整個序列。而人類,只看一遍是記不住的。
所以在某些方面,像Transformer這樣的模型,尤其是在梯度優(yōu)化上,可能比大腦還要有效。盡管它們還不完美,但在很多認(rèn)知任務(wù)上,我認(rèn)為它們有很大的潛力。
Sarah Guo:只要有足夠的數(shù)據(jù)輸入,它們就會表現(xiàn)得更好。
Elad Gil:是的,這是計算機(jī)的典型優(yōu)勢,在某些應(yīng)用上,它們比人類更擅長。
Andrej Karpathy:沒錯,尤其在記憶方面。人類大腦有很多限制,比如工作記憶容量非常小。而Transformer有更大的工作記憶,并且是更高效的學(xué)習(xí)者。
人類大腦在很多環(huán)境和生物限制下工作,比如人類沒有類似于反向傳播的機(jī)制,這本身就不直觀。人腦是一個復(fù)雜的動態(tài)系統(tǒng),受到很多約束。
而我們現(xiàn)在的AI系統(tǒng)在某些方面可能已經(jīng)比大腦更好,只是還沒達(dá)到大腦的整體水平。
Sarah Guo:你離開了OpenAI,現(xiàn)在從事教育工作。是什么讓你對教育如此熱衷?
Andrej Karpathy:我一直對學(xué)習(xí)和教學(xué)充滿熱情。這不僅是我長期以來的興趣,還因為我認(rèn)為AI的目標(biāo)不僅是自動化,更是賦予人們更多能力。我希望AI能幫助人們提升自我,而不是僅僅取代工作。如果能有理想的課程和導(dǎo)師,人們的成長會更快。
Elad Gil:80年代的研究表明個性化輔導(dǎo)能提高成績。AI要如何發(fā)揮作用?初期可能會出現(xiàn)什么產(chǎn)品?
Andrej Karpathy:我受到了這些研究的啟發(fā)。
現(xiàn)在,我在嘗試建立一個類似的課程,希望它能像你想學(xué)習(xí)AI那樣提供幫助。問題在于如何將這些課程擴(kuò)展到全球80億人,他們有不同的語言和能力水平。
與每個人一對一的授課是不現(xiàn)實的。因此,我認(rèn)為AI可以用來模擬優(yōu)秀的教師。
雖然現(xiàn)有的AI模型可能還不足以創(chuàng)建完美的課程,但它們可以作為學(xué)生的前端,為他們解釋課程內(nèi)容。老師將專注于設(shè)計課程內(nèi)容,而AI則負(fù)責(zé)與學(xué)生互動,支持多種語言,并引導(dǎo)他們完成學(xué)習(xí)過程。
Eureka Labs計劃推出的第一門AI課程
Sarah Guo:我應(yīng)該把這看作是類似于AI作為前端的經(jīng)歷嗎?這種類比是否適用?
Andrej Karpathy:是的,我認(rèn)為AI可以作為學(xué)生的前端,實際與學(xué)生互動并引導(dǎo)他們完成課程,只是目前還沒有完全實現(xiàn)。
隨著時間的推移和技術(shù)的進(jìn)步,這種設(shè)置可以不斷優(yōu)化。很多公司可能對現(xiàn)有AI能力的理解還不夠深入,導(dǎo)致他們構(gòu)建的工具可能過于前瞻或不夠?qū)嶋H,但AI在教育中的潛力非常令人興奮。
Sarah Guo:我們還未完全利用好學(xué)習(xí)工具,你認(rèn)為如果我們使用更多工具和課程,人類能否變得更好?
Andrej Karpathy :確實如此。我們還沒有完全意識到可能性有多大。我認(rèn)為有兩個關(guān)鍵維度:一是全球化維度,希望每個人都能接受優(yōu)質(zhì)教育;另一個是個體能力的提升。兩者都非常有趣且令人興奮。
Elad Gil:一對一學(xué)習(xí)通常強調(diào)適應(yīng)性,特別是如何根據(jù)每個人的學(xué)習(xí)水平調(diào)整。你認(rèn)為現(xiàn)在的AI能做到這一點嗎,還是這還是未來的事?目前的AI主要關(guān)注影響力和多語言支持。
Andrej Karpathy:AI確實在翻譯和處理材料方面非常擅長,這些功能已經(jīng)很強大。
但對于個性化適應(yīng)性,AI現(xiàn)在還處于起步階段。盡管當(dāng)前的模型在某種程度上能夠根據(jù)背景進(jìn)行調(diào)整,但真正高效的適應(yīng)性還需要進(jìn)一步發(fā)展。
例如,如果你對某個學(xué)科有背景,AI能夠類比你已有的知識,這在教育中會非常有用。雖然我們看到了一些進(jìn)展,但真正的有效性還有待提高。雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))
Elad Gil:適應(yīng)性學(xué)習(xí)的關(guān)鍵是調(diào)整內(nèi)容以匹配學(xué)習(xí)者的背景和能力水平。隨著時間推移,可以調(diào)整模型以適應(yīng)學(xué)習(xí)者的優(yōu)缺點。你怎么看待這種情況?
Andrej Karpathy:目前,我們看到的更多是演示效果,而真正的產(chǎn)品還遠(yuǎn)未成熟。適應(yīng)性學(xué)習(xí)在理論上接近,但在實際應(yīng)用中仍有很多挑戰(zhàn)。
Elad Gil:非常感謝,今天的討論很精彩。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。