丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給劉潔
發(fā)送

0

Andrej Karpathy:自動(dòng)駕駛已經(jīng)實(shí)現(xiàn)AGI,汽車其實(shí)就是機(jī)器人

本文作者: 劉潔 2024-09-12 10:42
導(dǎo)語(yǔ):Transformer記憶的人類思維,突破了自動(dòng)駕駛、人形機(jī)器人和AI個(gè)性教育的邊界

自己稱贊自己千句,不如別人稱贊你一句。

例如馬斯克在播客、推特上經(jīng)常自稱特斯拉的自動(dòng)駕駛和機(jī)器人“天下第一”,但這樣的話看多了,難免也有些審美疲勞。不過,前幾天,Andrej Karpathy在No Priors播客中現(xiàn)身,透露了特斯拉在Optimus人形機(jī)器人和自動(dòng)駕駛領(lǐng)域的一些鮮為人知的進(jìn)展。

Karpathy曾追隨馬斯克,從OpenAI轉(zhuǎn)戰(zhàn)特斯拉,從無(wú)到有親手打造了特斯拉的計(jì)算機(jī)視覺團(tuán)隊(duì)。

然而,隨著團(tuán)隊(duì)逐漸壯大,他的角色也從技術(shù)專家轉(zhuǎn)為管理者,這與他專注技術(shù)工作的初衷相違背。對(duì)于Karpathy來說,從頭開始構(gòu)建事物才是他熱愛和擅長(zhǎng)的事情。因此,他不得不做出“艱難的決定”,在團(tuán)隊(duì)成長(zhǎng)到足夠自主的同時(shí)遺憾地告別了特斯拉。

去年,Karpathy重返OpenAI,但不久后又因?yàn)橄嗨频脑螂x開。今年七月,他創(chuàng)立了自己的初創(chuàng)公司Eureka Labs,致力于將AI與教育相結(jié)合。

Andrej Karpathy:自動(dòng)駕駛已經(jīng)實(shí)現(xiàn)AGI,汽車其實(shí)就是機(jī)器人

Karpathy的離職推文:“離開OpenAI沒有什么特別原因,計(jì)劃開展個(gè)人項(xiàng)目,但請(qǐng)繼續(xù)提出陰謀論因?yàn)槟呛苡腥?。?/p>


盡管如此,Karpathy對(duì)特斯拉的情感依舊深厚。他在訪談中公開表示對(duì)特斯拉在AGI、機(jī)器人以及自動(dòng)駕駛領(lǐng)域的贊賞,并透露了未來可能重返特斯拉的意愿。

在這期播客節(jié)目中,Karpathy不止分享了過去在特斯拉收獲的有關(guān)自動(dòng)駕駛和人形機(jī)器人的思考,還有他對(duì)Scaling Law和AI發(fā)展的理解以及對(duì)AI教育的展望。

在談到自動(dòng)駕駛時(shí),Karpathy回憶起自己十年前第一次體驗(yàn)Waymo的自動(dòng)駕駛的經(jīng)歷,那時(shí)Waymo在街區(qū)的表現(xiàn)已經(jīng)非常接近完美。經(jīng)過十年的發(fā)展,這項(xiàng)技術(shù)終于從demo演變成了真正的商業(yè)產(chǎn)品。

Karpathy認(rèn)為現(xiàn)在的自動(dòng)駕駛其實(shí)已經(jīng)達(dá)到了類似AGI的水平,只是受限于技術(shù)和監(jiān)管,全球范圍內(nèi)的全面普及仍然是個(gè)難題。

Karpathy還把Waymo和特斯拉做了比較,非常有信心地肯定了特斯拉的自動(dòng)駕駛技術(shù)。他透露,自己剛體驗(yàn)了特斯拉的最新版本,感受非常驚艷,對(duì)其表現(xiàn)非常滿意。

在人形機(jī)器人方面,Karpathy提出了獨(dú)特的觀點(diǎn)。他認(rèn)為,汽車本質(zhì)上就是一種機(jī)器人。他還提到,在特斯拉早期的Optimus人形機(jī)器人開發(fā)中,汽車和機(jī)器人在硬件、工具以及研究人員方面基本都是共享的。

Karpathy特別分享了對(duì)人形設(shè)計(jì)的思考,他認(rèn)為保持人形設(shè)計(jì)是為了更好地集中研究,利用人類最熟悉的姿態(tài)來幫助收集和處理數(shù)據(jù),同時(shí)也使機(jī)器人更容易融入人類社會(huì)。

至于更深層次的技術(shù)方面,Karpathy 談到了對(duì)Scaling Law的理解。

雖然OpenAI以大參數(shù)模型而聞名,曾引領(lǐng)了一段時(shí)間的大參數(shù)模型風(fēng)潮,但如今主流模型已經(jīng)轉(zhuǎn)向小參數(shù)設(shè)計(jì)。在Karpathy的Youtube賬號(hào),最近一條是三個(gè)月前重現(xiàn)GPT-2 124M參數(shù)的教學(xué)視頻,時(shí)長(zhǎng)4個(gè)多小時(shí),這或許也間接反映出Karpathy對(duì)Scaling Law的不同看法。

Karpathy 指出,當(dāng)前AI發(fā)展的的瓶頸已經(jīng)不再是參數(shù)和神經(jīng)網(wǎng)絡(luò),而要是數(shù)據(jù)集的規(guī)模和質(zhì)量。未來的發(fā)展將更多依賴合成數(shù)據(jù)的生成,而合成數(shù)據(jù)的多樣性和“熵”尤為重要。模型輸出的多樣性如果降低,會(huì)導(dǎo)致數(shù)據(jù)集失去活力。

節(jié)目的最后,Karpathy回到了他目前專注的AI教育領(lǐng)域。他相信在AI的幫助下,一對(duì)一個(gè)性化課程有著巨大的潛力和市場(chǎng),并透露自己正在籌備一門關(guān)于AI的課程,預(yù)計(jì)會(huì)在晚些時(shí)候上線。


完整播客視頻可以點(diǎn)以下鏈接觀看:

https://www.youtube.com/watch?v=hM_h0UA7upI


AI科技評(píng)論摘取了部分播客內(nèi)容,做了不改原意的精編處理:


自動(dòng)駕駛


Sarah Guo:你曾在特斯拉領(lǐng)導(dǎo)自動(dòng)駕駛部門,現(xiàn)在自動(dòng)駕駛汽車已經(jīng)可以上路。你認(rèn)為當(dāng)前技術(shù)處于什么水平?我們需要多長(zhǎng)時(shí)間才能看到技術(shù)的進(jìn)一步提升或更廣泛的普及?

Andrej Karpathy:我在自動(dòng)駕駛領(lǐng)域工作了大約五年,對(duì)這個(gè)領(lǐng)域非常了解。我覺得我們現(xiàn)在的自動(dòng)駕駛技術(shù)已經(jīng)達(dá)到了類似AGI的水平。

今天的一些系統(tǒng)已經(jīng)允許付費(fèi)用戶在城市中使用,尤其是在舊金山,這種情況非常普遍。我個(gè)人已經(jīng)體驗(yàn)過很多次,這些系統(tǒng)真的很神奇,可以將你送到任何地方。

十年前,我第一次體驗(yàn)了Waymo的自動(dòng)駕駛。當(dāng)時(shí),我的一位朋友在Waymo工作,他給我展示了一個(gè)demo。那時(shí)候,Waymo在街區(qū)內(nèi)的駕駛已經(jīng)非常接近完美。

經(jīng)過十年的發(fā)展,它終于從demo成為了付費(fèi)產(chǎn)品,并且在城市范圍內(nèi)不斷擴(kuò)展。

Waymo自動(dòng)駕駛汽車


Elad Gil:你覺得自動(dòng)駕駛技術(shù)的進(jìn)展主要受到監(jiān)管還是技術(shù)的影響?你認(rèn)為這項(xiàng)技術(shù)何時(shí)會(huì)真正成熟?

Andrej Karpathy:技術(shù)方面,演示和實(shí)際應(yīng)用之間有很大差距。你在短時(shí)間的演示中不會(huì)遇到他們?cè)谶^去十年里處理的所有問題。

此外,監(jiān)管因素也起了重要作用。雖然我們?cè)谲浖矫嬉呀?jīng)接近實(shí)現(xiàn)AGI,但全球范圍的普及還遠(yuǎn)未實(shí)現(xiàn)。演示與全球化之間的差距很大。

雖然很多人認(rèn)為Waymo領(lǐng)先于特斯拉,但我個(gè)人認(rèn)為特斯拉在自動(dòng)駕駛領(lǐng)域更具領(lǐng)先優(yōu)勢(shì)。雖然目前看起來可能不是這樣,但我對(duì)特斯拉的自動(dòng)駕駛項(xiàng)目非??春?。

特斯拉面臨的軟件問題比Waymo的硬件問題要容易解決得多。特斯拉已經(jīng)在全球范圍內(nèi)大規(guī)模部署了汽車,而Waymo還在努力實(shí)現(xiàn)這一目標(biāo)。一旦特斯拉能夠全面實(shí)現(xiàn)其技術(shù),并成功部署這些車輛,將會(huì)是非常令人驚嘆的。

我昨天剛試駕了最新版的特斯拉,感覺他們最近做了很多出色的改進(jìn)。


Elad Gil:我最近也用過這個(gè)系統(tǒng),感覺確實(shí)很棒。

Andrej Karpathy:的確如此。昨天它為我完成了一些非常出色的駕駛?cè)蝿?wù)。我對(duì)團(tuán)隊(duì)的進(jìn)展印象深刻。

我還是認(rèn)為特斯拉面臨的主要問題是軟件,而Waymo則主要是硬件問題。目前,Waymo在這方面似乎稍占優(yōu)勢(shì)。

不過,十年后我們?cè)賮砜凑l(shuí)真正實(shí)現(xiàn)了規(guī)模化,并且從中獲利,我相信特斯拉會(huì)保持領(lǐng)先。


Elad Gil:你認(rèn)為解決軟件問題的關(guān)鍵時(shí)刻還遠(yuǎn)嗎?正如你所說,很多汽車使用昂貴的激光雷達(dá)和傳感器來支持軟件系統(tǒng)。特斯拉的方法是只用攝像頭,這樣可以顯著降低成本和復(fù)雜性,并能在多種車型上應(yīng)用。你認(rèn)為這種轉(zhuǎn)變會(huì)在什么時(shí)候發(fā)生?

Andrej Karpathy:我希望在幾年內(nèi)能看到這種轉(zhuǎn)變。

實(shí)際上,有趣的是,特斯拉在訓(xùn)練階段使用了很多昂貴的傳感器。雖然他們?cè)趯?shí)際部署中主要依靠攝像頭,但他們?cè)谟?xùn)練時(shí)使用了激光雷達(dá)和其他傳感器來構(gòu)建地圖和收集數(shù)據(jù)。這種做法既聰明又有效,因?yàn)樗昧藗鞲衅鞯男畔韮?yōu)化軟件。

我認(rèn)為這種策略還沒有被充分認(rèn)識(shí)到,但它會(huì)非常有效。盡管在訓(xùn)練階段傳感器非常有用,但在實(shí)際測(cè)試中,攝像頭提供的信息已足夠支持系統(tǒng)的運(yùn)行。


Elad Gil:另一種轉(zhuǎn)變是從啟發(fā)式學(xué)習(xí)轉(zhuǎn)向端到端的深度學(xué)習(xí)。你怎么看這個(gè)問題?

Andrej Karpathy:是的,特斯拉的策略一直很明確。

最初,特斯拉系統(tǒng)中有很多C++代碼,但現(xiàn)在神經(jīng)網(wǎng)絡(luò)已經(jīng)接管了許多功能,C++代碼的使用減少了。這表明神經(jīng)網(wǎng)絡(luò)逐漸接管了系統(tǒng)的各個(gè)部分,從處理圖像到多圖像預(yù)測(cè),最終系統(tǒng)只需輸出轉(zhuǎn)向指令。

特斯拉在這方面做得很好。相比之下,Waymo嘗試了不同的方法,但似乎沒有完全實(shí)現(xiàn)他們的目標(biāo)。因?yàn)閃aymo對(duì)具體細(xì)節(jié)保密,我們不完全了解他們的做法,但我相信特斯拉的逐步推進(jìn)方法是有效的。

未來,特斯拉的端到端系統(tǒng)可能完全依賴神經(jīng)網(wǎng)絡(luò),通過視頻流直接生成指令。

不過,實(shí)現(xiàn)這一目標(biāo)需要時(shí)間,因?yàn)橐鸩浇⑾到y(tǒng)并處理各種中間預(yù)測(cè)。即使在端到端系統(tǒng)中,中間表征和特征檢測(cè)器仍然重要,它們可以簡(jiǎn)化最終系統(tǒng)的設(shè)計(jì)。

訓(xùn)練一個(gè)龐大的神經(jīng)網(wǎng)絡(luò)進(jìn)行端到端駕駛時(shí),監(jiān)督信號(hào)不足是一個(gè)挑戰(zhàn)。因此,中間層的表征和檢測(cè)器能幫助解決這個(gè)問題,使端到端訓(xùn)練更可行。

盡管我不是這個(gè)團(tuán)隊(duì)的一部分,我相信特斯拉通過大量的預(yù)訓(xùn)練可以逐步優(yōu)化端到端系統(tǒng)??傮w來說,特斯拉的逐步推進(jìn)方法是合理且有效的。


人形機(jī)器人


Sarah Guo:你之前研究過特斯拉的人形機(jī)器人項(xiàng)目。我有很多問題,其中一個(gè)是,是否有技術(shù)或經(jīng)驗(yàn)的轉(zhuǎn)移?

Andrej Karpathy:幾乎所有東西都在轉(zhuǎn)移,我覺得很多人并沒有意識(shí)到這一點(diǎn)。

實(shí)際上,汽車本身就是一種機(jī)器人。而我并不認(rèn)為特斯拉是一家汽車公司,這種看法其實(shí)有些誤導(dǎo)。特斯拉更像是一家機(jī)器人公司,尤其是在大規(guī)模生產(chǎn)機(jī)器人方面,因?yàn)橐?guī)模化是個(gè)獨(dú)立的變量。

他們不僅僅是在制造某一件產(chǎn)品,而是在制造生產(chǎn)這件產(chǎn)品的機(jī)器,這也是一種完全不同的能力。所以,特斯拉就是一家規(guī)模化的機(jī)器人公司。

從汽車到人形機(jī)器人之間的技術(shù)轉(zhuǎn)移,其實(shí)并沒有那么困難。

事實(shí)上,早期版本的機(jī)器人“擎天柱”一度以為自己是輛汽車,因?yàn)樗褂昧送瑯拥挠?jì)算機(jī)和攝像頭。

非常有趣的是,我們?cè)跈C(jī)器人上運(yùn)行的是汽車的算法,而它卻在辦公室里四處移動(dòng),試圖識(shí)別可駕駛的空間,但實(shí)際上它面對(duì)的是步行空間。雖然有些細(xì)微的調(diào)整需要做,但基本上,它在開車的環(huán)境里運(yùn)行,實(shí)際上只是在行走。

Andrej Karpathy:自動(dòng)駕駛已經(jīng)實(shí)現(xiàn)AGI,汽車其實(shí)就是機(jī)器人


Sarah Guo:這么說的話,確實(shí)可以從一個(gè)機(jī)器人視角去思考這個(gè)問題。許多技術(shù)可以直接轉(zhuǎn)移,只是缺少了一些駕駛相關(guān)的數(shù)據(jù)和控制模塊。

Andrej Karpathy:沒錯(cuò),確實(shí)會(huì)缺少一些關(guān)鍵的組件。

但另一件讓我印象深刻的是,Optimus項(xiàng)目啟動(dòng)的速度非常快。當(dāng)Elon宣布這個(gè)項(xiàng)目時(shí),所有相關(guān)的工具、CAD模型、供應(yīng)鏈管理等就迅速到位了。這讓我意識(shí)到,特斯拉內(nèi)部其實(shí)積累了大量制造機(jī)器人的專業(yè)知識(shí)。

所有這些工具其實(shí)是通用的,只是被從汽車項(xiàng)目中重新配置和調(diào)整了一下。你需要的硬件、規(guī)?;a(chǎn)的工具,甚至是背后控制這些工具的大腦,其實(shí)都差不多。

所以,不僅是技術(shù)網(wǎng)絡(luò)的轉(zhuǎn)移,還涉及到各種工作方法的轉(zhuǎn)移。比如,標(biāo)簽團(tuán)隊(duì)的工作方式、協(xié)調(diào)方法,以及整個(gè)項(xiàng)目團(tuán)隊(duì)的運(yùn)作方式,這些都需要進(jìn)行大量的轉(zhuǎn)移和調(diào)整。


Elad Gil:你有沒有想過人形機(jī)器人或類似技術(shù)的第一個(gè)實(shí)際應(yīng)用領(lǐng)域是什么?

Andrej Karpathy:我認(rèn)為,最初的應(yīng)用領(lǐng)域應(yīng)該是公司內(nèi)部自己使用。我非??春锰厮估?,他們可能會(huì)采取這種方式。

如果公司能意識(shí)到第一個(gè)客戶是自己,那么可以在工廠內(nèi)部進(jìn)行項(xiàng)目孵化,處理如材料搬運(yùn)等任務(wù)。這樣一來,就可以避免與第三方簽訂復(fù)雜的合同,省去法律上的麻煩。

在內(nèi)部成功孵化之后,可以進(jìn)入B2B市場(chǎng),向擁有大型倉(cāng)庫(kù)的公司推廣。這些公司需要處理材料搬運(yùn)等任務(wù),合同和安全措施也能就緒。

等到在多家公司內(nèi)部成功應(yīng)用后,才是進(jìn)入B2C市場(chǎng)的時(shí)機(jī)。我相信我們會(huì)看到B2C領(lǐng)域的機(jī)器人出現(xiàn),例如像Unitree這樣的公司也在推出令人期待的機(jī)器人。

Andrej Karpathy:自動(dòng)駕駛已經(jīng)實(shí)現(xiàn)AGI,汽車其實(shí)就是機(jī)器人

Unitree推出的G1機(jī)器人


Sarah Guo:我現(xiàn)在有一個(gè)G1機(jī)器人。

Andrej Karpathy:我也可能會(huì)考慮買一個(gè)。未來可能還會(huì)圍繞這些平臺(tái)形成一個(gè)生態(tài)系統(tǒng),人們會(huì)基于這些平臺(tái)進(jìn)行開發(fā)。

雖然從規(guī)?;慕嵌葋砜?,這種方法是有前景的,但在初期階段,主要還是處理材料搬運(yùn)任務(wù),之后再逐步向更復(fù)雜的高復(fù)雜性任務(wù)(HKC)發(fā)展。

其中一個(gè)讓我非常興奮的項(xiàng)目是“吹葉機(jī)挑戰(zhàn)”。我希望看到Optimus機(jī)器人能在街上像踮著腳尖一樣小心翼翼地?fù)炱鹈恳黄淙~,這樣我們就不再需要那些噪音大的吹葉機(jī)了。

我覺得這是一項(xiàng)很有前景的任務(wù),也希望這是最早的應(yīng)用之一。


Sarah Guo:我們可以聊聊人形機(jī)器人的設(shè)計(jì)邏輯嗎?最簡(jiǎn)單的說法是:世界是為人類設(shè)計(jì)的,所以如果你制造一套硬件,最合理的做法就是讓這個(gè)模型在這套硬件上完成越來越多的任務(wù)。另一方面,有人認(rèn)為,人類并不是在所有任務(wù)中的最佳選擇。你可以讓它們更強(qiáng)壯、更大或者更小,那為什么不嘗試做一些超越人類能力的事情呢?你怎么理解這個(gè)問題?

Andrej Karpathy:我覺得人們可能低估了每個(gè)平臺(tái)的固定成本的復(fù)雜性。實(shí)際上,每個(gè)平臺(tái)都有很高的固定成本,因此集中化、讓一個(gè)平臺(tái)能夠處理所有任務(wù)是非常有意義的。

此外,人形設(shè)計(jì)也很吸引人,因?yàn)槿祟惪梢暂p松操作它,這在數(shù)據(jù)收集方面也非常有幫助。我認(rèn)為這一點(diǎn)經(jīng)常被忽視。

你提到的世界為人類設(shè)計(jì)的因素當(dāng)然也很重要。我認(rèn)為我們會(huì)看到一些人形平臺(tái)的變體,但每個(gè)平臺(tái)的固定成本都是巨大的。

另外一個(gè)重要因素是多任務(wù)學(xué)習(xí)。我們希望有一個(gè)能夠處理多種任務(wù)的單一神經(jīng)網(wǎng)絡(luò),從中獲得所有的智能和能力。

這也是語(yǔ)言模型如此有趣的原因之一,因?yàn)樗鼈冊(cè)诮y(tǒng)一的文本領(lǐng)域中處理多種任務(wù),不同的問題之間共享知識(shí),都結(jié)合在一個(gè)單一的神經(jīng)網(wǎng)絡(luò)中。

你需要這樣的平臺(tái)。希望為葉子撿拾收集的數(shù)據(jù)能對(duì)其他任務(wù)也有幫助。如果你為特定任務(wù)構(gòu)建專用系統(tǒng),就不能從其他任務(wù)中獲得遷移學(xué)習(xí)的好處。


Sarah Guo:我聽說G1的價(jià)格大約是3萬(wàn)美元,對(duì)吧?但似乎很難在特定預(yù)算下制造出一個(gè)功能非常強(qiáng)大的仿人機(jī)器人。如果你想在輪子上裝一個(gè)能做事的手臂,也許一開始用更便宜的方法來實(shí)現(xiàn)一個(gè)通用平臺(tái)會(huì)更實(shí)際。

Andrej Karpathy:這個(gè)觀點(diǎn)很有道理。你可以在上面裝一個(gè)輪子來替代腳。

我不確定這種做法是否會(huì)降低機(jī)器人的效果,但我覺得選擇一個(gè)平臺(tái),讓它在長(zhǎng)期使用中表現(xiàn)出色是非常重要的。

另外,人形機(jī)器人也有一種心理上的優(yōu)勢(shì),因?yàn)樗鼈兛雌饋砀煜ぃ藗兏菀桌斫夂突?dòng)。

不過,這也可能帶來恐懼感,人們可能更喜歡更抽象的設(shè)計(jì)。我不確定是否會(huì)出現(xiàn)某種“真正的怪物”,但這確實(shí)是一個(gè)有趣的問題。


Elad Gil:你認(rèn)為實(shí)現(xiàn)這一未來技術(shù)里程碑還缺少什么?

Andrej Karpathy:我不確定自己是否有一個(gè)完全清晰的視角來解答這個(gè)問題。

不過,有一個(gè)有趣的方面是,在人體形態(tài)的設(shè)計(jì)中,下半身可能需要模仿學(xué)習(xí),因?yàn)樗婕按罅康溺姅[式控制和類似的技術(shù),而上半身則需要處理遠(yuǎn)程操作、數(shù)據(jù)收集和端到端的訓(xùn)練。因此,整體來看,這些系統(tǒng)之間的互動(dòng)變得非常復(fù)雜。

在初期階段,我預(yù)計(jì)很多工作將依賴于遠(yuǎn)程操作,從地面開始模仿,這可能會(huì)在95%的情況下有效。

接下來,討論人與機(jī)器人之間的比例時(shí),人們可能會(huì)逐漸轉(zhuǎn)變?yōu)闄C(jī)器人的監(jiān)督者,而不是直接完成任務(wù)。這個(gè)過程將隨著時(shí)間推移逐步發(fā)生。

至于技術(shù)上的障礙,我不確定是否有某一件具體的事情阻礙了我們。

我覺得目前很多工具都已經(jīng)可以使用。像Transformer這種技術(shù)就像是一種美麗的組織結(jié)構(gòu),只需要將數(shù)據(jù)以正確的形式輸入,然后進(jìn)行訓(xùn)練、實(shí)驗(yàn)、部署和迭代。

這些過程確實(shí)繁瑣,但我不清楚是否有單獨(dú)的技術(shù)問題在阻礙我們的進(jìn)展。


Scaling Law與“數(shù)據(jù)墻”


Sarah Guo:我們現(xiàn)在所處的狀態(tài)是怎樣的?

Andrej Karpathy:我們目前的狀態(tài)非常好。我覺得大家可能還沒有完全理解Transformer的真正神奇之處。它不僅僅是另一個(gè)普通的神經(jīng)網(wǎng)絡(luò),而是一個(gè)非常通用且強(qiáng)大的網(wǎng)絡(luò)架構(gòu)。

舉個(gè)例子,當(dāng)人們談?wù)撋窠?jīng)網(wǎng)絡(luò)中的“Scaling Law”時(shí),這個(gè)法則實(shí)際上在很大程度上是Transformer的特性。

在Transformer出現(xiàn)之前,人們使用的是LSTM(長(zhǎng)短期記憶網(wǎng)絡(luò)),將其層層堆疊,但卻無(wú)法得到清晰的Scaling Law。LSTM的訓(xùn)練效果也不理想,而Transformer則徹底改變了這一點(diǎn)。它是第一個(gè)能夠真正體現(xiàn)Scaling Law的架構(gòu),一切都變得更加合理。

可以說,Transformer就像是一個(gè)通用的“可微分計(jì)算機(jī)”(differentiable computer)。

你可以向它輸入、輸出大量數(shù)據(jù),利用反向傳播進(jìn)行訓(xùn)練。它可以自我組織起來,完成任務(wù)。我認(rèn)為這是我們?cè)谒惴I(lǐng)域無(wú)意中發(fā)現(xiàn)的一個(gè)神奇現(xiàn)象。

其中當(dāng)然有一些關(guān)鍵的創(chuàng)新,比如殘差連接(residual connections)、層歸一化(layer normalization)和注意力機(jī)制(attention module)。

同時(shí),它也避免了一些常見的飽和性非線性(如早期神經(jīng)網(wǎng)絡(luò)中的激活函數(shù)),因?yàn)檫@些會(huì)削弱梯度信號(hào)。于是,幾項(xiàng)重要的創(chuàng)新組合在一起,形成了Transformer。

谷歌的論文展示了這一點(diǎn),這種架構(gòu)真正可以有效訓(xùn)練,而且你會(huì)發(fā)現(xiàn)它可以輕松實(shí)現(xiàn)Scaling Law。可以說,這是一項(xiàng)重大的突破。


Sarah Guo:感覺我們還沒有真正達(dá)到發(fā)展的極限,我想討論“數(shù)據(jù)墻”問題,以及未來一代產(chǎn)品的成本和規(guī)模會(huì)有多高。你對(duì)此怎么看?

Andrej Karpathy:這正是我們現(xiàn)在面臨的核心問題。我不認(rèn)為神經(jīng)網(wǎng)絡(luò)的架構(gòu)會(huì)阻礙我們進(jìn)一步發(fā)展,至少它已經(jīng)不是瓶頸了。

在前幾代模型中,Transformer確實(shí)是一個(gè)瓶頸,但現(xiàn)在情況不同了。所以我們現(xiàn)在更多討論的是:該使用什么損失函數(shù)?數(shù)據(jù)集在哪里?這些問題逐漸成為了新的瓶頸。

其實(shí),神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)已經(jīng)比較成熟,很多公司和使用這項(xiàng)技術(shù)的人已經(jīng)不再關(guān)注Transformer的架構(gòu)創(chuàng)新。

比如,Llama發(fā)布的Transformer架構(gòu)也沒有太大變化,唯一的顯著更新就是增加了“繩索位置編碼”。其他方面的改進(jìn),像是一些小的調(diào)整,可能總共也只帶來了3%左右的性能提升。

所以,從架構(gòu)角度看,過去五年里沒有太多革命性的變化,大家現(xiàn)在已經(jīng)把它視為理所當(dāng)然,直接使用并進(jìn)行訓(xùn)練。

現(xiàn)在,大部分的創(chuàng)新都集中在數(shù)據(jù)集和功能細(xì)節(jié)的優(yōu)化上。這是目前行業(yè)內(nèi)活躍的討論和改進(jìn)領(lǐng)域。


Sarah Guo:對(duì)吧?但在數(shù)據(jù)獲取方面也有很多爭(zhēng)論。當(dāng)我們能夠輕松獲取互聯(lián)網(wǎng)數(shù)據(jù)時(shí),問題不大,但一旦這些數(shù)據(jù)不再可用,情況就復(fù)雜了。比如,合成數(shù)據(jù)或者更昂貴的數(shù)據(jù)采集方式成為了現(xiàn)實(shí)中的挑戰(zhàn)。

Andrej Karpathy:是的,這確實(shí)是個(gè)好問題?,F(xiàn)在,很多工作都在語(yǔ)言模型(LMS)上進(jìn)行。

而互聯(lián)網(wǎng)數(shù)據(jù)并不是我們理想中的Transformer訓(xùn)練數(shù)據(jù)。它就像是一個(gè)“近鄰”,能讓你走得很遠(yuǎn),效果出乎意料地好。

但說到底,互聯(lián)網(wǎng)數(shù)據(jù)本質(zhì)上就是一堆網(wǎng)頁(yè),而我們真正想要的,是更接近人類大腦中的“內(nèi)心獨(dú)白”那種數(shù)據(jù)。


Sarah Guo:對(duì),這正是我們的思路——捕捉大腦中的軌跡,思維的軌跡。

Andrej Karpathy:當(dāng)你在解決問題時(shí),你的大腦會(huì)產(chǎn)生一系列思維軌跡。如果我們能得到上億條這樣的數(shù)據(jù),類似于AGI的想法,那我們就能取得很大進(jìn)展。但目前我們還沒有達(dá)到這個(gè)水平。

所以,現(xiàn)在很多工作都圍繞著互聯(lián)網(wǎng)數(shù)據(jù)展開。這些數(shù)據(jù)雖然不是完美的,但已經(jīng)非常接近,因?yàn)榛ヂ?lián)網(wǎng)上有足夠的推理痕跡和豐富的知識(shí),而Transformer的作用就是讓這些數(shù)據(jù)得以有效利用。

我認(rèn)為,接下來很多工作將聚焦于如何將數(shù)據(jù)集重構(gòu)為更類似于“內(nèi)心獨(dú)白”的格式。合成數(shù)據(jù)的生成在這方面能提供很大幫助。

有趣的是,當(dāng)前的模型在很大程度上幫助我們構(gòu)建下一代模型。它就像在攀登樓梯,一步步向前推進(jìn)。


Elad Gil:你覺得合成數(shù)據(jù)在這一過程中有多大的作用?合成數(shù)據(jù)能帶我們走多遠(yuǎn)?因?yàn)槭堑模恳淮P偷挠?xùn)練都會(huì)幫助我們改進(jìn)下一代模型,提供更多工具、數(shù)據(jù)標(biāo)簽,甚至生成部分合成數(shù)據(jù)。你認(rèn)為這些合成數(shù)據(jù)片段的重要性有多大?

Andrej Karpathy:是的,我認(rèn)為合成數(shù)據(jù)的確是我們進(jìn)步的關(guān)鍵之一,但一個(gè)常見的問題是,模型在生成內(nèi)容時(shí)可能出現(xiàn)“坍塌”現(xiàn)象,輸出變得單一。

比如,讓ChatGPT講笑話時(shí),它可能只會(huì)重復(fù)三四個(gè)笑話,缺乏足夠的變化。這種“熵”降低現(xiàn)象表現(xiàn)在單個(gè)結(jié)果上并不明顯,但從整體來看,模型的輸出會(huì)失去多樣性和豐富性。

如果你沒有保持這種“熵”——即數(shù)據(jù)的隨機(jī)性和多樣性——你就會(huì)得到一個(gè)貧瘠的數(shù)據(jù)集,失去了原有的活力。這種問題在表面上不易察覺,但實(shí)際上它會(huì)極大影響模型的性能。

因此,在生成合成數(shù)據(jù)時(shí),你必須非常小心,確保數(shù)據(jù)集中保留足夠的熵。

有些人發(fā)布過虛擬人物數(shù)據(jù)集,里面有上億個(gè)性化的背景資料,類似于虛構(gòu)的人物檔案。

比如“我是一個(gè)老師”或者“我是一個(gè)藝術(shù)家”,這類背景設(shè)定。通過這種方式,你不僅僅是在完成一個(gè)任務(wù),還在逼迫模型探索更多可能的空間,從而增加了數(shù)據(jù)的多樣性。

總的來說,我認(rèn)為合成數(shù)據(jù)在未來會(huì)占據(jù)非常重要的地位,我們不會(huì)面臨數(shù)據(jù)枯竭的困境。但在使用時(shí)需要非常小心,確保數(shù)據(jù)集保持足夠的豐富性和多樣性。


Sarah Guo:你認(rèn)為我們從這項(xiàng)研究中對(duì)人類認(rèn)知了解了什么?比如,弄清楚我們推理的方式,是否真的能幫助我們更好地理解大腦的工作原理?

Andrej Karpathy:我會(huì)對(duì)這種類比保持謹(jǐn)慎。總體而言,這兩者還是有很大差異的,但確實(shí)有一些相似之處。

舉個(gè)例子,我覺得在很多方面,Transformer比人腦更高效。它們之所以還不如人腦,主要是因?yàn)閿?shù)據(jù)問題——這算是一個(gè)大概的解釋。

比如,Transformer在記憶序列方面比人類強(qiáng)多了。你給它一個(gè)序列,它可以在前后進(jìn)行操作,記住并完成整個(gè)序列。而人類,只看一遍是記不住的。

所以在某些方面,像Transformer這樣的模型,尤其是在梯度優(yōu)化上,可能比大腦還要有效。盡管它們還不完美,但在很多認(rèn)知任務(wù)上,我認(rèn)為它們有很大的潛力。


Sarah Guo:只要有足夠的數(shù)據(jù)輸入,它們就會(huì)表現(xiàn)得更好。

Elad Gil:是的,這是計(jì)算機(jī)的典型優(yōu)勢(shì),在某些應(yīng)用上,它們比人類更擅長(zhǎng)。

Andrej Karpathy:沒錯(cuò),尤其在記憶方面。人類大腦有很多限制,比如工作記憶容量非常小。而Transformer有更大的工作記憶,并且是更高效的學(xué)習(xí)者。

人類大腦在很多環(huán)境和生物限制下工作,比如人類沒有類似于反向傳播的機(jī)制,這本身就不直觀。人腦是一個(gè)復(fù)雜的動(dòng)態(tài)系統(tǒng),受到很多約束。

而我們現(xiàn)在的AI系統(tǒng)在某些方面可能已經(jīng)比大腦更好,只是還沒達(dá)到大腦的整體水平。


人工智能與未來教育


Sarah Guo:你離開了OpenAI,現(xiàn)在從事教育工作。是什么讓你對(duì)教育如此熱衷?

Andrej Karpathy:我一直對(duì)學(xué)習(xí)和教學(xué)充滿熱情。這不僅是我長(zhǎng)期以來的興趣,還因?yàn)槲艺J(rèn)為AI的目標(biāo)不僅是自動(dòng)化,更是賦予人們更多能力。我希望AI能幫助人們提升自我,而不是僅僅取代工作。如果能有理想的課程和導(dǎo)師,人們的成長(zhǎng)會(huì)更快。


Elad Gil:80年代的研究表明個(gè)性化輔導(dǎo)能提高成績(jī)。AI要如何發(fā)揮作用?初期可能會(huì)出現(xiàn)什么產(chǎn)品?

Andrej Karpathy:我受到了這些研究的啟發(fā)。

現(xiàn)在,我在嘗試建立一個(gè)類似的課程,希望它能像你想學(xué)習(xí)AI那樣提供幫助。問題在于如何將這些課程擴(kuò)展到全球80億人,他們有不同的語(yǔ)言和能力水平。

與每個(gè)人一對(duì)一的授課是不現(xiàn)實(shí)的。因此,我認(rèn)為AI可以用來模擬優(yōu)秀的教師。

雖然現(xiàn)有的AI模型可能還不足以創(chuàng)建完美的課程,但它們可以作為學(xué)生的前端,為他們解釋課程內(nèi)容。老師將專注于設(shè)計(jì)課程內(nèi)容,而AI則負(fù)責(zé)與學(xué)生互動(dòng),支持多種語(yǔ)言,并引導(dǎo)他們完成學(xué)習(xí)過程。

Andrej Karpathy:自動(dòng)駕駛已經(jīng)實(shí)現(xiàn)AGI,汽車其實(shí)就是機(jī)器人

Eureka Labs計(jì)劃推出的第一門AI課程


Sarah Guo:我應(yīng)該把這看作是類似于AI作為前端的經(jīng)歷嗎?這種類比是否適用?

Andrej Karpathy:是的,我認(rèn)為AI可以作為學(xué)生的前端,實(shí)際與學(xué)生互動(dòng)并引導(dǎo)他們完成課程,只是目前還沒有完全實(shí)現(xiàn)。

隨著時(shí)間的推移和技術(shù)的進(jìn)步,這種設(shè)置可以不斷優(yōu)化。很多公司可能對(duì)現(xiàn)有AI能力的理解還不夠深入,導(dǎo)致他們構(gòu)建的工具可能過于前瞻或不夠?qū)嶋H,但AI在教育中的潛力非常令人興奮。


Sarah Guo:我們還未完全利用好學(xué)習(xí)工具,你認(rèn)為如果我們使用更多工具和課程,人類能否變得更好?

Andrej Karpathy :確實(shí)如此。我們還沒有完全意識(shí)到可能性有多大。我認(rèn)為有兩個(gè)關(guān)鍵維度:一是全球化維度,希望每個(gè)人都能接受優(yōu)質(zhì)教育;另一個(gè)是個(gè)體能力的提升。兩者都非常有趣且令人興奮。


Elad Gil:一對(duì)一學(xué)習(xí)通常強(qiáng)調(diào)適應(yīng)性,特別是如何根據(jù)每個(gè)人的學(xué)習(xí)水平調(diào)整。你認(rèn)為現(xiàn)在的AI能做到這一點(diǎn)嗎,還是這還是未來的事?目前的AI主要關(guān)注影響力和多語(yǔ)言支持。

Andrej Karpathy:AI確實(shí)在翻譯和處理材料方面非常擅長(zhǎng),這些功能已經(jīng)很強(qiáng)大。

但對(duì)于個(gè)性化適應(yīng)性,AI現(xiàn)在還處于起步階段。盡管當(dāng)前的模型在某種程度上能夠根據(jù)背景進(jìn)行調(diào)整,但真正高效的適應(yīng)性還需要進(jìn)一步發(fā)展。

例如,如果你對(duì)某個(gè)學(xué)科有背景,AI能夠類比你已有的知識(shí),這在教育中會(huì)非常有用。雖然我們看到了一些進(jìn)展,但真正的有效性還有待提高。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))雷峰網(wǎng)


Elad Gil:適應(yīng)性學(xué)習(xí)的關(guān)鍵是調(diào)整內(nèi)容以匹配學(xué)習(xí)者的背景和能力水平。隨著時(shí)間推移,可以調(diào)整模型以適應(yīng)學(xué)習(xí)者的優(yōu)缺點(diǎn)。你怎么看待這種情況?

Andrej Karpathy:目前,我們看到的更多是演示效果,而真正的產(chǎn)品還遠(yuǎn)未成熟。適應(yīng)性學(xué)習(xí)在理論上接近,但在實(shí)際應(yīng)用中仍有很多挑戰(zhàn)。


Elad Gil:非常感謝,今天的討論很精彩。


雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

Andrej Karpathy:自動(dòng)駕駛已經(jīng)實(shí)現(xiàn)AGI,汽車其實(shí)就是機(jī)器人

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說