0
作者 郭思
編輯 陳彩嫻
9月底,一則關(guān)于特斯拉機器人的視頻流出,外界看到了Optimus擎天柱機器人的最新進(jìn)展。
與此同時,在推特官方賬號上,Optimus賬號也發(fā)出了一則Hi,human,I have returned的訊息。
而往年九月底會迎來的特斯拉 AI DAY,今年卻遲遲沒有動靜,種種跡象表明,對于人形機器人,特斯拉似乎一直在憋著大招,蓄勢待發(fā)。(為什么此前一直宣傳AI會毀滅人類的馬斯克如今卻頻頻點燃具身智能的技術(shù)火焰,你心目中理想的具身智能又是哪樣?歡迎添加本文作者郭思微信lionceau2046,大家一起暢聊。)
據(jù)最新資料顯示,Optimus擎天柱搭載了特斯拉自主研發(fā)的神經(jīng)網(wǎng)絡(luò)和計算機視覺技術(shù),能夠?qū)崟r感知周圍環(huán)境,執(zhí)行各種任務(wù)。
馬斯克表示,若未來兩年內(nèi)“擎天柱”能夠量產(chǎn),在規(guī)模效應(yīng)下,其成本比汽車還要低,售價或許為2.5萬美元(約合人民幣16.74萬元,低于一部車的價格。
算法層面,一名特斯拉機器人部門內(nèi)部員工則告訴AI科技評論,特斯拉此次會將以往在自動駕駛采用的FSD算法引用到人形機器人中,F(xiàn)SD算法對于整個科技行業(yè)都是炸裂式的存在,一旦引入中國,將大殺四方,使得中國自動駕駛領(lǐng)域成為敗垣。(現(xiàn)在上海市政府正有想要引入的想法,暫未有實質(zhì)文件。)
而在香港城市大學(xué)助理教授殷鵬看來,特斯拉視頻的此番表現(xiàn)表明國內(nèi)企業(yè)與特斯拉的差距將進(jìn)一步拉開, 10年都難以追趕。軍方看到人形機器人的巨大突破,應(yīng)該感到擔(dān)憂,因為一旦大規(guī)模部署,人形機器人的成本肯定會低于人的成本。
與贊美之詞一同而來的,是懷疑與爭議,AIRS副研究員張?zhí)硗拖駻I科技評論表示:特斯拉的機器人是美式的工業(yè)審美,全球頂級機器人只有日本可以做出來,擎天柱只是一種特斯拉的PR。
宇樹機器人CEO王興興則表示,特斯拉人形機器人的手展示出來的關(guān)節(jié)只有七到八個主動自由度,而人的手至少有二三十個自由度,相較而言,目前特斯拉人形機器人的手指靈活度還是很不足的?;貧w事件本身,我們發(fā)現(xiàn)此番特斯拉擎天柱引發(fā)的討論點最多在于:人形機器人落地的難點究竟在哪里,特斯拉展出的人形機器人優(yōu)勢具體有哪些?大模型時代, 機器人產(chǎn)業(yè)的發(fā)展會呈現(xiàn)怎樣的發(fā)展態(tài)勢?
在視頻中,擎天柱有以下具體的突破:
不僅能夠依靠單一的視覺傳感進(jìn)行物品撿拾,還可以當(dāng)眾表演一場瑜伽。
瑜伽高難度動作,這對于機器人步態(tài)的穩(wěn)定性和復(fù)雜環(huán)境的適應(yīng)性要求極高。讓機器人走得穩(wěn),也一直是困擾人形機器人的最大難點之一。
相較于與去年首次亮相的「擎天柱」,已經(jīng)完成了非常大的迭代升級。
機器人是軟件界和硬件界交互的最終落地點,能否落地最終不僅考驗硬件的安全穩(wěn)健,更考驗軟件或算法層面的創(chuàng)新性。
特斯拉的人形機器人第一亮點便在于核心算法 FSD。
FSD采用的是端對端的算法方案。
「端到端」是深度學(xué)習(xí)中的概念,英文為End-to-End(E2E)指的是一個AI模型,只要輸入原始數(shù)據(jù)就可以輸出最終結(jié)果。
比如大火的ChatGPT的就是端到端效果的直接體現(xiàn),也就是說讓神經(jīng)網(wǎng)絡(luò)替代規(guī)則編寫,在實際過程中,可以理解為從以前用規(guī)則指導(dǎo)行動變?yōu)橛谜鎸崝?shù)據(jù)指導(dǎo)行動。
在此前的機器人領(lǐng)域,絕大多數(shù)采用的是模塊化架構(gòu),也就是把機器人的行為拆分成一個個典型任務(wù),然后將這些任務(wù)交由專門的AI模型或模塊來處理,比如說感知、預(yù)測、規(guī)劃等等。
就好比一個公司的運作需要財務(wù)、銷售、市場、產(chǎn)品等各個部門的共同協(xié)作,是一種流水線工作,需要多個層級的信息輸送,而端對端算法方案,最大的特點就是直接,負(fù)責(zé)決策的人直接與底層人員對接,不用經(jīng)過非常多的中間環(huán)節(jié)。
其實端到端的思路是非常容易理解的,也并不是特斯拉的首創(chuàng)(早在1988年就面世的ALVINN自動駕駛試驗車就基于端到端架構(gòu),)而特斯拉的優(yōu)勢就在于,鐵定地認(rèn)為這條路是對的,并且是可實現(xiàn)的。
初心決定終局。
在Transformer推出之后,這一切有了落地的實施路徑。
在以前,卷積神經(jīng)網(wǎng)絡(luò)CNN大行其道,優(yōu)勢十分明顯,在處理二維圖像識別之時,CNN能完美完成背景識別、圖像分割、特征提取、目標(biāo)檢測的等眾多二維靜態(tài)任務(wù)。但是到了多維動態(tài)的交通環(huán)境,CNN的劣勢就顯現(xiàn)出來。
而Transformer能依靠注意力機制洞察各種交通參與者之間的關(guān)聯(lián),判斷自車和周圍動靜態(tài)交通參與者的時空關(guān)系,建立了三維的矢量空間,極大地改善了對于動態(tài)任務(wù)的處理結(jié)果。
種種跡象表明,特斯拉或許已經(jīng)率先將這個優(yōu)勢用在了如今的人形機器人身上。
其實早在年初,我們便在汽車上看到了FSD的優(yōu)越性。
馬斯克當(dāng)時在X上進(jìn)行了一場45分鐘的直播,在直播里,馬斯克乘坐老款Model S,全程使用FSD,途徑環(huán)島、施工路段等。
「我們沒有寫任何一行代碼告訴它該如何處理這種狀況,全程都是靠AI實現(xiàn)的?!?/p>
馬斯克在直播中表示,F(xiàn)SD V11版本有超過30萬行的C++代碼,而V12版本只有2000+行。
FSD運算靈活,能在離線情況下進(jìn)行運算。
馬斯克還表示,按推理,V12版本的運算功率只有100W。更少的代碼也增加了系統(tǒng)的穩(wěn)定性,讓車輛智能駕駛更加安全。
可以推測,如果特斯拉人形機器人最終效果可以實現(xiàn)FSD算法與硬件的完美結(jié)合,就意味著大模型展現(xiàn)驚人出來的涌現(xiàn)能力在特斯拉機器人上也會出現(xiàn) 。采用了FSD算法的特斯拉人形機器人,將會擁有一個可被訓(xùn)練的大腦,只是相對來說行動能力還差了一些。
這就類似于訓(xùn)練小孩,小孩可以在不斷地試錯之中,持續(xù)進(jìn)化。
據(jù)特斯拉員工介紹,我們可以看到的特斯拉人形機器人四肢雖然只有2歲的水平,但由于大腦可以不斷迭代,后續(xù)做很多事情會變得很簡單??赡芎罄m(xù)會演變成20歲的大腦,2歲的四肢,想象空間十分巨大。(在你的想象中,機器人擁有自主學(xué)習(xí)能力會給整個產(chǎn)業(yè)帶來怎樣的影響和震撼,歡迎與本文作者:郭思,微信lionceau2046,聊聊你的看法。)
要想理解特斯拉人形機器人,就得理解馬斯克。
在馬斯克其人以及他所堅持的第一性原理已經(jīng)在業(yè)界盛傳的當(dāng)下,知道馬斯克個性鮮明,和真正體會馬斯克的作風(fēng)是兩回事。
馬斯克傳記里寫道「他的火星任務(wù)仿佛是對于重返家園的渴望,而他打造人形機器人的愿望似乎又在表達(dá)著一種對親密情感關(guān)系的心理訴求。如果他扯掉襯衫,你發(fā)現(xiàn)他沒有肚臍,你也不應(yīng)該感到驚訝,因為他本來就不像地球人?!?/p>
而AI科技評論接觸的特斯拉員工都坦言,馬斯克是一個喜歡直接和底層員工接觸的「奇怪」老板。
其中一員工告訴AI科技評論,他進(jìn)入特斯拉半年, 就已經(jīng)和馬斯克匯報過四次。而他還只是一個普通工程師。更為夸張的是,進(jìn)入特斯拉的實習(xí)生,不到兩星期,馬斯克就會叫他直接匯報,了解工作細(xì)節(jié)。
「馬斯克十分嚴(yán)厲,經(jīng)常會問一些很犀利的問題,談?wù)摷?xì)節(jié)。他不會刻意 push 你,但是員工會自帶緊張感,因為本身項目的有趣性,自發(fā)的熱情又會被點燃?!?/p>
凌晨 3 點回家, 早上9點又重新上班,是特斯拉人形機器人團隊工作的常態(tài)。
工作作風(fēng)上,馬斯克崇尚第一性原理,他認(rèn)為太多人就太復(fù)雜,所以特斯拉內(nèi)部自動駕駛部門的人數(shù)只有兩百人。遇到重點事項,底層員工需要直接向他匯報。
第一性原理體現(xiàn)在馬斯克的工作決策上,最著名的是飽受爭議的「毫米波雷達(dá)闌尾」的言論。
一直以來,馬斯克都認(rèn)為,汽車自動駕駛應(yīng)該和人類司機一樣,采用純視覺系統(tǒng)。人類可以依靠眼睛和智力來進(jìn)行判斷和駕駛,汽車同樣可以通過相機和AI技術(shù)來控制。
2019年特斯拉的「Autonomy Day」上,馬斯克就直言:激光雷達(dá)就像是人身上長了一堆闌尾,是傻子的玩意,任何人用激光雷達(dá)都注定失敗。
2021年5月,特斯拉開始從其車輛中移除毫米波雷達(dá);2022年,又開始從銷往北美、歐洲、中東和中國臺灣的Model 3和Model Y上拆除了12個超聲波傳感器。
在那以后,特斯拉傳感器方案從「8攝像頭+1毫米波雷達(dá)+12超聲波雷達(dá)」的多傳感器方案減為「8攝像頭『的純視覺方案。
在汽車上采用FSD算法是第一性原理的體現(xiàn),轉(zhuǎn)到人形機器人的研究,馬斯克的思考也很直接,特斯拉員工直言「馬斯克想要的是能從車上搬過來的東西全部都搬過來,沒有必要再做一套全新的AI系統(tǒng)?!?/p>
當(dāng)然即使是將已經(jīng)成熟的系統(tǒng)全部搬到人形機器人之上,人形機器人也不是那么簡單的事情。
雙足人形機器人的設(shè)計要求它在真實環(huán)境中以與人類相似的方式工作。這包括對不斷變化的動態(tài)環(huán)境做出快速反應(yīng)、執(zhí)行復(fù)雜的身體動作,并精確及時地回應(yīng)人類的語言、表情和情緒等。
在平衡能力上,雙足機器人肯定會比機器狗要求更好,可以理解為,一個人站著會比趴著所需要的平衡能力更強。
根據(jù)展示的公開資料顯示,特斯拉Optimus共有14個旋轉(zhuǎn)執(zhí)行器,14個線性執(zhí)行器,這些零部件累積起來的復(fù)雜程度和成本可想而知。
拿線性執(zhí)行器之中比較經(jīng)典的滾柱絲杠為例,參考阿里1688網(wǎng)站部分公司的報價,瑞士ROLLVIS行星滾柱絲杠產(chǎn)品售價在2萬元/套左右,國產(chǎn)博特精工相關(guān)產(chǎn)品約1900元/套。
人形機器人并不簡單,即使是對于多次創(chuàng)造神話的特斯拉而言也是如此。
對于這個難題的解決,馬斯克的第一性邏輯再次發(fā)揮作用:
「人類的發(fā)展史,是一個不斷優(yōu)化的過程,人長成這樣子一定是最適合生存的樣子,所以人形機器人的優(yōu)化過程一定要在人身上完成?!?/p>
所謂人工智能,不就是一場對人的模仿游戲嗎? 只有對人有充分的研究和了解,才能更好地處理人工智能。
借由這個思路,擎天柱機器人的發(fā)展歷程朝著端對端的思路進(jìn)行,在過程中如果遇到難題,也會借鑒傳統(tǒng)算法,但核心理念會盡可能地使機器人靠近人,加入一些assumptions(假設(shè)),以及人為的理解在機器人算法里。
讓「人」形更接近人,是這場游戲的核心。
2018年是改變馬斯克的一年。
這一年,上海允許特斯拉建造超級工廠,以此來解決困擾馬斯克已久的產(chǎn)能問題。上海決定給特斯拉提供年利率3.9%的貸款,并允許從上海臨港以一成價格拿地,以9.73億拿下了臨港1297.32畝(86.49萬平米)土地。
而引入特斯拉的中國汽車行業(yè)也迎來了新的變革,特斯拉這條「鯰魚」推動了中國汽車行業(yè)的技術(shù)升級和產(chǎn)業(yè)轉(zhuǎn)型。
資料顯示,2019年11月,特斯拉一飛沖天,直接終結(jié)了豐田全球市值第一高的位置,且遙遙領(lǐng)先。
同期中國汽車開始不斷呈現(xiàn)不斷趕超的態(tài)勢,截至2022年12月,中國企業(yè)8家進(jìn)入榜單TOP30,5家進(jìn)入TOP20,排名最高的比亞迪2021開始超越大眾,成為世界第三(或第四),長城、上汽則分別居于中國第二、三。
毋庸置疑,特斯拉沖擊并深刻影響了中國汽車市場,那么如今特斯拉在人形機器人上的布局與引領(lǐng),是否也會再次讓中國市場迎來一個「人形機器人」時代?國內(nèi)企業(yè)與特斯拉的差距究竟有多大?
機器人最關(guān)鍵三大要素:動力、精準(zhǔn)度,以及算法。
筆者采訪的眾多行業(yè)人士,紛紛表示,其實現(xiàn)今人形機器人產(chǎn)業(yè)發(fā)展的主要問題是AI算法的發(fā)展不夠,以及軟硬件結(jié)合的臨界點還沒有到來。(你怎樣看待人形機器人產(chǎn)業(yè)的發(fā)展現(xiàn)狀與難點?歡迎與本文作者郭思微信lionceau2046 交流觀點與看法~)
此次外界對于特斯拉人形機器人推測最多的也是,特斯拉將FSD算法引入到了人形機器人之上。好處無需多談,但難點其實也很明顯。
AI模型比規(guī)則更省運算空間,提升了運算效率。采用端對端算法,雖然減少了運算成本,但是端對端是只需要輸入原始數(shù)據(jù),即可輸出最終結(jié)果,這意味著把感知、預(yù)測、規(guī)劃三大部分劃為一個整體,對于任務(wù)執(zhí)行可解釋性的黑盒子一直存在,能保證安全嗎?
算法加入了人為的理解雖然極為便利,但肯定不通用,有些特殊情況可能無法預(yù)料,能否覆蓋所有的情況?
對于這個問題,王興興提供了一個新思路,可解釋性或許本身就是一個不值得深究的問題。
人形機器人領(lǐng)域有時候未必需要可解釋性,很多情況下,許多事物的發(fā)展就是不可解釋的,世界就是這么運作的。
「早在公元前200多年前,阿基米德便建立了包括浮力定律、浮體穩(wěn)定性在內(nèi)的液體平衡理論,由此奠定了流體靜力學(xué)的基礎(chǔ)。此后衍生出來的流體動力學(xué),其中原理至今還是很難解釋, 但不影響這門學(xué)科的發(fā)展以及人類對其的加以利用?!?/p>
特斯拉的端對端算法亦是如此。
對于AI算法發(fā)展本身,行業(yè)人士普遍判斷,國內(nèi)硬件水平要高于國外,但AI算法這塊,國內(nèi)與國外差距十分明顯。王興興就坦言,中國高端AI人才較少,目前中國教育體系學(xué)出來的落后國外十幾年。
「我自己去年各種崗位將近面試了 1000 個人,但比較合適一些的其實沒多少個候選人?!?/p>
說回可解釋性,對于這一點,馬斯克認(rèn)為,只要一直喂數(shù)據(jù),就能喂到足夠準(zhǔn)確安全。
大力出奇跡, 與GPT的運行邏輯同出一轍。如果馬斯克順著這個思路,我們可以發(fā)現(xiàn),數(shù)據(jù),是未來人形機器人時代的關(guān)鍵要素。
以往的機器人系統(tǒng)或者自動駕駛系統(tǒng)在視覺模塊,普遍會采用深度學(xué)習(xí)算法,操作操控的話大部分都是一部分 深度學(xué)習(xí)算法和傳統(tǒng)的算法混合一起使用,執(zhí)行層面基本上采用傳統(tǒng)算法,各個版塊之間數(shù)據(jù)沒有打通。
特斯拉FSD本身能從算法層面解決數(shù)據(jù)打通的問題。另一方面,特斯拉這個汽車巨頭一直以來積累的數(shù)據(jù)優(yōu)勢和資本優(yōu)勢也是這場競爭之中不可忽視的籌碼。
據(jù)特斯拉發(fā)布的報告顯示,特斯拉在二季度的總營收為249.27億美元,較上年同期增加了47%,除去收入外,特斯拉的交付量也打破了其單季交付量的紀(jì)錄。盡管特斯拉在上半年數(shù)次下調(diào)了美國,墨西哥,歐洲以及中國四款有軌電車的價格,但特斯拉在二季度的交付量達(dá)到了創(chuàng)紀(jì)錄的466,000輛。
這足以表明,特斯拉積累的資本實力能使它有足夠的底氣去投資自己的研發(fā) 。
特斯拉員工表示,人形機器人出來后,會首先應(yīng)用于特斯拉自己的工廠,自給自銷,這樣的好處是,機器人能跑起來,能捕捉到足夠多的真實場景數(shù)據(jù)。
機器人產(chǎn)業(yè)的每一塊數(shù)據(jù)都是從真實世界或者仿真環(huán)境得到的,無論多高大上的算法,多復(fù)雜的任務(wù)程序,最后都得落地于真實世界,真實世界的一組數(shù)據(jù)的作用大于虛擬環(huán)境的100組數(shù)據(jù)。
高質(zhì)量數(shù)據(jù)來自于真實用戶日常駕駛場景中遇到的罕見場景,搭載自動駕駛的本土車企保有量和特斯拉之間有著巨大的差距,在數(shù)據(jù)上存在天然的短板。
除了數(shù)據(jù),在訓(xùn)練算力上,本土企業(yè)與特斯拉也存在巨大的差距。特斯拉的訓(xùn)練算力不僅來自NVIDIA(與絕大多數(shù)中國企業(yè)不一樣),還有自家打造的超級計算機Dojo-道場,這也是特斯拉視頻展示的另一亮點。數(shù)據(jù)顯示,一臺Dojo的算力高達(dá)1.1EFLOPS。
據(jù)特斯拉內(nèi)部員工透露,Dojo正在瘋狂的擴張。成本10倍低于 NVIDIA , Dojo的另一個優(yōu)勢在于GPU 是一個通用的平臺。但Dojo是圍繞著自動駕駛訓(xùn)練,完全定制化的超算系統(tǒng),不光是芯片定制化,整個架構(gòu)、電源、機柜全都是圍繞自動駕駛設(shè)計。一塊板上面全都是芯片,運算以及通訊速度大幅提高。這樣的算力加載的汽車和機器人,其威懾力可想而知。
數(shù)據(jù)和算力的差距加持,再加上特斯拉算法本身的卓越性,一旦正式量產(chǎn),擎天柱對于國內(nèi)機器人產(chǎn)業(yè)的沖擊不言而喻。
另一方面,馬斯克宣稱的16.8萬元的成本,背后所采用的方法或許也和他在車上采用的「最小有效規(guī)模效應(yīng)」同出一轍。也就是隨著產(chǎn)量的增加,成本下降幅度會迅速加大。
利用這一點,特斯拉汽車的每個生產(chǎn)環(huán)節(jié)都致力于以最小的成本實現(xiàn)最大的效益。
以電池電芯為例,數(shù)據(jù)顯示,特斯拉在美國市場的電池電芯成本為每千瓦時142美元,整個電動車產(chǎn)業(yè)的平均值為每千瓦時186美元。與產(chǎn)業(yè)均值相比,特斯拉電芯成本低了23.7%。
特斯拉內(nèi)部員工告訴AI科技評論,曾經(jīng)有禾賽的人找過他想打入特斯拉人形機器人供應(yīng)鏈,但是他一口回絕,因為他知道供應(yīng)鏈每一個環(huán)節(jié),馬斯克都會把成本降到最低。
一套組合拳下來,其他企業(yè)的生存空間似乎被特斯拉不斷擠壓。
不過,這場角逐的關(guān)鍵轉(zhuǎn)折點還沒有完全實現(xiàn),人形機器人的商業(yè)落地是國內(nèi)外企業(yè)共同面對的問題。
特斯拉所展示的「全能」的、能夠有效替代人力的人形機器人,其實并沒有完全匹配的落地場景,用在哪是一個巨大的問題,而且大眾對其的感知也十分遙遠(yuǎn),沒有強烈的市場需要。
所以馬斯克才會在活動日上表示,會首先實現(xiàn)自產(chǎn)自銷。
王興興也強調(diào),工業(yè)領(lǐng)域是有可能最先落地的場景,其次才是商業(yè)領(lǐng)域,家庭服務(wù)領(lǐng)域反倒是更難實現(xiàn)落地的地方。
國內(nèi)人形機器人產(chǎn)業(yè)發(fā)展與特斯拉之間的確存在差距,但作為有高達(dá)300萬工業(yè)機器人產(chǎn)業(yè)缺口的中國,未來機器人產(chǎn)業(yè)的發(fā)展擁有巨大的空間。
畢竟,在2008年之際,第一輛特斯拉在上海生產(chǎn)時,沒有人想到,它會間接影響中國此后新能源汽車的蓬勃發(fā)展。如今,特斯拉成本低至16.8萬的人形機器人大軍雄赳氣昂而來,機器人行業(yè)或許也將迎來新的變革。
雷峰網(wǎng) 雷峰網(wǎng) 雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。