理想汽車(chē)VLA司機(jī)大模型從動(dòng)物進(jìn)化到人類(lèi) 在成長(zhǎng)中持續(xù)解決行業(yè)問(wèn)題

本文作者：徐咪

2025-05-08 16:04

導(dǎo)語(yǔ)：當(dāng)前輔助駕駛走到了新的十字路口上，理想汽車(chē)將不斷挑戰(zhàn)成長(zhǎng)的極限，持續(xù)為行業(yè)和用戶(hù)創(chuàng)造價(jià)值。

2025年5月7日，理想汽車(chē)推出“理想AI Talk第二季——理想VLA司機(jī)大模型，從動(dòng)物進(jìn)化到人類(lèi)”，理想汽車(chē)董事長(zhǎng)兼CEO李想重點(diǎn)分享了對(duì)于人工智能的最新思考，VLA司機(jī)大模型的作用、訓(xùn)練方法和挑戰(zhàn)，以及對(duì)于創(chuàng)業(yè)和個(gè)人成長(zhǎng)的見(jiàn)解。

李想將AI工具分為三個(gè)層級(jí)，分別是信息工具、輔助工具和生產(chǎn)工具。目前，大多數(shù)人將AI作為信息工具使用，但信息工具常伴隨大量無(wú)效信息、無(wú)效結(jié)果和無(wú)效結(jié)論，僅具參考價(jià)值。成為輔助工具后，AI可以提升效率，例如現(xiàn)在的輔助駕駛，但仍需人類(lèi)參與。未來(lái)，AI發(fā)展為生產(chǎn)工具后，將能獨(dú)立完成專(zhuān)業(yè)任務(wù)，顯著提升效率與質(zhì)量。

李想表示：“判斷Agent（智能體）是否真正智能，關(guān)鍵在于它是否成為生產(chǎn)工具。只有當(dāng)人工智能變成生產(chǎn)工具，才是其真正爆發(fā)的時(shí)刻。就像人類(lèi)會(huì)雇傭司機(jī)，人工智能技術(shù)最終也會(huì)承擔(dān)類(lèi)似職責(zé)，成為真正的生產(chǎn)工具。”

理想汽車(chē)VLA司機(jī)大模型從動(dòng)物進(jìn)化到人類(lèi) 在成長(zhǎng)中持續(xù)解決行業(yè)問(wèn)題

VLA的實(shí)現(xiàn)不是突變的過(guò)程，是進(jìn)化的過(guò)程

目前的L2、L2+組合駕駛輔助仍屬于輔助工具階段，而VLA（Vision-Language-Action Model，視覺(jué)語(yǔ)言行動(dòng)模型）能夠讓AI真正成為司機(jī)，成為交通領(lǐng)域的專(zhuān)業(yè)生產(chǎn)工具。對(duì)理想汽車(chē)而言，未來(lái)的VLA就是一個(gè)像人類(lèi)司機(jī)一樣工作的司機(jī)大模型”。

VLA的實(shí)現(xiàn)不是一個(gè)突變的過(guò)程，是進(jìn)化的過(guò)程，經(jīng)歷了三個(gè)階段，對(duì)應(yīng)理想汽車(chē)輔助駕駛的昨天、今天和明天。第一階段，理想汽車(chē)自2021年起自研依賴(lài)規(guī)則算法和高精地圖的輔助駕駛，類(lèi)似“昆蟲(chóng)動(dòng)物智能”。第二階段，理想汽車(chē)自2023年起研究，并于2024年正式推送的端到端+VLM（Vision Language Model，視覺(jué)語(yǔ)言模型）輔助駕駛，接近“哺乳動(dòng)物智能”。

端到端模型在處理復(fù)雜問(wèn)題時(shí)存在局限，雖可借助VLM視覺(jué)語(yǔ)言模型輔助，但VLM使用開(kāi)源模型，使其在交通領(lǐng)域的能力有限。同時(shí)端到端模型也難以與人類(lèi)溝通。為了解決這些問(wèn)題并提升用戶(hù)的智能體驗(yàn)，理想汽車(chē)自2024年起開(kāi)展VLA研究，并在多項(xiàng)頂級(jí)學(xué)術(shù)會(huì)議上發(fā)表論文，夯實(shí)了理論基礎(chǔ)。

在端到端的基礎(chǔ)上，到第三階段，VLA將開(kāi)啟“人類(lèi)智能”的階段。它能通過(guò)3D和2D視覺(jué)的組合，完整地看到物理世界，而不像VLM僅能解析2D圖像。同時(shí)，VLA擁有完整的腦系統(tǒng)，具備語(yǔ)言、CoT（Chain of Thought，思維鏈）推理能力，既能看，也能理解并真正執(zhí)行行動(dòng)，符合人類(lèi)的運(yùn)作方式。

理想汽車(chē)VLA司機(jī)大模型從動(dòng)物進(jìn)化到人類(lèi) 在成長(zhǎng)中持續(xù)解決行業(yè)問(wèn)題

VLA訓(xùn)練過(guò)程模擬人類(lèi)學(xué)習(xí)，對(duì)齊人類(lèi)價(jià)值觀(guān)

VLA的訓(xùn)練分為預(yù)訓(xùn)練、后訓(xùn)練和強(qiáng)化訓(xùn)練三個(gè)環(huán)節(jié)，類(lèi)似于人類(lèi)學(xué)習(xí)駕駛技能的過(guò)程。預(yù)訓(xùn)練相當(dāng)于人類(lèi)學(xué)習(xí)物理世界和交通領(lǐng)域的常識(shí)，通過(guò)大量高清2D和3D Vision（視覺(jué)）數(shù)據(jù)、交通相關(guān)的Language（語(yǔ)言）語(yǔ)料，以及與物理世界相關(guān)的VL（Vision-Language，視覺(jué)和語(yǔ)言）聯(lián)合數(shù)據(jù)，訓(xùn)練出云端的VL基座模型，并通過(guò)蒸餾轉(zhuǎn)化為在車(chē)端高效運(yùn)行的端側(cè)模型。

后訓(xùn)練相當(dāng)于人類(lèi)去駕校學(xué)習(xí)開(kāi)車(chē)的過(guò)程。隨著Action（動(dòng)作）數(shù)據(jù)的加入——即對(duì)周?chē)h(huán)境和自車(chē)駕駛行為的編碼，VL基座變?yōu)閂LA司機(jī)大模型。得益于短鏈條的CoT，以及Diffusion擴(kuò)散模型對(duì)于他車(chē)軌跡和環(huán)境的預(yù)測(cè)，VLA具備實(shí)時(shí)性的特點(diǎn)，實(shí)現(xiàn)了在復(fù)雜交通環(huán)境中的博弈能力。

強(qiáng)化訓(xùn)練類(lèi)似于人類(lèi)在社會(huì)中實(shí)際開(kāi)車(chē)練習(xí)，目標(biāo)是讓VLA司機(jī)大模型更加安全、舒適，對(duì)齊人類(lèi)價(jià)值觀(guān)，甚至超越人類(lèi)駕駛水平。強(qiáng)化訓(xùn)練包含兩部分：一是通過(guò)RLHF（Reinforcement Learning from Human Feedback，基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)）完成安全對(duì)齊，使模型遵守交通規(guī)則，貼合中國(guó)用戶(hù)的駕駛習(xí)慣；二是將純強(qiáng)化學(xué)習(xí)模型放入世界模型中訓(xùn)練，提升舒適性，避免碰撞事故，遵守交通規(guī)則。經(jīng)過(guò)預(yù)訓(xùn)練、后訓(xùn)練和強(qiáng)化訓(xùn)練后，VLA司機(jī)大模型即可部署至車(chē)端運(yùn)行。

VLA司機(jī)大模型以“司機(jī)Agent（智能體）”的產(chǎn)品形態(tài)呈現(xiàn)，用戶(hù)可通過(guò)自然語(yǔ)言與司機(jī)Agent溝通，跟人類(lèi)司機(jī)怎么說(shuō)，就跟司機(jī)Agent怎么說(shuō)。簡(jiǎn)單通用的短指令由端側(cè)的VLA直接處理，復(fù)雜指令則先由云端的VL基座模型解析，再交由VLA處理。

理想汽車(chē)VLA司機(jī)大模型從動(dòng)物進(jìn)化到人類(lèi) 在成長(zhǎng)中持續(xù)解決行業(yè)問(wèn)題

超級(jí)對(duì)齊確保AI決策安全，世界模型破解AI黑盒難題

除了提升專(zhuān)業(yè)能力，VLA司機(jī)大模型還需解決安全性和模型黑盒的問(wèn)題。

模型能力越強(qiáng)，越需要職業(yè)性約束，以確保能力下限。為了保障VLA司機(jī)大模型能夠?qū)崿F(xiàn)職業(yè)司機(jī)般的安全和舒適，避免學(xué)習(xí)加塞等違規(guī)行為，理想汽車(chē)在強(qiáng)化訓(xùn)練環(huán)節(jié)投入大量資源，并于2024年底組建超過(guò)100人的超級(jí)對(duì)齊團(tuán)隊(duì)，相當(dāng)于為司機(jī)Agent注入職業(yè)素養(yǎng)。

為解決模型的黑盒問(wèn)題，理想汽車(chē)結(jié)合重建和生成兩種路徑，打造了真實(shí)、符合物理世界規(guī)律的世界模型，覆蓋所有交通參與者和要素?；谑澜缒Ｐ偷姆抡婺芰?，VLA可以在世界模型中低成本、準(zhǔn)確地驗(yàn)證現(xiàn)實(shí)問(wèn)題，提升解決問(wèn)題的效率，有效應(yīng)對(duì)模型黑盒帶來(lái)的挑戰(zhàn)。

判斷司機(jī)Agent是否是個(gè)好司機(jī)，有三個(gè)關(guān)鍵標(biāo)準(zhǔn)：專(zhuān)業(yè)能力、職業(yè)能力和構(gòu)建信任的能力。VLA司機(jī)大模型提升了專(zhuān)業(yè)能力，超級(jí)對(duì)齊增強(qiáng)了職業(yè)能力，VLA通過(guò)理解自然語(yǔ)言、具備記憶能力提升了構(gòu)建信任的能力。

理想汽車(chē)VLA司機(jī)大模型從動(dòng)物進(jìn)化到人類(lèi) 在成長(zhǎng)中持續(xù)解決行業(yè)問(wèn)題

人工智能時(shí)代，扎實(shí)的基本功比走捷徑重要

理想汽車(chē)實(shí)現(xiàn)技術(shù)快速躍遷的背后，是從研究、研發(fā)到能力表達(dá)，再到將能力變成業(yè)務(wù)價(jià)值的基本功積累。研究是關(guān)鍵，研究突破后，研發(fā)的效率會(huì)大幅提升，且注重價(jià)值轉(zhuǎn)化，最終實(shí)現(xiàn)業(yè)務(wù)落地。

理想汽車(chē)堅(jiān)持自研，通過(guò)技術(shù)賦能用戶(hù)價(jià)值。例如，在輔助駕駛方面，由于英偉達(dá)Orin-X芯片無(wú)法直接運(yùn)行語(yǔ)言模型，端到端+VLM的輔助駕駛方案對(duì)部分企業(yè)來(lái)說(shuō)仍具挑戰(zhàn)。理想汽車(chē)依托自有編譯團(tuán)隊(duì)，自研底層推理引擎，使芯片可通過(guò)INT4（4比特整型）量化的方式運(yùn)行VLM。同時(shí)，憑借芯片、控制器設(shè)計(jì)和自研汽車(chē)操作系統(tǒng)等綜合能力，理想汽車(chē)實(shí)現(xiàn)了讓雙Orin-X芯片和Thor-U芯片運(yùn)行同等規(guī)模的VLA司機(jī)大模型。李想表示，大型企業(yè)的基本功和能力永遠(yuǎn)無(wú)法被逾越。

得益于DeepSeek的開(kāi)源，理想汽車(chē)在VLA司機(jī)大模型的語(yǔ)言能力研發(fā)上提速顯著，節(jié)省了近9個(gè)月的時(shí)間和數(shù)億元成本。盡管如此，理想汽車(chē)仍選擇加大投入，在基座模型上投入超預(yù)期3倍的訓(xùn)練卡，專(zhuān)注打造適配多場(chǎng)景的自研模型。李想表示：“我們可以站在巨人的肩膀上，但它只是其中的一部分?！痹谑芤骈_(kāi)源的同時(shí)，理想汽車(chē)也選擇開(kāi)源自研的汽車(chē)操作系統(tǒng)——理想星環(huán)OS，回饋社會(huì)。

成長(zhǎng)帶來(lái)能量，在痛苦中保持正能量

今年7月，理想汽車(chē)將迎來(lái)成立十周年。李想表示，創(chuàng)業(yè)路上苦多于甜，他選擇保留那些有價(jià)值的美好片段，用來(lái)激勵(lì)自己保持正能量?！皠?chuàng)業(yè)確實(shí)不容易，但是沒(méi)必要苦哈哈的。苦和甜是一個(gè)硬幣的正反面，取決于看哪一面。”他將企業(yè)遭遇的打擊視為必須面對(duì)的挑戰(zhàn)，也正是這些挑戰(zhàn)，賦予了理想汽車(chē)更多的能力。也正因這份積極樂(lè)觀(guān)的創(chuàng)業(yè)心態(tài)，理想汽車(chē)才能快速成長(zhǎng)為千億營(yíng)收規(guī)模、百萬(wàn)交付量的新勢(shì)力企業(yè)。

談及如何成為更有能量的人，李想認(rèn)為，關(guān)鍵在于關(guān)注自我，接受自身的優(yōu)點(diǎn)和不足，并用成長(zhǎng)替代改變——成長(zhǎng)意味著增強(qiáng)能力。除此之外，李想強(qiáng)調(diào)親密關(guān)系同樣重要，關(guān)注他人的成長(zhǎng)也能帶來(lái)能量，家人和同事能夠和他形成互補(bǔ)，相互支撐。“我需要家人和同事甚至超過(guò)了他們需要我，首先是我需要他們，然后才是他們需要我，我們?cè)谝黄鹉軌蛐纬煞浅?qiáng)的腦力和心力。”李想表示。

回顧幾次創(chuàng)業(yè)經(jīng)歷，李想表示，從高中創(chuàng)辦個(gè)人網(wǎng)站至今，自己的思維方式?jīng)]有什么變化：遇到問(wèn)題解決問(wèn)題，解決別人不愿解決的難題，解決用戶(hù)的痛點(diǎn)，不斷向他人學(xué)習(xí)。不同的是，如今面臨的問(wèn)題更復(fù)雜、服務(wù)的用戶(hù)群體更多、公司規(guī)模和組織也更龐大。“幾次創(chuàng)業(yè)一路走來(lái)，最難時(shí)有人相助，遇坑也能迅速爬出，一幫人齊心協(xié)力變得更好，這是種幸運(yùn)，也沒(méi)什么可后悔的?！?/p>

面對(duì)AI的發(fā)展，李想認(rèn)為，在A(yíng)I面前所有的人性都應(yīng)被保留，無(wú)論好壞，因?yàn)橐磺腥诵远际俏幕?、生命、性格、能力的特質(zhì)，也是人類(lèi)真正的生命力所在。

從使用增程電動(dòng)和5C超充技術(shù)解決電池成本高、充電難、充電慢的問(wèn)題，到自研汽車(chē)操作系統(tǒng)攻克傳統(tǒng)汽車(chē)操作系統(tǒng)性能差、開(kāi)發(fā)緩慢、芯片匹配周期長(zhǎng)等挑戰(zhàn)，理想汽車(chē)始終以技術(shù)創(chuàng)新解決行業(yè)無(wú)法解決的問(wèn)題。自研VLA時(shí)，理想汽車(chē)更是踏入了人工智能的無(wú)人區(qū)。當(dāng)前，輔助駕駛走到了新的十字路口上，理想汽車(chē)將不斷挑戰(zhàn)成長(zhǎng)的極限，持續(xù)為行業(yè)和用戶(hù)創(chuàng)造價(jià)值。

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

徐咪

編輯

發(fā)私信

當(dāng)月熱門(mén)文章

理想汽車(chē)VLA司機(jī)大模型 從動(dòng)物進(jìn)化到人類(lèi) 在成長(zhǎng)中持續(xù)解決行業(yè)問(wèn)題

理想汽車(chē)VLA司機(jī)大模型從動(dòng)物進(jìn)化到人類(lèi) 在成長(zhǎng)中持續(xù)解決行業(yè)問(wèn)題