商湯絕影王曉剛：商湯大模型將對軟件架構(gòu)進行重構(gòu)，促進座艙和駕駛結(jié)合

本文作者：黃華丹

2024-03-25 15:26

導(dǎo)語：商湯的算力儲備將為國內(nèi)主機廠和供應(yīng)商提供必要的支持。

作為商湯的汽車事業(yè)獨立品牌，商湯絕影此前的業(yè)務(wù)更多的是座艙里面和視覺相關(guān)的產(chǎn)品。而在智駕方面，商湯絕影則于2024年初在哪吒S上落地全棧智駕方案。

作為AI四小龍之一，商湯希望實現(xiàn)的能力不止于此。在2024年電動汽車百人會上，商湯絕影總裁王曉剛表示，基礎(chǔ)設(shè)施對于人工智能的下一步發(fā)展和突破是非常重要的基礎(chǔ)條件。

特斯拉今年GPU的規(guī)模會達到十萬塊，比國內(nèi)各主機廠算力儲備高了兩個數(shù)量級。

而商湯目前已擁有4萬塊GPU和8000P的算力，今年算力預(yù)計還將增加一倍，能有力幫助主機廠推動大模型的發(fā)展。

在當(dāng)天與雷峰網(wǎng)(公眾號：雷峰網(wǎng))新智駕在內(nèi)的多家媒體交流中，王曉剛表示，商湯對大模型的使用不僅限于外掛大模型，而是要對汽車的軟件架構(gòu)進行重構(gòu)，實現(xiàn)端側(cè)和云側(cè)大模型的協(xié)同、高效的運行，包括各種數(shù)據(jù)的流轉(zhuǎn)。

“之前商湯絕影的產(chǎn)品更多座艙里面跟視覺相關(guān)的，今天就要突破視覺，突破單點功能演變成多模態(tài)座艙整體產(chǎn)品的體驗，會把我們的產(chǎn)品變厚，包括座艙跟駕駛的結(jié)合。”

這也是王曉剛認為商湯絕影相較于今天市場上專注于智能座艙和智能駕駛產(chǎn)品的企業(yè)最大的優(yōu)勢。

此外，王曉剛還就出海、艙駕融合等內(nèi)容進行了分享，以下為對話實錄，雷峰網(wǎng)《新智駕》進行了不改變原意的編輯。

Q：相比于友商，商湯在智駕方案方面有哪些優(yōu)點和優(yōu)勢？

王曉剛：自動駕駛經(jīng)過幾年的發(fā)展，未來發(fā)展的思路和路線也在逐漸清晰。面向端到端的大模型為基礎(chǔ)的自動駕駛解決方案是數(shù)據(jù)驅(qū)動，以視覺為主。當(dāng)前自動駕駛的系統(tǒng)里面有很多模塊，其中只有感知模塊是基于人工智能和神經(jīng)網(wǎng)絡(luò)的，剩下其他模塊大量是靠手動編寫規(guī)則來實現(xiàn)的。

隨著自動駕駛從高速走向城區(qū)，它的復(fù)雜程度大幅提升，通過人工編寫規(guī)則的方式成本非常高，效率比較低下，所以就走向端到端的，基于大模型的自動駕駛。

商湯本身在視覺方面擁有比較強的優(yōu)勢，2022年底，我們在業(yè)內(nèi)第一個發(fā)布了端到端自動駕駛大模型UniAD。接下來我們進一步提出了多模態(tài)大模型自動駕駛方案，這種方案除了感知傳感器，系統(tǒng)的信息外，還允許人機交互，通過自然語言作為輸入，這樣我們的自動駕駛系統(tǒng)還可以跟人有這樣的交互。當(dāng)自動駕駛時覺得旁邊的大車有壓迫感，如果想離它遠點，或者想超車，想跟著前面某一輛車，都可以通過語言模型進行交互。

另外，輸出的時候不但可以輸出感知，還可以輸出規(guī)控，還可以對自動駕駛做出的決策有解釋性。以前自動駕駛我們覺得它是一個黑盒子，現(xiàn)在基于大模型它就是有解釋性的。

實現(xiàn)大模型的推廣和應(yīng)用要依托強大的基礎(chǔ)設(shè)施。商湯大裝置目前有4萬塊GPU，8200P算力，今年還會把整個算力翻一番。特斯拉提出來今年要有10萬塊GPU，這個體量才能支撐智能化這方面的演進。相比來說，國內(nèi)很多車廠和供應(yīng)商跟特斯拉提出的目標(biāo)還要差一到兩個數(shù)量級，在這塊商湯也有優(yōu)勢。

Q：商湯大模型和其他家大模型有什么區(qū)別？在智駕上的應(yīng)用進展如何？

王曉剛：我們核心是要打造座艙大腦，其特點不是單一的模型。像基于我們的商量大語言模型的座艙大腦，不但可以和乘客、駕駛員產(chǎn)生互動，而且還可以做各種決策和任務(wù)規(guī)劃、推理，能夠調(diào)用車里面各種APP，包括各種硬件，真的實現(xiàn)座艙大腦。

另外一部分，我們推多模態(tài)大模型。座艙里面我們之前做得比較多的是跟視覺相關(guān)的，DMS、OMS。接下來多模態(tài)大模型可以跟語音、自然語言結(jié)合，實際上是對DMS、OMS極大的拓展，能夠全方位地感知乘客需求，識別乘客在座艙里任何場景下問的任何開放式的問題，它能夠回答問題的復(fù)雜程度都是極大的提升。

此外，我們還有內(nèi)容生成，文生圖的秒畫，包括文生視頻。

駕駛方面，我們是業(yè)內(nèi)最早推端到端大模型的，2022年底就做了發(fā)布，今年4月份的車展，我們也會帶來基于UniAD端到端大模型的自動駕駛體驗。

另外，我們也基于視頻生成的技術(shù)，在去年11月的時候發(fā)布了視覺模型。這個模型可以生成各個攝像頭、傳感器在不同視角下的視頻，并且比較精準地去控制視頻生成里面的各種要素，比如說車的左拐右轉(zhuǎn)，加減速，坡度，包括在各種交通標(biāo)志，交通信號條件下，還有各種天氣情況下生成的視頻，且逼真度非常高。同時我們還可以比較精準地去控制這些視頻生成的條件，覆蓋更多復(fù)雜的場景。

基于這些視頻，我們可以用來訓(xùn)練端到端的自動駕駛模型，包括測試，大幅提升訓(xùn)練的效率。這里面我們也看到自動駕駛和座艙的融合。駕駛員在座艙里面可以跟自動駕駛系統(tǒng)產(chǎn)生有效的互動，能夠給它發(fā)出指令，去改變自動駕駛的行為。

我們對大模型的使用不僅僅限于外掛大模型這么簡單，而是要對汽車的軟件架構(gòu)進行重構(gòu)，實現(xiàn)端側(cè)和云側(cè)大模型的協(xié)同、高效的運行，包括各種數(shù)據(jù)的流轉(zhuǎn)。之前商湯絕影做的比較多座艙里面跟視覺相關(guān)的，今天就要突破視覺，突破單點功能演變成多模態(tài)座艙整體產(chǎn)品的體驗，會把我們的產(chǎn)品變厚，包括座艙跟駕駛的結(jié)合。

Q：請談一下商湯近年來出海的情況，包括在推動出海國當(dāng)?shù)禺a(chǎn)業(yè)升級和促進經(jīng)濟發(fā)展方面做了什么樣積極的作用？

王曉剛：在商湯成立之初，我們自己的定位就是一家國際化的公司。在2016年、2017年的時候，就積極地在海外拓展業(yè)務(wù)，包括日本、東南亞、中東等等，并和國外的這些大企業(yè)形成了比較緊密的合作。同時我們也積極地和當(dāng)?shù)匾恍┛蒲袡C構(gòu)、院校拓展我們這方面的合作。

2018年，商湯推動了全球高校人工智能學(xué)術(shù)聯(lián)盟，包括當(dāng)時的MIT、悉尼大學(xué)、南洋理工都在里面，主要是給大家建立一個在人工智能學(xué)術(shù)領(lǐng)域里自由交流和合作的空間。另外我們在新加坡也跟當(dāng)?shù)氐母咝３闪⒙?lián)合實驗室，有上百個人工智能的研究員、科學(xué)家，產(chǎn)出也非常好。

Q：商湯絕影是否有獨立融資的計劃？

王曉剛：智能汽車是商湯非常重要的一個板塊。商湯作為一個人工智能平臺性的公司，汽車智能化不斷給我們提供創(chuàng)新的源動力。所以這方面我們一定會持續(xù)加大投入，推動商湯智能汽車業(yè)務(wù)的發(fā)展。至于絕影，我們從2022年開始有這樣獨立的品牌在，后面我們一定會想辦法讓它做大做強。

Q：艙駕融合對于造車成本，以及算力要求比較大，如果朝著這個方向發(fā)展會如何影響汽車整個產(chǎn)業(yè)鏈的變化和發(fā)展？

王曉剛：艙駕融合可能有兩種不同思路：

一種思路是把兩個域的功能實現(xiàn)在一顆芯片上，有機會降低20%的硬件成本，所以這是一個追求性價比的思路，能夠積極地推廣。

另一個思路，也有高端一些的，比如說上千T的算力。通過大算力的芯片就可以支撐駕駛跟座艙的大模型，而且在一顆芯片上駕駛的各種傳感器跟艙內(nèi)的傳感器數(shù)據(jù)是連通的，延遲非常，能實現(xiàn)非常好的產(chǎn)品體驗。

這兩個思路都是有的，也不太一樣，這都是行業(yè)里面非常重要的發(fā)展契機。對商湯絕影來說，我們同時具有駕駛跟座艙這兩塊業(yè)務(wù)，進行艙駕融合，無論是從基礎(chǔ)軟件層面，還是在產(chǎn)品層面，都有比較天然的優(yōu)勢，我們也對行業(yè)這方面的發(fā)展趨勢非常期待。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

黃華丹

主筆

發(fā)私信

當(dāng)月熱門文章

商湯絕影王曉剛：商湯大模型將對軟件架構(gòu)進行重構(gòu)，促進座艙和駕駛結(jié)合

商湯絕影王曉剛：商湯大模型將對軟件架構(gòu)進行重構(gòu)，促進座艙和駕駛結(jié)合