0
本文作者: 徐咪 | 2025-08-26 14:07 |
8月25日,群核科技在首屆技術開放日(TechDay)上正式發(fā)布其空間大模型最新成果:新一代空間語言模型SpatialLM 1.5與空間生成模型SpatialGen,并在現(xiàn)場分享了新模型后續(xù)的開源節(jié)奏。作為業(yè)界首個專注于3D室內(nèi)場景認知與生成的大模型體系,群核空間大模型在真實感全息漫游、結構化可交互以及復雜室內(nèi)場景處理方面展現(xiàn)出顯著優(yōu)勢。
據(jù)悉,在開源模型之外,群核科技還首次分享了其AI團隊基于SpatialGen探索的AI視頻生成解決方案,旨在通過新范式解決時空一致性難題。
SpatialLM 1.5:一句話生成結構化3D場景,解決機器人訓練數(shù)據(jù)難題
本次發(fā)布的SpatialLM 1.5是一款基于大語言模型訓練的空間語言模型,支持用戶通過對話交互系統(tǒng)SpatialLM-Chat進行可交互場景的端到端生成。相比于傳統(tǒng)大語言模型對物理世界幾何與空間關系的理解局限,SpatialLM 1.5不僅能理解文本指令,還能輸出包含空間結構、物體關系、物理參數(shù)的“空間語言”。例如,當用戶輸入簡單文本描述時,SpatialLM 1.5可自動生成結構化場景腳本,智能匹配家具模型并完成布局,并支持后續(xù)通過自然語言進行問答或編輯。
圖說:空間語言模型SpatialLM1.5能力示意圖
更關鍵的是,SpatialLM 1.5生成的場景富含物理正確的結構化信息,且能快速批量輸出大量符合要求的多樣化場景,可用于機器人路徑規(guī)劃、避障訓練、任務執(zhí)行等場景,這將有效解決當前機器人訓練“缺數(shù)據(jù)”的難題?,F(xiàn)場,群核科技首席科學家周子寒演示了機器人養(yǎng)老場景的應用,當輸入“去客廳餐桌拿藥”這一指令后,該模型不僅理解了相關的物體對象,還調(diào)用工具自動規(guī)劃出最優(yōu)行動路徑,展示了機器人在復雜家庭環(huán)境中執(zhí)行任務的潛力。
值得一提的是,其前代版本 SpatialLM 1.0 今年3月開源后,迅速登上Hugging Face趨勢榜前三,目前已有初創(chuàng)企業(yè)基于其代碼和架構訓練出自有模型,驗證了開源模式的技術輻射力。
SpatialGen:破解AI視頻“時空一致性”難題,打造可自由漫游的3D世界
如果說SpatialLM解決的是“理解與交互”問題,那么 SpatialGen 則專注于“生成與呈現(xiàn)”。作為一款基于擴散模型架構的多視角圖像生成模型,SpatialGen 可根據(jù)文字描述、參考圖像和3D空間布局,生成具有時空一致性的多視角圖像,并支持進一步生成3D高斯(3DGS)場景并渲染漫游視頻。
SpatialGen依托群核科技海量室內(nèi)3D場景數(shù)據(jù)與多視角擴散模型技術,其生成的多視角圖像能確保同一物體在不同鏡頭下始終保持準確的空間屬性和物理關系。此外,基于SpatialGen生成的3D高斯場景和真實感全息漫游視頻,用戶可以如同在真實空間中一樣,自由穿梭于生成的場景內(nèi),獲得沉浸式的體驗。
圖說:群核空間生成模型SpatialGen數(shù)據(jù)集情況
“目前,AIGC文生視頻與圖生視頻工具已經(jīng)初步推動了全民視頻創(chuàng)作的潮流,但由于時空一致性問題的制約,其離真正的商業(yè)化應用仍有一定距離。我們正在研發(fā)一款基于3D技術的AI視頻生成產(chǎn)品,并計劃在今年內(nèi)正式發(fā)布——這或許是全球首款深度融合3D能力的AI視頻生成Agent。通過構建3D渲染與視頻增強一體化的生成管線,有望顯著彌補當前AIGC視頻生成中時空一致性不足的問題。”群核科技AI產(chǎn)品總監(jiān)龍?zhí)鞚商岬健?/p>
據(jù)了解,現(xiàn)有的AI視頻創(chuàng)作中,常因視角切換導致物體位置偏移、空間邏輯混亂、遮擋錯誤等問題。這背后的原因是多數(shù)視頻生成模型是基于圖像或視頻數(shù)據(jù)訓練,缺乏對3D空間結構和物理法則的理解和推演能力。
啟動空間智能飛輪戰(zhàn)略,持續(xù)開源共建技術生態(tài)
“對于中國這一代企業(yè)家來說,擁抱開源能夠發(fā)揮更大價值。我們一直堅信,只要你的技術有價值,同時賽道蓬勃發(fā)展,在里面一定能夠分到一杯羹?!比汉丝萍悸?lián)合創(chuàng)始人兼董事長黃曉煌說到。
圖說:群核科技創(chuàng)始人黃曉煌分享空間智能戰(zhàn)略 攝影人/黃航
活動現(xiàn)場,黃曉煌分享了群核科技在空間智能布局上的最新思考?;诳峒覙愤@一全球最大的空間設計平臺,群核科技構建了“空間編輯工具-空間合成數(shù)據(jù)-空間大模型”的空間智能飛輪,讓工具沉淀數(shù)據(jù),用數(shù)據(jù)加速模型訓練,用模型提升工具體驗,再在工具的廣泛應用中沉淀更為豐富的場景數(shù)據(jù)。資料顯示,截至2025年6月30日,群核科技擁有包含超過4.41億個3D模型及超過5億個結構化3D空間場景。
“開源是我們戰(zhàn)略的重要關鍵詞之一。群核科技從2018年就開始啟動了開源戰(zhàn)略,逐步開放我們在數(shù)據(jù)和算法上的能力。相比大語言模型,當前空間大模型還處于初級階段。我們希望通過開源推動全球空間智能技術快速前進,成為全球空間智能服務提供商,推動屬于空間大模型的‘DeepSeek時刻’盡快來臨?!?/p>
據(jù)悉,本次技術開放日分享的兩款模型將逐步在HuggingFace、GitHub、魔搭社區(qū)等平臺面向全球開發(fā)者開源。其中,空間生成模型SpatialGen在技術開放日當天已可以在開源網(wǎng)站下載使用,而空間語言模型SpatialLM 1.5未來也將以“SpatialLM-Chat”形式完成開源。
雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。