0
計(jì)算機(jī)視覺技術(shù)在真實(shí)世界的應(yīng)用場景十分廣泛。然而,過去主流的小模型方案,難以應(yīng)對碎片化、多變的長尾需求,限制了技術(shù)落地規(guī)模。
源自自然語言研究的Transformer架構(gòu)誕生后,視覺模型與之結(jié)合,走上一條“從小變大,從N變1”之路。自2022年起,IDEA團(tuán)隊(duì)從目標(biāo)檢測出發(fā),打造精準(zhǔn)度、通用性、泛化能力兼優(yōu)的DINO系列視覺大模型。
11月22日,IDEA大會在深舉辦,在本次大會上,IDEA研究院發(fā)布了該系列最新的DINO-X通用視覺大模型,擁有真正的物體級別理解能力,實(shí)現(xiàn)開放世界(Open-world)目標(biāo)檢測。無需用戶提示,直接檢測萬物。
與此同時,IDEA團(tuán)隊(duì)還推出行業(yè)平臺架構(gòu),通過一個大模型基座,結(jié)合通用識別技術(shù)結(jié)合,讓模型不需重新訓(xùn)練,就可邊用邊學(xué),支撐多種多樣的B端應(yīng)用需求。
萬物識別:無須指引,罕物盡覽
全面檢測:DINO-X在物體檢測領(lǐng)域樹立新標(biāo)桿,無需任何提示,即可識別幾乎所有物體,并給出其類別,包括罕見的長尾物體(出現(xiàn)頻率低但種類繁多的物體)。
在零樣本評估設(shè)置中,DINO-X Pro在業(yè)界公認(rèn)的LVIS-minival數(shù)據(jù)集上取得了59.7%的AP,遙遙領(lǐng)先于其它現(xiàn)有算法。在LVIS-val數(shù)據(jù)集上,DINO-X Pro也表現(xiàn)亮眼,取得了52.4%的AP。具體到LVIS-minival數(shù)據(jù)集上的各個長尾類別評估中,DINO-X Pro在稀有類別上取得了63.3%的AP(比Grounding DINO 1.5 Pro還要高出7.2%),在常見類別上取得了61.7%的AP,在頻繁類別上取得了57.5%的AP。DINO-X稱得上目前業(yè)界檢測最全的通用視覺模型。
泛化和通用性:得益于超過1億高質(zhì)量樣本的大規(guī)模數(shù)據(jù)集多樣化訓(xùn)練,DINO-X對未知場景和新物體具有更強(qiáng)的適應(yīng)性。這意味著在面對未見過的物體或環(huán)境時,模型仍能保持高水平的檢測性能。這種超強(qiáng)的泛化能力,使其在實(shí)際應(yīng)用中更加靈活。
多任務(wù)感知與理解:DINO-X整合了多個感知頭,支持包括分割、姿態(tài)估計(jì)、區(qū)域描述和基于區(qū)域的問答在內(nèi)的多種區(qū)域級別任務(wù),讓感知到理解逐步成為了現(xiàn)實(shí)。
長尾目標(biāo)檢測優(yōu)化:為了支持長尾目標(biāo)的檢測任務(wù),DINO-X不僅支持文本提示和視覺提示,還支持經(jīng)過視覺提示優(yōu)化的自定義提示。
開放世界:服務(wù)豐富場景,邁向具身智能
DINO-X的萬物識別能力,讓其擁有了對開放世界(Open World)的視覺感知,輕松應(yīng)對真實(shí)世界中的眾多不確定性和開放環(huán)境,賦能具身智能、大規(guī)模多模態(tài)數(shù)據(jù)的自動標(biāo)注、視障人士服務(wù)等高難度場景。
對具身智能而言,開發(fā)環(huán)境感知和理解是核心能力,這其中的視覺感知更是機(jī)器和物理世界交互的基礎(chǔ)。近期,聚焦人居環(huán)境具身智能核心技術(shù)攻關(guān)的福田實(shí)驗(yàn)室正式掛牌,該實(shí)驗(yàn)室正式由IDEA研究院與騰訊合作組建,致力于打造最前沿的具身智能創(chuàng)新平臺。
多模態(tài)模型通常需要處理大量的圖片并生成圖文對,而僅依靠人工標(biāo)注的方式不僅耗時、成本高,而且在面對海量數(shù)據(jù)時難以保障標(biāo)注的一致性和效率。DINO-X的萬物識別能力,可以幫助標(biāo)注公司快速完成大批量的高質(zhì)量圖像標(biāo)注或者為標(biāo)注員提供自動化的輔助結(jié)果,從而降低手工標(biāo)注的工作量。
視障人士獨(dú)立性和生活質(zhì)量的提升對信息獲取與感知等方面有著極高的要求,DINO-X的萬物識別能力恰逢其時地為助盲工具開發(fā)帶來福音,為視障人士的未來生活帶來美好希望。
在自動駕駛、智能安防、工業(yè)檢測等領(lǐng)域,DINO-X也將發(fā)揮關(guān)鍵作用。其卓越的通用檢測能力,使得系統(tǒng)能夠應(yīng)對各種復(fù)雜場景,識別出傳統(tǒng)模型難以檢測的物體,為產(chǎn)業(yè)升級和社會發(fā)展注入新的活力。
Dino-X基座大模型零樣本檢測能力,為廣大中小企業(yè)客戶提供便捷高效的計(jì)數(shù)和標(biāo)注工具
IDEA研究院一系列視覺大模型,包括DINO-X,為解決業(yè)務(wù)場景現(xiàn)存的小模型繁多、維護(hù)迭代成本高昂、準(zhǔn)確率不足等問題,提供了可行的方案。IDEA研究院與多家企業(yè)聯(lián)合開展視覺大模型及應(yīng)用場景的探索研究工作,在視覺大模型的落地方面取得了實(shí)質(zhì)性進(jìn)展。
一方面,有別于市場上的以語言為基礎(chǔ)的多模態(tài)大模型基于全圖理解的方法, 通過在物體級別的理解上加入語言模塊優(yōu)化大模型幻覺問題。另一方面結(jié)合自研的“視覺提示優(yōu)化”方法,無需更改模型結(jié)構(gòu),不用重新訓(xùn)練模型,實(shí)現(xiàn)小樣本下的場景化定制。
IDEA研究院通用視覺大模型行業(yè)平臺架構(gòu)
從DINO到DINO-X,IDEA研究院始終站在視覺感知技術(shù)的前沿。通過對開放世界的探索和對具身智能的賦能,DINO-X的卓越性能和通用檢測能力更加凸顯。雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))
值得一提的是,IDEA 研究院也開放了DINO-X API:
https://user.deepdataspace.com/login?redirect=https%3A%2F%2Fcloud.deepdataspace.com%2Fapply-token
有關(guān)DINO-X 的技術(shù)細(xì)節(jié),請參考同期發(fā)布的論文。
? 論文鏈接:https://arxiv.org/abs/2411.14347
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。