IDEA研究院發(fā)布DINO-X目標(biāo)檢測視覺大模型

本文作者：朱可軒

2024-11-22 19:56

導(dǎo)語：一個模型解決一百萬個問題，打破小模型應(yīng)用瓶頸。

計(jì)算機(jī)視覺技術(shù)在真實(shí)世界的應(yīng)用場景十分廣泛。然而，過去主流的小模型方案，難以應(yīng)對碎片化、多變的長尾需求，限制了技術(shù)落地規(guī)模。

源自自然語言研究的Transformer架構(gòu)誕生后，視覺模型與之結(jié)合，走上一條“從小變大，從N變1”之路。自2022年起，IDEA團(tuán)隊(duì)從目標(biāo)檢測出發(fā)，打造精準(zhǔn)度、通用性、泛化能力兼優(yōu)的DINO系列視覺大模型。

11月22日，IDEA大會在深舉辦，在本次大會上，IDEA研究院發(fā)布了該系列最新的DINO-X通用視覺大模型，擁有真正的物體級別理解能力，實(shí)現(xiàn)開放世界（Open-world）目標(biāo)檢測。無需用戶提示，直接檢測萬物。

與此同時，IDEA團(tuán)隊(duì)還推出行業(yè)平臺架構(gòu)，通過一個大模型基座，結(jié)合通用識別技術(shù)結(jié)合，讓模型不需重新訓(xùn)練，就可邊用邊學(xué)，支撐多種多樣的B端應(yīng)用需求。

萬物識別：無須指引，罕物盡覽

全面檢測：DINO-X在物體檢測領(lǐng)域樹立新標(biāo)桿，無需任何提示，即可識別幾乎所有物體，并給出其類別，包括罕見的長尾物體（出現(xiàn)頻率低但種類繁多的物體）。

IDEA研究院發(fā)布DINO-X目標(biāo)檢測視覺大模型

在零樣本評估設(shè)置中，DINO-X Pro在業(yè)界公認(rèn)的LVIS-minival數(shù)據(jù)集上取得了59.7%的AP，遙遙領(lǐng)先于其它現(xiàn)有算法。在LVIS-val數(shù)據(jù)集上，DINO-X Pro也表現(xiàn)亮眼，取得了52.4%的AP。具體到LVIS-minival數(shù)據(jù)集上的各個長尾類別評估中，DINO-X Pro在稀有類別上取得了63.3%的AP（比Grounding DINO 1.5 Pro還要高出7.2%），在常見類別上取得了61.7%的AP，在頻繁類別上取得了57.5%的AP。DINO-X稱得上目前業(yè)界檢測最全的通用視覺模型。

泛化和通用性：得益于超過1億高質(zhì)量樣本的大規(guī)模數(shù)據(jù)集多樣化訓(xùn)練，DINO-X對未知場景和新物體具有更強(qiáng)的適應(yīng)性。這意味著在面對未見過的物體或環(huán)境時，模型仍能保持高水平的檢測性能。這種超強(qiáng)的泛化能力，使其在實(shí)際應(yīng)用中更加靈活。

多任務(wù)感知與理解：DINO-X整合了多個感知頭，支持包括分割、姿態(tài)估計(jì)、區(qū)域描述和基于區(qū)域的問答在內(nèi)的多種區(qū)域級別任務(wù)，讓感知到理解逐步成為了現(xiàn)實(shí)。

長尾目標(biāo)檢測優(yōu)化：為了支持長尾目標(biāo)的檢測任務(wù)，DINO-X不僅支持文本提示和視覺提示，還支持經(jīng)過視覺提示優(yōu)化的自定義提示。

開放世界：服務(wù)豐富場景，邁向具身智能

DINO-X的萬物識別能力，讓其擁有了對開放世界（Open World）的視覺感知，輕松應(yīng)對真實(shí)世界中的眾多不確定性和開放環(huán)境，賦能具身智能、大規(guī)模多模態(tài)數(shù)據(jù)的自動標(biāo)注、視障人士服務(wù)等高難度場景。

對具身智能而言，開發(fā)環(huán)境感知和理解是核心能力，這其中的視覺感知更是機(jī)器和物理世界交互的基礎(chǔ)。近期，聚焦人居環(huán)境具身智能核心技術(shù)攻關(guān)的福田實(shí)驗(yàn)室正式掛牌，該實(shí)驗(yàn)室正式由IDEA研究院與騰訊合作組建，致力于打造最前沿的具身智能創(chuàng)新平臺。

多模態(tài)模型通常需要處理大量的圖片并生成圖文對，而僅依靠人工標(biāo)注的方式不僅耗時、成本高，而且在面對海量數(shù)據(jù)時難以保障標(biāo)注的一致性和效率。DINO-X的萬物識別能力，可以幫助標(biāo)注公司快速完成大批量的高質(zhì)量圖像標(biāo)注或者為標(biāo)注員提供自動化的輔助結(jié)果，從而降低手工標(biāo)注的工作量。

視障人士獨(dú)立性和生活質(zhì)量的提升對信息獲取與感知等方面有著極高的要求，DINO-X的萬物識別能力恰逢其時地為助盲工具開發(fā)帶來福音，為視障人士的未來生活帶來美好希望。

在自動駕駛、智能安防、工業(yè)檢測等領(lǐng)域，DINO-X也將發(fā)揮關(guān)鍵作用。其卓越的通用檢測能力，使得系統(tǒng)能夠應(yīng)對各種復(fù)雜場景，識別出傳統(tǒng)模型難以檢測的物體，為產(chǎn)業(yè)升級和社會發(fā)展注入新的活力。

IDEA研究院發(fā)布DINO-X目標(biāo)檢測視覺大模型

Dino-X基座大模型零樣本檢測能力，為廣大中小企業(yè)客戶提供便捷高效的計(jì)數(shù)和標(biāo)注工具

IDEA研究院一系列視覺大模型，包括DINO-X，為解決業(yè)務(wù)場景現(xiàn)存的小模型繁多、維護(hù)迭代成本高昂、準(zhǔn)確率不足等問題，提供了可行的方案。IDEA研究院與多家企業(yè)聯(lián)合開展視覺大模型及應(yīng)用場景的探索研究工作，在視覺大模型的落地方面取得了實(shí)質(zhì)性進(jìn)展。

一方面，有別于市場上的以語言為基礎(chǔ)的多模態(tài)大模型基于全圖理解的方法，通過在物體級別的理解上加入語言模塊優(yōu)化大模型幻覺問題。另一方面結(jié)合自研的“視覺提示優(yōu)化”方法，無需更改模型結(jié)構(gòu)，不用重新訓(xùn)練模型，實(shí)現(xiàn)小樣本下的場景化定制。 IDEA研究院發(fā)布DINO-X目標(biāo)檢測視覺大模型