港中文賈佳亞團(tuán)隊(duì)提出 LISA 大模型：解鎖多模態(tài)大模型“推理分割”能力

本文作者：我在思考中

2023-08-09 16:06

導(dǎo)語(yǔ)：該任務(wù)要求模型能夠處理復(fù)雜的自然語(yǔ)言指令，并給出精細(xì)的分割結(jié)果。

代碼和Demo地址：https://github.com/dvlab-research/LISA

論文地址：https://arxiv.org/pdf/2308.00692.pdf

當(dāng)前的視覺(jué)識(shí)別系統(tǒng)都依賴人類用戶明確指代目標(biāo)物體或預(yù)先設(shè)定識(shí)別類別，進(jìn)而進(jìn)行識(shí)別。它們?nèi)匀恢荒芴幚砗?jiǎn)單明確的指令（如“橙子”），而無(wú)法解析相對(duì)隱式和復(fù)雜的指令（如在下圖中指出 “維生素C含量高的食物”）。

港中文賈佳亞團(tuán)隊(duì)提出 LISA 大模型：解鎖多模態(tài)大模型“推理分割”能力

而真正的智能感知系統(tǒng)應(yīng)該根據(jù)用戶指令推理其真實(shí)意圖。例如，在指示機(jī)器人時(shí)，人們往往傾向于直接給一個(gè)指令“我想要看電視“，而不是分幾個(gè)步驟”走去茶幾旁邊，幫我找到遙控器，然后按下按鈕打開(kāi)電視“。這些場(chǎng)景都要求感知系統(tǒng)具有復(fù)雜推理和聯(lián)系世界知識(shí)的能力。

最近，香港中文大學(xué)賈佳亞團(tuán)隊(duì)發(fā)布一項(xiàng)新研究，提出一項(xiàng)新任務(wù)——推理分割（Reasoning Segmentation），該任務(wù)要求模型能夠處理復(fù)雜的自然語(yǔ)言指令，并給出精細(xì)的分割結(jié)果。

港中文賈佳亞團(tuán)隊(duì)提出 LISA 大模型：解鎖多模態(tài)大模型“推理分割”能力

如上圖所示，推理分割任務(wù)具有很大的挑戰(zhàn)性，可能需要借鑒世界知識(shí)（例如，左圖需要了解“短鏡頭更適合拍攝近物體”），或進(jìn)行復(fù)雜圖文推理（如右圖需要分析圖像和文本語(yǔ)義，才能理解圖中“柵欄保護(hù)嬰兒”的含義），才能獲得最終理想的分割結(jié)果。

盡管當(dāng)前多模態(tài)大模型（例如Flamingo [1], BLIP-2 [2], LLaVA [3], miniGPT-4 [4], Otter [5]）使得AI能夠根據(jù)圖像內(nèi)容推理用戶的復(fù)雜問(wèn)題，并給出相應(yīng)的文本分析和回答，但仍無(wú)法像視覺(jué)感知系統(tǒng)那樣在圖像上精確定位指令對(duì)應(yīng)的目標(biāo)區(qū)域。

因此，此項(xiàng)研究工作提出LISA（Large Language Instructed Segmentation Assistant）多模態(tài)大模型。LISA通過(guò)引入一個(gè)<SEG>標(biāo)記來(lái)擴(kuò)展初始大型模型的詞匯表，并采用Embedding-as-Mask的方式賦予現(xiàn)有多模態(tài)大型模型分割功能，最終展現(xiàn)出強(qiáng)大的零樣本泛化能力。

同時(shí)，該工作還創(chuàng)建了ReasonSeg數(shù)據(jù)集，其中包含上千張高質(zhì)量圖像及相應(yīng)的推理指令和分割標(biāo)注。

實(shí)驗(yàn)證明，在訓(xùn)練過(guò)程中僅使用不包含復(fù)雜推理的分割數(shù)據(jù)（通過(guò)將現(xiàn)有的語(yǔ)義分割數(shù)據(jù)如ADE20K [6]，COCO-Stuff [7]以及現(xiàn)有指代分割數(shù)據(jù)refCOCO系列 [8]中的每條數(shù)據(jù)轉(zhuǎn)換成“圖像-指令-分割Mask”三元組），LISA能在推理分割任務(wù)上展現(xiàn)出優(yōu)異的零樣本泛化能力。此外，進(jìn)一步使用239個(gè)推理分割數(shù)據(jù)進(jìn)行微調(diào)訓(xùn)練還能顯著提升LISA在推理分割任務(wù)上的性能。而且LISA還表現(xiàn)出高效的訓(xùn)練特性，只需在8張具有24GB顯存的3090顯卡上進(jìn)行10,000次訓(xùn)練迭代，即可完成7B模型的訓(xùn)練。

技術(shù)方案概述

港中文賈佳亞團(tuán)隊(duì)提出 LISA 大模型：解鎖多模態(tài)大模型“推理分割”能力

首先將圖像和文本送到多模態(tài)-大語(yǔ)言模型（在實(shí)驗(yàn)中即LLaVA），得到輸出的文本結(jié)果，如果此時(shí)文本結(jié)果包含<SEG>標(biāo)記，則表示需要通過(guò)輸出分割預(yù)測(cè)來(lái)解決當(dāng)前問(wèn)題。反之，若不包含<SEG>標(biāo)記，則無(wú)分割結(jié)果輸出。

如果存在<SEG>標(biāo)記，則將<SEG>標(biāo)記在多模態(tài)大模型最后一層對(duì)應(yīng)的embedding經(jīng)過(guò)一個(gè)MLP層得到，并將其與分割視覺(jué)特征一起傳遞給解碼器（其中分割視覺(jué)特征由輸入編碼器對(duì)圖像進(jìn)行編碼得到）。最終，根據(jù)生成最終的分割結(jié)果。

LISA在訓(xùn)練過(guò)程中使用了自回歸交叉熵?fù)p失函數(shù)，以及對(duì)分割結(jié)果監(jiān)督的BCE和DICE損失函數(shù)。

模型效果

最終，LISA不僅在傳統(tǒng)的語(yǔ)言-圖像分割指標(biāo)（refCOCO、refCOCO+和refCOCOg）上展現(xiàn)出優(yōu)異性能，還能處理以下分割任務(wù)情景：1）復(fù)雜推理，2）聯(lián)系世界知識(shí)，3）解釋分割結(jié)果以及4）多輪對(duì)話。

在有復(fù)雜情景的ReasonSeg數(shù)據(jù)集上，LISA顯著領(lǐng)先于其他相關(guān)工作（如Table 1），進(jìn)一步證明其出色的推理分割能力。

港中文賈佳亞團(tuán)隊(duì)提出 LISA 大模型：解鎖多模態(tài)大模型“推理分割”能力

效果展示

港中文賈佳亞團(tuán)隊(duì)提出 LISA 大模型：解鎖多模態(tài)大模型“推理分割”能力

引用：

[1] Alayrac, Jean-Baptiste, et al. "Flamingo: a visual language model for few-shot learning." In NeurIPS, 2022.

[2] Li, Junnan, et al. "Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models." In arXiv preprint, 2023.

[3] Liu, Haotian, et al. "Visual instruction tuning." In arXiv preprint, 2023.

[4] Zhu, Deyao, et al. "Minigpt-4: Enhancing vision-language understanding with advanced large language models." In arXiv preprint, 2023.

[5] Li, Bo, et al. "Otter: A multi-modal model with in-context instruction tuning." In arXiv preprint, 2023.

[6] Zhou, Bolei, et al. "Scene parsing through ade20k dataset." In CVPR, 2017.

[7] Caesar, Holger, Jasper Uijlings, and Vittorio Ferrari. "Coco-stuff: Thing and stuff classes in context." In CVPR, 2018.

[8] Kazemzadeh, Sahar, et al. "Referitgame: Referring to objects in photographs of natural scenes." In EMNLP, 2014.

雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

我在思考中

運(yùn)營(yíng)

發(fā)私信

當(dāng)月熱門文章