EMNLP 2021Oral | 拓展你的視野！UCLA提出：地區(qū)多樣性視覺常識推理

本文作者：我在思考中

2021-11-09 09:59

導(dǎo)語：從常識知識多樣性視角，思考AI系統(tǒng)的世界通用性問題。

EMNLP 2021Oral | 拓展你的視野！UCLA提出：地區(qū)多樣性視覺常識推理

作者 | 殷達(dá)

殷達(dá)：加州大學(xué)洛杉磯分校（UCLA）二年級博士生。導(dǎo)師為Prof. Kai-Wei Chang。主要的研究方向為知識驅(qū)動的自然語言理解模型。目前已在ACL，EMNLP，NAACL，CIKM等會議以第一作者身份發(fā)表文章。

EMNLP 2021Oral | 拓展你的視野！UCLA提出：地區(qū)多樣性視覺常識推理

文章相關(guān)資源

Paper: https://aclanthology.org/2021.emnlp-main.162/

Code and data: https://github.com/WadeYin9712/GD-VCR

Project page: https://gd-vcr.github.io/

前言

我們的文章主要關(guān)注在常識知識的地區(qū)多樣性：由于歷史文化因素的影響，在不同地區(qū)生活的人們可能對同一事物有著不一樣的常識和認(rèn)知。我們提出了地區(qū)多樣性視覺常識推理數(shù)據(jù)集 GD-VCR 去考察模型的表現(xiàn)，并且探究造成這一表現(xiàn)背后的原因。我們很高興 EMNLP 2021 的最佳論文 (Liu et al., 2021)，和杰出論文 (Zhang et al., 2021) 有著和我們非常相似的研究問題。所以非常希望我們的文章能夠讓大家從常識知識多樣性的視角對人工智能世界通用性的這一問題產(chǎn)生更多的思考。

背景

根據(jù)維基百科中的定義，常識是人類認(rèn)知日常場景的所需的基本知識，并且?guī)缀酢八腥恕倍寄苷莆詹⑦\用這種知識。如果我們看來一個女人在聚會上穿著白色婚裙，那么很大概率這個聚會是一個婚禮。隨著領(lǐng)域?qū)τ诔ＷR推理的關(guān)注，關(guān)于常識的大規(guī)模數(shù)據(jù)集和知識圖譜也越來越多。

但是我們?nèi)绻?xì)細(xì)品味維基百科中的定義，其實我們會發(fā)現(xiàn)一個問題：有些常識是否真的能夠被所有人掌握嗎？我們或許能從婚禮的例子中找到一些端倪：在中國的傳統(tǒng)婚禮上，可能新娘穿的是紅顏色裙子，甚至她的臉也會被紅蓋頭遮住。這對于中國人來說司空見慣，是一種常識。但是這可能對世界其他地區(qū)的人十分陌生。

（GD-VCR數(shù)據(jù)集示例。圖為不同地區(qū)婚禮圖片。）

常識知識其實比所謂的定義范圍更廣，更加多元！因此，我們的文章提出了一個新數(shù)據(jù)集，地區(qū)多樣性視覺常識推理數(shù)據(jù)集，Geo-Diverse Visual Commonsense Reasoning (GD-VCR)。我們沿用了視覺常識推理任務(wù)VCR的設(shè)置進(jìn)行標(biāo)注：我們收集了328個來自東亞、南亞、非洲和西方國家電影和電視劇的圖片，并基于這些圖片設(shè)計問題和答案。這些問題和答案會涉及地區(qū)多樣性的常識知識和對圖片內(nèi)容的深入理解。通過提出這個數(shù)據(jù)集，我們試圖研究以下兩個問題：

在VCR（西方場景為主）上訓(xùn)練的模型是否能很好的泛化到關(guān)于地區(qū)多樣性常識的場景和問題上？
如果泛化表現(xiàn)不強，到底是什么原因產(chǎn)生了這種現(xiàn)象？

數(shù)據(jù)集收集和統(tǒng)計信息

數(shù)據(jù)集收集的主要挑戰(zhàn)是要找到合適的圖像資源并捕獲包含區(qū)域特征的場景。我們從 Amazon Mechanical Turk 平臺和大學(xué)里的語言文化系招募標(biāo)注人員。我們要求收集的圖像中應(yīng)具有包含標(biāo)注者比較熟悉的地區(qū)中代表性場景。我們進(jìn)一步建議標(biāo)注者選擇普遍存在但具有跨地區(qū)特征的場景，例如婚禮、葬禮、節(jié)日、宗教活動等。這些要求不僅可以使我們的 GD-VCR 數(shù)據(jù)集更具地區(qū)多樣性，也方便我們后續(xù)去做更公平的比較。

（GD-VCR總體統(tǒng)計數(shù)據(jù)）

GD-VCR 的總體統(tǒng)計數(shù)據(jù)見表。這邊想強調(diào)的是，我們計算了每個區(qū)域的 OOV 率，也就是出現(xiàn)在 GD-VCR 中但未出現(xiàn)在原始 VCR 訓(xùn)練集中的單詞的比率。我們發(fā)現(xiàn)在 GD-VCR 中，這四個不同地區(qū) OOV 率彼此接近，并且都很低。這進(jìn)一步證明 GD-VCR 與原始VCR數(shù)據(jù)集的詞匯分布相似，GD-VCR 的難度并非來自詞匯差距。我們還在文中展示了 GD-VCR 中覆蓋圖像關(guān)鍵字分布。我們統(tǒng)計出總共有693個關(guān)鍵詞，展示了 GD-VCR 中場景的多樣性。

實驗設(shè)置和分析

我們基于兩個預(yù)訓(xùn)練V&L模型進(jìn)行實驗：VisualBERT (Li et al., 2019), ViLBERT (Lu et al., 2019)。

（模型效果）

我們首先研究在 VCR 上訓(xùn)練的模型泛化到特定地區(qū)常識問題上的效果。首先，我們發(fā)現(xiàn)與西方圖像相比，這兩個模型在來自非西方地區(qū)的圖像上的表現(xiàn)要差得多，差距大約為3-19%。此外，我們比較了模型和人類的表現(xiàn)。我們注意到，盡管人類可能不熟悉這種文化，但他們?nèi)匀槐饶Ｐ透叱?30% 左右。這意味著人類更有能力將他們的常識轉(zhuǎn)化并應(yīng)用在地區(qū)多樣化常識的理解過程中。然而目前的模型離這個水平還差很遠(yuǎn)。

我們后面從兩個方面分析了產(chǎn)生這種表現(xiàn)差異的原因：

具有地區(qū)特征的場景：我們在 GD-VCR 中標(biāo)注了圖像的場景標(biāo)簽，所以我們可以借助標(biāo)簽將不同地區(qū)同一個場景的圖片放在一起進(jìn)行比較。我們觀察到，對于經(jīng)常涉及地區(qū)特征的場景（例如婚禮，節(jié)日等），性能差距要大得多，約為8%-24%。但是，對于一些世界上普遍存在且比較相似的場景，模型的性能差距僅為0.4-1.3%。

EMNLP 2021Oral | 拓展你的視野！UCLA提出：地區(qū)多樣性視覺常識推理

（具有地區(qū)特征的場景與其他場景上模型表現(xiàn)差異對比。字體越大表示模型表現(xiàn)差異越大。紅色場景差異大于8%，藍(lán)色場景差異小于8%。）

QA pair 的推理層次：在介紹推理層次之前，我們可以先思考模型什么時候會失敗。我們認(rèn)為可能有2種情景。“情景1”是，模型在早期甚至無法識別非西方圖像的基本信息?！扒榫?”是，模型在基本視覺信息的識別上效果不錯，但最終由于缺乏特定區(qū)域的常識而最終失敗。

為了判斷我們處于哪種情景，我們此外又注釋了一些 low-order QA pairs。這些 low-order QA pairs 可以通過識別基本的視覺信息即可回答。例如，問題“[person3] 穿的什么？”就是一個 low-order QA pair。并且我們假設(shè) GD-VCR 中的所有 QA pairs 都是 high-order QA pairs，因為它們涉及常識和更復(fù)雜的推理。low-order 和 high-order 分別對應(yīng)低推理層次和高推理層次。

（在low-order和high-order QA pairs上不同地區(qū)圖片的模型表現(xiàn)差異）

我們用 VisualBERT 在這些 QA pairs 上評估。我們首先注意到模型在 low-order QA pairs 的效果好于 high-order QA pairs。此外，模型在不同地區(qū) low-order QA pairs 的差異遠(yuǎn)小于 high-order QA pairs。這意味著該模型在基本視覺信息的問題上可以達(dá)到相似的性能，但是復(fù)雜常識推理增加了難度并擴大了差距。這意味著“情景2”更好地描述了這個狀況。

結(jié)論和未來影響

在文章中，我們構(gòu)建了一個新的地區(qū)多樣常識推理數(shù)據(jù)集 GD-VCR。我們在 GD-VCR 上評估模型性能，發(fā)現(xiàn)不同區(qū)域之間存在很大差異。最后我們分析了性能差異的來源：1) 具有地區(qū)特征的場景，和 2) QA pair 的推理層次。我們希望這篇文章不僅可以啟發(fā)研究者去提高視覺常識推理模型在地區(qū)多樣化場景上的泛化能力。我們還希望能借此文章拓寬研究人員的視野，以更加包容的態(tài)度對人工智能系統(tǒng)的世界通用性這一現(xiàn)實問題產(chǎn)生更多的思考。

相關(guān)文獻(xiàn)

[1] From Recognition to Cognition: Visual Commonsense Reasoning. Zellers et al., CVPR 2019.

[2] Visually Grounded Reasoning across Languages and Cultures. Liu et al., EMNLP 2021.

[3] SituatedQA: Incorporating Extra-Linguistic Contexts into QA. Zhang et al., EMNLP 2021.