0
本文作者: 我在思考中 | 2021-11-09 09:59 |
我們的文章主要關(guān)注在常識知識的地區(qū)多樣性:由于歷史文化因素的影響,在不同地區(qū)生活的人們可能對同一事物有著不一樣的常識和認知。我們提出了地區(qū)多樣性視覺常識推理數(shù)據(jù)集 GD-VCR 去考察模型的表現(xiàn),并且探究造成這一表現(xiàn)背后的原因。我們很高興 EMNLP 2021 的最佳論文 (Liu et al., 2021),和杰出論文 (Zhang et al., 2021) 有著和我們非常相似的研究問題。所以非常希望我們的文章能夠讓大家從常識知識多樣性的視角對人工智能世界通用性的這一問題產(chǎn)生更多的思考。
根據(jù)維基百科中的定義,常識是人類認知日常場景的所需的基本知識,并且?guī)缀酢八腥恕倍寄苷莆詹⑦\用這種知識。如果我們看來一個女人在聚會上穿著白色婚裙,那么很大概率這個聚會是一個婚禮。隨著領(lǐng)域?qū)τ诔WR推理的關(guān)注,關(guān)于常識的大規(guī)模數(shù)據(jù)集和知識圖譜也越來越多。
但是我們?nèi)绻毤毱肺毒S基百科中的定義,其實我們會發(fā)現(xiàn)一個問題:有些常識是否真的能夠被所有人掌握嗎?我們或許能從婚禮的例子中找到一些端倪:在中國的傳統(tǒng)婚禮上,可能新娘穿的是紅顏色裙子,甚至她的臉也會被紅蓋頭遮住。這對于中國人來說司空見慣,是一種常識。但是這可能對世界其他地區(qū)的人十分陌生。
(GD-VCR數(shù)據(jù)集示例。圖為不同地區(qū)婚禮圖片。)
在VCR(西方場景為主)上訓(xùn)練的模型是否能很好的泛化到關(guān)于地區(qū)多樣性常識的場景和問題上?
如果泛化表現(xiàn)不強,到底是什么原因產(chǎn)生了這種現(xiàn)象?
數(shù)據(jù)集收集的主要挑戰(zhàn)是要找到合適的圖像資源并捕獲包含區(qū)域特征的場景。我們從 Amazon Mechanical Turk 平臺和大學(xué)里的語言文化系招募標注人員。我們要求收集的圖像中應(yīng)具有包含標注者比較熟悉的地區(qū)中代表性場景。我們進一步建議標注者選擇普遍存在但具有跨地區(qū)特征的場景,例如婚禮、葬禮、節(jié)日、宗教活動等。這些要求不僅可以使我們的 GD-VCR 數(shù)據(jù)集更具地區(qū)多樣性,也方便我們后續(xù)去做更公平的比較。
GD-VCR 的總體統(tǒng)計數(shù)據(jù)見表。這邊想強調(diào)的是,我們計算了每個區(qū)域的 OOV 率,也就是出現(xiàn)在 GD-VCR 中但未出現(xiàn)在原始 VCR 訓(xùn)練集中的單詞的比率。我們發(fā)現(xiàn)在 GD-VCR 中,這四個不同地區(qū) OOV 率彼此接近,并且都很低。這進一步證明 GD-VCR 與原始VCR數(shù)據(jù)集的詞匯分布相似,GD-VCR 的難度并非來自詞匯差距。我們還在文中展示了 GD-VCR 中覆蓋圖像關(guān)鍵字分布。我們統(tǒng)計出總共有693個關(guān)鍵詞,展示了 GD-VCR 中場景的多樣性。
我們基于兩個預(yù)訓(xùn)練V&L模型進行實驗:VisualBERT (Li et al., 2019), ViLBERT (Lu et al., 2019)。
我們首先研究在 VCR 上訓(xùn)練的模型泛化到特定地區(qū)常識問題上的效果。首先,我們發(fā)現(xiàn)與西方圖像相比,這兩個模型在來自非西方地區(qū)的圖像上的表現(xiàn)要差得多,差距大約為3-19%。此外,我們比較了模型和人類的表現(xiàn)。我們注意到,盡管人類可能不熟悉這種文化,但他們?nèi)匀槐饶P透叱?30% 左右。這意味著人類更有能力將他們的常識轉(zhuǎn)化并應(yīng)用在地區(qū)多樣化常識的理解過程中。然而目前的模型離這個水平還差很遠。
我們后面從兩個方面分析了產(chǎn)生這種表現(xiàn)差異的原因:
具有地區(qū)特征的場景:我們在 GD-VCR 中標注了圖像的場景標簽,所以我們可以借助標簽將不同地區(qū)同一個場景的圖片放在一起進行比較。我們觀察到,對于經(jīng)常涉及地區(qū)特征的場景(例如婚禮,節(jié)日等),性能差距要大得多,約為8%-24%。但是,對于一些世界上普遍存在且比較相似的場景,模型的性能差距僅為0.4-1.3%。
(具有地區(qū)特征的場景與其他場景上模型表現(xiàn)差異對比。字體越大表示模型表現(xiàn)差異越大。紅色場景差異大于8%,藍色場景差異小于8%。)
QA pair 的推理層次:在介紹推理層次之前,我們可以先思考模型什么時候會失敗。我們認為可能有2種情景?!扒榫?”是,模型在早期甚至無法識別非西方圖像的基本信息?!扒榫?”是,模型在基本視覺信息的識別上效果不錯,但最終由于缺乏特定區(qū)域的常識而最終失敗。
為了判斷我們處于哪種情景,我們此外又注釋了一些 low-order QA pairs。這些 low-order QA pairs 可以通過識別基本的視覺信息即可回答。例如,問題“[person3] 穿的什么?”就是一個 low-order QA pair。并且我們假設(shè) GD-VCR 中的所有 QA pairs 都是 high-order QA pairs,因為它們涉及常識和更復(fù)雜的推理。low-order 和 high-order 分別對應(yīng)低推理層次和高推理層次。
(在low-order和high-order QA pairs上不同地區(qū)圖片的模型表現(xiàn)差異)
在文章中,我們構(gòu)建了一個新的地區(qū)多樣常識推理數(shù)據(jù)集 GD-VCR。我們在 GD-VCR 上評估模型性能,發(fā)現(xiàn)不同區(qū)域之間存在很大差異。最后我們分析了性能差異的來源:1) 具有地區(qū)特征的場景,和 2) QA pair 的推理層次。我們希望這篇文章不僅可以啟發(fā)研究者去提高視覺常識推理模型在地區(qū)多樣化場景上的泛化能力。我們還希望能借此文章拓寬研究人員的視野,以更加包容的態(tài)度對人工智能系統(tǒng)的世界通用性這一現(xiàn)實問題產(chǎn)生更多的思考。
雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。