
編譯 | 王曄
可解釋性對人工智能發(fā)展來說至關重要,但在可解釋系統(tǒng)的可信度方面,理解其可能帶來的負面效應亦同等重要。近日,佐治亞理工學院研究團隊發(fā)表最新研究,重點討論了可解釋人工智能系統(tǒng)(XAI)中一種重要卻未被闡明的負面效應。
論文地址:https://arxiv.org/pdf/2109.12480.pdf在這篇論文中,作者提出“可解釋性陷阱(EPs)”的概念,指出即使設計者最初沒有操控用戶的意圖,模型的可解釋性也可能帶來意料之外的負面影響,它不同于具有刻意欺騙性質(zhì)的黑暗模式(DPs),但又與之相關。本文通過一項案例研究具體闡述了Eps概念,并證實解釋的負面影響不可避免,最后作者進一步從研究、設計和組織三個層面提出了具體的應對策略。發(fā)展可解釋、可信的新一代人工智能越來越重要,因為人工智能已被廣泛應用于醫(yī)療保健、金融、刑事司法等高風險決策領域。為了提高人工智能的安全性,我們需要打開AI內(nèi)部運作的黑匣子,為用戶提供可理解的解釋。目前關于可解釋AI(XAI)的研究已經(jīng)取得了令人稱贊的進展,但最新研究發(fā)現(xiàn),這些解釋所帶來的的影響不一定是積極的,也可能在下游任務中產(chǎn)生消極影響。例如設模型計者故意制造不合理的解釋,讓人們對人工智能系統(tǒng)產(chǎn)生信任,從而隱瞞其可能帶來的風險。更重要的是,盡管模型設計的最初意圖是好的,這種負面影響似乎也不可避免。在這種情況下,我們要如何區(qū)分有意和無意的負面解釋?又如何將有意的負面效應概念化?
作者引入“可解釋性陷阱(Explainability pitfalls ,EPs)”的概念,指出人工智能解釋可能會誤導用戶在不知情、無防備的情況下做出符合第三方利益的決策。用戶對人工智能的信任,能力的高估,以及對某些解釋的過度依賴,是他們在無意識中被“可解釋性”操控的主要原因。EPs和DPs之間的最大區(qū)別在于“意圖”不同——DPs存在故意欺騙的性質(zhì),不考慮到用戶的利益。但EPs通過故意設置“陷阱(pitfalls)”也可以變成黑暗模式。EPs的概念并不是純粹的理論推導后的結果,而是在大量實際工作和經(jīng)驗的基礎上提出的。這項工作展示了盡管沒有欺騙的意圖,但在人工智能解釋的確會出現(xiàn)意料之外的負面影響.本文不是一篇關于EPs的全面論述,而是在現(xiàn)有概念和實踐上邁出了基礎性的一步。作者表示,提出可解釋性陷阱的概念,是為了讓人們認識到未曾發(fā)掘的知識盲點(圍繞人工智能解釋的負面影響),并以此擴大XAI系統(tǒng)的設計空間。在這項研究中,作者調(diào)查了兩個不同的群體——有人工智能背景和沒有人工智能背景的人,他們?nèi)绾慰创煌愋偷娜斯ぶ悄芙忉尅R韵率怯脩魧I生成的三種解釋的看法: 在這項研究中,參與者觀看了三個智能體在連續(xù)決策環(huán)境中的導航視頻,并提供了定性和定量的感知信息——在一個滿是滾動的巨石和流動的熔巖的環(huán)境中,為被困的探險者取回必須供應的食物。智能體通過簡單地輸出當前狀態(tài)的數(shù)字Q值執(zhí)行 "思考"過程(如圖1)。Q值代表智能體對每個行動的信任程度(不包含 "為什么"可信),參與者事前沒有被告知這些Q值的意義,所以他們不知道哪些數(shù)值對應哪些行動。
實驗發(fā)現(xiàn),兩類參與者都對數(shù)字盲目信任,但信任的程度和原因不同。作者采用"認知啟發(fā)"的概念,試圖理解背后的原因。他們發(fā)現(xiàn),對于有人工智能背景的參與者來說,僅僅是出現(xiàn)的數(shù)字就能引發(fā)啟發(fā)式思考。他們不完全理解智能體決策背后的邏輯,但也會將數(shù)學表示法與邏輯算法的思維過程聯(lián)系起來。有意思的是,他們還把最聰明的AI投給了“行為最奇怪”的智能體,這說明,他們不僅過度重視數(shù)字結果,而且將“含義不明”的數(shù)字視為潛在的可操作性。這里的"可操作性"指的是在判斷或預測未來行為方面,人們可以用這些信息做什么。那么,智能體在實際場景中的可操作性到底如何?正如之前所強調(diào)的,Q值不能表明決策背后的 "原因"。除了評估現(xiàn)有行動的質(zhì)量,這些數(shù)字并沒有太多可操作性。也就是說,參與者對智能體產(chǎn)生了過度信任和錯位評估。對于沒有人工智能背景的參與者來說,即使無法理解復雜的數(shù)字也會引發(fā)啟發(fā)式推理,在他們看來,智能體就一定是智能的,這些數(shù)字代表了智能體“神秘而不可理解”的獨特語言。需要說明的是,這種推理方式與之前有人工智能背景的人的推理過程不同,他們假設了未來的可操作性(盡管目前缺乏可理解性)。如我們所看到的,沒有標記的、無法理解的數(shù)字反而增加了兩類群體對智能體的信任和評估。這項案例研究表明,即使沒有欺騙的意圖,EPs也會出現(xiàn)未曾預料到的結果,并誤導參與者對數(shù)字生成過度依賴。需要強調(diào)的是,本次案例假設Q值的“本意”是好的,如果這些數(shù)字被操縱了,一些人利用這些隱患惡意設計黑暗模式,鑒于案例中用戶對數(shù)字的啟發(fā)式信任,這將會誤導更多人對系統(tǒng)產(chǎn)生過度信任和不正確認知。總結來看,可解釋性陷阱(EPs)有兩個特性,一是它僅是存在,但并不一定會對下游產(chǎn)生危害;二是現(xiàn)有知識不能預測給定的一個人工智能解釋何時、如何以及為何會引發(fā)意料之外的負面下游效應。基于以上兩點,作者認為雖然我們不太可能完全消除解釋的負面效應,但需要意識到“陷阱”的存在,了解它們何時容易出現(xiàn),又是如何運作的,并制定相應的措施,做到防微杜漸。文中作者從研究、設計和組織三個相互關聯(lián)的層面提出了幾點策略:在研究層面,開展更多以人為本的情境和經(jīng)驗性研究,以獲得不同解釋對不同利益相關者在多維度下的精細理解。這是因為當下游效應(如用戶對人工智能解釋的看法)表現(xiàn)出來時,陷阱就會表顯露并被識別。如上述案例,具有不同人工智能背景的用戶引發(fā)了同樣的陷阱(即,對數(shù)字過度信任),但卻有不同的啟發(fā)模式。其實,基于這則案例,我們還可以從用戶知識背景和理解分歧兩個維度進一步探討:用戶的組合特征(如教育背景和專業(yè)背景)如何影響 EPs的易感性?不同的啟發(fā)式方法如何發(fā)現(xiàn)不利影響?不同的用戶如何適應意料之外的解釋?在這些探索中,具備陷阱意識可以幫助我們提高洞察力,發(fā)現(xiàn)人們對人工智能解釋的反應是如何與設計者的意圖相背離的。在設計層面上,一個有效的策略是強化用戶在解釋過程中的反思(而不是一味地接受)。最近以人為本的XAI工作也主張將通過反思來促進信任的方法概念化。Langer等人指出,如果我們不對解釋進行有意識的和慎重的思考,就會增加掉進“陷阱”的可能。為了引發(fā)人們的注意,Langer等人建議設計 "努力的反應 "或 "有思想的反應",它可以采用縫合設計的視角來幫助提高注意力。有縫設計是對計算系統(tǒng)中 "無縫 "概念的補充,其概念根源在于普適計算。接縫的概念與XAI非常吻合,這是由于:(a)人工智能系統(tǒng)被部署seamful spaces空間中;(b)該方法可以被看作是對“seamless”的黑暗模式人工智能決策的回應,具有“zero friction”或理解力。 就形式和功能而言,seams戰(zhàn)略性地揭示了不同部分之間的復雜性和連接機制,同時隱藏了分散注意力的元素。這種 "戰(zhàn)略性揭示和隱藏 (strategic revealing and concealment)的概念是seamful design的核心,因為它將形式和功能聯(lián)系起來,而對這種聯(lián)系的理解可以促進反思性思維。因此,Seamful explanations戰(zhàn)略性地揭示了系統(tǒng)的缺陷和承受力,并掩蓋了那些分散注意力的信息,對它們的認識可以促進有用的反思。在組織層面上,為設計者和終端用戶引入教育(培訓)計劃。搭建一個生態(tài)系統(tǒng)是很重要的,因為EPs具有社會維度的復雜性,我們需要一種超越技術層面的策略。近期工作表明,對黑暗模式的掃盲可以促進自我反思和減輕危害。EPs掃盲計劃可以制定如下:(a)幫助設計者意識到EPs可能出現(xiàn)的表現(xiàn);(b)讓終端用戶提高識別“陷阱”的能力。 總的來說,這些策略有助于我們用積極地預防EPs,促進對陷阱的復原力。雖然不夠詳盡和規(guī)范,但它在解決潛在有害問題上邁出了重要的一步。從安全性和可靠性的角度來說,XAI系統(tǒng)對人工智能解釋所產(chǎn)生的影響進行分類非常重要。這項研究通過“可解釋性陷阱(EPs)”概念的討論,揭露了人工智能解釋可能帶來的意料之外的負面影響。文中關于EPs的操作化和應對策略的解讀和見解,有助于改善XAI系統(tǒng)的問責和安全機制。
基于這項研究發(fā)現(xiàn),作者認為關于XAI還有一些開放性的問題值得進一步討論:1. 如何制定有效的 EPs 分類法,以更好地識別和減少負面影響?2. 如何使用不恰當解釋來說明“陷阱”在現(xiàn)實中的影響?3. 如何評估訓練過程,以減輕“陷阱”可能帶來的影響最后作者表示,從人機交互到人工智能社區(qū),他們正在通過基礎概念與應用進一步研究可解釋性陷阱。相信通過了解XAI系統(tǒng)中陷阱的位置、方式和原因,可以顯著提高人工智能系統(tǒng)的安全性。
雷鋒網(wǎng)
雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。