
編譯 | 王曄
可解釋性對(duì)人工智能發(fā)展來(lái)說(shuō)至關(guān)重要,但在可解釋系統(tǒng)的可信度方面,理解其可能帶來(lái)的負(fù)面效應(yīng)亦同等重要。近日,佐治亞理工學(xué)院研究團(tuán)隊(duì)發(fā)表最新研究,重點(diǎn)討論了可解釋人工智能系統(tǒng)(XAI)中一種重要卻未被闡明的負(fù)面效應(yīng)。
論文地址:https://arxiv.org/pdf/2109.12480.pdf在這篇論文中,作者提出“可解釋性陷阱(EPs)”的概念,指出即使設(shè)計(jì)者最初沒(méi)有操控用戶的意圖,模型的可解釋性也可能帶來(lái)意料之外的負(fù)面影響,它不同于具有刻意欺騙性質(zhì)的黑暗模式(DPs),但又與之相關(guān)。本文通過(guò)一項(xiàng)案例研究具體闡述了Eps概念,并證實(shí)解釋的負(fù)面影響不可避免,最后作者進(jìn)一步從研究、設(shè)計(jì)和組織三個(gè)層面提出了具體的應(yīng)對(duì)策略。發(fā)展可解釋、可信的新一代人工智能越來(lái)越重要,因?yàn)槿斯ぶ悄芤驯粡V泛應(yīng)用于醫(yī)療保健、金融、刑事司法等高風(fēng)險(xiǎn)決策領(lǐng)域。為了提高人工智能的安全性,我們需要打開AI內(nèi)部運(yùn)作的黑匣子,為用戶提供可理解的解釋。目前關(guān)于可解釋AI(XAI)的研究已經(jīng)取得了令人稱贊的進(jìn)展,但最新研究發(fā)現(xiàn),這些解釋所帶來(lái)的的影響不一定是積極的,也可能在下游任務(wù)中產(chǎn)生消極影響。例如設(shè)模型計(jì)者故意制造不合理的解釋,讓人們對(duì)人工智能系統(tǒng)產(chǎn)生信任,從而隱瞞其可能帶來(lái)的風(fēng)險(xiǎn)。更重要的是,盡管模型設(shè)計(jì)的最初意圖是好的,這種負(fù)面影響似乎也不可避免。在這種情況下,我們要如何區(qū)分有意和無(wú)意的負(fù)面解釋?又如何將有意的負(fù)面效應(yīng)概念化?
作者引入“可解釋性陷阱(Explainability pitfalls ,EPs)”的概念,指出人工智能解釋可能會(huì)誤導(dǎo)用戶在不知情、無(wú)防備的情況下做出符合第三方利益的決策。用戶對(duì)人工智能的信任,能力的高估,以及對(duì)某些解釋的過(guò)度依賴,是他們?cè)跓o(wú)意識(shí)中被“可解釋性”操控的主要原因。EPs和DPs之間的最大區(qū)別在于“意圖”不同——DPs存在故意欺騙的性質(zhì),不考慮到用戶的利益。但EPs通過(guò)故意設(shè)置“陷阱(pitfalls)”也可以變成黑暗模式。EPs的概念并不是純粹的理論推導(dǎo)后的結(jié)果,而是在大量實(shí)際工作和經(jīng)驗(yàn)的基礎(chǔ)上提出的。這項(xiàng)工作展示了盡管沒(méi)有欺騙的意圖,但在人工智能解釋的確會(huì)出現(xiàn)意料之外的負(fù)面影響.本文不是一篇關(guān)于EPs的全面論述,而是在現(xiàn)有概念和實(shí)踐上邁出了基礎(chǔ)性的一步。作者表示,提出可解釋性陷阱的概念,是為了讓人們認(rèn)識(shí)到未曾發(fā)掘的知識(shí)盲點(diǎn)(圍繞人工智能解釋的負(fù)面影響),并以此擴(kuò)大XAI系統(tǒng)的設(shè)計(jì)空間。在這項(xiàng)研究中,作者調(diào)查了兩個(gè)不同的群體——有人工智能背景和沒(méi)有人工智能背景的人,他們?nèi)绾慰创煌愋偷娜斯ぶ悄芙忉?。以下是用戶?duì)AI生成的三種解釋的看法: (2)沒(méi)有正當(dāng)理由的自然語(yǔ)言(3)為智能體行為提供無(wú)語(yǔ)境下的數(shù)字在這項(xiàng)研究中,參與者觀看了三個(gè)智能體在連續(xù)決策環(huán)境中的導(dǎo)航視頻,并提供了定性和定量的感知信息——在一個(gè)滿是滾動(dòng)的巨石和流動(dòng)的熔巖的環(huán)境中,為被困的探險(xiǎn)者取回必須供應(yīng)的食物。智能體通過(guò)簡(jiǎn)單地輸出當(dāng)前狀態(tài)的數(shù)字Q值執(zhí)行 "思考"過(guò)程(如圖1)。Q值代表智能體對(duì)每個(gè)行動(dòng)的信任程度(不包含 "為什么"可信),參與者事前沒(méi)有被告知這些Q值的意義,所以他們不知道哪些數(shù)值對(duì)應(yīng)哪些行動(dòng)。
圖1:顯示了智能體在任務(wù)環(huán)境中導(dǎo)航實(shí)驗(yàn)發(fā)現(xiàn),兩類參與者都對(duì)數(shù)字盲目信任,但信任的程度和原因不同。作者采用"認(rèn)知啟發(fā)"的概念,試圖理解背后的原因。他們發(fā)現(xiàn),對(duì)于有人工智能背景的參與者來(lái)說(shuō),僅僅是出現(xiàn)的數(shù)字就能引發(fā)啟發(fā)式思考。他們不完全理解智能體決策背后的邏輯,但也會(huì)將數(shù)學(xué)表示法與邏輯算法的思維過(guò)程聯(lián)系起來(lái)。有意思的是,他們還把最聰明的AI投給了“行為最奇怪”的智能體,這說(shuō)明,他們不僅過(guò)度重視數(shù)字結(jié)果,而且將“含義不明”的數(shù)字視為潛在的可操作性。這里的"可操作性"指的是在判斷或預(yù)測(cè)未來(lái)行為方面,人們可以用這些信息做什么。那么,智能體在實(shí)際場(chǎng)景中的可操作性到底如何?正如之前所強(qiáng)調(diào)的,Q值不能表明決策背后的 "原因"。除了評(píng)估現(xiàn)有行動(dòng)的質(zhì)量,這些數(shù)字并沒(méi)有太多可操作性。也就是說(shuō),參與者對(duì)智能體產(chǎn)生了過(guò)度信任和錯(cuò)位評(píng)估。對(duì)于沒(méi)有人工智能背景的參與者來(lái)說(shuō),即使無(wú)法理解復(fù)雜的數(shù)字也會(huì)引發(fā)啟發(fā)式推理,在他們看來(lái),智能體就一定是智能的,這些數(shù)字代表了智能體“神秘而不可理解”的獨(dú)特語(yǔ)言。需要說(shuō)明的是,這種推理方式與之前有人工智能背景的人的推理過(guò)程不同,他們假設(shè)了未來(lái)的可操作性(盡管目前缺乏可理解性)。如我們所看到的,沒(méi)有標(biāo)記的、無(wú)法理解的數(shù)字反而增加了兩類群體對(duì)智能體的信任和評(píng)估。這項(xiàng)案例研究表明,即使沒(méi)有欺騙的意圖,EPs也會(huì)出現(xiàn)未曾預(yù)料到的結(jié)果,并誤導(dǎo)參與者對(duì)數(shù)字生成過(guò)度依賴。需要強(qiáng)調(diào)的是,本次案例假設(shè)Q值的“本意”是好的,如果這些數(shù)字被操縱了,一些人利用這些隱患惡意設(shè)計(jì)黑暗模式,鑒于案例中用戶對(duì)數(shù)字的啟發(fā)式信任,這將會(huì)誤導(dǎo)更多人對(duì)系統(tǒng)產(chǎn)生過(guò)度信任和不正確認(rèn)知。總結(jié)來(lái)看,可解釋性陷阱(EPs)有兩個(gè)特性,一是它僅是存在,但并不一定會(huì)對(duì)下游產(chǎn)生危害;二是現(xiàn)有知識(shí)不能預(yù)測(cè)給定的一個(gè)人工智能解釋何時(shí)、如何以及為何會(huì)引發(fā)意料之外的負(fù)面下游效應(yīng)。基于以上兩點(diǎn),作者認(rèn)為雖然我們不太可能完全消除解釋的負(fù)面效應(yīng),但需要意識(shí)到“陷阱”的存在,了解它們何時(shí)容易出現(xiàn),又是如何運(yùn)作的,并制定相應(yīng)的措施,做到防微杜漸。文中作者從研究、設(shè)計(jì)和組織三個(gè)相互關(guān)聯(lián)的層面提出了幾點(diǎn)策略:在研究層面,開展更多以人為本的情境和經(jīng)驗(yàn)性研究,以獲得不同解釋對(duì)不同利益相關(guān)者在多維度下的精細(xì)理解。這是因?yàn)楫?dāng)下游效應(yīng)(如用戶對(duì)人工智能解釋的看法)表現(xiàn)出來(lái)時(shí),陷阱就會(huì)表顯露并被識(shí)別。如上述案例,具有不同人工智能背景的用戶引發(fā)了同樣的陷阱(即,對(duì)數(shù)字過(guò)度信任),但卻有不同的啟發(fā)模式。其實(shí),基于這則案例,我們還可以從用戶知識(shí)背景和理解分歧兩個(gè)維度進(jìn)一步探討:用戶的組合特征(如教育背景和專業(yè)背景)如何影響 EPs的易感性?不同的啟發(fā)式方法如何發(fā)現(xiàn)不利影響?不同的用戶如何適應(yīng)意料之外的解釋?在這些探索中,具備陷阱意識(shí)可以幫助我們提高洞察力,發(fā)現(xiàn)人們對(duì)人工智能解釋的反應(yīng)是如何與設(shè)計(jì)者的意圖相背離的。在設(shè)計(jì)層面上,一個(gè)有效的策略是強(qiáng)化用戶在解釋過(guò)程中的反思(而不是一味地接受)。最近以人為本的XAI工作也主張將通過(guò)反思來(lái)促進(jìn)信任的方法概念化。Langer等人指出,如果我們不對(duì)解釋進(jìn)行有意識(shí)的和慎重的思考,就會(huì)增加掉進(jìn)“陷阱”的可能。為了引發(fā)人們的注意,Langer等人建議設(shè)計(jì) "努力的反應(yīng) "或 "有思想的反應(yīng)",它可以采用縫合設(shè)計(jì)的視角來(lái)幫助提高注意力。有縫設(shè)計(jì)是對(duì)計(jì)算系統(tǒng)中 "無(wú)縫 "概念的補(bǔ)充,其概念根源在于普適計(jì)算。接縫的概念與XAI非常吻合,這是由于:(a)人工智能系統(tǒng)被部署seamful spaces空間中;(b)該方法可以被看作是對(duì)“seamless”的黑暗模式人工智能決策的回應(yīng),具有“zero friction”或理解力。 就形式和功能而言,seams戰(zhàn)略性地揭示了不同部分之間的復(fù)雜性和連接機(jī)制,同時(shí)隱藏了分散注意力的元素。這種 "戰(zhàn)略性揭示和隱藏 (strategic revealing and concealment)的概念是seamful design的核心,因?yàn)樗鼘⑿问胶凸δ苈?lián)系起來(lái),而對(duì)這種聯(lián)系的理解可以促進(jìn)反思性思維。因此,Seamful explanations戰(zhàn)略性地揭示了系統(tǒng)的缺陷和承受力,并掩蓋了那些分散注意力的信息,對(duì)它們的認(rèn)識(shí)可以促進(jìn)有用的反思。在組織層面上,為設(shè)計(jì)者和終端用戶引入教育(培訓(xùn))計(jì)劃。搭建一個(gè)生態(tài)系統(tǒng)是很重要的,因?yàn)镋Ps具有社會(huì)維度的復(fù)雜性,我們需要一種超越技術(shù)層面的策略。近期工作表明,對(duì)黑暗模式的掃盲可以促進(jìn)自我反思和減輕危害。EPs掃盲計(jì)劃可以制定如下:(a)幫助設(shè)計(jì)者意識(shí)到EPs可能出現(xiàn)的表現(xiàn);(b)讓終端用戶提高識(shí)別“陷阱”的能力。 總的來(lái)說(shuō),這些策略有助于我們用積極地預(yù)防EPs,促進(jìn)對(duì)陷阱的復(fù)原力。雖然不夠詳盡和規(guī)范,但它在解決潛在有害問(wèn)題上邁出了重要的一步。從安全性和可靠性的角度來(lái)說(shuō),XAI系統(tǒng)對(duì)人工智能解釋所產(chǎn)生的影響進(jìn)行分類非常重要。這項(xiàng)研究通過(guò)“可解釋性陷阱(EPs)”概念的討論,揭露了人工智能解釋可能帶來(lái)的意料之外的負(fù)面影響。文中關(guān)于EPs的操作化和應(yīng)對(duì)策略的解讀和見解,有助于改善XAI系統(tǒng)的問(wèn)責(zé)和安全機(jī)制。
基于這項(xiàng)研究發(fā)現(xiàn),作者認(rèn)為關(guān)于XAI還有一些開放性的問(wèn)題值得進(jìn)一步討論:1. 如何制定有效的 EPs 分類法,以更好地識(shí)別和減少負(fù)面影響?2. 如何使用不恰當(dāng)解釋來(lái)說(shuō)明“陷阱”在現(xiàn)實(shí)中的影響?3. 如何評(píng)估訓(xùn)練過(guò)程,以減輕“陷阱”可能帶來(lái)的影響最后作者表示,從人機(jī)交互到人工智能社區(qū),他們正在通過(guò)基礎(chǔ)概念與應(yīng)用進(jìn)一步研究可解釋性陷阱。相信通過(guò)了解XAI系統(tǒng)中陷阱的位置、方式和原因,可以顯著提高人工智能系統(tǒng)的安全性。
雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。