0
本文作者: 我在思考中 | 2022-05-23 10:27 |
作者丨Deborah Raji
解讀 | Antonio
數(shù)據(jù)分布偏移(data distribution shift)是可信人工智能系統(tǒng)熱衷于考慮的一個話題,每年關(guān)于它的相關(guān)研究數(shù)不勝數(shù)。然而,僅關(guān)注分布偏移就足夠了嗎?
近期,紐約大學(xué)AI Now研究所的技術(shù)研究員Deborah Raji在UC伯克利助理教授Benjamin Recht的個人博客argmin上發(fā)表了對這一話題的看法。
她對于學(xué)界過度關(guān)注分布偏移感到擔(dān)憂,認為更應(yīng)該考慮統(tǒng)計上一個相關(guān)概念,即外部有效性(external vadality)。
數(shù)據(jù)偏移一直在可信人工智能上的一項“殺手锏”。例如,由美國史詩系統(tǒng)公司研發(fā)、被密歇根大學(xué)醫(yī)院廣泛應(yīng)用的敗血癥識別模型在2020年4月由于頻繁出現(xiàn)虛假報警,而被緊急叫停。據(jù)分析,這是因為新冠大流行導(dǎo)致的人口地理學(xué)特征發(fā)生了變化才使得模型出現(xiàn)偏差。
這是數(shù)據(jù)分布偏移的一個例子:當(dāng)測試集的數(shù)據(jù)與訓(xùn)練集的數(shù)據(jù)分布發(fā)生變化時候,模型無法有效遷移到新的應(yīng)用場景下導(dǎo)致出錯。
這和不斷變化的本質(zhì)相關(guān):真實世界的數(shù)據(jù)往往是動態(tài)的、變化的、不確定的,例如軟件部署變化,人口遷移,行為變化,語言演變等,如果模型不將這些予以考慮,就會出現(xiàn)系統(tǒng)性偏差。
Benjamin Recht發(fā)表過這樣一個另一驚訝的研究,他們重新按照ImageNet的數(shù)據(jù)收集方式收集了一批新的測試集,用原有的模型對新測試集進行準確性測試,發(fā)現(xiàn)了如下的結(jié)果:
其中,橫軸代表在原始數(shù)據(jù)測試集的測試性能,縱軸代表新數(shù)據(jù)集上的測試性能,藍色的每個點代表一個模型的結(jié)果,紅色的線則是對它們的線性擬合,黑色的虛線y=x代表理論上測試結(jié)果應(yīng)該具有的表現(xiàn)。
可以看出,盡管二者之間仍然存在線性相關(guān),即在原數(shù)據(jù)集上表現(xiàn)好的,在新的數(shù)據(jù)集也表現(xiàn)得很好,反之亦然;然而,它們之間仍相差將近15%的差距,這就是由于數(shù)據(jù)分布偏差所導(dǎo)致的。這里的偏差可能來自不同的標注者偏好,不同的數(shù)據(jù)收集過程等等。
Deborah Raji承認研究這種現(xiàn)象的重要性,但她認為ML的研究者們太過于執(zhí)著于關(guān)注分布偏移這一話題了,以至于很多情況下將模型的任何失誤都歸因于了分布偏移,而她認為這是不合適的。
首先,她認為“分布偏移”這一問題有時候太過具體,有時候又不夠具體。任何數(shù)據(jù)上的變化都可以認為是一種“分布偏移”,例如數(shù)據(jù)特征本身的變化、數(shù)據(jù)標簽的變化以及二者都發(fā)生的變化。
另一方面,這一術(shù)語又太寬泛模糊了?!皵?shù)據(jù)分布”這個概念自身就需要假設(shè)數(shù)據(jù)來自一個假象的“真實”分布中,而現(xiàn)實可以觀察到的數(shù)據(jù)則是從這一整體分布中獨立同分布的采樣數(shù)據(jù)。然而這個分布是什么呢?沒人知道——真實數(shù)據(jù)混亂、無序、不可預(yù)知。
數(shù)據(jù)分布偏移了,可是哪些部分發(fā)生了變化,為什么它們發(fā)生,這些都無從得知。
Deborah Raji進而警告道,對于這一術(shù)語的癡迷會如何限制ML社區(qū)的發(fā)展。一個表現(xiàn)是,現(xiàn)在的社區(qū)熱衷于開發(fā)檢測數(shù)據(jù)分布偏移的基準測試,以此來聲稱測試偏移的程度。然而這些數(shù)據(jù)是靜態(tài)的、理想的,無法適應(yīng)真實世界更加復(fù)雜的數(shù)據(jù)。
有些研究已經(jīng)開始得出結(jié)論:過度強調(diào)數(shù)據(jù)分布偏移已經(jīng)使得ML實踐者和政策制定者更專注于回顧性研究(retrospective studies),而非前瞻性研究(prospective studies)。前者針對于靜態(tài)收集的歷史性數(shù)據(jù)而言,后者則更加著重于系統(tǒng)的上下文背景。
回顧性研究與前瞻性研究
為此,Deborah Raji希望研究可以更加轉(zhuǎn)向“有效性”(validity)這一概念。有效性是統(tǒng)計中測度論(measurement theory)中的重要概念,用以衡量系統(tǒng)的可信賴性。有效性又包含內(nèi)部有效性(internal validity)和構(gòu)建有效性(construct validity)。當(dāng)討論泛化性的時候,我們更關(guān)注于外部有效性(external validity)。
外部有效性衡量模型如何泛化到其它場景、設(shè)定。這些測試的設(shè)定往往不是實驗原有的環(huán)境,并且考慮到不僅僅是數(shù)據(jù)方面的變化。
Deborah Raji以一篇文章為例,這篇發(fā)表在JAMA的,名為“在住院患者中廣泛使用的敗血癥預(yù)測模型的外部有效性分析”對于開頭中的那個例子中的模型做了更加詳盡的“外部有效性”分析。
網(wǎng)址:https://jamanetwork.com/journals/jamainternalmedicine/article-abstract/2781307
首先這篇文章描述了一項關(guān)于 2018 年 12 月至 2019 年 10 月期間(尤其是在大流行開始之前)使用敗血癥模型的回顧性研究。他們檢查了接受38,455 次住院治療的27,697名患者,發(fā)現(xiàn)Epic模型預(yù)測敗血癥發(fā)病的曲線下面積為 0.63,而“這比其開發(fā)人員報告的性能要差得多”。
此外,該工具“未識別出 1,709 名敗血癥患者(67%),因此造成了很大的虛假報警?!?/span>
這些研究人員正確地將這些問題描述為“外部有效性”問題,并詳細研究了它們,這遠遠超出了“臨床醫(yī)生和數(shù)據(jù)集偏移”——一個靜態(tài)的偏移數(shù)據(jù)集中描述的數(shù)據(jù)分布偏移。
對于Epic 系統(tǒng)的評估是基于 2013 年至 2015 年 3 個美國衛(wèi)生系統(tǒng)的數(shù)據(jù),這與密歇根大學(xué) 2018-2019 年的患者記錄數(shù)據(jù)不同。但該評估不僅僅考慮數(shù)據(jù)問題,還評估了醫(yī)生與模型交互的變化以及這些變化如何影響結(jié)果,以及其他與數(shù)據(jù)幾乎沒有關(guān)系的外部有效性因素——這遠超過了數(shù)據(jù)分布偏移。
即使在討論實質(zhì)性的數(shù)據(jù)更改時,研究者們也會試圖具體描述它是什么,并具體分析在他們醫(yī)院部署時發(fā)生的差異。
作者Deborah Raji是尼日利亞裔加拿大計算機科學(xué)家和活動家,她致力于研究算法偏見、人工智能問責(zé)制和算法審計。她曾與 Google 的Ethical AI 團隊合作,并曾在紐約大學(xué)AI和AI Now研究所的合作伙伴關(guān)系中擔(dān)任研究員,致力于研究如何在機器學(xué)習(xí)工程實踐中考慮道德因素,曾于AI公正性研究的Timnit Gebru做過同事,也曾獲得過該領(lǐng)域多個獎項。
Deborah Raji與Ben Recht已經(jīng)在這個外部有效性這一話題上已經(jīng)展開了很多深入的討論,后續(xù)關(guān)于這一問題的探討也會陸續(xù)放在arg min的博客上,感興趣的讀者可以關(guān)注查看~
雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。