單考慮分布偏移遠(yuǎn)不夠！真實(shí)數(shù)據(jù)很復(fù)雜，「外部有效性」不可或缺

本文作者：我在思考中

2022-05-23 10:27

導(dǎo)語(yǔ)：數(shù)據(jù)偏移一直在可信人工智能上的一項(xiàng)“殺手锏”。然而，僅關(guān)注分布偏移就足夠了嗎？

單考慮分布偏移遠(yuǎn)不夠！真實(shí)數(shù)據(jù)很復(fù)雜，「外部有效性」不可或缺

作者丨Deborah Raji

解讀 | Antonio

編輯丨陳彩嫻

數(shù)據(jù)分布偏移（data distribution shift）是可信人工智能系統(tǒng)熱衷于考慮的一個(gè)話題，每年關(guān)于它的相關(guān)研究數(shù)不勝數(shù)。然而，僅關(guān)注分布偏移就足夠了嗎？

近期，紐約大學(xué)AI Now研究所的技術(shù)研究員Deborah Raji在UC伯克利助理教授Benjamin Recht的個(gè)人博客argmin上發(fā)表了對(duì)這一話題的看法。

她對(duì)于學(xué)界過(guò)度關(guān)注分布偏移感到擔(dān)憂，認(rèn)為更應(yīng)該考慮統(tǒng)計(jì)上一個(gè)相關(guān)概念，即外部有效性（external vadality）。

單考慮分布偏移遠(yuǎn)不夠！真實(shí)數(shù)據(jù)很復(fù)雜，「外部有效性」不可或缺

數(shù)據(jù)分布偏移

數(shù)據(jù)偏移一直在可信人工智能上的一項(xiàng)“殺手锏”。例如，由美國(guó)史詩(shī)系統(tǒng)公司研發(fā)、被密歇根大學(xué)醫(yī)院廣泛應(yīng)用的敗血癥識(shí)別模型在2020年4月由于頻繁出現(xiàn)虛假報(bào)警，而被緊急叫停。據(jù)分析，這是因?yàn)樾鹿诖罅餍袑?dǎo)致的人口地理學(xué)特征發(fā)生了變化才使得模型出現(xiàn)偏差。

這是數(shù)據(jù)分布偏移的一個(gè)例子：當(dāng)測(cè)試集的數(shù)據(jù)與訓(xùn)練集的數(shù)據(jù)分布發(fā)生變化時(shí)候，模型無(wú)法有效遷移到新的應(yīng)用場(chǎng)景下導(dǎo)致出錯(cuò)。

這和不斷變化的本質(zhì)相關(guān)：真實(shí)世界的數(shù)據(jù)往往是動(dòng)態(tài)的、變化的、不確定的，例如軟件部署變化，人口遷移，行為變化，語(yǔ)言演變等，如果模型不將這些予以考慮，就會(huì)出現(xiàn)系統(tǒng)性偏差。

Benjamin Recht發(fā)表過(guò)這樣一個(gè)另一驚訝的研究，他們重新按照ImageNet的數(shù)據(jù)收集方式收集了一批新的測(cè)試集，用原有的模型對(duì)新測(cè)試集進(jìn)行準(zhǔn)確性測(cè)試，發(fā)現(xiàn)了如下的結(jié)果：

單考慮分布偏移遠(yuǎn)不夠！真實(shí)數(shù)據(jù)很復(fù)雜，「外部有效性」不可或缺

其中，橫軸代表在原始數(shù)據(jù)測(cè)試集的測(cè)試性能，縱軸代表新數(shù)據(jù)集上的測(cè)試性能，藍(lán)色的每個(gè)點(diǎn)代表一個(gè)模型的結(jié)果，紅色的線則是對(duì)它們的線性擬合，黑色的虛線y=x代表理論上測(cè)試結(jié)果應(yīng)該具有的表現(xiàn)。

可以看出，盡管二者之間仍然存在線性相關(guān)，即在原數(shù)據(jù)集上表現(xiàn)好的，在新的數(shù)據(jù)集也表現(xiàn)得很好，反之亦然；然而，它們之間仍相差將近15%的差距，這就是由于數(shù)據(jù)分布偏差所導(dǎo)致的。這里的偏差可能來(lái)自不同的標(biāo)注者偏好，不同的數(shù)據(jù)收集過(guò)程等等。

研究現(xiàn)狀

Deborah Raji承認(rèn)研究這種現(xiàn)象的重要性，但她認(rèn)為ML的研究者們太過(guò)于執(zhí)著于關(guān)注分布偏移這一話題了，以至于很多情況下將模型的任何失誤都?xì)w因于了分布偏移，而她認(rèn)為這是不合適的。

首先，她認(rèn)為“分布偏移”這一問(wèn)題有時(shí)候太過(guò)具體，有時(shí)候又不夠具體。任何數(shù)據(jù)上的變化都可以認(rèn)為是一種“分布偏移”，例如數(shù)據(jù)特征本身的變化、數(shù)據(jù)標(biāo)簽的變化以及二者都發(fā)生的變化。

另一方面，這一術(shù)語(yǔ)又太寬泛模糊了?！皵?shù)據(jù)分布”這個(gè)概念自身就需要假設(shè)數(shù)據(jù)來(lái)自一個(gè)假象的“真實(shí)”分布中，而現(xiàn)實(shí)可以觀察到的數(shù)據(jù)則是從這一整體分布中獨(dú)立同分布的采樣數(shù)據(jù)。然而這個(gè)分布是什么呢？沒(méi)人知道——真實(shí)數(shù)據(jù)混亂、無(wú)序、不可預(yù)知。

數(shù)據(jù)分布偏移了，可是哪些部分發(fā)生了變化，為什么它們發(fā)生，這些都無(wú)從得知。

Deborah Raji進(jìn)而警告道，對(duì)于這一術(shù)語(yǔ)的癡迷會(huì)如何限制ML社區(qū)的發(fā)展。一個(gè)表現(xiàn)是，現(xiàn)在的社區(qū)熱衷于開(kāi)發(fā)檢測(cè)數(shù)據(jù)分布偏移的基準(zhǔn)測(cè)試，以此來(lái)聲稱測(cè)試偏移的程度。然而這些數(shù)據(jù)是靜態(tài)的、理想的，無(wú)法適應(yīng)真實(shí)世界更加復(fù)雜的數(shù)據(jù)。

有些研究已經(jīng)開(kāi)始得出結(jié)論：過(guò)度強(qiáng)調(diào)數(shù)據(jù)分布偏移已經(jīng)使得ML實(shí)踐者和政策制定者更專注于回顧性研究（retrospective studies），而非前瞻性研究（prospective studies）。前者針對(duì)于靜態(tài)收集的歷史性數(shù)據(jù)而言，后者則更加著重于系統(tǒng)的上下文背景。

回顧性研究與前瞻性研究

為此，Deborah Raji希望研究可以更加轉(zhuǎn)向“有效性”（validity）這一概念。有效性是統(tǒng)計(jì)中測(cè)度論（measurement theory）中的重要概念，用以衡量系統(tǒng)的可信賴性。有效性又包含內(nèi)部有效性（internal validity）和構(gòu)建有效性（construct validity）。當(dāng)討論泛化性的時(shí)候，我們更關(guān)注于外部有效性（external validity）。

外部有效性

外部有效性衡量模型如何泛化到其它場(chǎng)景、設(shè)定。這些測(cè)試的設(shè)定往往不是實(shí)驗(yàn)原有的環(huán)境，并且考慮到不僅僅是數(shù)據(jù)方面的變化。

Deborah Raji以一篇文章為例，這篇發(fā)表在JAMA的，名為“在住院患者中廣泛使用的敗血癥預(yù)測(cè)模型的外部有效性分析”對(duì)于開(kāi)頭中的那個(gè)例子中的模型做了更加詳盡的“外部有效性”分析。

外部有效性分析模型的論文

網(wǎng)址：https://jamanetwork.com/journals/jamainternalmedicine/article-abstract/2781307

首先這篇文章描述了一項(xiàng)關(guān)于 2018 年 12 月至 2019 年 10 月期間（尤其是在大流行開(kāi)始之前）使用敗血癥模型的回顧性研究。他們檢查了接受38,455 次住院治療的27,697名患者，發(fā)現(xiàn)Epic模型預(yù)測(cè)敗血癥發(fā)病的曲線下面積為 0.63，而“這比其開(kāi)發(fā)人員報(bào)告的性能要差得多”。

此外，該工具“未識(shí)別出 1,709 名敗血癥患者（67%），因此造成了很大的虛假報(bào)警。”

這些研究人員正確地將這些問(wèn)題描述為“外部有效性”問(wèn)題，并詳細(xì)研究了它們，這遠(yuǎn)遠(yuǎn)超出了“臨床醫(yī)生和數(shù)據(jù)集偏移”——一個(gè)靜態(tài)的偏移數(shù)據(jù)集中描述的數(shù)據(jù)分布偏移。

對(duì)于Epic 系統(tǒng)的評(píng)估是基于 2013 年至 2015 年 3 個(gè)美國(guó)衛(wèi)生系統(tǒng)的數(shù)據(jù)，這與密歇根大學(xué) 2018-2019 年的患者記錄數(shù)據(jù)不同。但該評(píng)估不僅僅考慮數(shù)據(jù)問(wèn)題，還評(píng)估了醫(yī)生與模型交互的變化以及這些變化如何影響結(jié)果，以及其他與數(shù)據(jù)幾乎沒(méi)有關(guān)系的外部有效性因素——這遠(yuǎn)超過(guò)了數(shù)據(jù)分布偏移。

即使在討論實(shí)質(zhì)性的數(shù)據(jù)更改時(shí)，研究者們也會(huì)試圖具體描述它是什么，并具體分析在他們醫(yī)院部署時(shí)發(fā)生的差異。

關(guān)于作者

單考慮分布偏移遠(yuǎn)不夠！真實(shí)數(shù)據(jù)很復(fù)雜，「外部有效性」不可或缺

作者Deborah Raji是尼日利亞裔加拿大計(jì)算機(jī)科學(xué)家和活動(dòng)家，她致力于研究算法偏見(jiàn)、人工智能問(wèn)責(zé)制和算法審計(jì)。她曾與 Google 的Ethical AI 團(tuán)隊(duì)合作，并曾在紐約大學(xué)AI和AI Now研究所的合作伙伴關(guān)系中擔(dān)任研究員，致力于研究如何在機(jī)器學(xué)習(xí)工程實(shí)踐中考慮道德因素，曾于AI公正性研究的Timnit Gebru做過(guò)同事，也曾獲得過(guò)該領(lǐng)域多個(gè)獎(jiǎng)項(xiàng)。

Deborah Raji與Ben Recht已經(jīng)在這個(gè)外部有效性這一話題上已經(jīng)展開(kāi)了很多深入的討論，后續(xù)關(guān)于這一問(wèn)題的探討也會(huì)陸續(xù)放在arg min的博客上，感興趣的讀者可以關(guān)注查看~