0
本文作者: 我在思考中 | 2022-05-23 10:27 |
作者丨Deborah Raji
解讀 | Antonio
數(shù)據(jù)分布偏移(data distribution shift)是可信人工智能系統(tǒng)熱衷于考慮的一個(gè)話題,每年關(guān)于它的相關(guān)研究數(shù)不勝數(shù)。然而,僅關(guān)注分布偏移就足夠了嗎?
近期,紐約大學(xué)AI Now研究所的技術(shù)研究員Deborah Raji在UC伯克利助理教授Benjamin Recht的個(gè)人博客argmin上發(fā)表了對(duì)這一話題的看法。
她對(duì)于學(xué)界過度關(guān)注分布偏移感到擔(dān)憂,認(rèn)為更應(yīng)該考慮統(tǒng)計(jì)上一個(gè)相關(guān)概念,即外部有效性(external vadality)。
數(shù)據(jù)偏移一直在可信人工智能上的一項(xiàng)“殺手锏”。例如,由美國(guó)史詩系統(tǒng)公司研發(fā)、被密歇根大學(xué)醫(yī)院廣泛應(yīng)用的敗血癥識(shí)別模型在2020年4月由于頻繁出現(xiàn)虛假報(bào)警,而被緊急叫停。據(jù)分析,這是因?yàn)樾鹿诖罅餍袑?dǎo)致的人口地理學(xué)特征發(fā)生了變化才使得模型出現(xiàn)偏差。
這是數(shù)據(jù)分布偏移的一個(gè)例子:當(dāng)測(cè)試集的數(shù)據(jù)與訓(xùn)練集的數(shù)據(jù)分布發(fā)生變化時(shí)候,模型無法有效遷移到新的應(yīng)用場(chǎng)景下導(dǎo)致出錯(cuò)。
這和不斷變化的本質(zhì)相關(guān):真實(shí)世界的數(shù)據(jù)往往是動(dòng)態(tài)的、變化的、不確定的,例如軟件部署變化,人口遷移,行為變化,語言演變等,如果模型不將這些予以考慮,就會(huì)出現(xiàn)系統(tǒng)性偏差。
Benjamin Recht發(fā)表過這樣一個(gè)另一驚訝的研究,他們重新按照ImageNet的數(shù)據(jù)收集方式收集了一批新的測(cè)試集,用原有的模型對(duì)新測(cè)試集進(jìn)行準(zhǔn)確性測(cè)試,發(fā)現(xiàn)了如下的結(jié)果:
其中,橫軸代表在原始數(shù)據(jù)測(cè)試集的測(cè)試性能,縱軸代表新數(shù)據(jù)集上的測(cè)試性能,藍(lán)色的每個(gè)點(diǎn)代表一個(gè)模型的結(jié)果,紅色的線則是對(duì)它們的線性擬合,黑色的虛線y=x代表理論上測(cè)試結(jié)果應(yīng)該具有的表現(xiàn)。
可以看出,盡管二者之間仍然存在線性相關(guān),即在原數(shù)據(jù)集上表現(xiàn)好的,在新的數(shù)據(jù)集也表現(xiàn)得很好,反之亦然;然而,它們之間仍相差將近15%的差距,這就是由于數(shù)據(jù)分布偏差所導(dǎo)致的。這里的偏差可能來自不同的標(biāo)注者偏好,不同的數(shù)據(jù)收集過程等等。
Deborah Raji承認(rèn)研究這種現(xiàn)象的重要性,但她認(rèn)為ML的研究者們太過于執(zhí)著于關(guān)注分布偏移這一話題了,以至于很多情況下將模型的任何失誤都?xì)w因于了分布偏移,而她認(rèn)為這是不合適的。
首先,她認(rèn)為“分布偏移”這一問題有時(shí)候太過具體,有時(shí)候又不夠具體。任何數(shù)據(jù)上的變化都可以認(rèn)為是一種“分布偏移”,例如數(shù)據(jù)特征本身的變化、數(shù)據(jù)標(biāo)簽的變化以及二者都發(fā)生的變化。
另一方面,這一術(shù)語又太寬泛模糊了?!皵?shù)據(jù)分布”這個(gè)概念自身就需要假設(shè)數(shù)據(jù)來自一個(gè)假象的“真實(shí)”分布中,而現(xiàn)實(shí)可以觀察到的數(shù)據(jù)則是從這一整體分布中獨(dú)立同分布的采樣數(shù)據(jù)。然而這個(gè)分布是什么呢?沒人知道——真實(shí)數(shù)據(jù)混亂、無序、不可預(yù)知。
數(shù)據(jù)分布偏移了,可是哪些部分發(fā)生了變化,為什么它們發(fā)生,這些都無從得知。
Deborah Raji進(jìn)而警告道,對(duì)于這一術(shù)語的癡迷會(huì)如何限制ML社區(qū)的發(fā)展。一個(gè)表現(xiàn)是,現(xiàn)在的社區(qū)熱衷于開發(fā)檢測(cè)數(shù)據(jù)分布偏移的基準(zhǔn)測(cè)試,以此來聲稱測(cè)試偏移的程度。然而這些數(shù)據(jù)是靜態(tài)的、理想的,無法適應(yīng)真實(shí)世界更加復(fù)雜的數(shù)據(jù)。
有些研究已經(jīng)開始得出結(jié)論:過度強(qiáng)調(diào)數(shù)據(jù)分布偏移已經(jīng)使得ML實(shí)踐者和政策制定者更專注于回顧性研究(retrospective studies),而非前瞻性研究(prospective studies)。前者針對(duì)于靜態(tài)收集的歷史性數(shù)據(jù)而言,后者則更加著重于系統(tǒng)的上下文背景。
回顧性研究與前瞻性研究
為此,Deborah Raji希望研究可以更加轉(zhuǎn)向“有效性”(validity)這一概念。有效性是統(tǒng)計(jì)中測(cè)度論(measurement theory)中的重要概念,用以衡量系統(tǒng)的可信賴性。有效性又包含內(nèi)部有效性(internal validity)和構(gòu)建有效性(construct validity)。當(dāng)討論泛化性的時(shí)候,我們更關(guān)注于外部有效性(external validity)。
外部有效性衡量模型如何泛化到其它場(chǎng)景、設(shè)定。這些測(cè)試的設(shè)定往往不是實(shí)驗(yàn)原有的環(huán)境,并且考慮到不僅僅是數(shù)據(jù)方面的變化。
Deborah Raji以一篇文章為例,這篇發(fā)表在JAMA的,名為“在住院患者中廣泛使用的敗血癥預(yù)測(cè)模型的外部有效性分析”對(duì)于開頭中的那個(gè)例子中的模型做了更加詳盡的“外部有效性”分析。
網(wǎng)址:https://jamanetwork.com/journals/jamainternalmedicine/article-abstract/2781307
首先這篇文章描述了一項(xiàng)關(guān)于 2018 年 12 月至 2019 年 10 月期間(尤其是在大流行開始之前)使用敗血癥模型的回顧性研究。他們檢查了接受38,455 次住院治療的27,697名患者,發(fā)現(xiàn)Epic模型預(yù)測(cè)敗血癥發(fā)病的曲線下面積為 0.63,而“這比其開發(fā)人員報(bào)告的性能要差得多”。
此外,該工具“未識(shí)別出 1,709 名敗血癥患者(67%),因此造成了很大的虛假報(bào)警?!?/span>
這些研究人員正確地將這些問題描述為“外部有效性”問題,并詳細(xì)研究了它們,這遠(yuǎn)遠(yuǎn)超出了“臨床醫(yī)生和數(shù)據(jù)集偏移”——一個(gè)靜態(tài)的偏移數(shù)據(jù)集中描述的數(shù)據(jù)分布偏移。
對(duì)于Epic 系統(tǒng)的評(píng)估是基于 2013 年至 2015 年 3 個(gè)美國(guó)衛(wèi)生系統(tǒng)的數(shù)據(jù),這與密歇根大學(xué) 2018-2019 年的患者記錄數(shù)據(jù)不同。但該評(píng)估不僅僅考慮數(shù)據(jù)問題,還評(píng)估了醫(yī)生與模型交互的變化以及這些變化如何影響結(jié)果,以及其他與數(shù)據(jù)幾乎沒有關(guān)系的外部有效性因素——這遠(yuǎn)超過了數(shù)據(jù)分布偏移。
即使在討論實(shí)質(zhì)性的數(shù)據(jù)更改時(shí),研究者們也會(huì)試圖具體描述它是什么,并具體分析在他們醫(yī)院部署時(shí)發(fā)生的差異。
作者Deborah Raji是尼日利亞裔加拿大計(jì)算機(jī)科學(xué)家和活動(dòng)家,她致力于研究算法偏見、人工智能問責(zé)制和算法審計(jì)。她曾與 Google 的Ethical AI 團(tuán)隊(duì)合作,并曾在紐約大學(xué)AI和AI Now研究所的合作伙伴關(guān)系中擔(dān)任研究員,致力于研究如何在機(jī)器學(xué)習(xí)工程實(shí)踐中考慮道德因素,曾于AI公正性研究的Timnit Gebru做過同事,也曾獲得過該領(lǐng)域多個(gè)獎(jiǎng)項(xiàng)。
Deborah Raji與Ben Recht已經(jīng)在這個(gè)外部有效性這一話題上已經(jīng)展開了很多深入的討論,后續(xù)關(guān)于這一問題的探討也會(huì)陸續(xù)放在arg min的博客上,感興趣的讀者可以關(guān)注查看~
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。