丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

單考慮分布偏移遠(yuǎn)不夠!真實(shí)數(shù)據(jù)很復(fù)雜,「外部有效性」不可或缺

本文作者: 我在思考中 2022-05-23 10:27
導(dǎo)語:數(shù)據(jù)偏移一直在可信人工智能上的一項(xiàng)“殺手锏”。然而,僅關(guān)注分布偏移就足夠了嗎?
單考慮分布偏移遠(yuǎn)不夠!真實(shí)數(shù)據(jù)很復(fù)雜,「外部有效性」不可或缺

作者丨Deborah Raji

解讀 | Antonio

編輯丨陳彩嫻

數(shù)據(jù)分布偏移(data distribution shift)是可信人工智能系統(tǒng)熱衷于考慮的一個(gè)話題,每年關(guān)于它的相關(guān)研究數(shù)不勝數(shù)。然而,僅關(guān)注分布偏移就足夠了嗎?

近期,紐約大學(xué)AI Now研究所的技術(shù)研究員Deborah Raji在UC伯克利助理教授Benjamin Recht的個(gè)人博客argmin上發(fā)表了對(duì)這一話題的看法。

她對(duì)于學(xué)界過度關(guān)注分布偏移感到擔(dān)憂,認(rèn)為更應(yīng)該考慮統(tǒng)計(jì)上一個(gè)相關(guān)概念,即外部有效性(external vadality)。

單考慮分布偏移遠(yuǎn)不夠!真實(shí)數(shù)據(jù)很復(fù)雜,「外部有效性」不可或缺



1

數(shù)據(jù)分布偏移

數(shù)據(jù)偏移一直在可信人工智能上的一項(xiàng)“殺手锏”。例如,由美國(guó)史詩系統(tǒng)公司研發(fā)、被密歇根大學(xué)醫(yī)院廣泛應(yīng)用的敗血癥識(shí)別模型在2020年4月由于頻繁出現(xiàn)虛假報(bào)警,而被緊急叫停。據(jù)分析,這是因?yàn)樾鹿诖罅餍袑?dǎo)致的人口地理學(xué)特征發(fā)生了變化才使得模型出現(xiàn)偏差。

這是數(shù)據(jù)分布偏移的一個(gè)例子:當(dāng)測(cè)試集的數(shù)據(jù)與訓(xùn)練集的數(shù)據(jù)分布發(fā)生變化時(shí)候,模型無法有效遷移到新的應(yīng)用場(chǎng)景下導(dǎo)致出錯(cuò)。

這和不斷變化的本質(zhì)相關(guān):真實(shí)世界的數(shù)據(jù)往往是動(dòng)態(tài)的、變化的、不確定的,例如軟件部署變化,人口遷移,行為變化,語言演變等,如果模型不將這些予以考慮,就會(huì)出現(xiàn)系統(tǒng)性偏差。

Benjamin Recht發(fā)表過這樣一個(gè)另一驚訝的研究,他們重新按照ImageNet的數(shù)據(jù)收集方式收集了一批新的測(cè)試集,用原有的模型對(duì)新測(cè)試集進(jìn)行準(zhǔn)確性測(cè)試,發(fā)現(xiàn)了如下的結(jié)果:

單考慮分布偏移遠(yuǎn)不夠!真實(shí)數(shù)據(jù)很復(fù)雜,「外部有效性」不可或缺

其中,橫軸代表在原始數(shù)據(jù)測(cè)試集的測(cè)試性能,縱軸代表新數(shù)據(jù)集上的測(cè)試性能,藍(lán)色的每個(gè)點(diǎn)代表一個(gè)模型的結(jié)果,紅色的線則是對(duì)它們的線性擬合,黑色的虛線y=x代表理論上測(cè)試結(jié)果應(yīng)該具有的表現(xiàn)。

可以看出,盡管二者之間仍然存在線性相關(guān),即在原數(shù)據(jù)集上表現(xiàn)好的,在新的數(shù)據(jù)集也表現(xiàn)得很好,反之亦然;然而,它們之間仍相差將近15%的差距,這就是由于數(shù)據(jù)分布偏差所導(dǎo)致的。這里的偏差可能來自不同的標(biāo)注者偏好,不同的數(shù)據(jù)收集過程等等。



2

研究現(xiàn)狀

Deborah Raji承認(rèn)研究這種現(xiàn)象的重要性,但她認(rèn)為ML的研究者們太過于執(zhí)著于關(guān)注分布偏移這一話題了,以至于很多情況下將模型的任何失誤都?xì)w因于了分布偏移,而她認(rèn)為這是不合適的。

首先,她認(rèn)為“分布偏移”這一問題有時(shí)候太過具體,有時(shí)候又不夠具體。任何數(shù)據(jù)上的變化都可以認(rèn)為是一種“分布偏移”,例如數(shù)據(jù)特征本身的變化、數(shù)據(jù)標(biāo)簽的變化以及二者都發(fā)生的變化。

另一方面,這一術(shù)語又太寬泛模糊了?!皵?shù)據(jù)分布”這個(gè)概念自身就需要假設(shè)數(shù)據(jù)來自一個(gè)假象的“真實(shí)”分布中,而現(xiàn)實(shí)可以觀察到的數(shù)據(jù)則是從這一整體分布中獨(dú)立同分布的采樣數(shù)據(jù)。然而這個(gè)分布是什么呢?沒人知道——真實(shí)數(shù)據(jù)混亂、無序、不可預(yù)知。

數(shù)據(jù)分布偏移了,可是哪些部分發(fā)生了變化,為什么它們發(fā)生,這些都無從得知。

Deborah Raji進(jìn)而警告道,對(duì)于這一術(shù)語的癡迷會(huì)如何限制ML社區(qū)的發(fā)展。一個(gè)表現(xiàn)是,現(xiàn)在的社區(qū)熱衷于開發(fā)檢測(cè)數(shù)據(jù)分布偏移的基準(zhǔn)測(cè)試,以此來聲稱測(cè)試偏移的程度。然而這些數(shù)據(jù)是靜態(tài)的、理想的,無法適應(yīng)真實(shí)世界更加復(fù)雜的數(shù)據(jù)。

有些研究已經(jīng)開始得出結(jié)論:過度強(qiáng)調(diào)數(shù)據(jù)分布偏移已經(jīng)使得ML實(shí)踐者和政策制定者更專注于回顧性研究(retrospective studies),而非前瞻性研究(prospective studies)。前者針對(duì)于靜態(tài)收集的歷史性數(shù)據(jù)而言,后者則更加著重于系統(tǒng)的上下文背景。

單考慮分布偏移遠(yuǎn)不夠!真實(shí)數(shù)據(jù)很復(fù)雜,「外部有效性」不可或缺

回顧性研究與前瞻性研究

為此,Deborah Raji希望研究可以更加轉(zhuǎn)向“有效性”(validity)這一概念。有效性是統(tǒng)計(jì)中測(cè)度論(measurement theory)中的重要概念,用以衡量系統(tǒng)的可信賴性。有效性又包含內(nèi)部有效性(internal validity)和構(gòu)建有效性(construct validity)。當(dāng)討論泛化性的時(shí)候,我們更關(guān)注于外部有效性(external validity)。



3

外部有效性

外部有效性衡量模型如何泛化到其它場(chǎng)景、設(shè)定。這些測(cè)試的設(shè)定往往不是實(shí)驗(yàn)原有的環(huán)境,并且考慮到不僅僅是數(shù)據(jù)方面的變化。

Deborah Raji以一篇文章為例,這篇發(fā)表在JAMA的,名為“在住院患者中廣泛使用的敗血癥預(yù)測(cè)模型的外部有效性分析”對(duì)于開頭中的那個(gè)例子中的模型做了更加詳盡的“外部有效性”分析。

單考慮分布偏移遠(yuǎn)不夠!真實(shí)數(shù)據(jù)很復(fù)雜,「外部有效性」不可或缺
外部有效性分析模型的論文

網(wǎng)址:https://jamanetwork.com/journals/jamainternalmedicine/article-abstract/2781307

首先這篇文章描述了一項(xiàng)關(guān)于 2018 年 12 月至 2019 年 10 月期間(尤其是在大流行開始之前)使用敗血癥模型的回顧性研究。他們檢查了接受38,455 次住院治療的27,697名患者,發(fā)現(xiàn)Epic模型預(yù)測(cè)敗血癥發(fā)病的曲線下面積為 0.63,而“這比其開發(fā)人員報(bào)告的性能要差得多”。

此外,該工具“未識(shí)別出 1,709 名敗血癥患者(67%),因此造成了很大的虛假報(bào)警?!?/span>

這些研究人員正確地將這些問題描述為“外部有效性”問題,并詳細(xì)研究了它們,這遠(yuǎn)遠(yuǎn)超出了“臨床醫(yī)生和數(shù)據(jù)集偏移”——一個(gè)靜態(tài)的偏移數(shù)據(jù)集中描述的數(shù)據(jù)分布偏移。

對(duì)于Epic 系統(tǒng)的評(píng)估是基于 2013 年至 2015 年 3 個(gè)美國(guó)衛(wèi)生系統(tǒng)的數(shù)據(jù),這與密歇根大學(xué) 2018-2019 年的患者記錄數(shù)據(jù)不同。但該評(píng)估不僅僅考慮數(shù)據(jù)問題,還評(píng)估了醫(yī)生與模型交互的變化以及這些變化如何影響結(jié)果,以及其他與數(shù)據(jù)幾乎沒有關(guān)系的外部有效性因素——這遠(yuǎn)超過了數(shù)據(jù)分布偏移。

即使在討論實(shí)質(zhì)性的數(shù)據(jù)更改時(shí),研究者們也會(huì)試圖具體描述它是什么,并具體分析在他們醫(yī)院部署時(shí)發(fā)生的差異。



4

關(guān)于作者

單考慮分布偏移遠(yuǎn)不夠!真實(shí)數(shù)據(jù)很復(fù)雜,「外部有效性」不可或缺

作者Deborah Raji是尼日利亞裔加拿大計(jì)算機(jī)科學(xué)家和活動(dòng)家,她致力于研究算法偏見、人工智能問責(zé)制和算法審計(jì)。她曾與 Google 的Ethical AI 團(tuán)隊(duì)合作,并曾在紐約大學(xué)AI和AI Now研究所的合作伙伴關(guān)系中擔(dān)任研究員,致力于研究如何在機(jī)器學(xué)習(xí)工程實(shí)踐中考慮道德因素,曾于AI公正性研究的Timnit Gebru做過同事,也曾獲得過該領(lǐng)域多個(gè)獎(jiǎng)項(xiàng)。

Deborah Raji與Ben Recht已經(jīng)在這個(gè)外部有效性這一話題上已經(jīng)展開了很多深入的討論,后續(xù)關(guān)于這一問題的探討也會(huì)陸續(xù)放在arg min的博客上,感興趣的讀者可以關(guān)注查看~

參考博客:

https://www.argmin.net/2022/03/31/external-evaluations/
http://www.argmin.net/2022/03/15/external-validity/

單考慮分布偏移遠(yuǎn)不夠!真實(shí)數(shù)據(jù)很復(fù)雜,「外部有效性」不可或缺

雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

單考慮分布偏移遠(yuǎn)不夠!真實(shí)數(shù)據(jù)很復(fù)雜,「外部有效性」不可或缺

分享:
相關(guān)文章

運(yùn)營(yíng)

當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說