丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給這只萌萌
發(fā)送

0

我們是否能信任算法?不信任又能怎么辦?

本文作者: 這只萌萌 2020-04-20 18:00
導(dǎo)語:直接告知「目前我無法幫助您」,或許才是更值得信賴的行為

醫(yī)藥和刑事司法等行業(yè)引入了越來越多的算法和系統(tǒng)應(yīng)用,隨之而來的算法倫理問題也引起了日益廣泛的公眾關(guān)注。

其中最根本的一個(gè)問題是我們是否應(yīng)該相信我們所聽到的信息,以及算法和系統(tǒng)告訴我們的信息。

這要求人們能夠辨別算法和系統(tǒng)的真實(shí)性,這也體現(xiàn)了在算法研究過程中應(yīng)用統(tǒng)計(jì)科學(xué)進(jìn)行評估和驗(yàn)證的可信度(即所謂的「智能透明」)的重要性。

劍橋大學(xué)丘吉爾學(xué)院院士、英國皇家學(xué)會院士、現(xiàn)任英國皇家統(tǒng)計(jì)學(xué)會主席、風(fēng)險(xiǎn)專家問題專家 David Spiegelhalter 從自身被算法誤導(dǎo)的經(jīng)歷出發(fā),基于算法在醫(yī)藥和刑事司法的應(yīng)用案例,對算法的可靠性提出了質(zhì)疑,因而利用統(tǒng)計(jì)科學(xué)對算法進(jìn)行驗(yàn)證評估顯得尤其重要。

文章最后,他也提到了在應(yīng)用算法時(shí),應(yīng)該從哪些方面進(jìn)行評估,遇到同樣困擾的研究者不妨借鑒一二。

正文內(nèi)容如下:

一、序言

我們?nèi)ツ暝谄咸蜒蓝燃贂r(shí),一路都使用谷歌地圖進(jìn)行導(dǎo)航。當(dāng)我們行駛到古老的科英布拉大學(xué)城里狹窄的街道時(shí),聽信了谷歌地圖的指引并向左轉(zhuǎn),結(jié)果前方道路突然變成了臺階,幸好我們及時(shí)剎車,原路返回。

從那以后,我就不怎么相信谷歌地圖的導(dǎo)航了。

不只是導(dǎo)航算法,應(yīng)用在醫(yī)藥和刑事司法行業(yè)中那些復(fù)雜各異的算法和系統(tǒng)都需要謹(jǐn)慎對待。例如英國用于評估累犯風(fēng)險(xiǎn)的系統(tǒng) HART(危害評估風(fēng)險(xiǎn)工具),基于隨機(jī)森林算法而得。這一系統(tǒng)在可信度和公平性上引起了巨大的爭議,且不討論其在面部識別上的爭議,人權(quán)組織 Liberty 最近在報(bào)告中指出,司法預(yù)測算法的使用有損害人們權(quán)利的風(fēng)險(xiǎn)。

我們不能完全被人工智能的“神秘感”所迷惑,如今大量媒體新聞充斥著機(jī)器學(xué)習(xí)和人工智能的「神話」,我們不能偏聽偏信,因?yàn)檫@樣的新聞通常都是基于商業(yè)主張而發(fā)布。

從本質(zhì)上講,很多算法都是通過獲取一些數(shù)據(jù)并使用規(guī)則或者數(shù)學(xué)公式來生成結(jié)果,輔助專業(yè)判斷。刑事司法中應(yīng)用算法并不是什么新鮮事件,早在數(shù)十年前,基于統(tǒng)計(jì)回歸的簡單的累犯評分系統(tǒng)就已經(jīng)開始納入刑事司法使用,只是并不廣為大眾所知?;玖啃虦?zhǔn)則可以被認(rèn)為是一種一致性算法,以此為基礎(chǔ),法官對特定案件可以行使酌處權(quán)進(jìn)行調(diào)整。

事實(shí)上,Liberty 評論司法預(yù)測算法的報(bào)告只是算法倫理問題的中的一個(gè)案例而已,目前從事算法,AI 和機(jī)器學(xué)習(xí)倫理問題研究的人甚至超過了從事技術(shù)研究的人,很多倫理問題的應(yīng)對舉措也隨之而來,例如,針對司法的 Algo-care,F(xiàn)ATML(ML的 公平性、問責(zé)制和透明度)社區(qū)建議所有算法需要發(fā)布一項(xiàng)社會影響聲明,在聲明中詳細(xì)說明:

  • 責(zé)任:出問題時(shí)該找誰。

  • 可解釋性:向利益相關(guān)者提供普適的語言解釋。

  • 準(zhǔn)確性:確定錯(cuò)誤和不確定性的來源。

  • 可審核性:允許第三方進(jìn)行檢查和批評。

  • 公平:針對不同的受眾特征。

美國在刑事司法中應(yīng)用 COMPAS 系統(tǒng)進(jìn)行累犯預(yù)測,輔助罪犯保釋決策。COMPAS 系統(tǒng)輸入 137 項(xiàng)特征,評分為 1 到 10,將累犯風(fēng)險(xiǎn)分為低/中/高。

但是該系統(tǒng)是專有程序,完全是個(gè)「黑匣子」,COMPAS 系統(tǒng)曾被指控存在種族偏見,受到了強(qiáng)烈質(zhì)疑,有人上訴反對 COMPAS 的評分結(jié)果,但以失敗告終。盡管如此,COMPAS 在大多數(shù) FATM 標(biāo)準(zhǔn)上似乎都表現(xiàn)不佳。

因此,回歸到一個(gè)簡單的問題——我們可以信任算法嗎?

二、主動信任和值得信賴

在這個(gè)大量信息魚龍混雜,真假難辨的年代,各種網(wǎng)絡(luò)聲音常常爭辯激烈,我們都希望得到信任。

但正如哲學(xué)家Onora O’Neill)所言,我們不應(yīng)該期望大眾信任自己,而應(yīng)該主動證明自身值得信賴,這需要自身的誠實(shí),能力和可靠性。奧尼爾這一提議簡單有力,英國國家統(tǒng)計(jì)局在修訂版的職業(yè)準(zhǔn)則中,也將誠信作為第一要素。

要成為大眾所信賴的算法,需要在聲明中表達(dá)清楚以下兩點(diǎn)信息。首先,開發(fā)人員說清楚算法可以做什么,如何進(jìn)行驗(yàn)證和評估。其次,算法在遇到特定案例時(shí)如何處理。

算法的驗(yàn)證評估是一個(gè)非常復(fù)雜的話題,統(tǒng)計(jì)學(xué)在其中可以發(fā)揮很大作用,數(shù)十年來一直應(yīng)用于數(shù)據(jù)驗(yàn)證和評估。下面讓我們更詳細(xì)地了解這兩點(diǎn):

1)算法和系統(tǒng)結(jié)果的可信度

正如路透社最近的一份報(bào)告所言,如今在人工智能這一話題上,充斥著太多商業(yè)驅(qū)動的炒作言論。Eric Topol 去年在醫(yī)學(xué) AI 發(fā)表權(quán)威評論,表示目前 AI 的炒作言論已經(jīng)遠(yuǎn)遠(yuǎn)超出了科學(xué)言論,尤其是在算法驗(yàn)證和實(shí)施準(zhǔn)備階段。

按照FATML建議,算法和系統(tǒng)可以通過發(fā)表社會影響聲明來傳達(dá)其可信性。但還有一點(diǎn)似乎未被提及,那就是算法和系統(tǒng)所帶來的影響。理論上來說,算法的應(yīng)用應(yīng)該是有益的,但這一點(diǎn)無法得到充分保證,所以,F(xiàn)ATML提議在聲明中增加這一點(diǎn):

2)影響:實(shí)際使用中有什么益處和危害?

20 世紀(jì) 60 年代那場「反應(yīng)?!顾幬餅?zāi)難事件中,因藥物造成胎兒四肢畸形,奪去了數(shù)以萬計(jì)嬰兒的生命。發(fā)生了這一史無前例的藥害丑聞以后,所有新藥的測試都需要經(jīng)過極為嚴(yán)苛的評估模型。

統(tǒng)計(jì)學(xué)應(yīng)用于結(jié)構(gòu)化評估中是極為常見的,我和 Stead 等人通過長期研究,類比藥物測試評估模型,總結(jié)出了算法和系統(tǒng)的驗(yàn)證評估模型,表 1 展示了藥物測試的四階段評估模型,以及算法和系統(tǒng)的驗(yàn)證評估模型。

我們是否能信任算法?不信任又能怎么辦?

表1. 公認(rèn)的藥物測試四階段評估模型,以及建議的算法評估模型

從已發(fā)表的文獻(xiàn)中發(fā)現(xiàn),醫(yī)療和刑事司法行業(yè)的算法,其驗(yàn)證評估都聚焦于階段 1,即數(shù)據(jù)集準(zhǔn)確性。但數(shù)據(jù)集準(zhǔn)確性僅僅是評估過程的開始。

目前邁入階段 2 的算法正在由少變多,階段 2 常應(yīng)用圖靈測試,即將算法性能用來與人類「專家」進(jìn)行比較。將人類「專家」和算法得出的判斷結(jié)果進(jìn)行混合,由獨(dú)立專家來評估判斷結(jié)果的質(zhì)量。在圖靈測試中,判斷結(jié)果是出自人類「專家」還是自出算法是不作考慮的。

例如,醫(yī)療 AI 公司 Babylon曾進(jìn)行了一項(xiàng)階段 2 的驗(yàn)證評估,將他們的診斷系統(tǒng)與醫(yī)生診斷結(jié)果進(jìn)行對比,這一測試隨后在《柳葉刀》雜志上被強(qiáng)烈批評??的螤柎髮W(xué)人工智能專業(yè)的Kleinberg 教授等人類比了累犯預(yù)測算法的評估流程和藥物測試的四階段評估模型,對人類決策與算法決策階段 2 比較進(jìn)行了建模。

Topol 還指出,幾乎沒有任何前瞻性的驗(yàn)證,能證明機(jī)器可以幫助臨床醫(yī)生有效地診斷或預(yù)測臨床結(jié)果。這也就意味著,很少有算法的驗(yàn)證評估能邁入階段 3,即驗(yàn)證系統(tǒng)在實(shí)踐中是否確實(shí)利大于弊。即便是簡單的風(fēng)險(xiǎn)評分系統(tǒng)也幾乎沒有在隨機(jī)試驗(yàn)中進(jìn)行階段 3 評估。

當(dāng)然并不是完全沒有算法評估應(yīng)用了階段 3,在心血管疾病預(yù)防領(lǐng)域,曾有 Cochrane 系統(tǒng)評價(jià)得出結(jié)論:「評分預(yù)測系統(tǒng)會稍許降低 CVD 風(fēng)險(xiǎn)因子水平,并在沒有危害的情況下為高危人群開具預(yù)防性用藥處方?!?/p>

算法可能會產(chǎn)生一些意料不到的影響。早在 1980 年代,我就參與了「計(jì)算機(jī)輔助診斷」的研究,當(dāng)時(shí)在診所的角落里放置了一臺笨拙的大型個(gè)人計(jì)算機(jī)。

在一項(xiàng)隨機(jī)試驗(yàn)中,我們發(fā)現(xiàn),即使是效果較差的算法也有助于改善診斷和治療急性腹痛的臨床表現(xiàn),這并不是因?yàn)獒t(yī)生聽取了計(jì)算機(jī)的結(jié)果,而是因?yàn)椤赣?jì)算機(jī)輔助診斷」這種形式鼓勵(lì)了醫(yī)生更為系統(tǒng)化地收集患者病史并做出初步診斷。

然而,通過類比藥物測試評估模型得出的算法評估模型存在其局限性。我們知道處方藥通常只對個(gè)人起作用,除了過度使用抗抑郁藥和鴉片類藥物外,處方藥幾乎不會對整個(gè)社會產(chǎn)生影響。

而算法不一樣,其廣泛應(yīng)用是可能會對全社會造成影響的,因此藥物測試評估模型在階段 3 采用基于個(gè)體的隨機(jī)對照試驗(yàn)這種傳統(tǒng)做法,對于算法評估而言是不完全適用的,需要補(bǔ)充人群影響的研究作為輔助驗(yàn)證。

英國醫(yī)學(xué)研究理事會應(yīng)對復(fù)雜醫(yī)學(xué)干預(yù)措施的評估模型與此類似,這一評估模型最初的版本與前文提到的藥物測試評估模型非常相似,但其隨后的修訂版轉(zhuǎn)為了更具迭代化的模型,對實(shí)驗(yàn)方法的重視程度有所降低,將影響驗(yàn)證的評估擴(kuò)展到其他學(xué)科,而不再強(qiáng)調(diào)隨機(jī)對照試驗(yàn)的應(yīng)用。

出于監(jiān)管目的,臨床算法被歐盟和食品藥品監(jiān)督管理局(FDA)視為醫(yī)療設(shè)備,因此是不受表 1 中的藥物測試評估模型所約束的。

臨床算法不一定要通過階段 3 的隨機(jī)試驗(yàn),其更為注重的是技術(shù),或者說是代碼本身的可靠性。但前提是,算法必須在實(shí)驗(yàn)室中證明是具有合理性和準(zhǔn)確性的,并能在實(shí)踐中有所益處,能證明這幾點(diǎn)有利于提高算法在社會影響聲明中的可信度。

三、向使用對象公布算法結(jié)果的可信性

當(dāng)罪犯必須接受累犯風(fēng)險(xiǎn)預(yù)測系統(tǒng)的預(yù)測結(jié)果時(shí),或者患者需要接受醫(yī)療輔助系統(tǒng)的診斷結(jié)果時(shí),他們或他們的代表應(yīng)該有權(quán)利獲得以下問題的明確答案:

  • 當(dāng)前的案例是否在算法的能力范圍內(nèi)?

  • 得出最終結(jié)果的推理過程是什么?

  • 如果算法的輸入被否定,結(jié)果會如何 (反事實(shí)思維)?

  • 是否存在重要的信息能讓算法「打破平衡」?

  • 算法得出的結(jié)果是否存在不確定性?

當(dāng)前有許多創(chuàng)新嘗試能讓復(fù)雜的算法更具可解釋性,減少「黑匣子」情況的出現(xiàn)。例如,由 Moorfields 眼科醫(yī)院和谷歌聯(lián)合開發(fā)的 Google DeepMind 眼部診斷系統(tǒng),基于一種深度學(xué)習(xí)算法并精心設(shè)計(jì),可以分層可視化地解釋從原始圖像到最終診斷結(jié)果之間的中間步驟。

雖然深度學(xué)習(xí)算法適合于圖像數(shù)據(jù)的自動分析,但是當(dāng)輸入數(shù)據(jù)較少時(shí),其有可能首先構(gòu)建一個(gè)更簡單,更易于解釋的模型。

統(tǒng)計(jì)科學(xué)主要集中在線性回歸模型上,對特征進(jìn)行加權(quán),構(gòu)建評分系統(tǒng)。例如,Caruana 等人使用廣義相加模型 (Generalized Additive Model) 得出肺炎風(fēng)險(xiǎn)評分系統(tǒng)。

人們常說,算法的可解釋性與性能之間是無法兼得的,必須進(jìn)行權(quán)衡。正是因此,累犯預(yù)測系統(tǒng) COMPAS 受到了質(zhì)疑。一項(xiàng)在線測試表明,未經(jīng)過培訓(xùn)的公眾可以達(dá)到和 COMPAS 系統(tǒng)一樣的準(zhǔn)確度 (65% 的準(zhǔn)確度),甚至可以通過簡單的基于規(guī)則的分類器和只需要年齡和犯罪前科兩個(gè)預(yù)測變量的回歸模型來匹配 COMPAS 的預(yù)測性能。進(jìn)一步來說,不確定性評估是統(tǒng)計(jì)科學(xué)的核心組成部分。

四、透明化

算法要被大眾信賴,需要透明化,不過這種透明化不是魚缸式的透明,不能只是提供大量晦澀難懂的信息。而且透明化并不是必須要可解釋的,如果系統(tǒng)確實(shí)非常復(fù)雜,即使是提供代碼,也不能很好的滿足可解釋性。Onora O’Neill 再次為發(fā)展「智能透明」理念做出了重大貢獻(xiàn),她認(rèn)為信息應(yīng)該:

  • 易于訪問:能夠讓感興趣的人們輕松找到。

  • 可理解的:能夠讓人們?nèi)菀桌斫狻?/p>

  • 可用的:能夠解決人們的擔(dān)憂。

  • 可評估的:如果有需要,算法決策的評估依據(jù)能夠提供。

最終的評判標(biāo)準(zhǔn)很重要:一個(gè)可信賴的算法應(yīng)該有能力,向想要了解它推理過程的人展示它是如何發(fā)揮作用的。雖然大多數(shù)用戶可能很樂意「信任」算法的判斷結(jié)果,但利益各方還是有方法評估其可靠性。Lai&Tan 2019年發(fā)現(xiàn),提供算法的個(gè)性化解釋和提供算法質(zhì)量的普適保證一樣有效。

我們嘗試通過以上的評判標(biāo)準(zhǔn)完成一個(gè)算法的可信度聲明。新診斷乳腺癌婦女的預(yù)測算法,通過輸入疾病的詳細(xì)信息和可能的治療方法來輔助醫(yī)療診斷。我們將可能的術(shù)后治療的潛在利弊以文字,數(shù)字和圖形的方式表達(dá)出來,提供了多種級別和多種格式的解釋,并公布了算法甚至是代碼的全部細(xì)節(jié),以供審查需要。

當(dāng)然,這樣的方法是透明化的且有吸引力的,但它也可能導(dǎo)致「過度信任」,即算法的結(jié)果被視為是完全準(zhǔn)確且毫無質(zhì)疑的。真正值得信賴的算法應(yīng)該公布其自身的局限性,確保它不會被公眾「過度信任」。

五、結(jié)論

要證明算法的可靠性,需要分階段的質(zhì)量評估過程并應(yīng)用強(qiáng)大的統(tǒng)計(jì)學(xué)原理。Topol 指出,臨床算法在推出和實(shí)施之前,需要進(jìn)行嚴(yán)苛的研究,在同行評審的期刊上公布結(jié)果,并在真實(shí)環(huán)境中進(jìn)行臨床驗(yàn)證。刑事司法算法和系統(tǒng)應(yīng)用需要采用同樣的方法。

最后,當(dāng)聽到關(guān)于任何算法的聲明時(shí),可提出的問題清單如下:

  1. 在現(xiàn)實(shí)世界進(jìn)行嘗試有什么益處?

  2. 是否能更簡單,更透明,更可靠?

  3. 我能夠向感興趣的人解釋清楚它是如何工作的嗎?

  4. 我可以向一個(gè)人解釋在特定情況下它如何得出結(jié)論嗎?

  5. 它知道何時(shí)處于不穩(wěn)定狀態(tài)嗎?它能夠承認(rèn)不確定性嗎?

  6. 人們是否帶著適當(dāng)?shù)馁|(zhì)疑態(tài)度正確使用了它?

  7. 它在實(shí)踐中真的有幫助嗎?

其中,我認(rèn)為問題 5 特別重要。

谷歌地圖在本不確定的路線中給出了錯(cuò)誤導(dǎo)航,讓我對其不再信任。

但如果它能換一種方式,告知我「目前我無法幫助您」并很快恢復(fù)如常,這對我來說,才是值得信賴的行為。即算法知道自己什么情況無法處理,并誠實(shí)地告知大家,這樣的謙卑態(tài)度才是值得我們嘉獎(jiǎng)的。

via https://hdsr.mitpress.mit.edu/pub/56lnenzj  雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

我們是否能信任算法?不信任又能怎么辦?

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說