丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能學術 正文
發(fā)私信給我在思考中
發(fā)送

0

斯坦福李飛飛團隊新研究登 Nature 子刊:實現(xiàn)可信 AI,數(shù)據(jù)的設計、完善、評估是關鍵

本文作者: 我在思考中 2022-08-29 11:35
導語:數(shù)據(jù)的設計、完善、評估三大步驟是關鍵。

斯坦福李飛飛團隊新研究登 Nature 子刊:實現(xiàn)可信 AI,數(shù)據(jù)的設計、完善、評估是關鍵

作者 | 李梅、王玥
編輯 | 陳彩嫻

在當前 AI 模型的開發(fā)以模型為中心轉向以數(shù)據(jù)為中心的趨勢下,數(shù)據(jù)的質量變得尤為重要。

在以往的 AI 開發(fā)流程中,數(shù)據(jù)集通常是固定的,開發(fā)工作的重點是迭代模型架構或訓練過程來提高基準性能。而現(xiàn)在,數(shù)據(jù)迭代成為重心,因此我們需要更系統(tǒng)的方法來評估、篩選、清洗和注釋用于訓練和測試 AI 模型的數(shù)據(jù)。

最近,斯坦福大學計算機科學系的Weixin Liang、李飛飛等人在《自然-機器智能》上共同發(fā)表了一篇題為“Advances, challenges and opportunities in creating data for trustworthy AI”的文章,在 AI 數(shù)據(jù)全流程的各個環(huán)節(jié)上討論了保證數(shù)據(jù)質量的關鍵因素和方法。

斯坦福李飛飛團隊新研究登 Nature 子刊:實現(xiàn)可信 AI,數(shù)據(jù)的設計、完善、評估是關鍵
論文地址:https://www.nature.com/articles/s42256-022-00516-1.epdf?sharing_token=VPzI-KWAm8tLG_BiXJnV9tRgN0jAjWel9jnR3ZoTv0MRS1pu9dXg73FQ0NTrwhu7Hi_VBEr6peszIAFc6XO1tdlvV1lLJQtOvUFnSXpvW6_nu0Knc_dRekx6lyZNc6PcM1nslocIcut_qNW9OUg1IsbCfuL058R4MsYFqyzlb2E%3D

AI 數(shù)據(jù)流程中的主要步驟包括:數(shù)據(jù)設計(數(shù)據(jù)的采集和記錄)、數(shù)據(jù)改善(數(shù)據(jù)篩選、清洗、標注、增強)以及用于評估和監(jiān)控 AI 模型的數(shù)據(jù)策略,其中的每一個環(huán)節(jié)都會影響最終 AI 模型的可信度。

斯坦福李飛飛團隊新研究登 Nature 子刊:實現(xiàn)可信 AI,數(shù)據(jù)的設計、完善、評估是關鍵

圖1:從數(shù)據(jù)設計到評估的以數(shù)據(jù)為中心的方法開發(fā)路線圖。



1

AI 的數(shù)據(jù)設計

確定了一個人工智能應用程序后,開發(fā) AI 模型第一步就是設計數(shù)據(jù)(即識別和記錄數(shù)據(jù)來源)。

設計應當是一個迭代過程——用試驗數(shù)據(jù)來開發(fā)初始的 AI 模型,然后再收集額外數(shù)據(jù)來修補模型的局限性。設計的關鍵標準是確保數(shù)據(jù)適用于任務,并覆蓋足夠的范圍來代表模型可能遇到的不同用戶和場景。

而目前用于開發(fā) AI 的數(shù)據(jù)集通常覆蓋范圍有限或者具有偏差。例如在醫(yī)療 AI 中,用于開發(fā)算法的患者數(shù)據(jù)的收集在地區(qū)分布上不成比例,這會限制 AI 模型對不同人群的適用性。

提高數(shù)據(jù)覆蓋率的一種方法,是讓更廣泛的社區(qū)參與數(shù)據(jù)的創(chuàng)建。目前最大的公共數(shù)據(jù)集 Common Voice 項目就是一個例證,該數(shù)據(jù)集包含了來自 166000 多名參與者的 76 種語言的 11192 小時語音轉錄。

而當代表性數(shù)據(jù)難以獲得時,可以用合成數(shù)據(jù)來填補覆蓋空白。比如真實人臉的收集通常涉及隱私問題和抽樣偏差,而由深度生成模型創(chuàng)建的合成人臉現(xiàn)在已經(jīng)被用于減輕數(shù)據(jù)不平衡和偏差。在醫(yī)療保健領域,可以共享合成醫(yī)療記錄來促進知識發(fā)現(xiàn),而無需披露實際的患者信息。在機器人技術中,真實世界的挑戰(zhàn)是終極的測試平臺,也可以用高保真模擬環(huán)境來讓智能體在復雜和長期任務中實現(xiàn)更快、更安全的學習。

但合成數(shù)據(jù)也存在一些問題。合成數(shù)據(jù)與現(xiàn)實數(shù)據(jù)之間總是存在差距,所以在將基于合成數(shù)據(jù)訓練的 AI 模型轉移到現(xiàn)實世界時,通常會出現(xiàn)性能下降。如果模擬器的設計不考慮少數(shù)群體,那么合成數(shù)據(jù)也會加劇數(shù)據(jù)差異,而 AI 模型的性能高度依賴其訓練和評估數(shù)據(jù)的上下文,因此在標準化和透明的報告中記錄數(shù)據(jù)設計地上下文就非常重要。

現(xiàn)在,研究人員已經(jīng)創(chuàng)建了各種「數(shù)據(jù)營養(yǎng)標簽」(data nutrition labels)來捕獲有關數(shù)據(jù)設計和注釋過程的元數(shù)據(jù)(metadata)。有用的元數(shù)據(jù)包括數(shù)據(jù)集中參與者的性別、性別、種族和地理位置的統(tǒng)計數(shù)據(jù),這有助于發(fā)現(xiàn)是否有代表性不足的亞群未被覆蓋。數(shù)據(jù)來源也是一種元數(shù)據(jù),它跟蹤數(shù)據(jù)的來源和時間以及產(chǎn)生數(shù)據(jù)的過程和方法。

元數(shù)據(jù)可以保存在一個專門的數(shù)據(jù)設計文檔里,數(shù)據(jù)文檔對于觀察數(shù)據(jù)的生命周期和社會技術背景來說非常重要。文檔可以上傳到穩(wěn)定且集中的數(shù)據(jù)存儲庫(例如 Zenodo)中。



2

完善數(shù)據(jù):篩選、清洗、標注、增強

初始數(shù)據(jù)集收集完成后,我們就需要進一步完善數(shù)據(jù),為 AI 的開發(fā)提供更有效的數(shù)據(jù)。這是 AI 以模型為中心的方法與以數(shù)據(jù)為中心的方法的關鍵不同之處,如圖 2a ,以模型為中心的研究通常是基于給定的數(shù)據(jù),專注于改進模型架構或優(yōu)化此數(shù)據(jù)。而以數(shù)據(jù)為中心的研究則側重于可擴展的方法,通過數(shù)據(jù)清洗、篩選、標注、增強等過程來系統(tǒng)地改進數(shù)據(jù),并且可以使用一站式的模型開發(fā)平臺。

斯坦福李飛飛團隊新研究登 Nature 子刊:實現(xiàn)可信 AI,數(shù)據(jù)的設計、完善、評估是關鍵

圖2a:AI 以模型為中心與以數(shù)據(jù)為中心的方法比較。MNIST、COCO 和 ImageNet 是 AI 研究中常用的數(shù)據(jù)集。

數(shù)據(jù)篩選

如果數(shù)據(jù)集的噪聲很大,我們就得仔細對數(shù)據(jù)進行篩選之后再做訓練,這樣可以顯著提高模型的可靠性和泛化性。圖 2a 中的飛機圖像就是鳥類數(shù)據(jù)集中應刪除的噪聲數(shù)據(jù)點。

在 圖 2b 中,由于訓練數(shù)據(jù)的偏差,在以前使用的大型皮膚病學數(shù)據(jù)上訓練的四種最先進的模型都表現(xiàn)不佳,在深色皮膚圖像上的診斷效果尤其不好,而在較小的高質量數(shù)據(jù)上訓練的模型 1 在深淺膚色上都相對更可靠一些。

斯坦福李飛飛團隊新研究登 Nature 子刊:實現(xiàn)可信 AI,數(shù)據(jù)的設計、完善、評估是關鍵

圖 2b:淺色皮膚和深色皮膚圖像上的皮膚病診斷測試性能。

圖 2c 顯示,ResNet、DenseNet 和 VGG 這三種用于圖像分類的流行深度學習架構,如果是在噪聲大的圖像數(shù)據(jù)集上進行訓練,其性能都欠佳。而經(jīng)過數(shù)據(jù)Shapley 值過濾后,質量較差的數(shù)據(jù)被刪除,此時在更干凈的數(shù)據(jù)子集上訓練的ResNet模型性能顯著更優(yōu)。

斯坦福李飛飛團隊新研究登 Nature 子刊:實現(xiàn)可信 AI,數(shù)據(jù)的設計、完善、評估是關鍵

圖 2c:數(shù)據(jù)過濾前后不同模型的對象識別測試性能比較。括號中的數(shù)字表示過濾掉噪聲數(shù)據(jù)后剩下的訓練數(shù)據(jù)點的數(shù)量,結果匯總在五個隨機種子上,陰影區(qū)域代表 95% 置信區(qū)間。

這就是數(shù)據(jù)評估的意義所在,它旨在量化不同數(shù)據(jù)的重要程度,并過濾掉可能由于質量差或偏差而損害模型性能的數(shù)據(jù)。

數(shù)據(jù)清洗

在本文中,作者介紹了兩種數(shù)據(jù)評估方法來幫助清洗數(shù)據(jù):

一種方法是測量在訓練過程中刪除不同數(shù)據(jù)時 AI 模型表現(xiàn)的變化,這可以采用數(shù)據(jù)的 Shapley 值或影響近似值來獲得,如下圖 3a。這種方法能夠有效計算大型 AI 模型的評估。

斯坦福李飛飛團隊新研究登 Nature 子刊:實現(xiàn)可信 AI,數(shù)據(jù)的設計、完善、評估是關鍵
圖3a:數(shù)據(jù)評估。當在訓練中刪除特定點(圖中被劃掉的褪色五角星)時,數(shù)據(jù)的 Shapley 值測量在不同數(shù)據(jù)子集上訓練的模型的性能變化,從而來量化每個數(shù)據(jù)點(五角星符號)的值。顏色表示類別標簽。

另一種方法則是預測不確定性來檢測質量差的數(shù)據(jù)點。數(shù)據(jù)點的人類注釋可能會系統(tǒng)地偏離 AI 模型預測,置信學習算法可以檢測出這些偏差,在 ImageNet 等常見基準測試中發(fā)現(xiàn)超過 3% 的測試數(shù)據(jù)被錯誤標注。過濾掉這些錯誤可以大大提升模型的性能。

數(shù)據(jù)標注

數(shù)據(jù)標注也是數(shù)據(jù)偏差的一個主要來源。盡管 AI 模型可以容忍一定程度的隨機標簽噪聲,但有偏差的錯誤會產(chǎn)生有偏差的模型。目前,我們主要依賴于人工標注,成本很昂貴,比如標注單個 LIDAR 掃描的成本可能超過 30 美元,因為它是三維數(shù)據(jù),標注者需要繪制出三維邊界框,比一般的標注任務要求更高。

因此作者認為,我們需要仔細校準 MTurk 等眾包平臺上的標注工具,提供一致的標注規(guī)則。在醫(yī)療環(huán)領域,還要考慮到標注人員可能需要專業(yè)知識或者可能有無法眾包的敏感數(shù)據(jù)。

降低注釋成本的一種方法是數(shù)據(jù)編程。在數(shù)據(jù)編程中,AI 開發(fā)人員不再需要手動標記數(shù)據(jù)點,而是編寫程序標簽函數(shù)來自動標注訓練集。如圖 3b,使用用戶定義的標簽函數(shù)為每個輸入自動生成多個可能有噪聲的標簽后,我們可以設計額外的算法,來聚合多個標簽功能以減少噪聲。

斯坦福李飛飛團隊新研究登 Nature 子刊:實現(xiàn)可信 AI,數(shù)據(jù)的設計、完善、評估是關鍵

圖 3b:數(shù)據(jù)編程。

另一種降低標注成本的「人在回路」(human-in-the-loop)方法是優(yōu)先考慮最有價值的數(shù)據(jù),以便我們通過主動學習(active learning)來進行標注。主動學習從最佳實驗設計中汲取思想,在主動學習中,算法從一組未標注的數(shù)據(jù)點中選擇信息量最大的點,比如具有高信息增益的點或模型在其上具有不確定性的點嗎,然后再進行人工標注。這種方法的好處是,所需的數(shù)據(jù)數(shù)量比標準的監(jiān)督學習所需的數(shù)據(jù)量要少得多。

數(shù)據(jù)增強

最后,當現(xiàn)有數(shù)據(jù)仍十分有限時,數(shù)據(jù)增強就是一種擴充數(shù)據(jù)集和提高模型可靠性的有效方法。

計算機視覺數(shù)據(jù)可以通過圖像旋轉、翻轉和其他數(shù)字轉換來增強,文本數(shù)據(jù)可以通過變換自動書寫風格來增強。還有最近的 Mixup,是一種更復雜的增強技術,它通過對訓練樣本對進行插值來創(chuàng)建新的訓練數(shù)據(jù),如圖 3c。

除了人工數(shù)據(jù)增強之外,目前的 AI 的自動化數(shù)據(jù)增強流程也是一種流行方案。此外,當未標注的數(shù)據(jù)可用時,還可以通過使用初始模型進行預測(這些預測稱為偽標簽)來實現(xiàn)標簽增強,然后在具有真實和高置信度偽標簽的組合數(shù)據(jù)上訓練一個更大的模型。

斯坦福李飛飛團隊新研究登 Nature 子刊:實現(xiàn)可信 AI,數(shù)據(jù)的設計、完善、評估是關鍵
圖 3c:Mixup 通過創(chuàng)建對現(xiàn)有數(shù)據(jù)進行插值的合成數(shù)據(jù)來擴充數(shù)據(jù)集。藍點表示訓練集中的現(xiàn)有數(shù)據(jù)點,紅點表示通過插值兩個現(xiàn)有數(shù)據(jù)點創(chuàng)建的合成數(shù)據(jù)點。



3

用于評估和監(jiān)控 AI 模型的數(shù)據(jù)

在模型經(jīng)過訓練后,AI 評估的目標是模型的通用性可信性。

為了實現(xiàn)這一目標,我們應該仔細設計評估數(shù)據(jù),從而去找到模型的現(xiàn)實世界設置(real-world settings),同時評估數(shù)據(jù)也需要與模型的訓練數(shù)據(jù)有足夠大的差異。

舉個例子,在醫(yī)學研究中,AI 模型通常是基于少數(shù)醫(yī)院的數(shù)據(jù)訓練的。這樣的模型在新的醫(yī)院部署時,由于數(shù)據(jù)收集和處理方面的差異,其準確性就會降低。為了評價模型的泛化性,就需要從不同的醫(yī)院、不同的數(shù)據(jù)處理管道收集評價數(shù)據(jù)。在其他應用程序中,評估數(shù)據(jù)應該從不同的來源收集,最好由不同的注釋器標記為訓練數(shù)據(jù)。同時,高質量的人類標簽仍然是最重要的評價。

AI 評估的一個重要作用是,判斷 AI 模型是否在不能很好形成概念的訓練數(shù)據(jù)中將虛假相關性作為「捷徑」。例如,在醫(yī)學成像中,數(shù)據(jù)的處理方式(例如裁剪或圖像壓縮)可能產(chǎn)生模型拾取的虛假相關性(即捷徑)。這些捷徑表面上可能很有幫助,但當模型部署在稍有不同的環(huán)境中時,就可能會出現(xiàn)災難性的失敗。

系統(tǒng)的數(shù)據(jù)消融是檢查潛在的模型「捷徑」的好方法。在數(shù)據(jù)消融(data ablation)中,AI 模型在虛假相關表面信號的消融輸入上進行訓練和測試。

斯坦福李飛飛團隊新研究登 Nature 子刊:實現(xiàn)可信 AI,數(shù)據(jù)的設計、完善、評估是關鍵

圖 4:數(shù)據(jù)消融

使用數(shù)據(jù)消融探測出模型捷徑的一個例子是,一項關于常見自然語言推理數(shù)據(jù)集的研究發(fā)現(xiàn),僅對文本輸入的前一半進行訓練的人工智能模型在推斷文本的前一半和后一半之間的邏輯關系方面取得了很高的準確性,而人類在相同的輸入上的推斷水平和隨機猜測差不多。這就表明人工智能模型利用虛假相關性作為完成這項任務的捷徑。研究團隊發(fā)現(xiàn),特定的語言現(xiàn)象會被人工智能模型利用,如文本中的否定與標簽高度相關。

數(shù)據(jù)消融被廣泛適用于各個領域。例如,在醫(yī)學領域,可以屏蔽圖像中與生物相關的部分,用這種方式來評估人工智能是從虛假背景中學習,還是從圖像質量的人工制品中學習。

AI 評估通常局限于比較整個測試數(shù)據(jù)集的總體性能指標。但即使 AI 模型在總體數(shù)據(jù)層面工作良好,它仍然可能在特定的數(shù)據(jù)子組上顯示出系統(tǒng)性錯誤,而對這些錯誤集群的特征描述可以讓我們更加了解模型的局限性。

當元數(shù)據(jù)可用時,細粒度的評估方法應該盡可能地按數(shù)據(jù)集中參與者的性別、性別、種族和地理位置對評估數(shù)據(jù)進行切片——例如,“亞洲老年男性”或“美國土著女性”——并量化模型在每個數(shù)據(jù)子組上的表現(xiàn)。多精度審計(Multi-accuracy auditing)是一種自動搜索 AI 模型表現(xiàn)不佳的數(shù)據(jù)子組的算法。在此處,審計算法被訓練來使用元數(shù)據(jù)預測和聚類原始模型的錯誤,然后提供 AI 模型犯了什么錯,為什么會犯錯等問題的可解釋答案。

當元數(shù)據(jù)不可用時,Domino 等方法會自動識別評估模型容易出錯的數(shù)據(jù)集群,并使用文本生成來創(chuàng)建這些模型錯誤的自然語言解釋。



4

數(shù)據(jù)的未來

目前大多數(shù) AI 研究項目只開發(fā)一次數(shù)據(jù)集,但現(xiàn)實世界的 AI 用戶通常需要不斷更新數(shù)據(jù)集和模型。持續(xù)的數(shù)據(jù)開發(fā)將帶來以下挑戰(zhàn):

首先,數(shù)據(jù)和 AI 任務都可以隨著時間的推移而變化:例如,可能道路上出現(xiàn)了一種新的車輛模型(即領域轉移),或者可能 AI 開發(fā)人員想要識別一種新的對象類別(例如,不同于普通公交車的校車類型),這就會改變標簽的分類。而將扔掉數(shù)百萬小時的舊標簽數(shù)據(jù)十分浪費,所以更新勢在必行。此外,培訓和評估指標應該經(jīng)過精心設計后用來權衡新數(shù)據(jù),并為每個子任務使用適當?shù)臄?shù)據(jù)。

其次,為了持續(xù)獲取和使用數(shù)據(jù),用戶將需要自動化大部分以數(shù)據(jù)為中心的 AI 過程。這種自動化包括使用算法來選擇將哪些數(shù)據(jù)發(fā)送給標注器,以及如何使用它來重新訓練模型,并且只在過程出現(xiàn)錯誤時(例如,準確度指標下降時)才向模型開發(fā)人員發(fā)出警報。作為“MLOps(Machine Learning Operations,機器學習操作)”趨勢的一部分,業(yè)界公司開始使用工具來實現(xiàn)機器學習生命周期的自動化。

更多內容,點擊下方關注:
掃碼添加 AI 科技評論 微信號,投稿&進群:

斯坦福李飛飛團隊新研究登 Nature 子刊:實現(xiàn)可信 AI,數(shù)據(jù)的設計、完善、評估是關鍵

雷峰網(wǎng)(公眾號:雷峰網(wǎng))斯坦福李飛飛團隊新研究登 Nature 子刊:實現(xiàn)可信 AI,數(shù)據(jù)的設計、完善、評估是關鍵

雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

斯坦福李飛飛團隊新研究登 Nature 子刊:實現(xiàn)可信 AI,數(shù)據(jù)的設計、完善、評估是關鍵

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說