丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

關(guān)注數(shù)據(jù)而不是模型:我是如何贏得吳恩達(dá)首屆 Data-centric AI 競賽的

本文作者: 我在思考中 2021-10-26 18:24
導(dǎo)語:獲獎(jiǎng)?wù)叻窒韰①悤r(shí)的過程和獲獎(jiǎng)感受。

關(guān)注數(shù)據(jù)而不是模型:我是如何贏得吳恩達(dá)首屆 Data-centric AI 競賽的

如何憑借“數(shù)據(jù)增強(qiáng)”技術(shù)獲得吳恩達(dá)首屆 Data-centric AI 競賽的最佳創(chuàng)新獎(jiǎng)?
作者 | 杏花
編輯 | 青暮

吳恩達(dá)(英文名 Andrew Ng,是人工智能和機(jī)器學(xué)習(xí)領(lǐng)域國際上最權(quán)威的學(xué)者之一)在今年 6 月的時(shí)候宣布首屆以數(shù)據(jù)為中心的人工智能(Data-centric AI)競賽即將開賽,參賽“作品”的提交日期截止到9月初。10月初,吳恩達(dá)在其個(gè)人社交平臺(tái)Twitter上向我們宣布了此次競賽的獲獎(jiǎng)?wù)?,隨后,也在其個(gè)人微信公眾號(hào)上向我們簡要介紹了競賽的參與情況。

關(guān)注數(shù)據(jù)而不是模型:我是如何贏得吳恩達(dá)首屆 Data-centric AI 競賽的

這次競賽共有489個(gè)參賽個(gè)人和團(tuán)隊(duì)提交了2458個(gè)獨(dú)特的數(shù)據(jù)集。僅僅通過改進(jìn)數(shù)據(jù)(而不是模型架構(gòu),這是硬標(biāo)準(zhǔn)),許多參賽者能夠?qū)?4.4%的基準(zhǔn)性能提高20%以上。最佳性能組的獲獎(jiǎng)?wù)叩某煽冊(cè)?6.034%至86.405%之間?!白罹邉?chuàng)新力獎(jiǎng)”和“榮譽(yù)獎(jiǎng)”的獲獎(jiǎng)?wù)邉t都采用了新穎的方法,也取得了出色的成績。

經(jīng)過角逐,Divakar Roy, Team Innotescus 和 Team Synaptic-AnN分別獲得了最佳性能組的前三名。Mohammad Motamedi, Johnson Kuan 和 Team GoDataDriven 則是最具創(chuàng)新獎(jiǎng)的獲獎(jiǎng)?wù)?,此外,Pierre-Louis bessecond 和 Team KAIST-AIPRLab 獲得了榮譽(yù)獎(jiǎng)。吳恩達(dá)激動(dòng)萬分地表示對(duì)所有參賽者感到驕傲。

那么,獲獎(jiǎng)?wù)邔?duì)贏得吳恩達(dá)首屆 Data-centric AI 競賽的心情是怎樣的呢?以下是此次競賽最佳創(chuàng)新獎(jiǎng)得主之一 Johnson Kuan 發(fā)布的博文,記錄了他參賽時(shí)的過程以及獲獎(jiǎng)后的感受。

博文具體內(nèi)容如下:

在過去的幾個(gè)月里,我有幸參加了吳恩達(dá)首屆 Data-centric AI 競賽。在此,我很高興能和大家分享我是如何憑借“數(shù)據(jù)增強(qiáng)(Data Boosting)”技術(shù)獲得最佳創(chuàng)新獎(jiǎng)的。

這場競賽真正的獨(dú)特之處在于,與傳統(tǒng)的 AI 競賽不同,它嚴(yán)格關(guān)注如何改進(jìn)數(shù)據(jù)而不是模型,從我個(gè)人的經(jīng)驗(yàn)來看,這通常是改進(jìn)人工智能系統(tǒng)的最佳方式。

考慮到有大量的開源機(jī)器學(xué)習(xí)模型庫(包括預(yù)訓(xùn)練的深度學(xué)習(xí)模型),模型方面對(duì)大多數(shù)商業(yè)應(yīng)用程序來說或多或少是一個(gè)已解決的問題。我們需要的是新工具和創(chuàng)新技術(shù)來系統(tǒng)地改進(jìn)數(shù)據(jù),Andrew顯著地將其稱為烹飪(訓(xùn)練模型)的高質(zhì)量食材。

這篇博文的其余部分將由三個(gè)主要部分組成:

1. 大賽概述

2. 我的“數(shù)據(jù)增強(qiáng)”技術(shù)解決方案

3. 這項(xiàng)技術(shù)的動(dòng)機(jī)以及如何將它推廣到不同的應(yīng)用程序



1

大賽概述

在本次競賽中,每個(gè)參與者手里有大小約為 3K 的圖像,這些圖像是從 1 到 10 的手寫羅馬數(shù)字,我們的任務(wù)是優(yōu)化模型在羅馬數(shù)字分類方面的性能。此外,我們還獲得了一本包含 52 張圖像的標(biāo)簽簿,作為我們自己實(shí)驗(yàn)的小測試集,本標(biāo)簽簿不用于最終評(píng)估。

具體的競賽規(guī)則鏈接如下:

https://worksheets.codalab.org/worksheets/0x7a8721f11e61436e93ac8f76da83f0e6

模型架構(gòu)保持固定(cut off ResNet50)并訓(xùn)練 100 個(gè) epoch,同時(shí)根據(jù)驗(yàn)證集的準(zhǔn)確性在 epoch 中選擇模型權(quán)重。

雖然模型和訓(xùn)練過程是固定的,但我們可以自由改進(jìn)數(shù)據(jù)集并更改訓(xùn)練和驗(yàn)證數(shù)據(jù)分割。我們還可以添加新的圖像,但在訓(xùn)練和驗(yàn)證分割中提交的圖像組合必須小于10K。

提交我們改進(jìn)的數(shù)據(jù)集后,參與者將根據(jù)隱藏的圖像測試集進(jìn)行評(píng)估。

關(guān)注數(shù)據(jù)而不是模型:我是如何贏得吳恩達(dá)首屆 Data-centric AI 競賽的

訓(xùn)練數(shù)據(jù)集里的一個(gè)例子

考慮到最終提交的圖像只能小于 10K,因此,參與者必須專注于在缺乏“大數(shù)據(jù)”的情況下獲取“好數(shù)據(jù)”,這是因?yàn)?Andrew 覺得 “大數(shù)據(jù)” 在更傳統(tǒng)的行業(yè)(如制造業(yè)、農(nóng)業(yè)和醫(yī)療保?。┑娜斯ぶ悄軕?yīng)用中非常常見。



2

我的“數(shù)據(jù)增強(qiáng)”技術(shù)解決方案

在進(jìn)入解決方案的關(guān)鍵部分之前,我做的第一件事是遵循固定標(biāo)簽和刪除不良數(shù)據(jù)的常見做法。

為了簡化這個(gè)工作流程,我編寫了一個(gè) Python 程序來評(píng)估給定的數(shù)據(jù)集(在將其輸入固定模型和訓(xùn)練程序之后),并生成一個(gè)包含每個(gè)圖像記錄指標(biāo)的電子表格。

該電子表格包含給定標(biāo)簽、預(yù)測標(biāo)簽(使用固定模型)和每個(gè)圖像的損失,這對(duì)于分離不準(zhǔn)確和邊緣情況非常有用。下面舉例。

關(guān)注數(shù)據(jù)而不是模型:我是如何贏得吳恩達(dá)首屆 Data-centric AI 競賽的

由 Python 生成的數(shù)據(jù)評(píng)估電子表格示例,用于簡化以數(shù)據(jù)為中心的 AI 工作流程。

我最初使用這個(gè)電子表格來識(shí)別標(biāo)記錯(cuò)誤的圖像和明顯不是羅馬數(shù)字 1-10 的圖像(例如,在原始訓(xùn)練集中就有一個(gè)心臟圖像)。

現(xiàn)在我們來看看“數(shù)據(jù)增強(qiáng)”技術(shù)。以下是高級(jí)步驟:

  1. 從訓(xùn)練數(shù)據(jù)中生成一組非常大的隨機(jī)增強(qiáng)圖像(將這些視為“候選”來源)。

  2. 訓(xùn)練初始模型并預(yù)測驗(yàn)證集。

  3. 使用另一個(gè)預(yù)訓(xùn)練模型從驗(yàn)證圖像和增強(qiáng)圖像中提取特征(即嵌入)。

  4. 對(duì)于每個(gè)錯(cuò)誤分類的驗(yàn)證圖像,利用提取的特征從增強(qiáng)圖像集中檢索最近鄰(基于余弦相似度)。將這些最近鄰增強(qiáng)圖像添加到訓(xùn)練集。我將這個(gè)過程稱為“數(shù)據(jù)增強(qiáng)”。

  5. 使用添加的增強(qiáng)圖像重新訓(xùn)練模型并預(yù)測驗(yàn)證集。

  6. 重復(fù)步驟 4-6,直到達(dá)到 10K 圖像的限制。

這個(gè)迭代過程見下圖:

關(guān)注數(shù)據(jù)而不是模型:我是如何贏得吳恩達(dá)首屆 Data-centric AI 競賽的

將來自訓(xùn)練集的增強(qiáng)圖像作為候選源的“數(shù)據(jù)增強(qiáng)”過程

在“數(shù)據(jù)增強(qiáng)”過程中需要注意的幾點(diǎn):

  • -雖然我在這次競賽中使用了增強(qiáng)圖像,但在實(shí)踐中我們可以使用任何大的圖像集作為數(shù)據(jù)源。

  • -我從訓(xùn)練集中生成了大約 1M 的隨機(jī)增強(qiáng)圖像作為候選來源。

  • -數(shù)據(jù)評(píng)估電子表格用于跟蹤不準(zhǔn)確(錯(cuò)誤分類的圖像)并注釋數(shù)據(jù)。另外,我還創(chuàng)建了一個(gè)帶有PostgreSQL 后端的 Label Studio 實(shí)例,但由于不必要的開銷,我決定不將其用于本次比賽。

  • -對(duì)于預(yù)訓(xùn)練模型,我使用了在 ImageNet 上訓(xùn)練的 ResNet50。

  • -我使用 Annoy 包來執(zhí)行近似最近鄰搜索。

  • -每個(gè)錯(cuò)誤分類的驗(yàn)證圖像要檢索的最近鄰的數(shù)量是一個(gè)超參數(shù)。

Label Studio 鏈接:https://labelstud.io/

Annoy 包鏈接:https://github.com/spotify/annoy

從圖像中提取特征的一件很酷的事情是,我們可以使用 UMAP 在 2D 中將它們可視化,以更好地理解訓(xùn)練和驗(yàn)證集的特征空間。在下面的可視化中,我們可以看到,有趣的是,給定的訓(xùn)練數(shù)據(jù)分布與給定的驗(yàn)證數(shù)據(jù)不匹配。在特征空間的左下角有一個(gè)區(qū)域我們沒有驗(yàn)證圖像。這表明,在運(yùn)行上面的“數(shù)據(jù)增強(qiáng)”過程之前,可以嘗試重新調(diào)整訓(xùn)練和驗(yàn)證數(shù)據(jù)分割。

關(guān)注數(shù)據(jù)而不是模型:我是如何贏得吳恩達(dá)首屆 Data-centric AI 競賽的



3

這項(xiàng)技術(shù)的動(dòng)機(jī)以及如何將它推廣到不同的應(yīng)用程序

我的方法受到以下四件事的啟發(fā):

  1. 我在原先的作品(見 2019 年的一篇博文)里構(gòu)建了一個(gè)電影推薦系統(tǒng),這個(gè)系統(tǒng)通過從關(guān)鍵字標(biāo)簽中提取電影嵌入并使用余弦相似度來查找彼此相似的電影。

  2. 我之前使用過預(yù)訓(xùn)練的深度學(xué)習(xí)模型將圖像表示為嵌入。

  3. 在 Andrej Karpathy 2019 年的演講中,他描述了如何有效地獲取和標(biāo)記從特斯拉車隊(duì)收集的大量數(shù)據(jù),以解決通常是邊緣情況(分布的長尾)的不準(zhǔn)確問題。

  4. 我想開發(fā)一種以數(shù)據(jù)為中心的增強(qiáng)算法(類似于梯度增強(qiáng)),其中模型預(yù)測中的不準(zhǔn)確之處在每個(gè)步驟中通過自動(dòng)獲取與那些不準(zhǔn)確之處相似的數(shù)據(jù)來迭代解決。這就是我稱這種方法為“數(shù)據(jù)提升”的原因。

2019年的博文鏈接:

https://towardsdatascience.com/how-to-build-a-simple-movie-recommender-system-with-tags-b9ab5cb3b616

Andrej Karpathy 2019 年的演講:

https://www.youtube.com/watch?v=FnFksQo-yEY&t=1316s

當(dāng)我最初考慮這種“數(shù)據(jù)增強(qiáng)”的方法時(shí),我需要弄清楚如何自動(dòng)生成大量新的候選圖像作為來源。我決定嘗試隨機(jī)增強(qiáng)原始訓(xùn)練數(shù)據(jù),以生成大量增強(qiáng)圖像作為候選來源。

下一步,我利用預(yù)訓(xùn)練模型提取圖像嵌入,用于計(jì)算圖像之間的余弦相似度,從而自動(dòng)獲取與驗(yàn)證集中錯(cuò)誤分類圖像相似的增強(qiáng)圖像。

在這里,使用預(yù)訓(xùn)練模型進(jìn)行一般特征提取是一種遷移學(xué)習(xí)方法。我假設(shè)通過以這種方式獲取增強(qiáng)圖像,我們可以提高模型從分布的長尾學(xué)習(xí)模式的機(jī)會(huì)。正如Andrej Karpathy在2019年特斯拉“自主日”(Tesla’s Autonomy Day)的演講中所指出的那樣:

'這都是關(guān)于長尾'

關(guān)注數(shù)據(jù)而不是模型:我是如何贏得吳恩達(dá)首屆 Data-centric AI 競賽的

此外,由于競賽的數(shù)據(jù)大小限制為 10K 的圖像,這種“數(shù)據(jù)增強(qiáng)”方法是一種確定在給定的約束條件下哪些隨機(jī)增強(qiáng)圖像最好包含在訓(xùn)練集中的方法。

我可以看到這種技術(shù)推廣到我們可以訪問的機(jī)器學(xué)習(xí)的不同應(yīng)用程序中:

  1. 為實(shí)體(例如圖像、文本文檔)提取嵌入的預(yù)訓(xùn)練模型

  2. 可供選擇的大量候選數(shù)據(jù)集(例如特斯拉車隊(duì)、網(wǎng)絡(luò)上大量的文本語料庫、合成數(shù)據(jù))

例如,我可以想象將這種技術(shù)推廣到文本分類中,我們使用預(yù)訓(xùn)練的 Transformer 模型(比如 Bert)來提取文本的嵌入。然后,我們可以從我們的特定域的驗(yàn)證集中獲取與不準(zhǔn)確性類似的文本(假設(shè)有一個(gè)大型的在線語料庫)。



4

結(jié)語

我希望這篇博文能說服你加入這場以數(shù)據(jù)為中心的 AI 運(yùn)動(dòng)。在更廣泛地應(yīng)用人工智能方面,還有許多令人興奮的工作要做。我相信,對(duì)人工智能系統(tǒng)數(shù)據(jù)管理的共同關(guān)注將使我們實(shí)現(xiàn)這一目標(biāo)。

如果你有任何問題或希望合作,請(qǐng)隨時(shí)與我們聯(lián)系。你可以在 LinkedIn 或 Twitter 上找到我。

最后,特別感謝傳奇人物吳恩達(dá)發(fā)起本次競賽。

原文鏈接:

https://towardsdatascience.com/how-i-won-andrew-ngs-very-first-data-centric-ai-competition-e02001268bda

關(guān)注數(shù)據(jù)而不是模型:我是如何贏得吳恩達(dá)首屆 Data-centric AI 競賽的

雷鋒網(wǎng)


雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

關(guān)注數(shù)據(jù)而不是模型:我是如何贏得吳恩達(dá)首屆 Data-centric AI 競賽的

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說