丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

用AI取代SGD?無需訓(xùn)練ResNet-50,AI秒級預(yù)測全部2400萬個參數(shù),準確率60% | NeurIPS 2021

本文作者: 我在思考中 2021-10-29 09:36
導(dǎo)語:作者表示,它適用于幾乎任何神經(jīng)網(wǎng)絡(luò)。

用AI取代SGD?無需訓(xùn)練ResNet-50,AI秒級預(yù)測全部2400萬個參數(shù),準確率60% | NeurIPS 2021

一次前向傳播便可預(yù)測幾乎任何神經(jīng)網(wǎng)絡(luò)的參數(shù),我們離用單一元模型取代手工設(shè)計的優(yōu)化器又近了一步。
編譯 | 杏花
編輯 | 青暮
只需一次前向傳播,這個圖神經(jīng)網(wǎng)絡(luò),或者說元模型,便可預(yù)測一個圖像分類模型的所有參數(shù)。有了它,無需再苦苦等待梯度下降收斂!

來自圭爾夫大學(xué)的論文一作 Boris Knyazev 介紹道,該元模型可以預(yù)測 ResNet-50 的所有2400萬個參數(shù),并且這個 ResNet-50 將在 CIFAR-10 上達到 將近60%的準確率,無需任何訓(xùn)練。特別是,該模型適用于幾乎任何神經(jīng)網(wǎng)絡(luò)。

基于這個結(jié)果,作者向我們發(fā)出了靈魂之問:以后還需要 SGD 或 Adam 來訓(xùn)練神經(jīng)網(wǎng)絡(luò)嗎?

“我們離用單一元模型取代手工設(shè)計的優(yōu)化器又近了一步,該元模型可以在一次前向傳播中預(yù)測幾乎任何神經(jīng)網(wǎng)絡(luò)的參數(shù)?!?/span>

令人驚訝的是,這個元模型在訓(xùn)練時,沒有接收過任何類似 ResNet-50 的網(wǎng)絡(luò)(作為訓(xùn)練數(shù)據(jù))。

用AI取代SGD?無需訓(xùn)練ResNet-50,AI秒級預(yù)測全部2400萬個參數(shù),準確率60% | NeurIPS 2021

該元模型的適用性非常廣,不僅是ResNet-50,它還可以預(yù)測 ResNet-101、ResNet-152、Wide-ResNets、Visual Transformers 的所有參數(shù),“應(yīng)有盡有”。不止是CIFAR-10,就連在ImageNet這樣更大規(guī)模的數(shù)據(jù)集上,它也能帶來不錯的效果。

同時,效率方面也很不錯。該元模型可以在平均不到 1 秒的時間內(nèi)預(yù)測給定網(wǎng)絡(luò)的所有參數(shù),即使在 CPU 上,它的表現(xiàn)也是如此迅猛!

用AI取代SGD?無需訓(xùn)練ResNet-50,AI秒級預(yù)測全部2400萬個參數(shù),準確率60% | NeurIPS 2021

但天底下終究“沒有免費的午餐”,因此當該元模型預(yù)測其它不同類型的架構(gòu)時,預(yù)測的參數(shù)不會很準確(有時可能是隨機的)。一般來說,離訓(xùn)練分布越遠(見圖中的綠框),預(yù)測的結(jié)果就越差。

用AI取代SGD?無需訓(xùn)練ResNet-50,AI秒級預(yù)測全部2400萬個參數(shù),準確率60% | NeurIPS 2021

但是,即使使用預(yù)測參數(shù)的網(wǎng)絡(luò)分類準確率很差,也不要失望。

我們?nèi)匀豢梢詫⑵渥鳛榫哂辛己贸跏蓟瘏?shù)的模型,而不需要像過去那樣,使用隨機初始化,“我們可以在這種遷移學(xué)習(xí)中受益,尤其是在少樣本學(xué)習(xí)任務(wù)中?!?/span>

用AI取代SGD?無需訓(xùn)練ResNet-50,AI秒級預(yù)測全部2400萬個參數(shù),準確率60% | NeurIPS 2021

作者還表示,“作為圖神經(jīng)網(wǎng)絡(luò)的粉絲”,他們特地選用了GNN作為元模型。該模型是基于 Chris Zhang、Mengye Ren 和 Raquel Urtasun發(fā)表的ICLR 2019論文“Graph HyperNetworks for Neural Architecture Search”GHN提出的。

用AI取代SGD?無需訓(xùn)練ResNet-50,AI秒級預(yù)測全部2400萬個參數(shù),準確率60% | NeurIPS 2021

論文地址:https://arxiv.org/abs/1810.05749

用AI取代SGD?無需訓(xùn)練ResNet-50,AI秒級預(yù)測全部2400萬個參數(shù),準確率60% | NeurIPS 2021

在他們的基礎(chǔ)上,作者開發(fā)并訓(xùn)練了一個新的模型 GHN-2,它具有更好的泛化能力。

簡而言之,在多個架構(gòu)上更新 GHN 參數(shù),并正確歸一化預(yù)測參數(shù)、改善圖中的遠程交互以及改善收斂性至關(guān)重要。

用AI取代SGD?無需訓(xùn)練ResNet-50,AI秒級預(yù)測全部2400萬個參數(shù),準確率60% | NeurIPS 2021

為了訓(xùn)練 GHN-2,作者引入了一個神經(jīng)架構(gòu)數(shù)據(jù)集——DeepNets-1M。

這個數(shù)據(jù)集分為訓(xùn)練集、驗證集和測試集三個部分。此外,他們還使用更廣、更深、更密集和無歸一化網(wǎng)絡(luò)來進行分布外測試。

用AI取代SGD?無需訓(xùn)練ResNet-50,AI秒級預(yù)測全部2400萬個參數(shù),準確率60% | NeurIPS 2021

作者補充道,DeepNets-1M 可以作為一個很好的測試平臺,用于對不同的圖神經(jīng)網(wǎng)絡(luò) (GNN) 進行基準測試。“使用我們的 PyTorch 代碼,插入任何 GNN(而不是我們的 Gated GNN )應(yīng)該都很簡單。”

用AI取代SGD?無需訓(xùn)練ResNet-50,AI秒級預(yù)測全部2400萬個參數(shù),準確率60% | NeurIPS 2021

除了解決參數(shù)預(yù)測任務(wù)和用于網(wǎng)絡(luò)初始化之外, GHN-2 還可用于神經(jīng)架構(gòu)搜索,“GHN-2可以搜索最準確、最魯棒(就高斯噪聲而言)、最有效和最容易訓(xùn)練的網(wǎng)絡(luò)?!?/span>

用AI取代SGD?無需訓(xùn)練ResNet-50,AI秒級預(yù)測全部2400萬個參數(shù),準確率60% | NeurIPS 2021

這篇論文已經(jīng)發(fā)表在了NeurIPS 2021上,研究人員分別來自圭爾夫大學(xué)、多倫多大學(xué)向量人工智能研究所、CIFAR、FAIR和麥吉爾大學(xué)。

用AI取代SGD?無需訓(xùn)練ResNet-50,AI秒級預(yù)測全部2400萬個參數(shù),準確率60% | NeurIPS 2021

論文地址:https://arxiv.org/pdf/2110.13100.pdf

項目也已經(jīng)開源,趕緊去膜拜這個神經(jīng)網(wǎng)絡(luò)優(yōu)化器吧!

用AI取代SGD?無需訓(xùn)練ResNet-50,AI秒級預(yù)測全部2400萬個參數(shù),準確率60% | NeurIPS 2021

項目地址:https://github.com/facebookresearch/ppuda



1

模型詳解

考慮在大型標注數(shù)據(jù)集(如ImageNet)上訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的問題, 這個問題可以形式化為對給定的神經(jīng)網(wǎng)絡(luò) a 尋找最優(yōu)參數(shù)w。

損失函數(shù)通常通過迭代優(yōu)化算法(如SGD和Adam)來最小化,這些算法收斂于架構(gòu) a 的性能參數(shù)w_p。

盡管在提高訓(xùn)練速度和收斂性方面取得了進展,但w_p的獲取仍然是大規(guī)模機器學(xué)習(xí)管道中的一個瓶頸。

例如,在 ImageNet 上訓(xùn)練 ResNet-50 可能需要花費相當多的 GPU 時間。

隨著網(wǎng)絡(luò)規(guī)模的不斷增長,以及重復(fù)訓(xùn)練網(wǎng)絡(luò)的必要性(如超參數(shù)或架構(gòu)搜索)的存在,獲得 w_p 的過程在計算上變得不可持續(xù)。

而對于一個新的參數(shù)預(yù)測任務(wù),在優(yōu)化新架構(gòu) a 的參數(shù)時,典型的優(yōu)化器會忽略過去通過優(yōu)化其他網(wǎng)絡(luò)獲得的經(jīng)驗。

然而,利用過去的經(jīng)驗可能是減少對迭代優(yōu)化依賴的關(guān)鍵,從而減少高計算需求。

為了朝著這個方向前進,研究人員提出了一項新任務(wù),即使用超網(wǎng)絡(luò) HD 的單次前向傳播迭代優(yōu)化。

為了解決這一任務(wù),HD 會利用過去優(yōu)化其他網(wǎng)絡(luò)的知識。

例如,我們考慮 CIFAR-10 和 ImageNet 圖像分類數(shù)據(jù)集 D,其中測試集性能是測試圖像的分類準確率。

讓 HD 知道如何優(yōu)化其他網(wǎng)絡(luò)的一個簡單方法是,在[架構(gòu),參數(shù)]對的大型訓(xùn)練集上對其進行訓(xùn)練,然而,這個過程的難度令人望而卻步。

因此,研究人員遵循元學(xué)習(xí)中常見的雙層優(yōu)化范式,即不需要迭代 M 個任務(wù),而是在單個任務(wù)(比如圖像分類)上迭代 M 個訓(xùn)練架構(gòu)。

用AI取代SGD?無需訓(xùn)練ResNet-50,AI秒級預(yù)測全部2400萬個參數(shù),準確率60% | NeurIPS 2021

圖 0:GHN原始架構(gòu)概覽。A:隨機采樣一個神經(jīng)網(wǎng)絡(luò)架構(gòu),生成一個GHN。B:經(jīng)過圖傳播后,GHN 中的每個節(jié)點都會生成自己的權(quán)重參數(shù)。C:通過訓(xùn)練GHN,最小化帶有生成權(quán)重的采樣網(wǎng)絡(luò)的訓(xùn)練損失。根據(jù)生成網(wǎng)絡(luò)的性能進行排序。來源:https://arxiv.org/abs/1810.05749

通過優(yōu)化,超網(wǎng)絡(luò) HD 逐漸獲得了如何預(yù)測訓(xùn)練架構(gòu)的性能參數(shù)的知識,然后它可以在測試時利用這些知識。

為此,需要設(shè)計架構(gòu)空間 F 和 HD。

對于 F,研究人員基于已有的神經(jīng)架構(gòu)設(shè)計空間,我們以兩種方式對其進行了擴展:對不同架構(gòu)進行采樣的能力和包括多種架構(gòu)的擴展設(shè)計空間,例如 ResNets 和 Visual Transformers。

這樣的架構(gòu)可以以計算圖的形式完整描述(圖 1)。

因此,為了設(shè)計超網(wǎng)絡(luò) HD,將依賴于圖結(jié)構(gòu)數(shù)據(jù)機器學(xué)習(xí)的最新進展。

特別是,研究人員的方案建立在 Graph HyperNetworks (GHNs)  方法的基礎(chǔ)上。

通過設(shè)計多樣化的架構(gòu)空間 F 和改進 GHN,GHN-2在 CIFAR-10和 ImageNet上預(yù)測未見過架構(gòu)時,圖像識別準確率分別提高到77% (top-1)和48% (top-5)。

令人驚訝的是,GHN-2 顯示出良好的分布外泛化,比如對于相比訓(xùn)練集中更大和更深的架構(gòu),它也能預(yù)測出良好的參數(shù)。

例如,GHN-2可以在不到1秒的時間內(nèi)在 GPU 或 CPU 上預(yù)測 ResNet-50 的所有 2400 萬個參數(shù),在 CIFAR-10 上達到約 60%的準確率,無需任何梯度更新(圖 1,(b))。

總的來說,該框架和結(jié)果為訓(xùn)練網(wǎng)絡(luò)開辟了一條新的、更有效的范式。

本論文的貢獻如下:

  • (a)引入了使用單個超網(wǎng)絡(luò)前向傳播預(yù)測不同前饋神經(jīng)網(wǎng)絡(luò)的性能參數(shù)的新任務(wù);

  • (b)引入了 DEEPNETS-1M數(shù)據(jù)集,這是一個標準化的基準測試,具有分布內(nèi)和分布外數(shù)據(jù),用于跟蹤任務(wù)的進展;

  • (c)定義了幾個基線,并提出了 GHN-2 模型,該模型在 CIFAR-10 和 ImageNet( 5.1 節(jié))上表現(xiàn)出奇的好;

  • (d)該元模型學(xué)習(xí)了神經(jīng)網(wǎng)絡(luò)架構(gòu)的良好表示,并且對于初始化神經(jīng)網(wǎng)絡(luò)是有用的。

用AI取代SGD?無需訓(xùn)練ResNet-50,AI秒級預(yù)測全部2400萬個參數(shù),準確率60% | NeurIPS 2021
圖 1:GHN 模型概述

上圖圖1(a)展示了GHN 模型概述(詳見第 4 節(jié)),基于給定圖像數(shù)據(jù)集和DEEPNETS-1M架構(gòu)數(shù)據(jù)集,通過反向傳播來訓(xùn)練GHN模型,以預(yù)測圖像分類模型的參數(shù)。

研究人員對 vanilla GHN 的主要改進包括Meta-batching、Virtual edges、Parameter normalization等。

其中,Meta-batching僅在訓(xùn)練 GHN 時使用,而Virtual edges、Parameter normalization用于訓(xùn)練和測試時。a1 的可視化計算圖如表 1 所示。

圖1(b)比較了由 GHN 預(yù)測ResNet-50 的所有參數(shù)的分類準確率與使用 SGD 訓(xùn)練其參數(shù)時的分類準確率。盡管自動化預(yù)測參數(shù)得到的網(wǎng)絡(luò)準確率仍遠遠低于人工訓(xùn)練的網(wǎng)絡(luò),但可以作為不錯的初始化手段。



2

實驗:參數(shù)預(yù)測

盡管 GHN-2 從未觀察過測試架構(gòu),但 GHN-2 為它們預(yù)測了良好的參數(shù),使測試網(wǎng)絡(luò)在兩個圖像數(shù)據(jù)集上的表現(xiàn)都出奇的好(表 3 和表 4)。

用AI取代SGD?無需訓(xùn)練ResNet-50,AI秒級預(yù)測全部2400萬個參數(shù),準確率60% | NeurIPS 2021

表 3:GHN-2在DEEPNETS-1M 的未見過 ID 和 OOD 架構(gòu)的預(yù)測參數(shù)結(jié)果(CIFAR-10 )

用AI取代SGD?無需訓(xùn)練ResNet-50,AI秒級預(yù)測全部2400萬個參數(shù),準確率60% | NeurIPS 2021

表 4:基于GHN-1、GHN-2、MLP的元模型在DEEPNETS-1M 上的結(jié)果,以及使用SGD、Adam優(yōu)化器訓(xùn)練分類器的結(jié)果(ImageNet數(shù)據(jù)集)
其中, CIFAR-10 上的結(jié)果尤為突出,一些預(yù)測參數(shù)架構(gòu)的準確率達到了77.1%,而使用 SGD 訓(xùn)練 50 個epoch的最佳準確率大約為 15%。

GHN-2甚至在 ImageNet 上展示了良好的結(jié)果,其中對于某些架構(gòu),實現(xiàn)了高達 48.3% 的top-5準確率。

雖然這些結(jié)果對于直接下游應(yīng)用來說很不夠,但由于三個主要原因,它們非常有意義。

首先,不依賴于通過 SGD 訓(xùn)練架構(gòu) F 的昂貴得令人望而卻步的過程。

其次,GHN 依靠單次前向傳播來預(yù)測所有參數(shù)。

第三,這些結(jié)果是針對未見過的架構(gòu)獲得的,包括 OOD 架構(gòu)。即使在嚴重的分布變化(例如 ResNet-506 )和代表性不足的網(wǎng)絡(luò)(例如 ViT7 )的情況下,GHN-2仍然可以預(yù)測比隨機參數(shù)表現(xiàn)更好的參數(shù)。

在 CIFAR-10 上,GHN-2 的泛化能力特別強,在 ResNet-50 上的準確率為 58.6%。

在這兩個圖像數(shù)據(jù)集上,GHN-2 在 DEEPNETS-1M 的所有測試子集上都顯著優(yōu)于 GHN-1,在某些情況下絕對增益超過 20%,例如BN-FREE 網(wǎng)絡(luò)上的 36.8% 與 13.7%(表 3)。

利用計算圖的結(jié)構(gòu)是 GHN 的一個關(guān)鍵特性,當用 MLP 替換 GHN-2 的 GatedGNN 時,在 ID(甚至在 OOD)架構(gòu)上的準確率從 66.9% 下降到 42.2%。

與迭代優(yōu)化方法相比,GHN-2 預(yù)測參數(shù)的準確率分別與 CIFAR-10 和 ImageNet 上 SGD 的 ~2500 次和 ~5000 次迭代相近。

相比之下,GHN-1 的性能分別與僅 ~500 次和 ~2000次(未在表 4 中展示)迭代相似。

消融實驗(表 5)表明第 4 節(jié)中提出的所有三個組件都很重要。

用AI取代SGD?無需訓(xùn)練ResNet-50,AI秒級預(yù)測全部2400萬個參數(shù),準確率60% | NeurIPS 2021

表 5:在 CIFAR-10 上消融 GHN-2,在所有 ID 和 OOD 測試架構(gòu)中計算模型的平均排名

總而言之:GHN-2是一個圖神經(jīng)網(wǎng)絡(luò)優(yōu)化器,可以秒級訓(xùn)練需要的AI模型,相比經(jīng)典優(yōu)化器非常快,節(jié)省算力和時間,即便得到的模型效果不是最優(yōu),亦可以作為很好的初始化手段。
參考鏈接:
https://arxiv.org/pdf/2110.13100.pdf
https://twitter.com/BorisAKnyazev/status/1452813952719761416

用AI取代SGD?無需訓(xùn)練ResNet-50,AI秒級預(yù)測全部2400萬個參數(shù),準確率60% | NeurIPS 2021

雷鋒網(wǎng)


雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

用AI取代SGD?無需訓(xùn)練ResNet-50,AI秒級預(yù)測全部2400萬個參數(shù),準確率60% | NeurIPS 2021

分享:
相關(guān)文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說