0
雷鋒網(wǎng) AI 科技評論按:深度學(xué)習(xí)模型運行需要大量的計算、內(nèi)存和功耗,為了解決模型模型運行的瓶頸,研究者提出了一系列模型壓縮方法,其中就包括模型剪枝,能夠有效地減小內(nèi)存、功耗,提高計算效率。
然而,“每一枚硬幣都有正反兩面”,模型剪枝在獲得諸多益處的同時,勢必也會造成一定的“舍”。這些損失到底是什么?針對不同的模型以及在不同的場景下,模型剪枝產(chǎn)生的影響又有何不同呢?
對此,谷歌受“腦損傷”的啟發(fā),在最新的研究工作《SELECTIVE BRAIN DAMAGE: MEASURING THE DISPARATE IMPACT OF MODEL PRUNING》中提出了有效的測量方法。
實現(xiàn)代碼 GitHub 地址:https://github.com/google-research/google-research/tree/master/pruning_identified_exemplars
下文為這項工作的官方解讀:
在從嬰兒到成年這段期間,大腦的突觸數(shù)量先增加然后下降。突觸修剪(Synaptic Pruning)通過去除多余的神經(jīng)元并增強(qiáng)對環(huán)境最有用的突觸連來提高效率。
人類在2歲至10歲之間會失去 50%的全部突觸,但大腦仍會繼續(xù)工作[1]。“用它或丟掉它”一詞經(jīng)常用來描述突觸修剪學(xué)習(xí)過程中的環(huán)境影響,但關(guān)于突觸修剪究竟使大腦丟失了什么,人們卻鮮有科學(xué)共識[2,3]。
1990年,一篇題為“ 最佳腦損傷”(《最優(yōu)腦損傷》)的論文頗受歡迎 [4]。該論文是第一批 [5,6,7]提出——我們可以通過類似于生物突觸修剪的方式來修剪深度神經(jīng)網(wǎng)絡(luò)的“過度能力”的論文。
在深度神經(jīng)網(wǎng)絡(luò)中,研究者可以通過將權(quán)重值設(shè)置為零,來修剪(在神經(jīng)網(wǎng)絡(luò)中的描述為“剪枝”)或從網(wǎng)絡(luò)中刪除的權(quán)重。
如今我們有很多合適的剪枝方法可以選擇,并且剪枝模型可能已經(jīng)應(yīng)用在你手機(jī)中的許多算法上。
從表面上看,使用剪枝方法就能確保你可以解決幾乎所有問題。最先進(jìn)的剪枝方法去除了大部分權(quán)重,同時最小化top-1 準(zhǔn)確度的降低[8]。這些新的精簡網(wǎng)絡(luò)需要更少的內(nèi)存和能源消耗,并且能更快地進(jìn)行預(yù)測。
所有的這些特性使剪枝后的模型非常適合用于將深度神經(jīng)網(wǎng)絡(luò)部署到資源受限的環(huán)境中。
圖1 突觸修剪去除了多余的神經(jīng)元并增強(qiáng)對環(huán)境最有用的連接。(圖片由Seeman提供,1999年)
但令人困惑的是:剪枝網(wǎng)絡(luò)的能力似乎對泛化性能的影響很小。將 Top-1 準(zhǔn)確度的性能成本平攤到所有類別后似乎是很小的,但如果成本僅集中在少數(shù)幾個類別中該怎么辦? 剪枝是否會對某類樣本或類別產(chǎn)生不成比的影響?
在深度神經(jīng)網(wǎng)絡(luò)用于敏感任務(wù)(例如招聘 [9,10]、醫(yī)療保健診斷 [11、12] 或自動駕駛汽車 [13,14])時,了解這些取舍是至關(guān)重要的。
對于這些任務(wù),引入剪枝方法可能與避免區(qū)別對待受保護(hù)屬性和/或需要保證某些特定類別的召回水平[15、16、17、18、19]的公平目標(biāo)相悖。由于將模型部署到手機(jī)或嵌入式設(shè)備的資源限制,這些領(lǐng)域中已被普遍應(yīng)用了剪枝方法[20]。
在這項工作中我們提出了一個正式的框架,該框架用于識別在剪枝和未剪枝模型之間的有巨大分歧或泛化能力差異的類別和圖像。我們發(fā)現(xiàn)引入稀疏性對剪枝已識別的示例(Pruning Identified Exemplars ,PIE)和類別的系統(tǒng)影響更大。
我們工作的主要發(fā)現(xiàn)概括如下:
1、剪枝最好被描述為“選擇性腦損傷”。剪枝對每個類別的影響都不一樣;稀疏性的引入對一小部分類別會產(chǎn)生不成比的系統(tǒng)影響。
2、我們稱受剪枝影響最大的示例為“ 剪枝已識別的示例”(PIE),剪枝和未剪枝模型對它進(jìn)行分類都更加困難。
3、剪枝會大大降低圖像損壞和自然對立圖像的穩(wěn)健性。
PIE 是在一組獨立訓(xùn)練的剪枝模型和未剪枝模型之間最頻繁產(chǎn)生不同的預(yù)測結(jié)果的圖像。我們聚焦于研究開源數(shù)據(jù)集(例如 ImageNet ),發(fā)現(xiàn)對于剪枝模型和未剪枝模型而言,對 PIE 圖像進(jìn)行分類都更加困難。
將測試集限制為隨機(jī)的 PIE 圖像樣本會嚴(yán)重降低 top-1 的準(zhǔn)確度,從測試集中刪除 PIE 可以提高剪枝模型和未剪枝模型的 top-1 準(zhǔn)確度。剪枝似乎使深度神經(jīng)網(wǎng)絡(luò)“忘記”了已經(jīng)存在的較高預(yù)測不確定性的樣本。
圖2~圖4展示了每個類別的 ImageNet PIE 樣本,每個圖下方的標(biāo)注包括的信息有:(1)參考正確標(biāo)注,(2)基線未剪枝模型預(yù)測標(biāo)注,(3)最常用的 ResNet-50 剪枝模型預(yù)測標(biāo)注。
(1) (2) (3) (4)
(5) (6) (7) (8)
圖2 非典型示例: 從給定類別的圖像分布來看,人類會將圖像視為不尋?;虍惓5腜IE樣本。每張圖片的標(biāo)注結(jié)果如下:
(1)參考正確標(biāo)注: 浴缸,未剪枝模型預(yù)測標(biāo)注: 浴缸,剪枝模型預(yù)測標(biāo)注: 黃瓜
(2)參考正確標(biāo)注: 馬桶座圈,未剪枝模型預(yù)測標(biāo)注: 馬桶座圈,剪枝模型預(yù)測標(biāo)注: 折椅
(3)參考正確標(biāo)注: 塑料袋,未剪枝模型預(yù)測標(biāo)注: 長袍,剪枝模型預(yù)測標(biāo)注: 塑料袋
(4)參考正確標(biāo)注: 濃咖啡,未剪枝模型預(yù)測標(biāo)注: 濃咖啡,剪枝模型預(yù)測標(biāo)注: 紅酒
(5)參考正確標(biāo)注: 萬圣節(jié)南瓜,未剪枝模型預(yù)測標(biāo)注: 萬圣節(jié)南瓜,剪枝模型預(yù)測標(biāo)注: 燈罩
(6)參考正確標(biāo)注: 培養(yǎng)皿,未剪枝模型預(yù)測標(biāo)注: 濃咖啡,剪枝模型預(yù)測標(biāo)注: 培養(yǎng)皿
(7)參考正確標(biāo)注: 豪華轎車,未剪枝模型預(yù)測標(biāo)注: 鮑勃雪橇,剪枝模型預(yù)測標(biāo)注: 雪犁
(8)參考正確標(biāo)注: 搖椅,未剪枝模型預(yù)測標(biāo)注: 搖椅,剪枝模型預(yù)測標(biāo)注: 理發(fā)椅
(1) (2) (3) (4)
(5) (6) (7) (8)
圖3 細(xì)粒度分類:圖像集描繪了語義上與其他各種類別接近的物體的 PIE 樣本(例如,石蟹和招潮蟹,鐵甲和護(hù)胸甲),每張圖片的標(biāo)注結(jié)果如下:
(1)參考正確標(biāo)注: 咖啡壺,未剪枝模型預(yù)測標(biāo)注: 咖啡機(jī),剪枝模型預(yù)測標(biāo)注: 咖啡壺
(2)參考正確標(biāo)注: 鐵甲,未剪枝模型預(yù)測標(biāo)注: 護(hù)胸甲,剪枝模型預(yù)測標(biāo)注: 鐵甲
(3)參考正確標(biāo)注: 搖籃,未剪枝模型預(yù)測標(biāo)注: 搖籃車,剪枝模型預(yù)測標(biāo)注: 搖籃
(4)參考正確標(biāo)注: 谷,未剪枝模型預(yù)測標(biāo)注: 谷,剪枝模型預(yù)測標(biāo)注: 高山
(5)參考正確標(biāo)注: 灰鯨,未剪枝模型預(yù)測標(biāo)注: 灰鯨,剪枝模型預(yù)測標(biāo)注: 虎鯨
(6)參考正確標(biāo)注: 屏幕, 未剪枝模型預(yù)測標(biāo)注: 屏幕,剪枝模型預(yù)測標(biāo)注: 電視
(7)參考正確標(biāo)注: 圣誕襪,未剪枝模型預(yù)測標(biāo)注: 襪子,剪枝模型預(yù)測標(biāo)注: 圣誕襪
(8)參考正確標(biāo)注: 防浪堤,未剪枝模型預(yù)測標(biāo)注: 湖邊,剪枝模型預(yù)測標(biāo)注: 海濱
(1) (2) (3) (4)
(5) (6) (7) (8)
圖4 抽象分類:分類對象是抽象形式的 PIE 樣本,例如使用不同材質(zhì)的繪畫,繪圖或渲染,每張圖片的標(biāo)注結(jié)果如下:
(1)參考正確標(biāo)注: 衛(wèi)生紙,未剪枝模型預(yù)測標(biāo)注: 浴巾,剪枝模型預(yù)測標(biāo)注: 大白鯊
(2)參考正確標(biāo)注: 菜花,未剪枝模型預(yù)測標(biāo)注:菜花,剪枝模型預(yù)測標(biāo)注: 洋薊
(3)參考正確標(biāo)注: 草帽,未剪枝模型預(yù)測標(biāo)注: 牛仔帽,剪枝模型預(yù)測標(biāo)注: 面團(tuán)
(4)參考正確標(biāo)注: 汽水瓶,未剪枝模型預(yù)測標(biāo)注: 餐廳,剪枝模型預(yù)測標(biāo)注: 理發(fā)店
(5)參考正確標(biāo)注: 斗篷,未剪枝模型預(yù)測標(biāo)注: 防毒面具,剪枝模型預(yù)測標(biāo)注: 護(hù)胸甲
(6)參考正確標(biāo)注: 煤氣泵,未剪枝模型預(yù)測標(biāo)注: 煤氣泵,剪枝模型預(yù)測標(biāo)注: 紅綠燈
(7)參考正確標(biāo)注: 迷宮,未剪枝模型預(yù)測標(biāo)注: 迷宮,剪枝模型預(yù)測標(biāo)注: 填字游戲
(8)參考正確標(biāo)注: 啤酒瓶,未剪枝模型預(yù)測標(biāo)注: 啤酒瓶,剪枝模型預(yù)測標(biāo)注: 防曬霜
為了更好地理解 PIE 為什么對能力更敏感,我們進(jìn)行了一項小范圍參與人調(diào)研(85名參與者),發(fā)現(xiàn) ImageNet 測試集中描繪多個物體或需要進(jìn)行詳細(xì)分類的 PIE 更容易被錯誤標(biāo)注。
參與人將一半以上的 PIE 圖像歸類為具有錯誤的參考正確標(biāo)注或描繪了多個物體。不完整結(jié)構(gòu)數(shù)據(jù)的過度索引表明,像 ImageNet 這樣的單個圖像分類任務(wù)的參數(shù)量激增,可能能更好地解決在數(shù)據(jù)清理管道中的問題。
PIE 對單一圖像分類任務(wù)的不完整結(jié)構(gòu)數(shù)據(jù)過度標(biāo)注。對于這些圖像,預(yù)測正確可能是對看不見數(shù)據(jù)的泛化能力的不充分估計。例如,大多數(shù)人仍然認(rèn)為,剪枝模型預(yù)測西裝而不是新郎的參考正確標(biāo)注是準(zhǔn)確的。新郎穿著西服,因此兩種標(biāo)注是可以接受的。但是,這種預(yù)測將受到諸如 top-1 準(zhǔn)確度之類指標(biāo)的懲罰。
圖5~圖7展示了每類的 ImageNet PIE 樣本。每個圖的標(biāo)注分為:(1)參考正確標(biāo)注,(2)未剪枝基線模型預(yù)測標(biāo)注,(3)最常用的 ResNet-50 剪枝模型預(yù)測標(biāo)注。
(1) (2) (3) (4)
(5) (6) (7) (8)
圖5 頻繁同時出現(xiàn)的標(biāo)注:在同一圖片中多個對象頻繁同時出現(xiàn)的 PIE 樣本。這是因為兩個標(biāo)注在某些情況下都可以描述同一物體,例如炮彈和導(dǎo)彈。每張圖片的標(biāo)注結(jié)果如下:
(1)參考正確標(biāo)注: 理發(fā)椅,未剪枝模型預(yù)測標(biāo)注: 理發(fā)椅,剪枝模型預(yù)測標(biāo)注: 理發(fā)店
(2)參考正確標(biāo)注: 新郎,未剪枝模型預(yù)測標(biāo)注: 新郎,剪枝模型預(yù)測標(biāo)注: 西裝
(3)參考正確標(biāo)注: 學(xué)位帽,未剪枝模型預(yù)測標(biāo)注: 學(xué)位袍,剪枝模型預(yù)測標(biāo)注: 學(xué)位帽
(4)參考正確標(biāo)注: 槳,未剪枝模型預(yù)測標(biāo)注: 槳,剪枝模型預(yù)測標(biāo)注: 獨木舟
(5)參考正確標(biāo)注: 網(wǎng)球,未剪枝模型預(yù)測標(biāo)注: 網(wǎng)球,剪枝模型預(yù)測標(biāo)注: 網(wǎng)球拍
(6)參考正確標(biāo)注: 酒瓶 ,未剪枝模型預(yù)測標(biāo)注: 紅酒, 剪枝模型預(yù)測標(biāo)注: 酒瓶
(7)參考正確標(biāo)注: 炮彈,未剪枝模型預(yù)測標(biāo)注: 導(dǎo)彈,剪枝模型預(yù)測標(biāo)注: 炮彈
(8)參考正確標(biāo)注: 玉米,未剪枝模型預(yù)測標(biāo)注: 玉米,剪枝模型預(yù)測標(biāo)注:(玉米)穗
(1) (2) (3) (4)
(5) (6) (7) (8)
圖6 不正確或不充分的參考正確標(biāo)注:不正確的參考正確標(biāo)注或人類沒有足夠的信息來判斷正確標(biāo)注的 PIE 示例。每張圖片的標(biāo)注結(jié)果如下:
(1)參考正確標(biāo)注: 洗浴盆,未剪枝模型預(yù)測標(biāo)注: 大鍋,剪枝模型預(yù)測標(biāo)注: 炒菜鍋
(2)參考正確標(biāo)注: 睡袋,未剪枝模型預(yù)測標(biāo)注: 圍裙,剪枝模型預(yù)測標(biāo)注: 圍嘴
(3)參考正確標(biāo)注: 安全帽 ,未剪枝模型預(yù)測標(biāo)注: 防毒面具,剪枝模型預(yù)測標(biāo)注: 鏡頭蓋
(4)參考正確標(biāo)注: 臭鼬,未剪枝模型預(yù)測標(biāo)注: 黑腳雪貂,剪枝模型預(yù)測標(biāo)注: 愛斯基摩狗
(5)參考正確標(biāo)注: 餐廳,未剪枝模型預(yù)測標(biāo)注: 肉餅,剪枝模型預(yù)測標(biāo)注:牛油果醬
(6)參考正確標(biāo)注: 信封,未剪枝模型預(yù)測標(biāo)注: 啞鈴,剪枝模型預(yù)測標(biāo)注: 瑪卡拉(人名)
(7)參考正確標(biāo)注: 羊毛,未剪枝模型預(yù)測標(biāo)注: 極,剪枝模型預(yù)測標(biāo)注: 翅膀
(8)參考正確標(biāo)注: 無線電,未剪枝模型預(yù)測標(biāo)注: 無線電,剪枝模型預(yù)測標(biāo)注: 示波器
(1) (2) (3) (4)
(5) (6) (7) (8)
圖7 多個物體圖像:圖像中描述了多個物體,人類可能認(rèn)為幾個預(yù)測標(biāo)注都是合適的 PIE 示例(例如,由屏幕、鼠標(biāo)和顯示器組成的臺式計算機(jī),理發(fā)店的理發(fā)椅,裝滿紅酒的酒瓶)。每張圖片的標(biāo)注結(jié)果如下:
(1)參考正確標(biāo)注:面包店,未剪枝模型預(yù)測標(biāo)注: 法式面包,剪枝模型預(yù)測標(biāo)注: 面包店
(2)參考正確標(biāo)注: 碼頭,未剪枝模型預(yù)測標(biāo)注: 集裝箱船,剪枝模型預(yù)測標(biāo)注: 碼頭
(3)參考正確標(biāo)注: 錘子,未剪枝模型預(yù)測標(biāo)注: 木匠工具包,剪枝模型預(yù)測標(biāo)注: 錘子
(4)參考正確標(biāo)注: 小豬存錢罐,未剪枝模型預(yù)測標(biāo)注: 蘑菇,剪枝模型預(yù)測標(biāo)注: 拼圖游戲
(5)參考正確標(biāo)注: 牛油果醬,未剪枝模型預(yù)測標(biāo)注: 墨西哥卷餅,剪枝模型預(yù)測標(biāo)注:盤子
(6)參考正確標(biāo)注: 糖果,未剪枝模型預(yù)測標(biāo)注: 包,剪枝模型預(yù)測標(biāo)注: 雜貨店
(7)參考正確標(biāo)注: 雙杠,未剪枝模型預(yù)測標(biāo)注: 雙杠,剪枝模型預(yù)測標(biāo)注: 單杠
(8)參考正確標(biāo)注: 臺式電腦,未剪枝模型預(yù)測標(biāo)注: 屏幕,剪枝模型預(yù)測標(biāo)注: 監(jiān)控
對現(xiàn)實世界數(shù)據(jù)集的正確分類風(fēng)險,通常要比正確區(qū)分槳或牛油果醬要高得多。對于如患病風(fēng)險分層或醫(yī)療診斷[21]的敏感任務(wù),我們的結(jié)果表明,在部署剪枝的模型之前應(yīng)謹(jǐn)慎行事。
PIE 提供了一種通過覆蓋模型發(fā)現(xiàn)對于人類專家很困難的一小部分示例的工具,使預(yù)測標(biāo)注更加接近源數(shù)據(jù)。這對于創(chuàng)建“人在回路”(human-in-the-loop)決策可能非常有價值,在這種決策中,某些非典型示例會重新路由以供人工檢查[22] 或作為基本預(yù)測工具來輔助模型解釋[23,24,25,26]。
檢查 PIE 圖像可以幫助我們發(fā)現(xiàn)最難的模型輸入類型。PIE 圖像對于模型進(jìn)行分類要困難得多。刪除 PIE 圖像可以使 Top-1 泛化性能超過基準(zhǔn)。
圖8:相對于來自 ImageNet 測試集的圖像隨機(jī)樣本(粉紅色條),PIE ImageNet 圖像的隨機(jī)樣本(綠色條)的 ResNet-50 深神經(jīng)網(wǎng)絡(luò)的平均 top-1 準(zhǔn)確性要低得多。
圖9:刪除 PIE 圖像有利于泛化。當(dāng)模型只使用非 PIE ImageNet 圖像(青色)的隨機(jī)樣本時,Top-1 準(zhǔn)確度會提高并超出基準(zhǔn)性能。
ImageNet 具有1000個不同的類別分類,其中既包括日常物體(例如卡帶播放器),也包括更精細(xì)的類別,這些類別指的是諸如天鵝絨之類的物體紋理,甚至指的是諸如新郎之類的人。
如果剪枝對所有類別的影響是一致的,則我們期望每個類別的模型準(zhǔn)確度將以與剪枝和未剪枝模型之間的 top-1 準(zhǔn)確度差異相同的百分比變化。
這形成了我們的原假設(shè),我們必須判定每個類別是否拒絕原假設(shè)并接受備擇假設(shè)——統(tǒng)計表明:每個類別的召回率水平變化與總體準(zhǔn)確度變化存在顯著差異。這等于是在問:考慮到剪枝后 top-1 準(zhǔn)確度的總體變化,該類的表現(xiàn)好于或差于預(yù)期嗎?
評估剪枝后的模型和未剪枝后的模型的均值漂移分類準(zhǔn)確度樣本之間的差異是否“真實”,可以認(rèn)為是確定兩個數(shù)據(jù)樣本是否來自相同的基本分布,大量文獻(xiàn)的對此作了研究[27,28]。
為了比較剪枝模型和未剪枝模型的分類水平性能,我們使用兩個樣本的雙側(cè)獨立 Welch t 檢驗 [29]。我們單獨訓(xùn)練了一組剪枝和未剪枝模型,并用 t 檢驗來確定樣本均值是否顯著不同。這種方法使我們能夠識別出模型性能要么對模型權(quán)重的損失保持相對穩(wěn)健,要么對能力降低過于敏感的類別的子集。
這種方法使我們能夠識別類的子集:模型性能要么對模型權(quán)重的損失仍然具有良好的魯棒性,要么對能力的降低過度敏感。
(1)30%剪枝水平
(2)50%剪枝水平
(3)70%剪枝水平
(4)90%剪枝水平
圖10 我們獨立地訓(xùn)練了一組剪枝和未剪枝模型,并應(yīng)用t檢驗來確定樣本均值是否顯著不同。所有類別的結(jié)果表明,某些類別受剪枝水平的影響要遠(yuǎn)大于其他類別(粉紅色為統(tǒng)計結(jié)果顯著的類別,灰色為性能變化的統(tǒng)計結(jié)果并不顯著的類別)。
我們同時繪制了類別召回率的絕對百分比變化(灰色和粉紅色條形)和相對于剪枝結(jié)果的 top-1 準(zhǔn)確度變化的歸一化準(zhǔn)確度(灰色和綠色標(biāo)記)。
剪枝影響的方向性和大小是細(xì)微而令人驚訝的。我們的結(jié)果表明,某些類別對于模型的整體性能降低是相對穩(wěn)健的,而其他類別的性能降低要遠(yuǎn)遠(yuǎn)超過模型本身。這相當(dāng)于在某些類別上性能的“選擇性腦損傷”,表明對某些類別對模型能力消失的敏感性更高。
在每種剪枝程度中,結(jié)果中準(zhǔn)確度顯著相對降低的類別要少于準(zhǔn)確度相對提高的類別,但是,準(zhǔn)確度相對降低的類別的減少幅度大于準(zhǔn)確度相對提高增長的幅度(這導(dǎo)致整體準(zhǔn)確度降低)。這告訴我們,剪枝引起的泛化損失比相對準(zhǔn)確度提高要集中得多,只有更少的類別受到了權(quán)重消失帶來的性能降低影響。
較高的剪枝程度時受影響的類別更多,并且受影響最大和受影響最小的類別之間的絕對百分比差異會變大?,F(xiàn)實世界中大多數(shù)剪枝應(yīng)用程序都傾向于剪枝 50% 以上以獲取內(nèi)存和效率方面的回報。當(dāng)刪除 90% 的權(quán)重后,1000個 ImageNet 類別中的 582 個類別的相對變化在統(tǒng)計上是顯著的。
在現(xiàn)實應(yīng)用中,模型剪枝在機(jī)器學(xué)習(xí)應(yīng)用程序中廣泛使用。手機(jī)上的許多算法可能以某種方式被剪枝或壓縮。
我們的結(jié)果令人詫異并表明,依賴 top-1 或 top-5 測試集準(zhǔn)確度之類的最重要指標(biāo)以剪枝影響模型泛化的方式隱藏了關(guān)鍵細(xì)節(jié)。
但是,我們的方法為人類提供了一種更好地理解剪枝帶來的“舍”與“得”的方法,并獲得了哪些類從附加功能中受益最大的直覺(Intuition)。我們認(rèn)為,這種類型的工具是幫助專家們理解剪枝所產(chǎn)生的“舍”與“得”和發(fā)掘出極具難度的示例供人工進(jìn)行判斷的有價值的第一步。
我們歡迎就此工作進(jìn)行其他討論和代碼貢獻(xiàn)。在我們的論文和開放源代碼中,詳細(xì)介紹了我們的方法、實驗框架和實驗結(jié)果。
在此有限的研究范圍內(nèi),我們無法解決許多實質(zhì)性的問題以及許多我們研究不深但極具價值的方面,包括:評估剪枝對其他領(lǐng)域(如語言和音頻)的影響,對不同體系結(jié)構(gòu)的考慮,以及基于常用的其他壓縮技術(shù)(如量化)的剪枝模型帶來的相對取舍的比較。
文中相關(guān)參考文獻(xiàn),可閱讀原文:
https://weightpruningdamage.github.io/
雷鋒網(wǎng) AI 科技評論編譯雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。