如何測(cè)量模型剪枝的“舍”？

本文作者：翻譯官balala

編輯：幸麗娟

2020-01-08 15:54

導(dǎo)語(yǔ)：“每一枚硬幣都有正反兩面”

雷鋒網(wǎng) AI 科技評(píng)論按：深度學(xué)習(xí)模型運(yùn)行需要大量的計(jì)算、內(nèi)存和功耗，為了解決模型模型運(yùn)行的瓶頸，研究者提出了一系列模型壓縮方法，其中就包括模型剪枝，能夠有效地減小內(nèi)存、功耗，提高計(jì)算效率。

然而，“每一枚硬幣都有正反兩面”，模型剪枝在獲得諸多益處的同時(shí)，勢(shì)必也會(huì)造成一定的“舍”。這些損失到底是什么？針對(duì)不同的模型以及在不同的場(chǎng)景下，模型剪枝產(chǎn)生的影響又有何不同呢？

對(duì)此，谷歌受“腦損傷”的啟發(fā)，在最新的研究工作《SELECTIVE BRAIN DAMAGE: MEASURING THE DISPARATE IMPACT OF MODEL PRUNING》中提出了有效的測(cè)量方法。

論文地址：https://arxiv.org/abs/1911.05248
實(shí)現(xiàn)代碼 GitHub 地址：https://github.com/google-research/google-research/tree/master/pruning_identified_exemplars

下文為這項(xiàng)工作的官方解讀：

一、深層神經(jīng)網(wǎng)絡(luò)剪枝會(huì)丟失什么？

在從嬰兒到成年這段期間，大腦的突觸數(shù)量先增加然后下降。突觸修剪（Synaptic Pruning）通過(guò)去除多余的神經(jīng)元并增強(qiáng)對(duì)環(huán)境最有用的突觸連來(lái)提高效率。

人類(lèi)在2歲至10歲之間會(huì)失去 50％的全部突觸，但大腦仍會(huì)繼續(xù)工作^[1]?！坝盟騺G掉它”一詞經(jīng)常用來(lái)描述突觸修剪學(xué)習(xí)過(guò)程中的環(huán)境影響，但關(guān)于突觸修剪究竟使大腦丟失了什么，人們卻鮮有科學(xué)共識(shí)^[2，3]。

1990年，一篇題為“ 最佳腦損傷”（《最優(yōu)腦損傷》）的論文頗受歡迎 ^[4]。該論文是第一批 ^[5，6，7]提出——我們可以通過(guò)類(lèi)似于生物突觸修剪的方式來(lái)修剪深度神經(jīng)網(wǎng)絡(luò)的“過(guò)度能力”的論文。

在深度神經(jīng)網(wǎng)絡(luò)中，研究者可以通過(guò)將權(quán)重值設(shè)置為零，來(lái)修剪（在神經(jīng)網(wǎng)絡(luò)中的描述為“剪枝”）或從網(wǎng)絡(luò)中刪除的權(quán)重。

如今我們有很多合適的剪枝方法可以選擇，并且剪枝模型可能已經(jīng)應(yīng)用在你手機(jī)中的許多算法上。

從表面上看，使用剪枝方法就能確保你可以解決幾乎所有問(wèn)題。最先進(jìn)的剪枝方法去除了大部分權(quán)重，同時(shí)最小化top-1 準(zhǔn)確度的降低^[8]。這些新的精簡(jiǎn)網(wǎng)絡(luò)需要更少的內(nèi)存和能源消耗，并且能更快地進(jìn)行預(yù)測(cè)。

所有的這些特性使剪枝后的模型非常適合用于將深度神經(jīng)網(wǎng)絡(luò)部署到資源受限的環(huán)境中。

如何測(cè)量模型剪枝的“舍”？

圖1 突觸修剪去除了多余的神經(jīng)元并增強(qiáng)對(duì)環(huán)境最有用的連接。（圖片由Seeman提供，1999年）

但令人困惑的是：剪枝網(wǎng)絡(luò)的能力似乎對(duì)泛化性能的影響很小。將 Top-1 準(zhǔn)確度的性能成本平攤到所有類(lèi)別后似乎是很小的，但如果成本僅集中在少數(shù)幾個(gè)類(lèi)別中該怎么辦？剪枝是否會(huì)對(duì)某類(lèi)樣本或類(lèi)別產(chǎn)生不成比的影響？

在深度神經(jīng)網(wǎng)絡(luò)用于敏感任務(wù)（例如招聘^[9，10]、醫(yī)療保健診斷^[11、12]或自動(dòng)駕駛汽車(chē) ^[13，14]）時(shí)，了解這些取舍是至關(guān)重要的。

對(duì)于這些任務(wù)，引入剪枝方法可能與避免區(qū)別對(duì)待受保護(hù)屬性和/或需要保證某些特定類(lèi)別的召回水平^{[15、16、17、18、19]}的公平目標(biāo)相悖。由于將模型部署到手機(jī)或嵌入式設(shè)備的資源限制，這些領(lǐng)域中已被普遍應(yīng)用了剪枝方法^[20]。

在這項(xiàng)工作中我們提出了一個(gè)正式的框架，該框架用于識(shí)別在剪枝和未剪枝模型之間的有巨大分歧或泛化能力差異的類(lèi)別和圖像。我們發(fā)現(xiàn)引入稀疏性對(duì)剪枝已識(shí)別的示例（Pruning Identified Exemplars ，PIE）和類(lèi)別的系統(tǒng)影響更大。

我們工作的主要發(fā)現(xiàn)概括如下：

1、剪枝最好被描述為“選擇性腦損傷”。剪枝對(duì)每個(gè)類(lèi)別的影響都不一樣；稀疏性的引入對(duì)一小部分類(lèi)別會(huì)產(chǎn)生不成比的系統(tǒng)影響。

2、我們稱(chēng)受剪枝影響最大的示例為“ 剪枝已識(shí)別的示例”（PIE），剪枝和未剪枝模型對(duì)它進(jìn)行分類(lèi)都更加困難。

3、剪枝會(huì)大大降低圖像損壞和自然對(duì)立圖像的穩(wěn)健性。

二、PIE：剪枝已識(shí)別的示例

PIE 是在一組獨(dú)立訓(xùn)練的剪枝模型和未剪枝模型之間最頻繁產(chǎn)生不同的預(yù)測(cè)結(jié)果的圖像。我們聚焦于研究開(kāi)源數(shù)據(jù)集（例如 ImageNet ），發(fā)現(xiàn)對(duì)于剪枝模型和未剪枝模型而言，對(duì) PIE 圖像進(jìn)行分類(lèi)都更加困難。

將測(cè)試集限制為隨機(jī)的 PIE 圖像樣本會(huì)嚴(yán)重降低 top-1 的準(zhǔn)確度，從測(cè)試集中刪除 PIE 可以提高剪枝模型和未剪枝模型的 top-1 準(zhǔn)確度。剪枝似乎使深度神經(jīng)網(wǎng)絡(luò)“忘記”了已經(jīng)存在的較高預(yù)測(cè)不確定性的樣本。

圖2~圖4展示了每個(gè)類(lèi)別的 ImageNet PIE 樣本，每個(gè)圖下方的標(biāo)注包括的信息有：（1）參考正確標(biāo)注，（2）基線未剪枝模型預(yù)測(cè)標(biāo)注，（3）最常用的 ResNet-50 剪枝模型預(yù)測(cè)標(biāo)注。

如何測(cè)量模型剪枝的“舍”？

（1）（2）（3）（4）

如何測(cè)量模型剪枝的“舍”？

（5）（6）（7）（8）

圖2 非典型示例：從給定類(lèi)別的圖像分布來(lái)看，人類(lèi)會(huì)將圖像視為不尋常或異常的PIE樣本。每張圖片的標(biāo)注結(jié)果如下：

（1）參考正確標(biāo)注: 浴缸，未剪枝模型預(yù)測(cè)標(biāo)注: 浴缸，剪枝模型預(yù)測(cè)標(biāo)注: 黃瓜

（2）參考正確標(biāo)注: 馬桶座圈，未剪枝模型預(yù)測(cè)標(biāo)注: 馬桶座圈，剪枝模型預(yù)測(cè)標(biāo)注: 折椅

（3）參考正確標(biāo)注: 塑料袋，未剪枝模型預(yù)測(cè)標(biāo)注: 長(zhǎng)袍，剪枝模型預(yù)測(cè)標(biāo)注: 塑料袋

（4）參考正確標(biāo)注: 濃咖啡，未剪枝模型預(yù)測(cè)標(biāo)注: 濃咖啡，剪枝模型預(yù)測(cè)標(biāo)注: 紅酒

（5）參考正確標(biāo)注: 萬(wàn)圣節(jié)南瓜，未剪枝模型預(yù)測(cè)標(biāo)注: 萬(wàn)圣節(jié)南瓜，剪枝模型預(yù)測(cè)標(biāo)注: 燈罩

（6）參考正確標(biāo)注: 培養(yǎng)皿，未剪枝模型預(yù)測(cè)標(biāo)注: 濃咖啡，剪枝模型預(yù)測(cè)標(biāo)注: 培養(yǎng)皿

（7）參考正確標(biāo)注: 豪華轎車(chē)，未剪枝模型預(yù)測(cè)標(biāo)注: 鮑勃雪橇，剪枝模型預(yù)測(cè)標(biāo)注: 雪犁

（8）參考正確標(biāo)注: 搖椅，未剪枝模型預(yù)測(cè)標(biāo)注: 搖椅，剪枝模型預(yù)測(cè)標(biāo)注: 理發(fā)椅

如何測(cè)量模型剪枝的“舍”？

（1）（2）（3）（4）

如何測(cè)量模型剪枝的“舍”？

（5）（6）（7）（8）

圖3 細(xì)粒度分類(lèi)：圖像集描繪了語(yǔ)義上與其他各種類(lèi)別接近的物體的 PIE 樣本（例如，石蟹和招潮蟹，鐵甲和護(hù)胸甲），每張圖片的標(biāo)注結(jié)果如下：

（1）參考正確標(biāo)注: 咖啡壺，未剪枝模型預(yù)測(cè)標(biāo)注: 咖啡機(jī)，剪枝模型預(yù)測(cè)標(biāo)注: 咖啡壺

（2）參考正確標(biāo)注: 鐵甲，未剪枝模型預(yù)測(cè)標(biāo)注: 護(hù)胸甲，剪枝模型預(yù)測(cè)標(biāo)注: 鐵甲

（3）參考正確標(biāo)注: 搖籃，未剪枝模型預(yù)測(cè)標(biāo)注: 搖籃車(chē)，剪枝模型預(yù)測(cè)標(biāo)注: 搖籃

（4）參考正確標(biāo)注: 谷，未剪枝模型預(yù)測(cè)標(biāo)注: 谷，剪枝模型預(yù)測(cè)標(biāo)注: 高山

（5）參考正確標(biāo)注: 灰鯨，未剪枝模型預(yù)測(cè)標(biāo)注: 灰鯨，剪枝模型預(yù)測(cè)標(biāo)注: 虎鯨

（6）參考正確標(biāo)注: 屏幕，未剪枝模型預(yù)測(cè)標(biāo)注: 屏幕，剪枝模型預(yù)測(cè)標(biāo)注: 電視

（7）參考正確標(biāo)注: 圣誕襪，未剪枝模型預(yù)測(cè)標(biāo)注: 襪子，剪枝模型預(yù)測(cè)標(biāo)注: 圣誕襪

（8）參考正確標(biāo)注: 防浪堤，未剪枝模型預(yù)測(cè)標(biāo)注: 湖邊，剪枝模型預(yù)測(cè)標(biāo)注: 海濱

如何測(cè)量模型剪枝的“舍”？

（1）（2）（3）（4）

如何測(cè)量模型剪枝的“舍”？

（5）（6）（7）（8）

圖4 抽象分類(lèi)：分類(lèi)對(duì)象是抽象形式的 PIE 樣本，例如使用不同材質(zhì)的繪畫(huà)，繪圖或渲染，每張圖片的標(biāo)注結(jié)果如下：

（1）參考正確標(biāo)注: 衛(wèi)生紙，未剪枝模型預(yù)測(cè)標(biāo)注: 浴巾，剪枝模型預(yù)測(cè)標(biāo)注: 大白鯊

（2）參考正確標(biāo)注: 菜花，未剪枝模型預(yù)測(cè)標(biāo)注:菜花，剪枝模型預(yù)測(cè)標(biāo)注: 洋薊

（3）參考正確標(biāo)注: 草帽，未剪枝模型預(yù)測(cè)標(biāo)注: 牛仔帽，剪枝模型預(yù)測(cè)標(biāo)注: 面團(tuán)

（4）參考正確標(biāo)注: 汽水瓶，未剪枝模型預(yù)測(cè)標(biāo)注: 餐廳，剪枝模型預(yù)測(cè)標(biāo)注: 理發(fā)店

（5）參考正確標(biāo)注: 斗篷，未剪枝模型預(yù)測(cè)標(biāo)注: 防毒面具，剪枝模型預(yù)測(cè)標(biāo)注: 護(hù)胸甲

（6）參考正確標(biāo)注: 煤氣泵，未剪枝模型預(yù)測(cè)標(biāo)注: 煤氣泵，剪枝模型預(yù)測(cè)標(biāo)注: 紅綠燈

（7）參考正確標(biāo)注: 迷宮，未剪枝模型預(yù)測(cè)標(biāo)注: 迷宮，剪枝模型預(yù)測(cè)標(biāo)注: 填字游戲

（8）參考正確標(biāo)注: 啤酒瓶，未剪枝模型預(yù)測(cè)標(biāo)注: 啤酒瓶，剪枝模型預(yù)測(cè)標(biāo)注: 防曬霜

為了更好地理解 PIE 為什么對(duì)能力更敏感，我們進(jìn)行了一項(xiàng)小范圍參與人調(diào)研（85名參與者），發(fā)現(xiàn) ImageNet 測(cè)試集中描繪多個(gè)物體或需要進(jìn)行詳細(xì)分類(lèi)的 PIE 更容易被錯(cuò)誤標(biāo)注。

參與人將一半以上的 PIE 圖像歸類(lèi)為具有錯(cuò)誤的參考正確標(biāo)注或描繪了多個(gè)物體。不完整結(jié)構(gòu)數(shù)據(jù)的過(guò)度索引表明，像 ImageNet 這樣的單個(gè)圖像分類(lèi)任務(wù)的參數(shù)量激增，可能能更好地解決在數(shù)據(jù)清理管道中的問(wèn)題。

PIE 對(duì)單一圖像分類(lèi)任務(wù)的不完整結(jié)構(gòu)數(shù)據(jù)過(guò)度標(biāo)注。對(duì)于這些圖像，預(yù)測(cè)正確可能是對(duì)看不見(jiàn)數(shù)據(jù)的泛化能力的不充分估計(jì)。例如，大多數(shù)人仍然認(rèn)為，剪枝模型預(yù)測(cè)西裝而不是新郎的參考正確標(biāo)注是準(zhǔn)確的。新郎穿著西服，因此兩種標(biāo)注是可以接受的。但是，這種預(yù)測(cè)將受到諸如 top-1 準(zhǔn)確度之類(lèi)指標(biāo)的懲罰。

圖5~圖7展示了每類(lèi)的 ImageNet PIE 樣本。每個(gè)圖的標(biāo)注分為：（1）參考正確標(biāo)注，（2）未剪枝基線模型預(yù)測(cè)標(biāo)注，（3）最常用的 ResNet-50 剪枝模型預(yù)測(cè)標(biāo)注。

如何測(cè)量模型剪枝的“舍”？

（1）（2）（3）（4）

如何測(cè)量模型剪枝的“舍”？

（5）（6）（7）（8）

圖5 頻繁同時(shí)出現(xiàn)的標(biāo)注：在同一圖片中多個(gè)對(duì)象頻繁同時(shí)出現(xiàn)的 PIE 樣本。這是因?yàn)閮蓚€(gè)標(biāo)注在某些情況下都可以描述同一物體，例如炮彈和導(dǎo)彈。每張圖片的標(biāo)注結(jié)果如下：

（1）參考正確標(biāo)注: 理發(fā)椅，未剪枝模型預(yù)測(cè)標(biāo)注: 理發(fā)椅，剪枝模型預(yù)測(cè)標(biāo)注: 理發(fā)店

（2）參考正確標(biāo)注: 新郎，未剪枝模型預(yù)測(cè)標(biāo)注: 新郎，剪枝模型預(yù)測(cè)標(biāo)注: 西裝

（3）參考正確標(biāo)注: 學(xué)位帽，未剪枝模型預(yù)測(cè)標(biāo)注: 學(xué)位袍，剪枝模型預(yù)測(cè)標(biāo)注: 學(xué)位帽

（4）參考正確標(biāo)注: 槳，未剪枝模型預(yù)測(cè)標(biāo)注: 槳，剪枝模型預(yù)測(cè)標(biāo)注: 獨(dú)木舟

（5）參考正確標(biāo)注: 網(wǎng)球，未剪枝模型預(yù)測(cè)標(biāo)注: 網(wǎng)球，剪枝模型預(yù)測(cè)標(biāo)注: 網(wǎng)球拍

（6）參考正確標(biāo)注: 酒瓶，未剪枝模型預(yù)測(cè)標(biāo)注: 紅酒，剪枝模型預(yù)測(cè)標(biāo)注: 酒瓶

（7）參考正確標(biāo)注: 炮彈，未剪枝模型預(yù)測(cè)標(biāo)注: 導(dǎo)彈，剪枝模型預(yù)測(cè)標(biāo)注: 炮彈

（8）參考正確標(biāo)注: 玉米，未剪枝模型預(yù)測(cè)標(biāo)注: 玉米，剪枝模型預(yù)測(cè)標(biāo)注:（玉米）穗

如何測(cè)量模型剪枝的“舍”？

（1）（2）（3）（4）

如何測(cè)量模型剪枝的“舍”？

（5）（6）（7）（8）

圖6 不正確或不充分的參考正確標(biāo)注：不正確的參考正確標(biāo)注或人類(lèi)沒(méi)有足夠的信息來(lái)判斷正確標(biāo)注的 PIE 示例。每張圖片的標(biāo)注結(jié)果如下：

（1）參考正確標(biāo)注: 洗浴盆，未剪枝模型預(yù)測(cè)標(biāo)注: 大鍋，剪枝模型預(yù)測(cè)標(biāo)注: 炒菜鍋

（2）參考正確標(biāo)注: 睡袋，未剪枝模型預(yù)測(cè)標(biāo)注: 圍裙，剪枝模型預(yù)測(cè)標(biāo)注: 圍嘴

（3）參考正確標(biāo)注: 安全帽，未剪枝模型預(yù)測(cè)標(biāo)注: 防毒面具，剪枝模型預(yù)測(cè)標(biāo)注: 鏡頭蓋

（4）參考正確標(biāo)注: 臭鼬，未剪枝模型預(yù)測(cè)標(biāo)注: 黑腳雪貂，剪枝模型預(yù)測(cè)標(biāo)注: 愛(ài)斯基摩狗

（5）參考正確標(biāo)注: 餐廳，未剪枝模型預(yù)測(cè)標(biāo)注: 肉餅，剪枝模型預(yù)測(cè)標(biāo)注：牛油果醬

（6）參考正確標(biāo)注: 信封，未剪枝模型預(yù)測(cè)標(biāo)注: 啞鈴，剪枝模型預(yù)測(cè)標(biāo)注: 瑪卡拉（人名）

（7）參考正確標(biāo)注: 羊毛，未剪枝模型預(yù)測(cè)標(biāo)注: 極，剪枝模型預(yù)測(cè)標(biāo)注: 翅膀

（8）參考正確標(biāo)注: 無(wú)線電，未剪枝模型預(yù)測(cè)標(biāo)注: 無(wú)線電，剪枝模型預(yù)測(cè)標(biāo)注: 示波器

如何測(cè)量模型剪枝的“舍”？

（1）（2）（3）（4）

如何測(cè)量模型剪枝的“舍”？

（5）（6）（7）（8）

圖7 多個(gè)物體圖像：圖像中描述了多個(gè)物體，人類(lèi)可能認(rèn)為幾個(gè)預(yù)測(cè)標(biāo)注都是合適的 PIE 示例（例如，由屏幕、鼠標(biāo)和顯示器組成的臺(tái)式計(jì)算機(jī)，理發(fā)店的理發(fā)椅，裝滿紅酒的酒瓶）。每張圖片的標(biāo)注結(jié)果如下：

（1）參考正確標(biāo)注：面包店，未剪枝模型預(yù)測(cè)標(biāo)注: 法式面包，剪枝模型預(yù)測(cè)標(biāo)注: 面包店

（2）參考正確標(biāo)注: 碼頭，未剪枝模型預(yù)測(cè)標(biāo)注: 集裝箱船，剪枝模型預(yù)測(cè)標(biāo)注: 碼頭

（3）參考正確標(biāo)注: 錘子，未剪枝模型預(yù)測(cè)標(biāo)注: 木匠工具包，剪枝模型預(yù)測(cè)標(biāo)注: 錘子

（4）參考正確標(biāo)注: 小豬存錢(qián)罐，未剪枝模型預(yù)測(cè)標(biāo)注: 蘑菇，剪枝模型預(yù)測(cè)標(biāo)注: 拼圖游戲

（5）參考正確標(biāo)注: 牛油果醬，未剪枝模型預(yù)測(cè)標(biāo)注: 墨西哥卷餅，剪枝模型預(yù)測(cè)標(biāo)注：盤(pán)子

（6）參考正確標(biāo)注: 糖果，未剪枝模型預(yù)測(cè)標(biāo)注: 包，剪枝模型預(yù)測(cè)標(biāo)注: 雜貨店

（7）參考正確標(biāo)注: 雙杠，未剪枝模型預(yù)測(cè)標(biāo)注: 雙杠，剪枝模型預(yù)測(cè)標(biāo)注: 單杠

（8）參考正確標(biāo)注: 臺(tái)式電腦，未剪枝模型預(yù)測(cè)標(biāo)注: 屏幕，剪枝模型預(yù)測(cè)標(biāo)注: 監(jiān)控

對(duì)現(xiàn)實(shí)世界數(shù)據(jù)集的正確分類(lèi)風(fēng)險(xiǎn)，通常要比正確區(qū)分槳或牛油果醬要高得多。對(duì)于如患病風(fēng)險(xiǎn)分層或醫(yī)療診斷^[21]的敏感任務(wù)，我們的結(jié)果表明，在部署剪枝的模型之前應(yīng)謹(jǐn)慎行事。

PIE 提供了一種通過(guò)覆蓋模型發(fā)現(xiàn)對(duì)于人類(lèi)專(zhuān)家很困難的一小部分示例的工具，使預(yù)測(cè)標(biāo)注更加接近源數(shù)據(jù)。這對(duì)于創(chuàng)建“人在回路”（human-in-the-loop）決策可能非常有價(jià)值，在這種決策中，某些非典型示例會(huì)重新路由以供人工檢查^[22] 或作為基本預(yù)測(cè)工具來(lái)輔助模型解釋^{[23，24，25，26]}。

檢查 PIE 圖像可以幫助我們發(fā)現(xiàn)最難的模型輸入類(lèi)型。PIE 圖像對(duì)于模型進(jìn)行分類(lèi)要困難得多。刪除 PIE 圖像可以使 Top-1 泛化性能超過(guò)基準(zhǔn)。

如何測(cè)量模型剪枝的“舍”？

圖8：相對(duì)于來(lái)自 ImageNet 測(cè)試集的圖像隨機(jī)樣本（粉紅色條），PIE ImageNet 圖像的隨機(jī)樣本（綠色條）的 ResNet-50 深神經(jīng)網(wǎng)絡(luò)的平均 top-1 準(zhǔn)確性要低得多。

如何測(cè)量模型剪枝的“舍”？

圖9：刪除 PIE 圖像有利于泛化。當(dāng)模型只使用非 PIE ImageNet 圖像（青色）的隨機(jī)樣本時(shí)，Top-1 準(zhǔn)確度會(huì)提高并超出基準(zhǔn)性能。

三、剪枝會(huì)影響哪些類(lèi)別分類(lèi)？

ImageNet 具有1000個(gè)不同的類(lèi)別分類(lèi)，其中既包括日常物體（例如卡帶播放器），也包括更精細(xì)的類(lèi)別，這些類(lèi)別指的是諸如天鵝絨之類(lèi)的物體紋理，甚至指的是諸如新郎之類(lèi)的人。

如果剪枝對(duì)所有類(lèi)別的影響是一致的，則我們期望每個(gè)類(lèi)別的模型準(zhǔn)確度將以與剪枝和未剪枝模型之間的 top-1 準(zhǔn)確度差異相同的百分比變化。

這形成了我們的原假設(shè)，我們必須判定每個(gè)類(lèi)別是否拒絕原假設(shè)并接受備擇假設(shè)——統(tǒng)計(jì)表明：每個(gè)類(lèi)別的召回率水平變化與總體準(zhǔn)確度變化存在顯著差異。這等于是在問(wèn)：考慮到剪枝后 top-1 準(zhǔn)確度的總體變化，該類(lèi)的表現(xiàn)好于或差于預(yù)期嗎？

評(píng)估剪枝后的模型和未剪枝后的模型的均值漂移分類(lèi)準(zhǔn)確度樣本之間的差異是否“真實(shí)”，可以認(rèn)為是確定兩個(gè)數(shù)據(jù)樣本是否來(lái)自相同的基本分布，大量文獻(xiàn)的對(duì)此作了研究^[27，28]。

為了比較剪枝模型和未剪枝模型的分類(lèi)水平性能，我們使用兩個(gè)樣本的雙側(cè)獨(dú)立 Welch t 檢驗(yàn) ^[29]。我們單獨(dú)訓(xùn)練了一組剪枝和未剪枝模型，并用 t 檢驗(yàn)來(lái)確定樣本均值是否顯著不同。這種方法使我們能夠識(shí)別出模型性能要么對(duì)模型權(quán)重的損失保持相對(duì)穩(wěn)健，要么對(duì)能力降低過(guò)于敏感的類(lèi)別的子集。

這種方法使我們能夠識(shí)別類(lèi)的子集：模型性能要么對(duì)模型權(quán)重的損失仍然具有良好的魯棒性，要么對(duì)能力的降低過(guò)度敏感。

如何測(cè)量模型剪枝的“舍”？

（1）30%剪枝水平

如何測(cè)量模型剪枝的“舍”？

（2）50%剪枝水平

如何測(cè)量模型剪枝的“舍”？

（3）70%剪枝水平

如何測(cè)量模型剪枝的“舍”？

（4）90%剪枝水平

圖10 我們獨(dú)立地訓(xùn)練了一組剪枝和未剪枝模型，并應(yīng)用t檢驗(yàn)來(lái)確定樣本均值是否顯著不同。所有類(lèi)別的結(jié)果表明，某些類(lèi)別受剪枝水平的影響要遠(yuǎn)大于其他類(lèi)別（粉紅色為統(tǒng)計(jì)結(jié)果顯著的類(lèi)別，灰色為性能變化的統(tǒng)計(jì)結(jié)果并不顯著的類(lèi)別）。

我們同時(shí)繪制了類(lèi)別召回率的絕對(duì)百分比變化（灰色和粉紅色條形）和相對(duì)于剪枝結(jié)果的 top-1 準(zhǔn)確度變化的歸一化準(zhǔn)確度（灰色和綠色標(biāo)記）。

剪枝影響的方向性和大小是細(xì)微而令人驚訝的。我們的結(jié)果表明，某些類(lèi)別對(duì)于模型的整體性能降低是相對(duì)穩(wěn)健的，而其他類(lèi)別的性能降低要遠(yuǎn)遠(yuǎn)超過(guò)模型本身。這相當(dāng)于在某些類(lèi)別上性能的“選擇性腦損傷”，表明對(duì)某些類(lèi)別對(duì)模型能力消失的敏感性更高。

在每種剪枝程度中，結(jié)果中準(zhǔn)確度顯著相對(duì)降低的類(lèi)別要少于準(zhǔn)確度相對(duì)提高的類(lèi)別，但是，準(zhǔn)確度相對(duì)降低的類(lèi)別的減少幅度大于準(zhǔn)確度相對(duì)提高增長(zhǎng)的幅度（這導(dǎo)致整體準(zhǔn)確度降低）。這告訴我們，剪枝引起的泛化損失比相對(duì)準(zhǔn)確度提高要集中得多，只有更少的類(lèi)別受到了權(quán)重消失帶來(lái)的性能降低影響。

較高的剪枝程度時(shí)受影響的類(lèi)別更多，并且受影響最大和受影響最小的類(lèi)別之間的絕對(duì)百分比差異會(huì)變大?，F(xiàn)實(shí)世界中大多數(shù)剪枝應(yīng)用程序都傾向于剪枝 50％以上以獲取內(nèi)存和效率方面的回報(bào)。當(dāng)刪除 90％的權(quán)重后，1000個(gè) ImageNet 類(lèi)別中的 582 個(gè)類(lèi)別的相對(duì)變化在統(tǒng)計(jì)上是顯著的。

四、對(duì)于模型剪枝的使用，這意味著什么？

在現(xiàn)實(shí)應(yīng)用中，模型剪枝在機(jī)器學(xué)習(xí)應(yīng)用程序中廣泛使用。手機(jī)上的許多算法可能以某種方式被剪枝或壓縮。

我們的結(jié)果令人詫異并表明，依賴(lài) top-1 或 top-5 測(cè)試集準(zhǔn)確度之類(lèi)的最重要指標(biāo)以剪枝影響模型泛化的方式隱藏了關(guān)鍵細(xì)節(jié)。

但是，我們的方法為人類(lèi)提供了一種更好地理解剪枝帶來(lái)的“舍”與“得”的方法，并獲得了哪些類(lèi)從附加功能中受益最大的直覺(jué)（Intuition）。我們認(rèn)為，這種類(lèi)型的工具是幫助專(zhuān)家們理解剪枝所產(chǎn)生的“舍”與“得”和發(fā)掘出極具難度的示例供人工進(jìn)行判斷的有價(jià)值的第一步。

我們歡迎就此工作進(jìn)行其他討論和代碼貢獻(xiàn)。在我們的論文和開(kāi)放源代碼中，詳細(xì)介紹了我們的方法、實(shí)驗(yàn)框架和實(shí)驗(yàn)結(jié)果。

在此有限的研究范圍內(nèi)，我們無(wú)法解決許多實(shí)質(zhì)性的問(wèn)題以及許多我們研究不深但極具價(jià)值的方面，包括：評(píng)估剪枝對(duì)其他領(lǐng)域（如語(yǔ)言和音頻）的影響，對(duì)不同體系結(jié)構(gòu)的考慮，以及基于常用的其他壓縮技術(shù)（如量化）的剪枝模型帶來(lái)的相對(duì)取舍的比較。

文中相關(guān)參考文獻(xiàn)，可閱讀原文：

https://weightpruningdamage.github.io/

雷鋒網(wǎng) AI 科技評(píng)論編譯雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。