ICLR 2019 | 如何理解深度神經(jīng)網(wǎng)絡的泛化性能？谷歌認為可以從「泛化鴻溝」入手

本文作者： xyhncepu

編輯：幸麗娟

2019-07-15 11:33

專題：ICLR 2019

導語：使用邊際分布來預測深度網(wǎng)絡的泛化鴻溝！

雷鋒網(wǎng) AI 科技評論按：深度神經(jīng)網(wǎng)絡（DNN）作為機器學習的基礎，為圖像識別、圖像分割、機器翻譯等諸多領域取得突破性進展做出了重大貢獻，然而研究人員始終都無法完全理解支配 DDN 的基本原理。其中，泛化是預測和理解 DNN 在未見過樣本上的性能的重要指標，而理解泛化的一個重要概念便是泛化鴻溝（generalization gap）?；诖?，谷歌的這篇 ICLR 2019 論文提出使用跨網(wǎng)絡層的標準化邊際分布作為泛化鴻溝的預測因子，對邊際分布與泛化之間的關系進行了實證研究，結果表明邊際分布的一些基本統(tǒng)計量可以準確地預測泛化鴻溝。谷歌發(fā)表文章對該論文進行了介紹，雷鋒網(wǎng) AI 科技評論編譯如下。

DNN 是近年來機器學習研究進展的奠基石，是圖像識別、圖像分割、機器翻譯等諸多領域取得突破性進展的重要原因。然而，盡管它們無處不在，研究人員仍然在努力嘗試去完全理解支配深度神經(jīng)網(wǎng)絡的基本原理。特別是，經(jīng)典理論（例如 VC 維和 Rademacher 復雜度）認為，過度參數(shù)化函數(shù)對未見過數(shù)據(jù)的泛化效果很差，但是最近的研究發(fā)現(xiàn)，大量過度參數(shù)化函數(shù)（參數(shù)比數(shù)據(jù)點的數(shù)量多一個數(shù)量級）的泛化效果很好。為了改進模型，需要更好地理解泛化，這將需要更多的理論基礎和規(guī)則方法來進行 DNN 設計。

理解泛化的一個重要概念是泛化鴻溝（generalization gap），即模型在訓練數(shù)據(jù)上的性能與其在從同一分布中提取的未見過的數(shù)據(jù)上的性能之間的差異。該領域在推導出更好的 DNN 泛化邊界（泛化鴻溝的上限）方面已經(jīng)取得了很大的進展，但它們仍然傾向于高估實際泛化鴻溝，這使得它們無法解釋為什么一些模型泛化得如此之好。另一方面，邊際的概念，即數(shù)據(jù)點與決策邊界之間的距離，在支持向量機等淺層模型的場景中得到了廣泛的研究，并被發(fā)現(xiàn)與這些模型對未見過的數(shù)據(jù)的泛化表現(xiàn)密切相關。鑒于此，利用邊際概念來研究泛化性能已經(jīng)被擴展到 DNN 上了，導致泛化鴻溝上的理論上界高度細化，但并沒有顯著提高對模型泛化表現(xiàn)的預測能力。

ICLR 2019 | 如何理解深度神經(jīng)網(wǎng)絡的泛化性能？谷歌認為可以從「泛化鴻溝」入手

一個支持向量機決策邊界的例子。由 w·x-b=0 定義的超平面為該線性分類器的「決策邊界」，即超平面上的每個點 x 在這個分類器下都是等可能的。

我們在 ICLR 2019 會議上的論文《使用邊際分布來預測深度網(wǎng)絡的泛化鴻溝》（「Predicting the Generalization Gap in Deep Networks with Margin Distributions」，https://arxiv.org/abs/1810.00113）中，提出使用跨網(wǎng)絡層的標準化邊際分布作為泛化鴻溝的預測因子。我們實證研究了邊際分布與泛化之間的關系，結果表明，在對距離進行適當?shù)臍w一化后，邊際分布的一些基本統(tǒng)計量可以準確地預測泛化鴻溝。我們將所有模型作為數(shù)據(jù)集存儲至 Github，用于泛化研究。

ICLR 2019 | 如何理解深度神經(jīng)網(wǎng)絡的泛化性能？谷歌認為可以從「泛化鴻溝」入手

每個圖對應一個訓練在 CIFAR-10 上的卷積神經(jīng)網(wǎng)絡，分別具有不同的分類精度。對于三種不同的模型，給出了網(wǎng)絡 4 層歸一化邊際分布（x 軸）的概率密度（y 軸），并且具有越來越好的泛化表現(xiàn)（從左到右）。歸一化邊際分布與測試精度有很強的相關性，可以作為預測網(wǎng)絡泛化差距的一個指標。有關這些網(wǎng)絡的詳細信息，請參閱我們的論文。

將邊際分布作為泛化預測因子

直觀地說，如果邊際分布的統(tǒng)計量能夠真實地預測泛化性能，那么一個簡單的預測方案應該能夠建立兩者的關系。因此，我們選擇線性回歸作為預測因子。我們發(fā)現(xiàn)泛化鴻溝鴻溝與邊際分布的對數(shù)變換統(tǒng)計量之間的關系幾乎是完全線性的（見下圖）。事實上，與現(xiàn)有的其他泛化方法相比，該方法的預測效果更好。這表明邊際分布可能包含關于模型泛化深度的重要信息。

ICLR 2019 | 如何理解深度神經(jīng)網(wǎng)絡的泛化性能？谷歌認為可以從「泛化鴻溝」入手

CIFAR-100 + ResNet-32 上預測的泛化差距（x 軸）與真實的泛化差距（y 軸）。這說明對數(shù)線性模型的預測值與真實的泛化鴻溝十分吻合。

深度模型泛化數(shù)據(jù)集

除了論文，我們還介紹了深度模型泛化（DEMOGEN）數(shù)據(jù)集，它包含 756 個經(jīng)過訓練的深度模型，以及這些模型在 CIFAR-10 和 CIFAR-100 數(shù)據(jù)集上的訓練和測試表現(xiàn)。這些模型是 CNNs（其架構類似于 Network-in-Network）和 ResNet-32 的變體，具有不同的常用正則化技術和超參數(shù)設置，從而產生廣泛的泛化行為。例如，在 CIFAR-10 上訓練的 CNNs 模型的測試精度在 60% 到 90.5% 之間，泛化鴻溝則在 1% 到 35% 之間。有關數(shù)據(jù)集的詳細信息，請參閱我們的論文或 Github 開發(fā)庫（地址：https://github.com/google-research/google-research/tree/master/demogen）。作為數(shù)據(jù)集發(fā)布的一部分，我們還提供了一些實用程序，可以方便地加載模型并重現(xiàn)本文中的結果。

我們希望這項研究和 DEMOGEN 數(shù)據(jù)集能為研究深度學習中的泛化問題提供一個有用的工具，而不需要重新訓練大量的模型。我們也希望我們的研究結果能夠促進對泛化鴻溝預測因子和隱藏層中邊際分布的進一步研究。

Via：http://ai.googleblog.com/2019/07/predicting-generalization-gap-in-deep.html 雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權禁止轉載。詳情見轉載須知。