如何優(yōu)化深度神經網絡？

本文作者：叢末

2019-08-05 14:03

導語：聚焦網絡訓練時間過長，梯度消失與爆炸以及網絡初始化等問題進行優(yōu)化。

訓練一個深度神經網絡以實現最佳的性能是一件具有挑戰(zhàn)的任務。在本文中，我將會探索這項任務中最常見的問題及其解決方案。這些問題包括網絡訓練時間過長，梯度消失與爆炸以及網絡初始化，我們在此統(tǒng)稱為優(yōu)化問題。而在訓練網絡中出現的另一類問題則稱作正則化問題，對此，我已經在之前的文章中討論過了，如果你沒有閱讀過，可以點擊下方鏈接閱讀原文。

Improving Deep Neural Networks

https://towardsdatascience.com/improving-deep-neural-networks-b5984e29e336?source=post_page

輸入數據標準化

當我們在訓練神經網絡時，我們可能會注意到模型訓練的時間比預期的要久。這是因為網絡的輸入數據沒有進行標準化處理，讓我們嘗試通過下方兩個輸入特征來理解標準化的含義。

如何優(yōu)化深度神經網絡？

在原始數據中，數據的 X 軸（特征X）取值區(qū)間為5-50，Y軸（特征Y）取值區(qū)間為3-7。另一方面，在標準化后的數據中，X軸取值區(qū)間時-0.15~0.15， Y軸的取值區(qū)間時-1.5~1.5。

通過標準化數據，即縮放數值從而使其特征范圍非常接近：而標準化數據只需要兩步過程。

讓數據減去其均值，使得數據的均值為 0，之后再讓該數據除以其方差，從而縮放數據。

mu = np.mean(X)
X = X - mu

sigma = np.linalg.norm(X)
X = X/sigma

這里有一點值得注意的是，我們需要使用同樣的 mu 值和 sigma 值去轉換我們的測試數據，因為我們想用同樣的方法來縮放它們。

為什么標準化會起作用呢？

既然我們已經知道了如何標準化數據集，那么讓我們試著理解為什么標準化能夠在下面的示例中起作用。下面是成本值 J，權重 W 和偏差 b 之間的等高線圖。中心表示我們必須達到的最小成本。

如何優(yōu)化深度神經網絡？

右邊的圖看起來更對稱，這是標準化背后的工作原理的關鍵。

如果特征的范圍變化很大，則不同權重的值也會隨著發(fā)生很大的變化，并且將花費更多的時間來選擇完美的權重集。然而，如果我們使用標準化數據，那么權重就不會有很大的變化，從而在較短的時間內獲得理想的權重集。

此外，如果使用原始數據，則必須使用較低的學習率來適應不同的等高線高度。但是在歸一化數據的情況下，我們有更多的球面輪廓，通過選擇更大的學習速率，我們可以直接實現最小值。

當特征在相似的尺度上時，優(yōu)化權重和偏差變得容易。

梯度消失和梯度爆炸

梯度消失和梯度爆炸問題源于權值的初始化。以上兩個問題都導致網絡的訓練不當和速度較慢問題。正如其名稱所暗示的那樣，當權重消失并最終變得太小時，就會出現梯度消失；然而在梯度爆炸中，權重會爆炸并變得過大。讓我們用一個案例來更好地理解它們。

設 W 是與單位矩陣 I 相近的經初始化的所有層的權重矩陣。

如何優(yōu)化深度神經網絡？

在前向傳播中，一個特定層的輸出 Z 由以下公式定義，其中 W 是權重矩陣，X 是輸入，b 是偏差：

如何優(yōu)化深度神經網絡？

如果我們在 L 層（L 為層數）上執(zhí)行上述計算，那么我們可以假設權重矩陣 W 將乘以 L 次，忽略偏差。

現在，如果特定值大于 1 ，例如 1.5，則層的激活將呈指數遞增，梯度將變大的，與此同時梯度下降將采取大的步長，并且網絡將花費很長時間來達到最小值。這種問題被稱為梯度爆炸。

同樣的，如果特定值小于 1，例如 0.9，則層的激活將呈指數遞減，梯度將變得很小，與此同時梯度下降將采取小的步長，并且網絡將需要很長時間才能達到最小值。 這種問題被稱為梯度消失。

為了避免梯度爆炸和梯度消失的問題，我們應該遵循以下規(guī)則：

1. 激活層的均值應該為 0
2. 激活層的方差應該在每一層都保持不變。

如果遵循上述規(guī)則，則能夠確保梯度下降不會采取太大或太小的步長，并以有序的方式向最小值方向移動，從而避免了梯度爆炸和梯度消失問題。這也意味著網絡將以更快的速度進行訓練和優(yōu)化。由于問題的根源在于權值的初始化不當，所以我們可以通過正確地初始化權值來解決這個問題。

Xavier 初始化

當特定層的激活函數為 Tanh 時，則使用 Xavier 初始化。我們可以按照以下方式使用 Xavier 初始化:

# Let the dimesnion of weight matrix be(5,3)
# The variance is (1/neurons in previous layer)
# Randn ensure that the mean = 0

W = np.random.randn(5,3) * np.sqrt(1/3))

He 初始化

當特定層的激活函數為 ReLU 時，可使用 He初始化。我們可以通過以下方式使用 He初始化：

# Let the shape of the weight matrix be(5,3)
# The variance is (2/neurons in previous layer)
# Randn ensure that the mean = 0

W = np.random.randn(5,3) * np.sqrt(2/3))

相關參考：

Deep Learning Notes

http://www.deeplearning.ai/ai-notes/initialization/

Coursera — Deep Learning Course 2

https://www.coursera.org/learn/deep-neural-network/home/welcome

via https://medium.com/analytics-vidhya/optimization-problem-in-deep-neural-networks-400f853af406

本文譯者：Ryan、肖書忠雷鋒網雷鋒網雷鋒網

雷峰網原創(chuàng)文章，未經授權禁止轉載。詳情見轉載須知。

8人收藏

叢末

編輯

發(fā)私信

當月熱門文章

如何優(yōu)化深度神經網絡？

輸入數據標準化

為什么標準化會起作用呢？

梯度消失和梯度爆炸

Xavier 初始化

He 初始化

為什么標準化會起作用呢？