神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理

本文作者： AI研習(xí)社

編輯：賈智龍

2017-09-27 17:20

導(dǎo)語(yǔ)：反向傳播最近爭(zhēng)議這么大，數(shù)學(xué)原理是什么呢？

雷鋒網(wǎng)按：本文原作者李飛騰，本文整理自知乎專欄——數(shù)字編程。雷鋒網(wǎng)已獲得轉(zhuǎn)載授權(quán)。

如果能二秒內(nèi)在腦袋里解出下面的問(wèn)題，本文便結(jié)束了。

已知： $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ ，其中 $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ 。

求： $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ ， $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ ， $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ 。

到這里，請(qǐng)耐心看完下面的公式推導(dǎo)，無(wú)需長(zhǎng)久心里建設(shè)。

首先，反向傳播的數(shù)學(xué)原理是 “求導(dǎo)的鏈?zhǔn)椒▌t” :

設(shè) $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ 和 $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ 為 $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ 的可導(dǎo)函數(shù)，則 $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ 。

接下來(lái)介紹

矩陣、向量求導(dǎo)的維數(shù)相容原則
利用維數(shù)相容原則快速推導(dǎo)反向傳播
編程實(shí)現(xiàn)前向傳播、反向傳播
卷積神經(jīng)網(wǎng)絡(luò)的反向傳播

快速矩陣、向量求導(dǎo)

這一節(jié)展示如何使用鏈?zhǔn)椒▌t、轉(zhuǎn)置、組合等技巧來(lái)快速完成對(duì)矩陣、向量的求導(dǎo)

一個(gè)原則維數(shù)相容，實(shí)質(zhì)是多元微分基本知識(shí)，沒(méi)有在課本中找到下列內(nèi)容，維數(shù)相容原則是我個(gè)人總結(jié)：

維數(shù)相容原則：通過(guò)前后換序、轉(zhuǎn)置 使求導(dǎo)結(jié)果滿足矩陣乘法且結(jié)果維數(shù)滿足下式：

如果 $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ ， $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ ，那么 $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ 。

利用維數(shù)相容原則解上例：

step1：把所有參數(shù)當(dāng)做實(shí)數(shù)來(lái)求導(dǎo)， $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ ，

依據(jù)鏈?zhǔn)椒▌t有 $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ ， $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ ， $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$

可以看出除了 $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ ， $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ 和 $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ 的求導(dǎo)結(jié)果在維數(shù)上連矩陣乘法都不能滿足。

step2：根據(jù) step1 的求導(dǎo)結(jié)果，依據(jù)維數(shù)相容原則做調(diào)整：前后換序、轉(zhuǎn)置

依據(jù)維數(shù)相容原則 $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ ，但 $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ 中 $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ 、 $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ ，自然得調(diào)整為 $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ ；

同理： $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ ，但 $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ 中 $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ 、 $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ ，那么通過(guò)換序、轉(zhuǎn)置我們可以得到維數(shù)相容的結(jié)果 $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ 。

對(duì)于矩陣、向量求導(dǎo)：

“當(dāng)做一維實(shí)數(shù)使用鏈?zhǔn)椒▌t求導(dǎo)，然后做維數(shù)相容調(diào)整，使之符合矩陣乘法原則且維數(shù)相容” 是快速準(zhǔn)確的策略；
“對(duì)單個(gè)元素求導(dǎo)、再整理成矩陣形式” 這種方式整理是困難的、過(guò)程是緩慢的，結(jié)果是易出錯(cuò)的（不信你試試）。

如何證明經(jīng)過(guò)維數(shù)相容原則調(diào)整后的結(jié)果是正確的呢？直覺(jué)！簡(jiǎn)單就是美...

快速反向傳播

神經(jīng)網(wǎng)絡(luò)的反向傳播求得 “各層” 參數(shù) $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ 和 $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ 的導(dǎo)數(shù)，使用梯度下降（一階 GD、SGD，二階 LBFGS、共軛梯度等）優(yōu)化目標(biāo)函數(shù)。

接下來(lái)，展示不使用下標(biāo)的記法（ $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ , $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ or $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ ）直接對(duì) $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ 和 $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ 求導(dǎo)，反向傳播是鏈?zhǔn)椒▌t和維數(shù)相容原則的完美體現(xiàn)，對(duì)每一層參數(shù)的求導(dǎo)利用上一層的中間結(jié)果完成。

這里的標(biāo)號(hào)，參考 UFLDL 教程 - Ufldl

前向傳播：

$神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ （公式 1）

$神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ （公式 2）

$神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ 為第 $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ 層的中間結(jié)果， $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ 為第 $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ 層的激活值，其中第 $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ 層包含元素：輸入 $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ ，參數(shù) $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ 、 $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ ，激活函數(shù) $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ ，中間結(jié)果 $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ ，輸出 $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ 。

設(shè)神經(jīng)網(wǎng)絡(luò)的損失函數(shù)為 $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ （這里不給出具體公式，可以是交叉熵、MSE 等），根據(jù)鏈?zhǔn)椒▌t有：

$神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$

這里記 $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ ，其中 $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ 、 $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ 可由 公式 1 得出， $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ 加轉(zhuǎn)置符號(hào) $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ 是根據(jù)維數(shù)相容原則作出的調(diào)整。

如何求 $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ ？可使用如下遞推（需根據(jù)維數(shù)相容原則作出調(diào)整）：

$神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$

其中 $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ 、 $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ 。

那么我們可以從最頂層逐層往下，便可以遞推求得每一層的 $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$

注意： $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ 是逐維求導(dǎo)，在公式中是點(diǎn)乘的形式。

反向傳播整個(gè)流程如下：

1) 進(jìn)行前向傳播計(jì)算，利用前向傳播公式，得到隱藏層和輸出層的激活值。

2) 對(duì)輸出層 (第 $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ 層)，計(jì)算殘差：

$神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ （不同損失函數(shù)，結(jié)果不同，這里不給出具體形式）

3) 對(duì)于 $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ 的隱藏層，計(jì)算：

$神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$

4) 計(jì)算各層參數(shù) $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ 、 $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ 偏導(dǎo)數(shù)：

$神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$
$神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$

編程實(shí)現(xiàn)

大部分開(kāi)源 library（如：caffe，Kaldi/src/{nnet1,nnet2}）的實(shí)現(xiàn)通常把 $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ 、 $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ 作為一個(gè) layer，激活函數(shù) $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ 作為一個(gè) layer（如：sigmoid、relu、softplus、softmax）。

反向傳播時(shí)分清楚該層的輸入、輸出即能正確編程實(shí)現(xiàn), 如：

$神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ (公式 1)

$神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ (公式 2)

(1) 式 AffineTransform/FullConnected 層，以下是偽代碼：

神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理

注: out_diff = $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ 是上一層（Softmax 或 Sigmoid/ReLU 的 in_diff）已經(jīng)求得：

$神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ （公式 1-1）

$神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ （公式 1-2）

$神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ （公式 1-3）

(2) 式激活函數(shù)層（以 Sigmoid 為例）

注：out_diff = $神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$ 是上一層 AffineTransform 的 in_diff，已經(jīng)求得,

$神經(jīng)網(wǎng)絡(luò)反向傳播的數(shù)學(xué)原理$

在實(shí)際編程實(shí)現(xiàn)時(shí)，in、out 可能是矩陣 (通常以一行存儲(chǔ)一個(gè)輸入向量，矩陣的行數(shù)就是 batch_size)，那么上面的 C++ 代碼就要做出變化（改變前后順序、轉(zhuǎn)置，把函數(shù)參數(shù)的 Vector 換成 Matrix，此時(shí) Matrix out_diff 每一行就要存儲(chǔ)對(duì)應(yīng)一個(gè) Vector 的 diff，在 update 的時(shí)候要做這個(gè) batch 的加和，這個(gè)加和可以通過(guò)矩陣相乘 out_diff*input（適當(dāng)?shù)霓D(zhuǎn)置）得到。

如果熟悉 SVD 分解的過(guò)程，通過(guò) SVD 逆過(guò)程就可以輕松理解這種通過(guò)乘積來(lái)做加和的技巧。

丟掉那些下標(biāo)記法吧！