遷移學(xué)習怎么做？遷移成分分析 (TCA) 方法簡介

本文作者： AI研習社

編輯：賈智龍

2017-09-27 17:07

導(dǎo)語：以我最喜愛的楊強老師的代表性方法 TCA 為主題。

雷鋒網(wǎng)按：本文原作者王晉東不在家，本文原載于知乎專欄——機器有顆玻璃心。雷鋒網(wǎng)已獲得轉(zhuǎn)載授權(quán)。王晉東 (不在家)，中國科學(xué)院計算技術(shù)研究所博士生，目前研究方向為機器學(xué)習、遷移學(xué)習、人工智能等。

之前整理總結(jié)遷移學(xué)習資料的時候有網(wǎng)友評論，大意就是現(xiàn)在的類似資料大全的東西已經(jīng)太多了，想更深入地了解特定的細節(jié)。從這篇文章開始我將以《小王愛遷移》為名寫一系列的介紹分析性的文章，與大家共享遷移學(xué)習中的代表性方法、理論與自己的感想。由于我的水平有限，請各位多多提意見，我們一起進步。今天第一篇必須以我最喜愛的楊強老師的代表性方法 TCA 為主題！（我的第一篇文章也是基于 TCA 做的）
【我剛整理重寫好的加速版 TCA 代碼（matlab）：jindongwang/transferlearning】

問題背景

機器學(xué)習中有一類非常有效的方法叫做降維（dimensionality reduction），用簡單的話來說就是，把原來很高維度的數(shù)據(jù)（比如數(shù)據(jù)有 1000 多列）用很少的一些代表性維度來表示（比如 1000 多維用 100 維來表示）而不丟失關(guān)鍵的數(shù)據(jù)信息。這些降維方法多種多樣，比如：主成分分析（PCA，principal component analysis）、局部線性嵌入（LLE,locally linear embedding）、拉普拉斯特征映射（Laplacian eigen-map）等。這些方法的過程大體都是一個大的矩陣作為輸入，然后輸出一個小矩陣。那么在遷移學(xué)習中，有沒有這樣的方法，通過降維來達到數(shù)據(jù)維度減少，而且能達到遷移學(xué)習目的呢？答案是顯然的，就是我們要說的遷移成分分析（TCA，transfer component analysis）。看，名字就跟 PCA 很像。

TCA 最早是由香港科技大學(xué)楊強教授團隊提出，首次出現(xiàn)在 AAAI-09 上，后來整理豐富成了一篇期刊文章，發(fā)表在 11 年的 IEEE Trans. Neural Network（現(xiàn)在這個期刊名字后面多了 and Learning System）上。這個方法是遷移學(xué)習領(lǐng)域經(jīng)典性的文章，從 2011 年到現(xiàn)在接近 6 年過去，在 Google scholar 上引用量為 569 次，并且在持續(xù)增長。

簡介

TCA 屬于基于特征的遷移學(xué)習方法。那么，它做了一件什么事呢？用通俗的語言來說，跟 PCA 很像：PCA 是一個大矩陣進去，一個小矩陣出來，TCA 呢，是兩個大矩陣進去，兩個小矩陣出來。從學(xué)術(shù)角度講，TCA 針對 domain adaptation 問題中，源域和目標域處于不同數(shù)據(jù)分布時，將兩個領(lǐng)域的數(shù)據(jù)一起映射到一個高維的再生核希爾伯特空間。在此空間中，最小化源和目標的數(shù)據(jù)距離，同時最大程度地保留它們各自的內(nèi)部屬性。直觀地理解就是，在現(xiàn)在這個維度上不好最小化它們的距離，那么我就找個映射，在映射后的空間上讓它們最接近，那么我不就可以進行分類了嗎？

我一直強調(diào)，任何問題都要看它的本質(zhì)，TCA 本質(zhì)是什么呢？完成遷移學(xué)習的要求。遷移學(xué)習的要求是什么呢？讓源域和目標域距離盡可能小唄。

方法

有許多種方法都在試圖減小源域和目標域的距離，那么，TCA 的貢獻在哪里？以我的理解，TCA 將這個計算距離的方法變得通用而簡單，這就是它最大的貢獻。下面我以自己的理解介紹 TCA 方法的基本流程。

假設(shè)

任何方法都基于一定的假設(shè)。胡適說過，大膽假設(shè)，小心求證。但是他那個時候沒有計算機，我們搞計算機的人則是，大膽假設(shè)，更大膽求證。為啥？我們就算失敗了也沒有什么嘛，最多把電腦搞崩潰了我再重裝系統(tǒng)么。所以，搞學(xué)術(shù)一定不要怕假設(shè)。假設(shè)是學(xué)術(shù)成功的基石呢！

TCA 的假設(shè)是什么呢？很簡單：源域和目標域的邊緣分布是不一樣的，也就是說， $遷移學(xué)習怎么做？遷移成分分析 (TCA) 方法簡介$ ，所以不能直接用傳統(tǒng)的機器學(xué)習方法。但是呢，TCA 假設(shè)存在一個特征映射 $\phi$，使得映射后數(shù)據(jù)的分布 $遷移學(xué)習怎么做？遷移成分分析 (TCA) 方法簡介$ ，更進一步，條件分布 $遷移學(xué)習怎么做？遷移成分分析 (TCA) 方法簡介$ 。這不就行了么。好了，我們現(xiàn)在的目標是，找到這個合適的 $\phi$，一作映射，這事就解決了。

具體

但是世界上有無窮個這樣的 $遷移學(xué)習怎么做？遷移成分分析 (TCA) 方法簡介$ ，也許終我們一生也無法找到這樣的 $遷移學(xué)習怎么做？遷移成分分析 (TCA) 方法簡介$ 。莊子說過，吾生也有涯，而知也無涯，以有涯隨無涯，殆已！我們肯定不能通過窮舉的方法來找 $遷移學(xué)習怎么做？遷移成分分析 (TCA) 方法簡介$ 的。那么怎么辦呢？

回到遷移學(xué)習的本質(zhì)上來：最小化源域和目標域的距離。好了，我們能不能先假設(shè)這個 $遷移學(xué)習怎么做？遷移成分分析 (TCA) 方法簡介$ 是已知的，然后去求距離，看看能推出什么呢？

更進一步，這個距離怎么算？世界上有好多距離，從歐氏距離到馬氏距離，從曼哈頓距離到余弦相似度，我們需要什么距離呢？TCA 利用了一個經(jīng)典的也算是比較 “高端” 的距離叫做最大均值差異（MMD，maximum mean discrepancy）。這個距離的公式如下：

$遷移學(xué)習怎么做？遷移成分分析 (TCA) 方法簡介$

看著很高端（實際上也很高端）。MMD 是做了一件什么事呢？簡單，就是求映射后源域和目標域的均值之差嘛。

事情到這里似乎也沒什么進展：我們想求的 $遷移學(xué)習怎么做？遷移成分分析 (TCA) 方法簡介$ 仍然沒法求。

TCA 是怎么做的呢，這里就要感謝矩陣了！我們發(fā)現(xiàn)，上面這個 MMD 距離平方展開后，有二次項乘積的部分！那么，聯(lián)系在 SVM 中學(xué)過的核函數(shù)，把一個難求的映射以核函數(shù)的形式來求，不就可以了？于是，TCA 引入了一個核矩陣 $遷移學(xué)習怎么做？遷移成分分析 (TCA) 方法簡介$ ：

$遷移學(xué)習怎么做？遷移成分分析 (TCA) 方法簡介$

以及 $遷移學(xué)習怎么做？遷移成分分析 (TCA) 方法簡介$ :

$遷移學(xué)習怎么做？遷移成分分析 (TCA) 方法簡介$

這樣的好處是，直接把那個難求的距離，變換成了下面的形式：

$遷移學(xué)習怎么做？遷移成分分析 (TCA) 方法簡介$

trace 是矩陣的跡，用人話來說就是一個矩陣對角線元素的和。這樣是不是感覺離目標又進了一步呢？

其實這個問題到這里就已經(jīng)是可解的了，也就是說，屬于計算機的部分已經(jīng)做完了。只不過它是一個數(shù)學(xué)中的半定規(guī)劃（SDP，semi-definite programming）的問題，解決起來非常耗費時間。由于 TCA 的第一作者 Sinno Jialin Pan 以前是中山大學(xué)的數(shù)學(xué)碩士，他想用更簡單的方法來解決。他是怎么做的呢？

他想出了用降維的方法去構(gòu)造結(jié)果。 $遷移學(xué)習怎么做？遷移成分分析 (TCA) 方法簡介$

這里的 W 矩陣是比 K 更低維度的矩陣。最后的 W 就是問題的解答了！

求解

好了，問題到這里，整理一下，TCA 最后的優(yōu)化目標是：

$遷移學(xué)習怎么做？遷移成分分析 (TCA) 方法簡介$

這里的 $H$ 是一個中心矩陣， $遷移學(xué)習怎么做？遷移成分分析 (TCA) 方法簡介$ .

這個式子下面的條件是什么意思呢？那個 min 的目標我們大概理解，就是要最小化源域和目標域的距離，加上 W 的約束讓它不能太復(fù)雜。那么下面的條件是什么呢？下面的條件就是要實現(xiàn)第二個目標：維持各自的數(shù)據(jù)特征。TCA 要維持的是什么特征呢？文章中說是 variance，但是實際是 scatter matrix，就是數(shù)據(jù)的散度。就是說，一個矩陣散度怎么計算？對于一個矩陣 $遷移學(xué)習怎么做？遷移成分分析 (TCA) 方法簡介$ ，它的 scatter matrix 就是 $遷移學(xué)習怎么做？遷移成分分析 (TCA) 方法簡介$ 。這個 $遷移學(xué)習怎么做？遷移成分分析 (TCA) 方法簡介$ 就是上面的中心矩陣啦。

解決上面的優(yōu)化問題時，作者又求了它的拉格朗日對偶。最后得出結(jié)論，W 的解就是的前 m 個特征值！簡單不？數(shù)學(xué)美不美？然而，我是想不出的呀！

小結(jié)

好了，我們現(xiàn)在總結(jié)一下 TCA 方法的步驟。輸入是兩個特征矩陣，我們首先計算 L 和 H 矩陣，然后選擇一些常用的核函數(shù)進行映射（比如線性核、高斯核）計算 K，接著求 $遷移學(xué)習怎么做？遷移成分分析 (TCA) 方法簡介$ 的前 m 個特征值。僅此而已哦。然后，得到的就是源域和目標域的降維后的數(shù)據(jù)，我們就可以在上面用傳統(tǒng)機器學(xué)習方法了。

總結(jié)

怎么樣，到此為止我們把 TCA 方法介紹完了。我們回顧一下，它的最核心工作是什么呢？我認為有兩點：一是把問題轉(zhuǎn)化成數(shù)學(xué)問題轉(zhuǎn)化得很徹底；二是最優(yōu)化求解方法很厲害。我們能從中學(xué)習什么呢？求解問題的方法感覺是學(xué)不來了，我們又不是數(shù)學(xué)出身。我們只能照貓畫虎，學(xué)習人家對問題的轉(zhuǎn)化方式，怎么就能很好地把一個問題轉(zhuǎn)化成數(shù)學(xué)表示？這也是機器學(xué)習和人工智能相關(guān)方向研究生最重要的能力！關(guān)于 TCA 的 Python 和 Matlab 代碼可以參考我的 Github：jindongwang/transferlearning。

最后說一個 TCA 的優(yōu)缺點。優(yōu)點是實現(xiàn)簡單，方法本身沒有太多的限制，就跟 PCA 一樣很好用。缺點就是，盡管它繞開了 SDP 問題求解，然而對于大矩陣還是需要很多計算時間。主要消耗時間的操作是，最后那個偽逆的求解以及特征值分解。在我的電腦上（i7-4790CPU+24GB 內(nèi)存）跑 2000*2000 的核矩陣時間大概是 20 秒。

References

[1] TCA 原版文章：S. J. Pan, I. W. Tsang, J. T. Kwok and Q. Yang, "Domain Adaptation via Transfer Component Analysis," in IEEE Transactions on Neural Networks, vol. 22, no. 2, pp. 199-210, Feb. 2011.doi: 10.1109/TNN.2010.2091281

[2] Scatter matrix: Scatter matrix | Wikiwand

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。