0
本文作者: 奕欣 | 2018-01-04 17:25 |
雷鋒網(wǎng) AI 科技評論按:本文作者陳俊龍、劉竹林等,本文首發(fā)于公眾號德先生,AI 科技評論授權(quán)轉(zhuǎn)載。
本文是對陳俊龍教授團隊「Broad Learning System: An E?ective and E?cient Incremental Learning System Without the Need for Deep Architecture」的中文綜述,原文將在 IEEE Transactions on Neural Networks and Learning Systems, Vol. 29, Issue 1, 2018 發(fā)表。
論文鏈接:http://ieeexplore.ieee.org/document/7987745
文章代碼下載地址:http://www.broadlearning.ai
深層結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò)和學(xué)習(xí)已經(jīng)在許多領(lǐng)域得到應(yīng)用,并在大規(guī)模數(shù)據(jù)處理上取得了突破性的成功。目前,最受歡迎的深度網(wǎng)絡(luò)是深度信任網(wǎng)絡(luò)(Deep Belief Networks,DBN),深度玻爾茲曼機器(Deep Boltzmann Machines,DBM)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural Networks,CNN)等。
雖然深度結(jié)構(gòu)網(wǎng)絡(luò)非常強大,但大多數(shù)網(wǎng)絡(luò)都被極度耗時的訓(xùn)練過程所困擾。其中最主要的原因是,上述深度網(wǎng)絡(luò)都結(jié)構(gòu)復(fù)雜并且涉及到大量的超參數(shù)。另外,這種復(fù)雜性使得在理論上分析深層結(jié)構(gòu)變得極其困難。另一方面,為了在應(yīng)用中獲得更高的精度,深度模型不得不持續(xù)地增加網(wǎng)絡(luò)層數(shù)或者調(diào)整參數(shù)個數(shù)。
因此近年來,一系列以提高訓(xùn)練速度為目的的深度網(wǎng)絡(luò)以及相應(yīng)的結(jié)合方法逐漸引起人們關(guān)注。其中,寬度學(xué)習(xí)系統(tǒng)提供了一種深度學(xué)習(xí)網(wǎng)絡(luò)的替代方法,同時,如果網(wǎng)絡(luò)需要擴展,模型可以通過增量學(xué)習(xí)高效重建。
單層前饋神經(jīng)網(wǎng)絡(luò)(Single layer feedforward neural networks,SLFN)已被廣泛應(yīng)用于分類和回歸等問題,因為它們可以全局地逼近給定的目標函數(shù)。一般來說,基于梯度下降的 SLFN 的泛化性能對某些參數(shù)設(shè)置,例如學(xué)習(xí)率,非常敏感。更重要的是,他們通常在訓(xùn)練時收斂到局部最小值。為此,由 Yoh-Han Pao 教授在 1990 年代提出的隨機向量函數(shù)鏈接神經(jīng)網(wǎng)絡(luò)(random vector functional link neural network,RVFLNN)提供了不同的學(xué)習(xí)方法。
RVFLNN 有效地消除了訓(xùn)練過程過長的缺點,同時也保證了函數(shù)逼近的泛化能力。因此,RVFLNN 已經(jīng)被用來解決不同領(lǐng)域的問題,包括函數(shù)建模和控制等。雖然 RVFLNN 顯著提高了感知器的性能,但是在處理以大容量和時間多變性為本質(zhì)特性的大數(shù)據(jù)時,這種網(wǎng)絡(luò)并不能勝任。為了對中等大小數(shù)據(jù)進行建模,C. L. Philip Chen (陳俊龍) 在 1990 年代末也提出了一種動態(tài)逐步更新算法 (增量學(xué)習(xí)),用于更新 RVFLNN 中新增加輸入數(shù)據(jù)和新添加的增強節(jié)點的輸出權(quán)重。這項工作為調(diào)整遇到新的輸入數(shù)據(jù)的系統(tǒng)鋪平了道路。
另一方面,近年來除了數(shù)據(jù)量的增長之外,數(shù)據(jù)的維度也大大增加。假如將原始的「大」數(shù)據(jù)直接輸入神經(jīng)網(wǎng)絡(luò),系統(tǒng)往往無法再保持其有效性。如何處理高維數(shù)據(jù)最近成為迫在眉睫的問題??朔@個難題的兩個常見做法是降維和特征提取。其中,特征提取目的是尋求從輸入數(shù)據(jù)到特征向量的最佳函數(shù)變換。易于實現(xiàn)和效率突出的特征提取常用方法包括,變量排序(variable ranking),特征子集選擇(feature subset selection),懲罰最小二乘法(penalized least squares),隨機特征提取方法,包括非自適應(yīng)隨機投影(non-adaptive random projections)和隨機森林(random forest)以及基于卷積的輸入映射等等。
因此,對于特征提取,可以采用「映射特征」作為 RVFLNN 的輸入。本發(fā)明中提出的寬度學(xué)習(xí)系統(tǒng)(Broad Learning System,BLS)是基于將映射特征作為 RVFLNN 輸入的思想設(shè)計的。此外,BLS 可以在新加入的數(shù)據(jù)以有效和高效的方式更新系統(tǒng)(輸入的增量學(xué)習(xí))。BLS 的設(shè)計思路為:首先,利用輸入數(shù)據(jù)映射的特征作為網(wǎng)絡(luò)的「特征節(jié)點」。其次,映射的特征被增強為隨機生成權(quán)重的「增強節(jié)點」。最后,所有映射的特征和增強節(jié)點直接連接到輸出端,對應(yīng)的輸出系數(shù)可以通過快遞的 Pseudo 偽逆得出。為了在寬度上擴展特征節(jié)點和增強節(jié)點,論文中額外設(shè)計了對應(yīng)的寬度學(xué)習(xí)算法。同時,如果網(wǎng)絡(luò)結(jié)構(gòu)需要擴展,論文同時提出了無需完整網(wǎng)絡(luò)再訓(xùn)練的快速增量學(xué)習(xí)算法。
論文的其余結(jié)構(gòu)如下。首先介紹 RVFLNN,如圖 1-3 所示。其次,給出了所提出的寬度學(xué)習(xí)算法的細節(jié)。第三,在 MNIST 分類和 NORB 分類中實驗寬度學(xué)習(xí)系統(tǒng),同時與其他各種深度神經(jīng)網(wǎng)絡(luò)進行比較。最后,給出關(guān)于寬度學(xué)習(xí)系統(tǒng)的結(jié)論和討論。
如圖 4 所示,假設(shè)我們提供輸入數(shù)據(jù) X 并利用函數(shù)?i(XWei+βei) 映射產(chǎn)生第 i 組映射特征 Zi。其中,Wei 是具有適當維度的隨機權(quán)重系數(shù)。給定記號 Zi≡[Z1, . . . , Zi] 表示前 i 組所有映射特征。同樣的,第 j 組增強節(jié)點ξj(ZiWhj+βhj ) 被記為 Hj,同時前 j 組所有增強節(jié)點被記為 Hj≡ [H1,. . . , Hj]。實際上,根據(jù)建模任務(wù)的復(fù)雜性,可以選擇不同的 i 和 j。此外,當 i≠k 時,?i 和?k 可以是不同函數(shù)。同樣,當 j≠r,ξj 與ξr 也可以不同。在不失一般性的情況下,本文省略了隨機映射?i 和ξj 的下標。圖 4 表征了論文提出的寬度學(xué)習(xí)網(wǎng)絡(luò)的結(jié)構(gòu)。
論文中還提供了三種不同的增量學(xué)習(xí)算法,包括增強節(jié)點增量,特征節(jié)點增量和輸入數(shù)據(jù)增量(圖 5)。由于更新輸出層的 Pseudo 偽逆時,只需要計算新加入的節(jié)點的偽逆,增量學(xué)習(xí)的訓(xùn)練過程節(jié)省了大量的時間。從這個角度分析,寬度學(xué)習(xí)系統(tǒng)可以高效重建需要在線學(xué)習(xí)的模型。
在 BLS 的基礎(chǔ)上,我們提出了一種新的神經(jīng)-模糊模型,我們稱之為模糊 BLS。該模糊 BLS 保持了 BLS 的基本結(jié)構(gòu),將 BLS 的 feature nodes 部分替換為 Takagi-Sugeno 型模糊子系統(tǒng),同時去掉了原來的 sparse autoencoder(如圖 6-7 所示)。輸入數(shù)據(jù)會送入每一個模糊子系統(tǒng)進行處理,然后將每個模糊子系統(tǒng)的輸出作為 enhancement 節(jié)點的輸入。在模糊 BLS 中,我們也只需要通過偽逆來計算頂層權(quán)重,而模糊子系統(tǒng)部分的參數(shù)將通過聚類和隨機產(chǎn)生的數(shù)據(jù)來決定。這樣我們可以減少模糊規(guī)則數(shù),大大加快模糊子系統(tǒng)部分計算速度。在函數(shù)逼近和分類問題上,與經(jīng)典的和目前主流的神經(jīng)-模糊模型相比,模糊 BLS 在精度和訓(xùn)練時間上都表現(xiàn)出極大的優(yōu)勢。關(guān)于模糊 BLS 的論文目前正在審稿中,之后我們會提供更詳細的描述。
如果在特征節(jié)點內(nèi),增強節(jié)點內(nèi),以及特征節(jié)點和增強節(jié)點之間建立不同的權(quán)重連接,寬度學(xué)習(xí)網(wǎng)絡(luò)可以產(chǎn)生不同的變體。其中一種典型的結(jié)構(gòu)如圖 8,圖 9 所示。對應(yīng)的數(shù)學(xué)模型以及增量學(xué)習(xí)模型可以在即將發(fā)表的論文中查看。
另一種變形的把寬度學(xué)習(xí)結(jié)構(gòu)里的串聯(lián)增強節(jié)點,這樣就可以成為寬深學(xué)習(xí)網(wǎng)絡(luò),如圖 10,圖 11 所示。寬深網(wǎng)絡(luò)數(shù)學(xué)模型以及增量學(xué)習(xí)模型也可以在即將發(fā)表的論文中查看。
最后,相關(guān)實驗結(jié)果被給出以驗證所提出的寬度學(xué)習(xí)系統(tǒng)。為了確定提出的系統(tǒng)的有效性,論文測試了寬度學(xué)習(xí)系統(tǒng)在 MNIST 數(shù)據(jù)下的分類表現(xiàn)。同時,為了證明 BLS 的有效性,我們將與現(xiàn)有「主流」方法的分類能力進行比較,包括堆疊自動編碼器(Stacked Auto Encoders,SAE),另一個版本的堆疊自動編碼器(another version of stacked autoencoder,SDA),深度信念網(wǎng)絡(luò)(Deep Belief Networks,DBN),基于多層感知器的方法(Multilayer Perceptron based methods,MLP)深玻爾茲曼機(Deep Boltzmann Machines,DBM),兩種的基于 ELM 的多層結(jié)構(gòu),分別表示為 MLELM 和 HELM。在我們的實驗中,網(wǎng)絡(luò)由 10×10 特征節(jié)點和 1×11000 增強節(jié)點構(gòu)成。相關(guān)的權(quán)重均為隨機生成。
BLS 的測試精度以及其他所提到的深度算法測試精度如表格 1 所示。雖然 98.74% 不是最優(yōu)秀的(事實上,深度學(xué)習(xí)的表現(xiàn)仍然比 SAE 和 MLP 好),BLS 在服務(wù)器上的訓(xùn)練時間被壓縮到了 29.6968 秒。此外,應(yīng)該注意的是,MNIST 數(shù)據(jù)特征的數(shù)量減少到 100。這個結(jié)果符合學(xué)者在大數(shù)據(jù)學(xué)習(xí)中的直覺,也就是現(xiàn)實應(yīng)用中的數(shù)據(jù)信息通常是冗余的。
表格 2 是 BLS 在 NORB 數(shù)據(jù)庫上的分類表現(xiàn)以及和其他模型的比較,最后兩行 BL 是「寬度學(xué)」的結(jié)果,其它都是深度學(xué)習(xí)算法的結(jié)果,表明寬度學(xué)習(xí)算法是又快又準。
另外,我們還對增加的輸入測試增量寬度學(xué)習(xí)算法。測試結(jié)果如表格 3 所示,表明設(shè)計的算法高效并且有效。從而,我們進一步得出結(jié)論,本文所提出的寬度學(xué)習(xí)算法,可以逐步更新建模系統(tǒng),而無需從一開始重新訓(xùn)練整個系統(tǒng)。尤其當系統(tǒng)收集到新輸入數(shù)據(jù)時,現(xiàn)有網(wǎng)絡(luò)結(jié)構(gòu)迫切需要更新以反映系統(tǒng)的真實性和完整性。這一功能完全適用于大數(shù)據(jù)時代。基于上述實驗,寬度學(xué)習(xí)系統(tǒng)在訓(xùn)練速度方面明顯優(yōu)于現(xiàn)有的深度結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò)。此外,與其他 MLP 訓(xùn)練方法相比,寬度學(xué)習(xí)系統(tǒng)在分類準確性和學(xué)習(xí)速度都有長足的表現(xiàn)。與數(shù)百個迭代的高性能電腦下幾十小時或幾天的訓(xùn)練相比,寬度學(xué)習(xí)系統(tǒng)可以在幾十秒或幾分鐘內(nèi)輕松構(gòu)建,即使在普通 PC 中也是如此。
我們對 20 萬的數(shù)據(jù),每個數(shù)據(jù)維度從一萬維度到三萬維度,做測試,在 3 分鐘到 50 分鐘之內(nèi),寬度學(xué)習(xí)都很快的找到神經(jīng)網(wǎng)絡(luò)的權(quán)重。另外在函數(shù)逼近和回歸問題上,BLS 和模糊 BLS 都表現(xiàn)出較高的精度,具體參數(shù)設(shè)置和結(jié)果見表格 4 和 5。
綜上所述,我們認為 BLS 以及它的各種變體和擴展結(jié)構(gòu)具有良好的發(fā)展?jié)摿?,在實際應(yīng)用中表現(xiàn)出其快速且高精度的優(yōu)秀性能。
陳俊龍系澳門大學(xué)講座教授及科技學(xué)院前院長,博士生導(dǎo)師,國家千人學(xué)者,自動化學(xué)會副理事長,IEEE Transactions on Systems, Man, and Cybernetics: Systems 期刊主編。1985 年獲美國密西根大學(xué)碩士學(xué)位,1988 年獲美國普度大學(xué)博士學(xué)位。曾在美國德州大學(xué)工學(xué)院任終身教授、工學(xué)院副院長及電機計算機系主任。曾任 IEEE Systems, Man, and Cybernetics Society (SMCS) 學(xué)會國際總主席(2012-2013),現(xiàn)任資深主席(2016-2017)。陳教授是 IEEE Fellow、AAAS Fellow、CAA Fellow、國際系統(tǒng)及控制論科學(xué)院院士(IASCYS)、香港工程師學(xué)會 Fellow,擔(dān)任多個 IEEE 期刊副主編。科研方向包括:系統(tǒng)及智能算法理論與工程,數(shù)據(jù)分析及挖掘,物理建模及智能控制。
陳教授近五年主持與參與的各類國家科技計劃包括:國家基金委、科技部 973 物聯(lián)網(wǎng)計劃子課題和澳門科學(xué)基金會。曾承接美國基金委,美國航天局,美國空軍科研實驗室,海軍研究實驗室科研計劃。兩次獲澳門自然科學(xué)獎,2016 年獲母校美國普度大學(xué)杰出電機與計算機工程獎。
劉竹林,現(xiàn)為澳門大學(xué)計算機科學(xué)博士生,山東大學(xué)數(shù)學(xué)本科,澳門大學(xué)碩士畢業(yè),科研興趣為計算智能、機器學(xué)習(xí)、函數(shù)逼近。馮霜,北京師范大學(xué)數(shù)學(xué)本科、碩士畢業(yè),現(xiàn)為澳門大學(xué)計算機科學(xué)博士生,研究興趣為模糊系統(tǒng)、模糊神經(jīng)網(wǎng)絡(luò)及應(yīng)用、計算智能。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。