0
本文作者: 奕欣 | 2018-01-04 17:25 |
雷鋒網(wǎng) AI 科技評(píng)論按:本文作者陳俊龍、劉竹林等,本文首發(fā)于公眾號(hào)德先生,AI 科技評(píng)論授權(quán)轉(zhuǎn)載。
本文是對(duì)陳俊龍教授團(tuán)隊(duì)「Broad Learning System: An E?ective and E?cient Incremental Learning System Without the Need for Deep Architecture」的中文綜述,原文將在 IEEE Transactions on Neural Networks and Learning Systems, Vol. 29, Issue 1, 2018 發(fā)表。
論文鏈接:http://ieeexplore.ieee.org/document/7987745
文章代碼下載地址:http://www.broadlearning.ai
深層結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò)和學(xué)習(xí)已經(jīng)在許多領(lǐng)域得到應(yīng)用,并在大規(guī)模數(shù)據(jù)處理上取得了突破性的成功。目前,最受歡迎的深度網(wǎng)絡(luò)是深度信任網(wǎng)絡(luò)(Deep Belief Networks,DBN),深度玻爾茲曼機(jī)器(Deep Boltzmann Machines,DBM)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural Networks,CNN)等。
雖然深度結(jié)構(gòu)網(wǎng)絡(luò)非常強(qiáng)大,但大多數(shù)網(wǎng)絡(luò)都被極度耗時(shí)的訓(xùn)練過(guò)程所困擾。其中最主要的原因是,上述深度網(wǎng)絡(luò)都結(jié)構(gòu)復(fù)雜并且涉及到大量的超參數(shù)。另外,這種復(fù)雜性使得在理論上分析深層結(jié)構(gòu)變得極其困難。另一方面,為了在應(yīng)用中獲得更高的精度,深度模型不得不持續(xù)地增加網(wǎng)絡(luò)層數(shù)或者調(diào)整參數(shù)個(gè)數(shù)。
因此近年來(lái),一系列以提高訓(xùn)練速度為目的的深度網(wǎng)絡(luò)以及相應(yīng)的結(jié)合方法逐漸引起人們關(guān)注。其中,寬度學(xué)習(xí)系統(tǒng)提供了一種深度學(xué)習(xí)網(wǎng)絡(luò)的替代方法,同時(shí),如果網(wǎng)絡(luò)需要擴(kuò)展,模型可以通過(guò)增量學(xué)習(xí)高效重建。
單層前饋神經(jīng)網(wǎng)絡(luò)(Single layer feedforward neural networks,SLFN)已被廣泛應(yīng)用于分類和回歸等問(wèn)題,因?yàn)樗鼈兛梢匀值乇平o定的目標(biāo)函數(shù)。一般來(lái)說(shuō),基于梯度下降的 SLFN 的泛化性能對(duì)某些參數(shù)設(shè)置,例如學(xué)習(xí)率,非常敏感。更重要的是,他們通常在訓(xùn)練時(shí)收斂到局部最小值。為此,由 Yoh-Han Pao 教授在 1990 年代提出的隨機(jī)向量函數(shù)鏈接神經(jīng)網(wǎng)絡(luò)(random vector functional link neural network,RVFLNN)提供了不同的學(xué)習(xí)方法。
RVFLNN 有效地消除了訓(xùn)練過(guò)程過(guò)長(zhǎng)的缺點(diǎn),同時(shí)也保證了函數(shù)逼近的泛化能力。因此,RVFLNN 已經(jīng)被用來(lái)解決不同領(lǐng)域的問(wèn)題,包括函數(shù)建模和控制等。雖然 RVFLNN 顯著提高了感知器的性能,但是在處理以大容量和時(shí)間多變性為本質(zhì)特性的大數(shù)據(jù)時(shí),這種網(wǎng)絡(luò)并不能勝任。為了對(duì)中等大小數(shù)據(jù)進(jìn)行建模,C. L. Philip Chen (陳俊龍) 在 1990 年代末也提出了一種動(dòng)態(tài)逐步更新算法 (增量學(xué)習(xí)),用于更新 RVFLNN 中新增加輸入數(shù)據(jù)和新添加的增強(qiáng)節(jié)點(diǎn)的輸出權(quán)重。這項(xiàng)工作為調(diào)整遇到新的輸入數(shù)據(jù)的系統(tǒng)鋪平了道路。
另一方面,近年來(lái)除了數(shù)據(jù)量的增長(zhǎng)之外,數(shù)據(jù)的維度也大大增加。假如將原始的「大」數(shù)據(jù)直接輸入神經(jīng)網(wǎng)絡(luò),系統(tǒng)往往無(wú)法再保持其有效性。如何處理高維數(shù)據(jù)最近成為迫在眉睫的問(wèn)題??朔@個(gè)難題的兩個(gè)常見(jiàn)做法是降維和特征提取。其中,特征提取目的是尋求從輸入數(shù)據(jù)到特征向量的最佳函數(shù)變換。易于實(shí)現(xiàn)和效率突出的特征提取常用方法包括,變量排序(variable ranking),特征子集選擇(feature subset selection),懲罰最小二乘法(penalized least squares),隨機(jī)特征提取方法,包括非自適應(yīng)隨機(jī)投影(non-adaptive random projections)和隨機(jī)森林(random forest)以及基于卷積的輸入映射等等。
因此,對(duì)于特征提取,可以采用「映射特征」作為 RVFLNN 的輸入。本發(fā)明中提出的寬度學(xué)習(xí)系統(tǒng)(Broad Learning System,BLS)是基于將映射特征作為 RVFLNN 輸入的思想設(shè)計(jì)的。此外,BLS 可以在新加入的數(shù)據(jù)以有效和高效的方式更新系統(tǒng)(輸入的增量學(xué)習(xí))。BLS 的設(shè)計(jì)思路為:首先,利用輸入數(shù)據(jù)映射的特征作為網(wǎng)絡(luò)的「特征節(jié)點(diǎn)」。其次,映射的特征被增強(qiáng)為隨機(jī)生成權(quán)重的「增強(qiáng)節(jié)點(diǎn)」。最后,所有映射的特征和增強(qiáng)節(jié)點(diǎn)直接連接到輸出端,對(duì)應(yīng)的輸出系數(shù)可以通過(guò)快遞的 Pseudo 偽逆得出。為了在寬度上擴(kuò)展特征節(jié)點(diǎn)和增強(qiáng)節(jié)點(diǎn),論文中額外設(shè)計(jì)了對(duì)應(yīng)的寬度學(xué)習(xí)算法。同時(shí),如果網(wǎng)絡(luò)結(jié)構(gòu)需要擴(kuò)展,論文同時(shí)提出了無(wú)需完整網(wǎng)絡(luò)再訓(xùn)練的快速增量學(xué)習(xí)算法。
論文的其余結(jié)構(gòu)如下。首先介紹 RVFLNN,如圖 1-3 所示。其次,給出了所提出的寬度學(xué)習(xí)算法的細(xì)節(jié)。第三,在 MNIST 分類和 NORB 分類中實(shí)驗(yàn)寬度學(xué)習(xí)系統(tǒng),同時(shí)與其他各種深度神經(jīng)網(wǎng)絡(luò)進(jìn)行比較。最后,給出關(guān)于寬度學(xué)習(xí)系統(tǒng)的結(jié)論和討論。
如圖 4 所示,假設(shè)我們提供輸入數(shù)據(jù) X 并利用函數(shù)?i(XWei+βei) 映射產(chǎn)生第 i 組映射特征 Zi。其中,Wei 是具有適當(dāng)維度的隨機(jī)權(quán)重系數(shù)。給定記號(hào) Zi≡[Z1, . . . , Zi] 表示前 i 組所有映射特征。同樣的,第 j 組增強(qiáng)節(jié)點(diǎn)ξj(ZiWhj+βhj ) 被記為 Hj,同時(shí)前 j 組所有增強(qiáng)節(jié)點(diǎn)被記為 Hj≡ [H1,. . . , Hj]。實(shí)際上,根據(jù)建模任務(wù)的復(fù)雜性,可以選擇不同的 i 和 j。此外,當(dāng) i≠k 時(shí),?i 和?k 可以是不同函數(shù)。同樣,當(dāng) j≠r,ξj 與ξr 也可以不同。在不失一般性的情況下,本文省略了隨機(jī)映射?i 和ξj 的下標(biāo)。圖 4 表征了論文提出的寬度學(xué)習(xí)網(wǎng)絡(luò)的結(jié)構(gòu)。
論文中還提供了三種不同的增量學(xué)習(xí)算法,包括增強(qiáng)節(jié)點(diǎn)增量,特征節(jié)點(diǎn)增量和輸入數(shù)據(jù)增量(圖 5)。由于更新輸出層的 Pseudo 偽逆時(shí),只需要計(jì)算新加入的節(jié)點(diǎn)的偽逆,增量學(xué)習(xí)的訓(xùn)練過(guò)程節(jié)省了大量的時(shí)間。從這個(gè)角度分析,寬度學(xué)習(xí)系統(tǒng)可以高效重建需要在線學(xué)習(xí)的模型。
在 BLS 的基礎(chǔ)上,我們提出了一種新的神經(jīng)-模糊模型,我們稱之為模糊 BLS。該模糊 BLS 保持了 BLS 的基本結(jié)構(gòu),將 BLS 的 feature nodes 部分替換為 Takagi-Sugeno 型模糊子系統(tǒng),同時(shí)去掉了原來(lái)的 sparse autoencoder(如圖 6-7 所示)。輸入數(shù)據(jù)會(huì)送入每一個(gè)模糊子系統(tǒng)進(jìn)行處理,然后將每個(gè)模糊子系統(tǒng)的輸出作為 enhancement 節(jié)點(diǎn)的輸入。在模糊 BLS 中,我們也只需要通過(guò)偽逆來(lái)計(jì)算頂層權(quán)重,而模糊子系統(tǒng)部分的參數(shù)將通過(guò)聚類和隨機(jī)產(chǎn)生的數(shù)據(jù)來(lái)決定。這樣我們可以減少模糊規(guī)則數(shù),大大加快模糊子系統(tǒng)部分計(jì)算速度。在函數(shù)逼近和分類問(wèn)題上,與經(jīng)典的和目前主流的神經(jīng)-模糊模型相比,模糊 BLS 在精度和訓(xùn)練時(shí)間上都表現(xiàn)出極大的優(yōu)勢(shì)。關(guān)于模糊 BLS 的論文目前正在審稿中,之后我們會(huì)提供更詳細(xì)的描述。
如果在特征節(jié)點(diǎn)內(nèi),增強(qiáng)節(jié)點(diǎn)內(nèi),以及特征節(jié)點(diǎn)和增強(qiáng)節(jié)點(diǎn)之間建立不同的權(quán)重連接,寬度學(xué)習(xí)網(wǎng)絡(luò)可以產(chǎn)生不同的變體。其中一種典型的結(jié)構(gòu)如圖 8,圖 9 所示。對(duì)應(yīng)的數(shù)學(xué)模型以及增量學(xué)習(xí)模型可以在即將發(fā)表的論文中查看。
另一種變形的把寬度學(xué)習(xí)結(jié)構(gòu)里的串聯(lián)增強(qiáng)節(jié)點(diǎn),這樣就可以成為寬深學(xué)習(xí)網(wǎng)絡(luò),如圖 10,圖 11 所示。寬深網(wǎng)絡(luò)數(shù)學(xué)模型以及增量學(xué)習(xí)模型也可以在即將發(fā)表的論文中查看。
最后,相關(guān)實(shí)驗(yàn)結(jié)果被給出以驗(yàn)證所提出的寬度學(xué)習(xí)系統(tǒng)。為了確定提出的系統(tǒng)的有效性,論文測(cè)試了寬度學(xué)習(xí)系統(tǒng)在 MNIST 數(shù)據(jù)下的分類表現(xiàn)。同時(shí),為了證明 BLS 的有效性,我們將與現(xiàn)有「主流」方法的分類能力進(jìn)行比較,包括堆疊自動(dòng)編碼器(Stacked Auto Encoders,SAE),另一個(gè)版本的堆疊自動(dòng)編碼器(another version of stacked autoencoder,SDA),深度信念網(wǎng)絡(luò)(Deep Belief Networks,DBN),基于多層感知器的方法(Multilayer Perceptron based methods,MLP)深玻爾茲曼機(jī)(Deep Boltzmann Machines,DBM),兩種的基于 ELM 的多層結(jié)構(gòu),分別表示為 MLELM 和 HELM。在我們的實(shí)驗(yàn)中,網(wǎng)絡(luò)由 10×10 特征節(jié)點(diǎn)和 1×11000 增強(qiáng)節(jié)點(diǎn)構(gòu)成。相關(guān)的權(quán)重均為隨機(jī)生成。
BLS 的測(cè)試精度以及其他所提到的深度算法測(cè)試精度如表格 1 所示。雖然 98.74% 不是最優(yōu)秀的(事實(shí)上,深度學(xué)習(xí)的表現(xiàn)仍然比 SAE 和 MLP 好),BLS 在服務(wù)器上的訓(xùn)練時(shí)間被壓縮到了 29.6968 秒。此外,應(yīng)該注意的是,MNIST 數(shù)據(jù)特征的數(shù)量減少到 100。這個(gè)結(jié)果符合學(xué)者在大數(shù)據(jù)學(xué)習(xí)中的直覺(jué),也就是現(xiàn)實(shí)應(yīng)用中的數(shù)據(jù)信息通常是冗余的。
表格 2 是 BLS 在 NORB 數(shù)據(jù)庫(kù)上的分類表現(xiàn)以及和其他模型的比較,最后兩行 BL 是「寬度學(xué)」的結(jié)果,其它都是深度學(xué)習(xí)算法的結(jié)果,表明寬度學(xué)習(xí)算法是又快又準(zhǔn)。
另外,我們還對(duì)增加的輸入測(cè)試增量寬度學(xué)習(xí)算法。測(cè)試結(jié)果如表格 3 所示,表明設(shè)計(jì)的算法高效并且有效。從而,我們進(jìn)一步得出結(jié)論,本文所提出的寬度學(xué)習(xí)算法,可以逐步更新建模系統(tǒng),而無(wú)需從一開(kāi)始重新訓(xùn)練整個(gè)系統(tǒng)。尤其當(dāng)系統(tǒng)收集到新輸入數(shù)據(jù)時(shí),現(xiàn)有網(wǎng)絡(luò)結(jié)構(gòu)迫切需要更新以反映系統(tǒng)的真實(shí)性和完整性。這一功能完全適用于大數(shù)據(jù)時(shí)代。基于上述實(shí)驗(yàn),寬度學(xué)習(xí)系統(tǒng)在訓(xùn)練速度方面明顯優(yōu)于現(xiàn)有的深度結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò)。此外,與其他 MLP 訓(xùn)練方法相比,寬度學(xué)習(xí)系統(tǒng)在分類準(zhǔn)確性和學(xué)習(xí)速度都有長(zhǎng)足的表現(xiàn)。與數(shù)百個(gè)迭代的高性能電腦下幾十小時(shí)或幾天的訓(xùn)練相比,寬度學(xué)習(xí)系統(tǒng)可以在幾十秒或幾分鐘內(nèi)輕松構(gòu)建,即使在普通 PC 中也是如此。
我們對(duì) 20 萬(wàn)的數(shù)據(jù),每個(gè)數(shù)據(jù)維度從一萬(wàn)維度到三萬(wàn)維度,做測(cè)試,在 3 分鐘到 50 分鐘之內(nèi),寬度學(xué)習(xí)都很快的找到神經(jīng)網(wǎng)絡(luò)的權(quán)重。另外在函數(shù)逼近和回歸問(wèn)題上,BLS 和模糊 BLS 都表現(xiàn)出較高的精度,具體參數(shù)設(shè)置和結(jié)果見(jiàn)表格 4 和 5。
綜上所述,我們認(rèn)為 BLS 以及它的各種變體和擴(kuò)展結(jié)構(gòu)具有良好的發(fā)展?jié)摿?,在?shí)際應(yīng)用中表現(xiàn)出其快速且高精度的優(yōu)秀性能。
陳俊龍系澳門大學(xué)講座教授及科技學(xué)院前院長(zhǎng),博士生導(dǎo)師,國(guó)家千人學(xué)者,自動(dòng)化學(xué)會(huì)副理事長(zhǎng),IEEE Transactions on Systems, Man, and Cybernetics: Systems 期刊主編。1985 年獲美國(guó)密西根大學(xué)碩士學(xué)位,1988 年獲美國(guó)普度大學(xué)博士學(xué)位。曾在美國(guó)德州大學(xué)工學(xué)院任終身教授、工學(xué)院副院長(zhǎng)及電機(jī)計(jì)算機(jī)系主任。曾任 IEEE Systems, Man, and Cybernetics Society (SMCS) 學(xué)會(huì)國(guó)際總主席(2012-2013),現(xiàn)任資深主席(2016-2017)。陳教授是 IEEE Fellow、AAAS Fellow、CAA Fellow、國(guó)際系統(tǒng)及控制論科學(xué)院院士(IASCYS)、香港工程師學(xué)會(huì) Fellow,擔(dān)任多個(gè) IEEE 期刊副主編??蒲蟹较虬ǎ合到y(tǒng)及智能算法理論與工程,數(shù)據(jù)分析及挖掘,物理建模及智能控制。
陳教授近五年主持與參與的各類國(guó)家科技計(jì)劃包括:國(guó)家基金委、科技部 973 物聯(lián)網(wǎng)計(jì)劃子課題和澳門科學(xué)基金會(huì)。曾承接美國(guó)基金委,美國(guó)航天局,美國(guó)空軍科研實(shí)驗(yàn)室,海軍研究實(shí)驗(yàn)室科研計(jì)劃。兩次獲澳門自然科學(xué)獎(jiǎng),2016 年獲母校美國(guó)普度大學(xué)杰出電機(jī)與計(jì)算機(jī)工程獎(jiǎng)。
劉竹林,現(xiàn)為澳門大學(xué)計(jì)算機(jī)科學(xué)博士生,山東大學(xué)數(shù)學(xué)本科,澳門大學(xué)碩士畢業(yè),科研興趣為計(jì)算智能、機(jī)器學(xué)習(xí)、函數(shù)逼近。馮霜,北京師范大學(xué)數(shù)學(xué)本科、碩士畢業(yè),現(xiàn)為澳門大學(xué)計(jì)算機(jī)科學(xué)博士生,研究興趣為模糊系統(tǒng)、模糊神經(jīng)網(wǎng)絡(luò)及應(yīng)用、計(jì)算智能。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。