0
本篇論文是谷歌大腦(Google Brain)與多倫多大學(xué)合作的最新論文。谷歌大腦團(tuán)隊(duì)曾經(jīng)負(fù)責(zé)研發(fā)了AlphaGo與TensorFlow框架等產(chǎn)品,其實(shí)力自然不消多說。而這一次谷歌大腦團(tuán)隊(duì)更是向當(dāng)前深度學(xué)習(xí)架構(gòu)繁多、應(yīng)用領(lǐng)域不一等混亂現(xiàn)狀發(fā)出挑戰(zhàn),霸氣提出了通過單一模型聯(lián)合學(xué)習(xí)多項(xiàng)任務(wù)。那么該模型是否真的如此神奇呢?趕緊隨雷鋒網(wǎng)AI科技評(píng)論來看看吧。
以下內(nèi)容是雷鋒網(wǎng)AI科技評(píng)論根據(jù)論文內(nèi)容進(jìn)行的部分編譯。
深度學(xué)習(xí)(Deep learning)算法在語音識(shí)別(Speeh recognition)、圖像分類(Image classification)和翻譯(Translation)等諸多領(lǐng)域都已經(jīng)取得了非常好的結(jié)果。但是目前的缺陷是,針對(duì)這些不同領(lǐng)域的不同問題,要想深度學(xué)習(xí)模型能夠取得較好的效果,研究員就需要針對(duì)當(dāng)前具體問題去研究具體的深度模型架構(gòu),然后再花費(fèi)大量的時(shí)間對(duì)模型的參數(shù)進(jìn)行微調(diào)優(yōu)化。
圖一展示單個(gè)多模型(MultiModel)的解碼示例,該模型在8個(gè)任務(wù)中進(jìn)行了聯(lián)合訓(xùn)練。其中紅色的矩形框描繪了一種語言模式,而藍(lán)色的矩形框描繪了分類模式。
據(jù)雷鋒網(wǎng)了解,本論文的研究員提出了一種單一模型,該模型能夠在多個(gè)領(lǐng)域的不同問題中都取得較好的結(jié)果。另外值得一提的是,該單一模型可以在ImageNet、多項(xiàng)翻譯任務(wù)、圖像標(biāo)注(Image captioning,采用COCO數(shù)據(jù)集)、語音識(shí)別數(shù)據(jù)集和英語解析任務(wù)中同時(shí)進(jìn)行訓(xùn)練。據(jù)悉,該單一模型架構(gòu)借鑒了來自多個(gè)領(lǐng)域的深度學(xué)習(xí)模型架構(gòu)所使用的構(gòu)建塊(Building blocks),該模型具有卷積層(Convolutional layers)、注意力機(jī)制(Attention mechanism)和稀疏門控層(Sparsely-gated layers)。并且模型中的每一個(gè)計(jì)算塊(Computational blocks)對(duì)于訓(xùn)練任務(wù)中的某一子部分都至關(guān)重要。
圖二展示了一個(gè)多模型,該多模型具有模式網(wǎng)絡(luò)(Modality-nets)、編碼器(Encoder)和自回歸解碼器(Autoregressive decoder)。
在實(shí)驗(yàn)的過程中,研究員們還發(fā)現(xiàn)了一個(gè)非常有趣的現(xiàn)象,即使模型架構(gòu)中的某一個(gè)計(jì)算塊對(duì)于當(dāng)前任務(wù)而言并不重要,但是實(shí)驗(yàn)結(jié)果表明添加該計(jì)算塊到模型架構(gòu)中并不會(huì)影響到最終效果,并且在大多數(shù)情況下,這種做法還能提高模型在所有任務(wù)上的表現(xiàn)效果。
圖三展示了多模型的架構(gòu),如果想獲得關(guān)于該模型的具體信息,請(qǐng)閱讀論文。
另外,在本論文中研究員們通過實(shí)驗(yàn)還表明具有較少數(shù)據(jù)量的任務(wù),能夠從將多個(gè)任務(wù)聯(lián)合起來進(jìn)行訓(xùn)練的方式中獲得巨大的收益,而對(duì)于擁有大量數(shù)據(jù)的任務(wù)而言,這種訓(xùn)練方式將導(dǎo)致最終效果的略微下降。
Via One Model To Learn Them All,雷鋒網(wǎng)編譯
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。