0
本篇論文是谷歌大腦(Google Brain)與多倫多大學合作的最新論文。谷歌大腦團隊曾經(jīng)負責研發(fā)了AlphaGo與TensorFlow框架等產(chǎn)品,其實力自然不消多說。而這一次谷歌大腦團隊更是向當前深度學習架構繁多、應用領域不一等混亂現(xiàn)狀發(fā)出挑戰(zhàn),霸氣提出了通過單一模型聯(lián)合學習多項任務。那么該模型是否真的如此神奇呢?趕緊隨雷鋒網(wǎng)AI科技評論來看看吧。
以下內容是雷鋒網(wǎng)AI科技評論根據(jù)論文內容進行的部分編譯。
深度學習(Deep learning)算法在語音識別(Speeh recognition)、圖像分類(Image classification)和翻譯(Translation)等諸多領域都已經(jīng)取得了非常好的結果。但是目前的缺陷是,針對這些不同領域的不同問題,要想深度學習模型能夠取得較好的效果,研究員就需要針對當前具體問題去研究具體的深度模型架構,然后再花費大量的時間對模型的參數(shù)進行微調優(yōu)化。
圖一展示單個多模型(MultiModel)的解碼示例,該模型在8個任務中進行了聯(lián)合訓練。其中紅色的矩形框描繪了一種語言模式,而藍色的矩形框描繪了分類模式。
據(jù)雷鋒網(wǎng)了解,本論文的研究員提出了一種單一模型,該模型能夠在多個領域的不同問題中都取得較好的結果。另外值得一提的是,該單一模型可以在ImageNet、多項翻譯任務、圖像標注(Image captioning,采用COCO數(shù)據(jù)集)、語音識別數(shù)據(jù)集和英語解析任務中同時進行訓練。據(jù)悉,該單一模型架構借鑒了來自多個領域的深度學習模型架構所使用的構建塊(Building blocks),該模型具有卷積層(Convolutional layers)、注意力機制(Attention mechanism)和稀疏門控層(Sparsely-gated layers)。并且模型中的每一個計算塊(Computational blocks)對于訓練任務中的某一子部分都至關重要。
圖二展示了一個多模型,該多模型具有模式網(wǎng)絡(Modality-nets)、編碼器(Encoder)和自回歸解碼器(Autoregressive decoder)。
在實驗的過程中,研究員們還發(fā)現(xiàn)了一個非常有趣的現(xiàn)象,即使模型架構中的某一個計算塊對于當前任務而言并不重要,但是實驗結果表明添加該計算塊到模型架構中并不會影響到最終效果,并且在大多數(shù)情況下,這種做法還能提高模型在所有任務上的表現(xiàn)效果。
圖三展示了多模型的架構,如果想獲得關于該模型的具體信息,請閱讀論文。
另外,在本論文中研究員們通過實驗還表明具有較少數(shù)據(jù)量的任務,能夠從將多個任務聯(lián)合起來進行訓練的方式中獲得巨大的收益,而對于擁有大量數(shù)據(jù)的任務而言,這種訓練方式將導致最終效果的略微下降。
Via One Model To Learn Them All,雷鋒網(wǎng)編譯
雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉載。詳情見轉載須知。