作者:琰琰
前段時(shí)間,一場(chǎng)關(guān)于MLP與Transformer的較量在學(xué)術(shù)圈鬧得沸沸揚(yáng)揚(yáng)。起因是,谷歌在《MLP-Mixer: An all-MLP Architecture for Vision》論文中提出,無(wú)需卷積模塊和注意力機(jī)制,純MLP架構(gòu)也可以達(dá)到與Transformer與CNN相媲美的圖像分類(lèi)性能。此文一出學(xué)術(shù)界一片嘩然,MLP is all you Need的時(shí)代要來(lái)了?Transformer在2017年谷歌發(fā)表的《Attention is All You Need》論文中首次被提出,基于自注意力機(jī)制,近幾年已經(jīng)橫跨NLP和CV領(lǐng)域,不斷刷新各項(xiàng)任務(wù)的SOTA,而MLP是NLP領(lǐng)域最早且結(jié)構(gòu)最簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)。為了處理更復(fù)雜的任務(wù),神經(jīng)網(wǎng)絡(luò)的主流架構(gòu)經(jīng)歷了MLP-CNN、RNN-Transformer的演變過(guò)程。此事在社交平臺(tái)引起了專(zhuān)家、網(wǎng)友的廣泛討論,有人認(rèn)為,MLP-Mxier只是偷換概念,與Trasformer沒(méi)有本質(zhì)區(qū)別;有人認(rèn)為,工業(yè)界的研究頂多算是Technical Report,不足以支撐學(xué)術(shù)結(jié)論;還有人認(rèn)為,Transformer不是萬(wàn)能的,確實(shí)應(yīng)該在架構(gòu)設(shè)計(jì)方面挖掘一些新思路。一波未平一波又起,時(shí)隔幾天之后,清華大學(xué)、牛津大學(xué)、Facebook AI,還有Google又相繼發(fā)表了多篇論文,試圖證明Tranformer在多項(xiàng)任務(wù)中并不是必要條件。一時(shí)間,關(guān)于Trasformer和模型架構(gòu)的討論再次被推向高潮,大家的觀點(diǎn)不一,質(zhì)疑聲不斷。我們應(yīng)該如何看待這一系列研究成果?MLP、CNN、Transformer等主流架構(gòu)誰(shuí)強(qiáng)誰(shuí)弱?各自有哪些特點(diǎn)?當(dāng)前AI學(xué)術(shù)研究面臨什么現(xiàn)狀?下一階段將如何發(fā)展?針對(duì)這些問(wèn)題,AI科技評(píng)論聯(lián)系了來(lái)自業(yè)界和學(xué)術(shù)界的7位專(zhuān)家、學(xué)者以及資深從業(yè)者進(jìn)行了深入交流,試圖找出一些答案。他們分別是:馬毅:加州大學(xué)伯克利分校計(jì)算機(jī)系教授何曉冬:京東副總裁,京東AI研究院常務(wù)副院長(zhǎng)林宙辰:北京大學(xué)智能科學(xué)系教授朱軍:清華大學(xué)計(jì)算機(jī)科學(xué)系長(zhǎng)聘教授尤洋:新加坡國(guó)立大學(xué)NUS計(jì)算機(jī)系青年教授吳琦:阿德萊德大學(xué)高級(jí)講師,ARC DECRA Fellow蘇劍林:90后機(jī)器學(xué)習(xí)從業(yè)者,「科學(xué)空間」博客知名博主,曾獲得第四屆“泰迪杯”全國(guó)大學(xué)生數(shù)據(jù)挖掘競(jìng)賽特等獎(jiǎng)和企業(yè)冠名獎(jiǎng)。MLP比肩Transformer,歸納偏置多余了?
多層感知機(jī)MLP(Multilayer Perceptron),也叫前饋神經(jīng)網(wǎng)絡(luò)(feedforward neuarl network)是最早發(fā)明的人工神經(jīng)網(wǎng)絡(luò)之一,其結(jié)構(gòu)設(shè)計(jì)簡(jiǎn)單,僅由輸入層、隱藏層(中間層)和輸出層組成。
它最大的特點(diǎn)是信息只進(jìn)行單向傳輸,沒(méi)有循環(huán)或回路,即從輸入層開(kāi)始前向移動(dòng),經(jīng)過(guò)隱藏層,再到輸出層。如果信息從輸出層反饋到輸入層,則被稱(chēng)為循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)。隨著圖像復(fù)雜程度和數(shù)據(jù)集類(lèi)別數(shù)目的增漲,MLP越來(lái)越難以高效地提取特征。為了避免特征提取的參數(shù)過(guò)于冗余,卷積/Attention等高效操作相繼被提出。1998年,圖靈獎(jiǎng)得主Yann LeCun在手寫(xiě)數(shù)字識(shí)別任務(wù)中提出首個(gè)卷積神經(jīng)網(wǎng)絡(luò)LeNet,基本確定了CNN的整體結(jié)構(gòu)——由卷積層、池化層、全連接層組成;Transformer架構(gòu)最早采用Attention機(jī)制,并在機(jī)器翻譯任務(wù)中達(dá)到SOTA。后來(lái)隨著B(niǎo)ERT的問(wèn)世,Transformer開(kāi)始席卷整個(gè)NLP領(lǐng)域,甚至跨界到CV領(lǐng)域。然而,谷歌最近推出的MLP-Mixer模型表明,在不使用卷積和自注意力的情況下,僅基于多層感知機(jī),也能在圖像分類(lèi)任務(wù)中達(dá)到了與Transformer和CNN相當(dāng)?shù)男阅堋?/span>清華大學(xué)教授朱軍告訴AI科技評(píng)論,相比于有inductive bias的架構(gòu),全連接架構(gòu)的學(xué)習(xí)效率很低,這一點(diǎn)在機(jī)器學(xué)習(xí)實(shí)驗(yàn)中早已被證實(shí)。效率低,意味著需要更多的訓(xùn)練數(shù)據(jù),才能使性能達(dá)到一定的階段。從工程角度來(lái)講,很多應(yīng)用場(chǎng)景無(wú)法提供足夠的數(shù)據(jù)支撐,這時(shí)要解決問(wèn)題還需要引入假設(shè)來(lái)提高有限數(shù)據(jù)的利用效率。所以說(shuō),全連接架構(gòu)或者M(jìn)LP-Mixer應(yīng)用場(chǎng)景有限,而且還可能存在可解釋性差和魯棒性差的問(wèn)題。尤洋也表示,MLP-Mixer接近Transformers性能的前提條件是數(shù)據(jù)量要足夠大。谷歌提供的數(shù)據(jù)顯示,MLP-Mixer的性能隨著數(shù)據(jù)量的增加而增長(zhǎng)。在超大數(shù)據(jù)集JFT-300M上,它在更小的計(jì)算量上取得了接近ViT的精度。數(shù)據(jù)量和算力在一定程度上限制了MLP-Mixer的應(yīng)用范圍。JFT-300M等大數(shù)據(jù)集的訓(xùn)練是大部分高?;蛑械纫?guī)模的公司無(wú)法輕易完成的。但MLP-Mixer的計(jì)算模式和方法很簡(jiǎn)單。只要有足夠多的機(jī)器,大多數(shù)研究人員應(yīng)該容易復(fù)現(xiàn)和使用。同時(shí)他也表示,目前人們?cè)诔髷?shù)據(jù)集上對(duì)inductive bias的模型探索還很有限,谷歌也只是展示了基于幾個(gè)特定人造數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果,inductive bias在其中發(fā)揮的價(jià)值還有待觀察。關(guān)于MLP-Mixer,目前學(xué)術(shù)界普遍認(rèn)為,它與Transformer架構(gòu)并沒(méi)有本質(zhì)的區(qū)別。MLP-Mixer模型的核心思路是把圖片分成很多的patch,每個(gè)patch就相當(dāng)于Transformers的一個(gè)token,然后用MLP結(jié)合矩陣轉(zhuǎn)置去處理數(shù)據(jù)。它的每層都包含token-mixing MLP block 和channel-mixing MLP block兩個(gè)部分。前者是把不同的channel當(dāng)成不同的計(jì)算單元,后者是把不同的token當(dāng)成不同的計(jì)算單元。馬毅教授認(rèn)為,從理論角度看,MLP與Transformer、卷積在數(shù)學(xué)概念上幾乎完全等價(jià),二者架構(gòu)類(lèi)似,只是在優(yōu)化和實(shí)現(xiàn)細(xì)節(jié)上有差而已。何曉冬也表達(dá)了相似的看法。同時(shí)他表示,MLP-Mixer的出現(xiàn)也讓我們不得不思考,在算力主導(dǎo)AI的當(dāng)下,哪些模型的訓(xùn)練方法和架構(gòu)設(shè)計(jì)才真正有助于性能提升?此外,尤洋表示,逐個(gè)patch的MLP類(lèi)似于一個(gè)具有16x16 kernels和16x16 stride的卷積層,換言之,MLP-Mixer本身并不是純粹的MLP,它同樣具有歸納偏置。此前,Yann LeCun也發(fā)文批評(píng)過(guò)這一點(diǎn)?!叭绻娴氖菢?biāo)準(zhǔn)MLP,應(yīng)該將輸入展平為一個(gè)一維向量,然后再接變換矩陣。”蘇劍林認(rèn)為,MLP-Mxier,其實(shí)就是Synthesizer的Random模式并去掉了softmax激活。Synthesizer是去年5月Google在《Synthesizer: Rethinking Self-Attention in Transformer Models》論文中提出的模型。他認(rèn)為,二者最大的區(qū)別僅在于MLP-Mxier做CV任務(wù),而Synthesizer是做NLP任務(wù)的。“在Random模式下,‘token-mixing MLP’相當(dāng)于可訓(xùn)練的Attention矩陣,只是名字不同而已,將Attention換成MLP的改進(jìn),速度雖然有所提升,但理論復(fù)雜度不變,MLP-Mxier仍沒(méi)有本質(zhì)上的進(jìn)步。”事實(shí)上,將Transformer直接減少一兩層同樣可以達(dá)到提速的效果,而沒(méi)必要換成MLP。另外,Transformer自適應(yīng)生成的Attention具有更好的適應(yīng)能力,而MLP-Mxier將Attention矩陣參數(shù)化的做法,使其在“預(yù)訓(xùn)練+微調(diào)”方面的性能有所下降。相比于Transformer和CNN,尤洋認(rèn)為,MLP-Mixer的概念更簡(jiǎn)單,或許可以在降低工程團(tuán)隊(duì)實(shí)現(xiàn)復(fù)雜度,以及降低神經(jīng)網(wǎng)絡(luò)搜索開(kāi)銷(xiāo)方面發(fā)揮更多價(jià)值。7篇論文重拳出擊,Transformer扛不住了?
谷歌之后,多家科研機(jī)構(gòu)相繼發(fā)表7篇相關(guān)論文,試圖從多個(gè)維度打擊Transformer。
《Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks》 - 清華大學(xué)
《RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for Image Recognition》清華大學(xué)軟件學(xué)院
《Do You Even Need Attention? A Stack of Feed-Forward Layers Does Surprisingly Well on ImageNet》 - 牛津大學(xué)
《ResMLP: Feedforward networks for image classification with data-efficient training》 - Facebook AI
《Are Pre-trained Convolutions Better than Pre-trained Transformers?》 - Google Research
《FNet: Mixing Tokens with Fourier Transforms》 - Google Research
《Pay Attention to MLPs》 - Google Research
其中,第一篇論文提出的External Attention表明,只用兩個(gè)級(jí)聯(lián)的線(xiàn)性層和歸一化層就可以取代“Self-attention”。 蘇劍林認(rèn)為:從實(shí)驗(yàn)描述來(lái)看,External Attention有很多說(shuō)法禁不住推敲:(1)兩個(gè)線(xiàn)性層其實(shí)是Attention的變式;(2)沒(méi)有與LinFormer進(jìn)行比較,以證明其實(shí)現(xiàn)了線(xiàn)性的復(fù)雜度。(3)獨(dú)立編碼的External Attention在NLP任務(wù)中不work,卻在CV中work。 牛津大學(xué)提出用Feed forward取代ViT模型中的注意力層,同樣可以在ImageNet上達(dá)到接近ViT的top-1準(zhǔn)確率——基于ViT / DeiT的模型,可達(dá)到74.9%的top-1精度,而ViT和DeiT分別為77.9%和79.9%。關(guān)于這項(xiàng)研究,不少學(xué)者認(rèn)為它是MLP-Mixer架構(gòu)的簡(jiǎn)易版。由于這篇論文全文只有4頁(yè)(正文2.5頁(yè)),不少學(xué)者猜測(cè),可能作者原本也想在這個(gè)方向深挖一下,但沒(méi)想被Googel搶先了一步。受 ViT 的啟發(fā),F(xiàn)acebook AI提出了結(jié)構(gòu)更簡(jiǎn)單、更穩(wěn)定的ResMLP架構(gòu)——它不采用任何形式的注意力機(jī)制,僅僅包含線(xiàn)性層與 GELU 非線(xiàn)性激活函數(shù)。蘇劍林認(rèn)為,雖然ResMLP在ImageNet上達(dá)到了不錯(cuò)的準(zhǔn)確率,但它與MLP-Mixer和Stack of FFN沒(méi)有本質(zhì)的區(qū)別,尤其是Stack of FFN。如果忽略細(xì)微的細(xì)節(jié)差異,甚至可以認(rèn)為它們?nèi)齻€(gè)是同一個(gè)模型。谷歌則接連發(fā)表了三篇相關(guān)論文,對(duì) ViT 模型中自注意力層的必要性提出了質(zhì)疑,而學(xué)者們普遍認(rèn)為,FNet模型在某種意義上同樣是MLP-Mixer的一個(gè)特例;gMLP也屬于常規(guī)的結(jié)構(gòu)煉丹工作,只要算力足夠都可以實(shí)現(xiàn),二者都沒(méi)有足夠的創(chuàng)新性或者為模型發(fā)展帶來(lái)任何新的啟示。不過(guò),其發(fā)表的《Are Pre-trained Convolutions Better than Pre-trained Transformers?》論文,則為學(xué)術(shù)圈普遍存在的“Transformer能否取代CNN”的討論擴(kuò)展了新思路。目前,這篇論文已被ACL2021接收。近幾年,Transformer從Vision Transformer到層出不窮的變種,不斷地刷新著各項(xiàng)任務(wù)榜單,大有取代CNN之勢(shì)。而谷歌在這篇論文驗(yàn)證了“CNN+預(yù)訓(xùn)練”的有效性。論文中表明,不管是直接用下游數(shù)據(jù)監(jiān)督訓(xùn)練,還是先預(yù)訓(xùn)練然后微調(diào),基于膨脹卷積或動(dòng)態(tài)卷積的CNN模型都略?xún)?yōu)于Transformer模型,并且在速度上CNN模型還更加快。蘇劍林認(rèn)為,這篇工作帶給我們的啟發(fā)是:預(yù)訓(xùn)練改進(jìn)與模型改進(jìn)不應(yīng)該混為一談,預(yù)訓(xùn)練技術(shù)本身往往能給各種模型都帶來(lái)提升,不應(yīng)該一提到預(yù)訓(xùn)練就想到Transformer,也不應(yīng)該只把預(yù)訓(xùn)練跟Transformer結(jié)合。 那么,我們?cè)撊绾慰创齌ransformer與CNN模型?研究者有必要轉(zhuǎn)向CNN嗎?蘇劍林表示,我們不能否定CNN的價(jià)值,但如果當(dāng)前已經(jīng)比較專(zhuān)注Transformer了,就沒(méi)必要分出太多精力去轉(zhuǎn)向CNN了。對(duì)此,他提供了三點(diǎn)看法:1、理論上來(lái)說(shuō),CNN無(wú)法捕捉足夠遠(yuǎn)的長(zhǎng)程依賴(lài),這是根本缺陷,雖然通過(guò)膨脹卷積等方式,可以快速增大CNN的感受野,但也只是比較大,不是Transformer理論上的一步到位;2、如果單純看提高效率角度,Transformer本身也有很多優(yōu)化空間,如果只是為了執(zhí)行效率而轉(zhuǎn)向CNN,那這個(gè)理由似乎不那么有說(shuō)服力;3、Transformer的O(n^2)的復(fù)雜度本身也帶來(lái)更多的折騰空間(比如像UniLM),可以玩出更多的花樣(比如像K-BERT)。綜上所述,MLP-Mixer主要依靠大數(shù)據(jù)來(lái)維持其性能,其在結(jié)構(gòu)設(shè)計(jì)上沒(méi)有帶來(lái)理論上的創(chuàng)新,甚至?xí)奚P涂山忉屝院汪敯粜浴?/span>這種簡(jiǎn)單粗暴的研究模式,是否存在灌水的嫌疑?全連接架構(gòu)為什么被重新提起,它適合哪些研究領(lǐng)域和應(yīng)用場(chǎng)景?
另外,透過(guò)MLP、CNN、Trasformer等主流架構(gòu)的發(fā)展歷程,我們可以看到,模型跨界的已經(jīng)逐漸成為科研領(lǐng)域的必然趨勢(shì),這背后除了谷歌等科技巨頭的主導(dǎo)外,大數(shù)據(jù)、大算力的時(shí)代背景產(chǎn)生了哪些推動(dòng)作用?而基于此,在限定領(lǐng)域研究特定算法的增量改進(jìn)是否還有意義?從當(dāng)前來(lái)看,哪些問(wèn)題才應(yīng)該成為學(xué)術(shù)研究的重點(diǎn)?圍繞這些問(wèn)題,林宙辰、朱軍、吳琦、尤洋等人給出了如下解答:問(wèn)題1:近年不斷出現(xiàn)模型跨界現(xiàn)象,從Transformer進(jìn)入CV,到MLP開(kāi)始用于大規(guī)模圖像識(shí)別,再到CNN用于NLP預(yù)訓(xùn)練。這是反映了算力提升、數(shù)據(jù)量增加的行業(yè)整體發(fā)展,還是一種科技巨頭主導(dǎo)媒體傳播帶來(lái)的錯(cuò)覺(jué)?林宙辰:當(dāng)前的MLP復(fù)興只是為了理解注意力機(jī)制的作用,發(fā)現(xiàn)用MLP可以替代注意力機(jī)制。實(shí)際上用MLP的性能也只能接近,而不是超越用注意力機(jī)制時(shí)的性能,但它的計(jì)算成本要低很多,所以性?xún)r(jià)比很高,這在實(shí)際應(yīng)用中還是有一定意義的。當(dāng)然,MLP重新獲得關(guān)注,跟谷歌的宣傳關(guān)系是很大的。吳琦:媒體傳播有一定的助推作用,但并不能說(shuō)是錯(cuò)覺(jué),這其實(shí)正是科研領(lǐng)域的一個(gè)必然趨勢(shì)— 模型的統(tǒng)一性。我認(rèn)為,所謂的模型跨界并沒(méi)有什么驚奇的。無(wú)論CV還是NLP,本質(zhì)都是機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)是對(duì)數(shù)據(jù)分布規(guī)律的分析,它不在乎數(shù)據(jù)本身是來(lái)源于圖像還是語(yǔ)言。因此,二者本質(zhì)上是相通的,只是不同應(yīng)用的表現(xiàn)形式。當(dāng)一個(gè)模型(比如Transformer)在某一個(gè)領(lǐng)域里被證明有效之后,必然會(huì)被遷移到另一個(gè)領(lǐng)域,而這個(gè)過(guò)程中,那些擁有大量計(jì)算資源,足夠數(shù)據(jù)支撐,且工程能力過(guò)硬的科技巨頭往往會(huì)占據(jù)先機(jī)。我不認(rèn)為這類(lèi)研究有什么問(wèn)題,恰恰相反,它對(duì)整個(gè)community是有益的。從學(xué)術(shù)界角度來(lái)看,高??蒲腥藛T發(fā)paper會(huì)變得更難——難以超過(guò)產(chǎn)業(yè)界大模型的performance。但換一個(gè)角度,如何合理、高效的使用并解釋預(yù)訓(xùn)練模型,也是學(xué)術(shù)界沒(méi)有大GPU,大數(shù)據(jù)的研究者值得思考和探索的問(wèn)題。朱軍:媒體傳播確實(shí)在“模型跨界”方面起到了一定的助推作用。過(guò)去一個(gè)機(jī)器學(xué)習(xí)模型需要三到五年,才逐漸被應(yīng)用端使用,或者擴(kuò)展到自然語(yǔ)言領(lǐng)域?,F(xiàn)在大家獲取信息的渠道更快更豐富,加上很多技術(shù)是開(kāi)源的,這些都在一定程度上增加了模型跨界應(yīng)用的可能。但這一過(guò)程中,大數(shù)據(jù)也起到了關(guān)鍵性作用。因?yàn)楹芏嗄P捅旧硭玫臄?shù)據(jù)來(lái)自不同的領(lǐng)域,自然語(yǔ)言里有,計(jì)算機(jī)視覺(jué)里也有,大家在范式上逐漸趨于同質(zhì)化,這為加快模型遷移速度創(chuàng)造了條件。問(wèn)題2:之后是否會(huì)有更多MLP、CNN跨界的新研究?MLP會(huì)像預(yù)訓(xùn)練Transformer和視覺(jué) Transformer成為AI社區(qū)的主流嗎?存在哪些應(yīng)用局限?林宙辰:MLP應(yīng)當(dāng)只是曇花一現(xiàn),它的性能并沒(méi)有超越現(xiàn)有的最新方法,只是在“性?xún)r(jià)比”上超越了Transformer,而工業(yè)界并不在乎通過(guò)堆砌算力達(dá)到更高的性能。那些需要低計(jì)算復(fù)雜度的應(yīng)用,如手機(jī)、邊緣計(jì)算,它們對(duì)性?xún)r(jià)比更敏感,可能是MLP研究能獲得較多應(yīng)用的唯一場(chǎng)景?!?/span>朱軍:MLP本身有一定的價(jià)值,大家肯定會(huì)沿著這條路不斷深挖,類(lèi)似工作還會(huì)有很多。但是不能期待MLP可以解決所有問(wèn)題,它可能在benckmark數(shù)據(jù)集或者其他性能指標(biāo)上有所提高,但同時(shí)損失東西也可能更嚴(yán)重,比如可解釋性、魯棒性。它的價(jià)值應(yīng)該是分場(chǎng)景的,如果更關(guān)心可解釋性,比如醫(yī)療診斷,那么它可能不適合。 問(wèn)題3:在跨界漸成趨勢(shì)的背景下,研究人員在限定領(lǐng)域開(kāi)展特定算法優(yōu)化,模型改進(jìn)的意義是什么?為什么要做跨界研究?吳琦:類(lèi)似的跨界研究會(huì)越來(lái)越多,效果也不會(huì)差,但不能因此否定在限定領(lǐng)域中研究特定算法架構(gòu)的意義,一方面,很多實(shí)際應(yīng)用是集中于某一個(gè)特定領(lǐng)域的——實(shí)際應(yīng)用更注重結(jié)果和效率,模型是否統(tǒng)一并不重要。另一方面是有效性,特定的算法架構(gòu)也具有一定的可遷移性。尤洋:模型跨界在機(jī)器學(xué)習(xí)領(lǐng)域一直在發(fā)生,這是一個(gè)自發(fā)的過(guò)程。很多年前,人們就用LSTM在視覺(jué)數(shù)據(jù)集MNIST上取得不錯(cuò)的效果。我們?cè)O(shè)計(jì)任何一種方法,都是希望它具有通用性,而不是局限于NLP或者CV。雖然最開(kāi)始有些研究是關(guān)于特定算法架構(gòu)的增量、改進(jìn)的,但是日后有可能在其它應(yīng)用上也會(huì)產(chǎn)生好的效果。問(wèn)題4:有人指出,MLP-Mixer、預(yù)訓(xùn)練CNN的出現(xiàn),是因?yàn)闆](méi)有意識(shí)到任務(wù)本身(圖像分類(lèi))設(shè)置的局限性,才導(dǎo)致學(xué)術(shù)社區(qū)在狹窄的領(lǐng)域上做一些無(wú)意義的灌水,真正應(yīng)該做的是不斷去擴(kuò)展對(duì)智能本身的理解,探索全新的任務(wù)。您怎么看?吳琦:我相信圖像理解(分類(lèi),檢測(cè))的提高,對(duì)‘智能’的提高是很有作用的,因?yàn)椤悄堋妮斎胧怯伞兄瘉?lái)獲取的,而感知的一部分就是對(duì)視覺(jué)信息的理解,這個(gè)理解無(wú)論是向量化的,還是結(jié)構(gòu)化的,對(duì)后續(xù)的‘認(rèn)知’和‘推理’都至關(guān)重要。無(wú)論任務(wù)怎么‘新’,感知一定是一個(gè)非常重要前提條件。以VQA為例,當(dāng)我們?nèi)ナ褂胓round-truth的圖像信息(比如物體類(lèi)別,屬性,關(guān)系等)來(lái)作為后面回答問(wèn)題推理模型的輸入時(shí),會(huì)發(fā)現(xiàn)結(jié)果很好。但是換成由模型識(shí)別出的圖像信息之后,問(wèn)答的準(zhǔn)確率會(huì)大幅下降。所以某種意義上,‘視覺(jué)’能力是這個(gè)任務(wù)的瓶頸。而所謂‘智能’、‘推理’,在獲取完美的視覺(jué)感知信息之后,就沒(méi)有那么困難了。所以我認(rèn)為,不管是MLP,CNN還是transformer,只要能夠提高視覺(jué)感知的能力,就一定是在推進(jìn)對(duì)‘智能’的理解。尤洋:我認(rèn)為,每個(gè)成熟的研究人員都有自己的判斷。對(duì)智能本身的理解非常重要,但并不能說(shuō)其它研究工作是是“無(wú)意義的灌水”。一般重大科研成果的發(fā)布往往會(huì)超出所有人的預(yù)料,這意味著科研本身需要一定的自由度,所以我認(rèn)為,學(xué)術(shù)社區(qū)只要能做到數(shù)據(jù)真實(shí),有足夠高的自由度就好。問(wèn)題5:有人指出,借助于算力和數(shù)據(jù)的發(fā)展確實(shí)可以在一定程度上忽視算法的改進(jìn)。但機(jī)器學(xué)習(xí)理論的研究也不能荒廢。理論和實(shí)驗(yàn)是科學(xué)的兩條腿,我們也需要不斷從理論角度去探索能直接發(fā)揮作用的算法歸納偏置。在CNN和 Transformer的關(guān)系探討中,有人指出,CNN偏重等變性,Transformer偏重關(guān)聯(lián)性, 而一個(gè)好的架構(gòu)應(yīng)該兩者兼顧。對(duì)于以上觀點(diǎn),您怎么看?尤洋:我認(rèn)為,理論研究是非常重要的,如果我們希望能將AI用到一些未來(lái)的高?;蛑匾娜蝿?wù)中,就需要堅(jiān)實(shí)的理論依據(jù)。同時(shí),我也認(rèn)為,理論研究到一定程度是能指導(dǎo)我們獲得更好的使用方法的。關(guān)于等變性和關(guān)聯(lián)性的結(jié)合,這可能取決于具體的應(yīng)用。如果未來(lái)能有模型能自動(dòng)根據(jù)具體的應(yīng)用去動(dòng)態(tài)調(diào)整兩者的比重,應(yīng)該會(huì)很有意思。問(wèn)題6:您認(rèn)為目前AI社區(qū)應(yīng)該更加關(guān)注哪些研究方向,不應(yīng)該過(guò)多關(guān)注哪些研究方向?尤洋:我認(rèn)為兩個(gè)研究方向非常重要:(1) 自監(jiān)督學(xué)習(xí); (2) AI模型的能耗;過(guò)去10年,大規(guī)模數(shù)據(jù)集的創(chuàng)建和以GPU算力的大幅提升,使得監(jiān)督學(xué)習(xí) (supervised learning)方法在大規(guī)模應(yīng)用中取得了非常好的效果。按照當(dāng)前的技術(shù)趨勢(shì),未來(lái)人工智能技術(shù)的優(yōu)化與應(yīng)用需要更大的數(shù)據(jù)。然而,創(chuàng)建一個(gè)具有干凈、準(zhǔn)確標(biāo)簽的數(shù)據(jù)集非常昂貴和緩慢。與此同時(shí),無(wú)標(biāo)簽數(shù)據(jù)正在以前所未有的速度生成,為了充分利用這些數(shù)據(jù),設(shè)置一個(gè)合適的學(xué)習(xí)目標(biāo)并從數(shù)據(jù)本身獲得監(jiān)督信息是一種潛在的有效解決方案。不同于依賴(lài)人工標(biāo)注的方法,自監(jiān)督學(xué)習(xí) (self-supervised learning)通過(guò)探索數(shù)據(jù)點(diǎn)之間的關(guān)系而生成標(biāo)簽,使得研究人員能夠無(wú)限地去探索數(shù)據(jù)中免費(fèi)的標(biāo)簽信息。此外,由于標(biāo)注人員的認(rèn)知能力有限,人造標(biāo)簽可能會(huì)限制AI模型學(xué)習(xí)能力的上限。另外,由于能耗的原因,芯片產(chǎn)業(yè)在多年前已經(jīng)從主頻時(shí)代轉(zhuǎn)向了多核時(shí)代。同樣 ,AI模型訓(xùn)練的能耗可能會(huì)是未來(lái)人工智能發(fā)展的重要瓶頸。根據(jù)Emma Strubell等人 的研究,從紐約到舊金山每位旅客乘坐飛機(jī)產(chǎn)生二氧化碳排放量是1,984 lbs。然而,兩年前訓(xùn)練一個(gè)Transformer模型卻需要626,155 lbs (現(xiàn)在應(yīng)該更高)。所以,要想讓人工 智能未來(lái)廣泛應(yīng)用,研究人員應(yīng)該嘗試設(shè)計(jì)一些低能耗的方法。參考鏈接:https://kexue.fm/archives/8431
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。