0
本文作者: 楊曉凡 | 2019-12-30 15:55 | 專題:邁向20年代,2019年終大盤(pán)點(diǎn) |
雷鋒網(wǎng) AI 科技評(píng)論按:前兩天我們總結(jié)了 2019 年十大精彩 AI 學(xué)術(shù)論文,從學(xué)術(shù)價(jià)值的角度挑選了我們認(rèn)為 2019 年里值得重讀、值得紀(jì)念的機(jī)器學(xué)習(xí)論文。
在這篇文章里,雷鋒網(wǎng) AI 科技評(píng)論會(huì)盤(pán)點(diǎn) 2019 年出現(xiàn)的新穎有趣、挑戰(zhàn)傳統(tǒng)觀念的十篇機(jī)器學(xué)習(xí)論文。其中有的論文的學(xué)術(shù)價(jià)值如何還有待商榷、有的論文甚至直接把前人的許多研究成果一把推翻,但這些論文都新意滿滿。這十篇論文剛好可以歸為 5 個(gè)不同的主題,每個(gè)主題兩篇。
OpenAI MuseNet
上榜理由:2019 年年初,在聲稱「GPT-2 過(guò)于危險(xiǎn),不能公布預(yù)訓(xùn)練模型」并引發(fā)大規(guī)模口水仗之后,OpenAI 覺(jué)得 GPT-2 的能力不止如此,他們嘗試的下一個(gè)任務(wù)是安全且喜聞樂(lè)見(jiàn)的音樂(lè)生成?;?GPT-2 編寫(xiě)的 MuseNet 模型繼承并進(jìn)一步加強(qiáng)了長(zhǎng)序列生成能力,使用的訓(xùn)練數(shù)據(jù)是包含了 10 種不同樂(lè)器的、分類為多種不同曲風(fēng)的數(shù)十萬(wàn)個(gè) MIDI 文件,也就是數(shù)十萬(wàn)個(gè)樂(lè)曲。(MIDI 文件是樂(lè)譜的數(shù)字表示,可以指定樂(lè)器但不含有樂(lè)器的音色信息,學(xué)習(xí) MIDI 是明確地讓模型學(xué)習(xí)作曲風(fēng)格。)
模型的效果是驚人的,OpenAI 不僅在直播中演示了許多風(fēng)格各異、辨識(shí)度高、旋律自然的生成樂(lè)曲,他們還在介紹博客中提供了一個(gè)互動(dòng)演示,可以從某首些知名樂(lè)曲中取一個(gè)小節(jié)作為開(kāi)頭,然后讓模型以其他的風(fēng)格續(xù)寫(xiě),續(xù)寫(xiě)結(jié)果令人驚喜。還有好奇且有動(dòng)手能力的網(wǎng)友們利用 OpenAI 提供的試驗(yàn)工具生成了更多樂(lè)曲,都印證了 MuseNet 確實(shí)有強(qiáng)大的作曲能力。
同期谷歌也在巴赫誕辰日做了一個(gè)模仿巴赫的作曲 AI(https://www.google.com/doodles/celebrating-johann-sebastian-bach),可以根據(jù)用戶給出的音符,以巴赫的作曲風(fēng)格增加和弦。這兩個(gè)音樂(lè) AI 的區(qū)別,除了巴赫 AI 只掌握巴赫的曲風(fēng)之外,還在于巴赫 AI 是在已經(jīng)給出的小節(jié)中繼續(xù)增加音符形成和弦,而 OpenAI 的 MuseNet 是向后續(xù)寫(xiě)更多小節(jié)。
博客地址:openai.com/blog/musenet
詳細(xì)閱讀:http://www.ozgbdpf.cn/news/201904/ZCIbdikWj3cGViEY.html
Newton vs the machine:solving the chaotic three-body problem using deep neural networks
深度神經(jīng)網(wǎng)絡(luò)求解三體運(yùn)動(dòng)問(wèn)題
上榜理由:三體運(yùn)動(dòng)問(wèn)題沒(méi)有解析解早有定論,所以這篇論文公開(kāi)之后也引發(fā)了一些批評(píng),畢竟論文只是嘗試了極為簡(jiǎn)化的情況(三個(gè)質(zhì)量相等、初始速度為零的粒子在同一個(gè)平面內(nèi))、只是做到了接近的數(shù)值解就拿出來(lái)張揚(yáng),而且還宣稱比計(jì)算精確解的專業(yè)軟件快十萬(wàn)倍,對(duì)網(wǎng)絡(luò)的能力有夸大吹捧之嫌。
這篇論文也有積極的一面。以深度學(xué)習(xí)為代表的機(jī)器學(xué)習(xí)手段確實(shí)在各種端到端的學(xué)習(xí)預(yù)測(cè)任務(wù)中得到了越來(lái)越多的運(yùn)用,但其實(shí)深度學(xué)習(xí)的能力也不僅如此,它還可以在許多領(lǐng)域的更多任務(wù)中發(fā)揮作用,正如三體運(yùn)動(dòng)這樣的復(fù)雜問(wèn)題中我們?nèi)鄙倏梢钥焖儆?jì)算近似解的工具。
ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness ( ICLR 2019 )
在 ImageNet 上訓(xùn)練的 CNN 會(huì)帶有紋理偏倚;增加形狀偏倚可以提高準(zhǔn)確度和魯棒性
上榜理由:現(xiàn)代 CNN 網(wǎng)絡(luò)有很強(qiáng)的特征表示學(xué)習(xí)能力,能在 ImageNet 上得到很高的識(shí)別準(zhǔn)確率。不過(guò),不斷改進(jìn)網(wǎng)絡(luò)架構(gòu)、不斷刷分的人多,探究 CNN 到底學(xué)到了怎么樣的特征表示的人少。按理說(shuō),對(duì)象識(shí)別的邊界和紋理之爭(zhēng)早就存在,不過(guò)我們終于還是在 2019 年看到了針對(duì)性的研究論文。
這篇論文中的實(shí)驗(yàn)表明,在 ImageNet 上訓(xùn)練的 CNN 網(wǎng)絡(luò)在對(duì)象識(shí)別中依賴紋理遠(yuǎn)多于依賴形狀;這其實(shí)和人類對(duì)自己的識(shí)別模式的認(rèn)知有很大區(qū)別,也和我們對(duì) CNN 工作方式的理解有所不同。作者們的結(jié)論有充分的實(shí)驗(yàn)支持,他們甚至用生成的風(fēng)格轉(zhuǎn)換數(shù)據(jù)集訓(xùn)練了依賴形狀更多的 CNN,這樣的 CNN 在識(shí)別準(zhǔn)確率和魯棒性方面都有提高。這篇論文被 ICLR 2019 接收。
Deep Double Descent: Where Bigger Models and More Data Hurt
研究深度雙波谷:更大的模型和更多的數(shù)據(jù)有時(shí)會(huì)產(chǎn)生負(fù)面作用
上榜理由:2019 年中,包括 OpenAI 在內(nèi)的一批學(xué)者「老調(diào)重談」地再次討論起模型復(fù)雜度和過(guò)擬合的問(wèn)題來(lái)。機(jī)器學(xué)習(xí)界流傳已久的觀念是,隨著模型的復(fù)雜度增大(學(xué)習(xí)能力提高),模型總能得到更小的訓(xùn)練誤差,但測(cè)試誤差和訓(xùn)練誤差的差會(huì)越來(lái)越大(出現(xiàn)過(guò)擬合);所以模型復(fù)雜度不能太低、也不能太高,我們需要找到相對(duì)平衡的那個(gè)點(diǎn)。(上面的 U 型圖)
但這兩年來(lái),一大批超級(jí)大、超級(jí)復(fù)雜的模型用實(shí)際行動(dòng)表明了訓(xùn)練誤差和測(cè)試誤差都還可以一同持續(xù)下降。所以這次討論形成的新共識(shí)是,我們需要在 U 型圖的右側(cè)繼續(xù)擴(kuò)充,用來(lái)表示現(xiàn)代的、大容量的深度學(xué)習(xí)模型在大小超過(guò)某個(gè)閾值之后,越大的模型會(huì)具有越好的泛化性。這樣,整張圖就形成了雙波谷的樣子(下圖) —— 也就是說(shuō),當(dāng)你的模型大小很不幸地落在中間的波峰的時(shí)候,你就會(huì)遇到模型越大、 數(shù)據(jù)越多反而表現(xiàn)越差的尷尬情境。
Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations
挑戰(zhàn)解耦表征的無(wú)監(jiān)督學(xué)習(xí)中的共識(shí)
上榜理由:人類研究人員們相信,真實(shí)數(shù)據(jù)的多種多樣的變化總是可以用一些關(guān)鍵因素的波動(dòng)來(lái)解釋;至于這些因素分別是什么,就可以用無(wú)監(jiān)督學(xué)習(xí)的方式尋找解耦的表征,從而成功地揭示數(shù)據(jù)分布規(guī)律。這個(gè)方向目前已經(jīng)有一些研究成果,研究人員們也已經(jīng)形成了一些共識(shí)。
但這篇論文可以說(shuō)把現(xiàn)階段的大部分成果和假設(shè)一竿子全部打翻。作者們首先從理論上說(shuō)明,如果不在模型和數(shù)據(jù)上都引入歸納偏倚,那么解耦表征的無(wú)監(jiān)督學(xué)習(xí)本來(lái)就是不可能的。接著,作者們用大規(guī)模實(shí)驗(yàn)表明,雖然不同的方法都可以找到和選取的訓(xùn)練損失對(duì)應(yīng)的性質(zhì),但只要沒(méi)有監(jiān)督,就訓(xùn)練不出能良好解耦的模型。除此之外,隨著表征解耦程度的提高,學(xué)習(xí)下游任務(wù)的樣本復(fù)雜度并沒(méi)有跟著降低。這幾點(diǎn)結(jié)論都和當(dāng)前的解耦表征無(wú)監(jiān)督學(xué)習(xí)的共識(shí)形成鮮明沖突,這個(gè)方向的研究人員們也許需要重新思考他們要從多大程度上從頭來(lái)過(guò)。
作者們的建議是,未來(lái)的解耦學(xué)習(xí)研究需要分清人為引入的歸納偏倚和監(jiān)督(即便是隱式的)兩者分別的作用,需要探究通過(guò)人為選取的損失「強(qiáng)迫」模型學(xué)習(xí)解耦帶來(lái)的收益到底大不大,以及要形成能在多個(gè)不同的數(shù)據(jù)集上測(cè)試、結(jié)果可復(fù)現(xiàn)的實(shí)驗(yàn)慣例。這篇論文被 ICML 2019 接收。
Uniform convergence may be unable to explain generalization in deep learning
收斂一致性可能解釋不了深度學(xué)習(xí)中的泛化現(xiàn)象
上榜理由:為了探究深度學(xué)習(xí)泛化能力背后的原理,學(xué)術(shù)界提出了泛化邊界的概念,然后嘗試用「收斂一致性」理論推導(dǎo)、設(shè)計(jì)出了各種各樣的泛化邊界描述方法,似乎已經(jīng)取得了不少成果。但這篇論文中作者們通過(guò)大量實(shí)驗(yàn)發(fā)現(xiàn),雖然其中的許多泛化邊界從數(shù)值角度看起來(lái)挺大,但隨著訓(xùn)練數(shù)據(jù)集大小變大,這些泛化邊界也會(huì)跟著變大。
在此基礎(chǔ)上,作者們用過(guò)參數(shù)化的線性分類器和梯度下降訓(xùn)練的神經(jīng)網(wǎng)絡(luò)為例,證明了收斂一致性并不能解釋模型的泛化性,即便完全考慮了梯度下降可能帶來(lái)的隱式偏倚也解釋不了。更嚴(yán)謹(jǐn)?shù)卣f(shuō),作者們實(shí)驗(yàn)表明,根據(jù)收斂一致性得到的泛化邊界要比根據(jù)梯度下降得到的泛化邊界大得多。根據(jù)這一系列結(jié)果,作者們對(duì)「用基于收斂的方法解釋泛化能力」的做法提出嚴(yán)重的質(zhì)疑。雖然這篇論文并沒(méi)能解決(也沒(méi)打算解決)深度神經(jīng)網(wǎng)絡(luò)中的泛化性問(wèn)題,但它顯然為整個(gè)領(lǐng)域指出「此路不通,考慮重來(lái)」。這篇論文獲得 NeurIPS 2019 杰出新方向論文獎(jiǎng)。
On The Measure Of Intelligence
關(guān)于智慧的測(cè)量手段
上榜理由:雖然機(jī)器學(xué)習(xí)研究人員們總說(shuō)通用人工智能是遠(yuǎn)大理想和努力方向,但「在固定的具體任務(wù)上跑分」的慣例實(shí)在看不出哪里和通用人工智能沾邊了。谷歌大腦研究員、Keras 庫(kù)作者 Fran?ois Chollet 在日常抨擊這種風(fēng)氣的同時(shí),最近也公開(kāi)了一篇嚴(yán)肅的論文,明確提出我們需要考慮如何測(cè)量真正的智慧。
他在論文中描述的核心想法是:要了解一個(gè)系統(tǒng)的智慧水平,應(yīng)當(dāng)測(cè)量它在一系列不同任務(wù)中表現(xiàn)出的獲得新能力的效率;這和先驗(yàn)、經(jīng)驗(yàn)、泛化難度都相關(guān)。論文中包含了對(duì) AI、智慧相關(guān)概念的解釋和討論,他認(rèn)為的理想的通用 AI 評(píng)價(jià)方式,以及他自己設(shè)計(jì)的認(rèn)為比較能反映及測(cè)量真正的智慧的 ARC 數(shù)據(jù)集。對(duì)智慧的討論和復(fù)制還有很長(zhǎng)的路要走,這篇論文再次提醒大家對(duì)「我們應(yīng)該從哪里開(kāi)始、往哪里去」保持清醒。
詳細(xì)介紹:http://www.ozgbdpf.cn/news/201911/O808I44AABfVBQZs.html
Putting an End to End-to-End: Gradient-Isolated Learning of Representations
給端到端學(xué)習(xí)畫(huà)上句號(hào):表征的梯度隔離學(xué)習(xí)
上榜理由:這篇論文提出了一種全新的自學(xué)習(xí)方法,它采用的并不是深度學(xué)習(xí)中慣用的端到端梯度下降,而是把貪婪 InfoNCE 作為目標(biāo),分別獨(dú)立地訓(xùn)練網(wǎng)絡(luò)中的各個(gè)模塊。它的學(xué)習(xí)方式更接近于自監(jiān)督學(xué)習(xí),是把各種不同的小塊之間的共同信息作為每個(gè)小塊的訓(xùn)練的監(jiān)督信號(hào),把時(shí)間維度上臨近的表征之間的共同信息最大化。之所以這種做法能奏效,是因?yàn)閿?shù)據(jù)中符合這種設(shè)想的「慢特征」對(duì)下游任務(wù)非常有幫助。這種方法大幅節(jié)省了訓(xùn)練時(shí)間,也避開(kāi)了大規(guī)模模型遇到的內(nèi)存空間瓶頸。
這種方法很大程度上是從生物學(xué)現(xiàn)象得到啟發(fā)的,也就是,整個(gè)大腦并不針對(duì)同一個(gè)唯一的目標(biāo)進(jìn)行優(yōu)化,而是有模塊化的功能分區(qū),然后每個(gè)區(qū)域都優(yōu)化自己的局部信息。目前看起來(lái),這種方法可以方便地快速訓(xùn)練更深的模型,利用局部信息的設(shè)定也避免了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中梯度消失的問(wèn)題。這是一種有潛力的方法,不過(guò)是否能像論文標(biāo)題中說(shuō)的那樣「給端到端學(xué)習(xí)畫(huà)上句號(hào)」還需要等待時(shí)間驗(yàn)證。這篇論文獲得 NeurIPS 2019 杰出新方向論文提名獎(jiǎng)。
代碼開(kāi)源:https://github.com/loeweX/Greedy_InfoMax
Read, Attend and Comment: A Deep Architecture for Automatic News Comment Generation
上榜理由:這是一篇 EMNLP 2019 接收論文,會(huì)議結(jié)束之后則在社交網(wǎng)絡(luò)上引發(fā)了大片聲討之聲。我們固然知道具備優(yōu)秀學(xué)習(xí)擬合能力的深度神經(jīng)網(wǎng)絡(luò)有能力大批量生成新聞評(píng)論,這篇論文中的方法能提取文章的重點(diǎn)觀點(diǎn)生成響應(yīng)的評(píng)論,而且也在自動(dòng)評(píng)價(jià)指標(biāo)和人類評(píng)價(jià)的兩個(gè)方面都得到了很好的結(jié)果,但批評(píng)的聲音認(rèn)為,更重要的是「是否應(yīng)當(dāng)做這樣的研究,這樣的研究的社會(huì)影響是怎么樣的」。EMNLP 2019 還有一篇遭受了類似批評(píng)的論文是《Charge-Based Prison Term Prediction with Deep Gating Network》(https://arxiv.org/abs/1908.11521),在訴訟案件中根據(jù)檢方指控的罪行預(yù)測(cè)被告刑期。
論文地址:https://arxiv.org/abs/1909.11974
Facial Reconstruction from Voice using Generative Adversarial Networks
作為更大、更綜合性的會(huì)議,NeurIPS 2019 接收論文中也有帶來(lái)很大爭(zhēng)議的,這篇「用 GAN 從聲音重建人臉」的論文就炒得沸沸揚(yáng)揚(yáng)。即便我們認(rèn)可一個(gè)人的說(shuō)話聲音可能和性別、年齡、體形相關(guān),也許模型能比人類更敏感更明確地找到其中的相關(guān)性,但「侵犯隱私」、「喪失道德判斷力」、「增加社會(huì)偏見(jiàn)」、「做奇怪無(wú)用的課題」之類的批評(píng)仍然是免不了的。
NeurIPS 2019 也不止有一篇論文引發(fā)爭(zhēng)議,還有一篇是《Predicting the Politics of an Image Using Webly Supervised Data》(arxiv.org/abs/1911.00147),判斷新聞媒體選用的人物照片體現(xiàn)了左派還是右派的政治理念。如果看作是揭露大眾偏見(jiàn)的社會(huì)學(xué)研究的話,這篇論文可能還有一些價(jià)值。
雷鋒網(wǎng) AI 科技評(píng)論整理。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。