0
本文作者: 我在思考中 | 2022-06-08 10:36 |
作者|李梅
編輯|陳彩嫻
前幾天剛跟馬斯克吵完架的Gary Marcus,又雙叒叕跟人吵起來(lái)了,這次的吵架對(duì)象是Yann LeCun。
一向喜歡給深度學(xué)習(xí)潑冷水的Marcus,在今天發(fā)帖談了談與LeCun的「舊賬」和「新仇」,并給了LeCun一個(gè)白眼:
事情是這樣的。
幾天前,有人在推特上發(fā)帖問(wèn): 在機(jī)器學(xué)習(xí)中,最優(yōu)雅美麗的idea是什么?感覺(jué)數(shù)學(xué)家和物理學(xué)家經(jīng)常談?wù)撁缹W(xué),但我們卻很少,為什么?
于是網(wǎng)友們都來(lái)認(rèn)真答題:多重權(quán)重更新算法(multiplicative weights update)、核技巧(kernel trick)、降維(dimension reduction)、一些凸優(yōu)化方法(convex optimization)、變分推理(variational inference)、熵和信息論等等。
大家還就機(jī)器學(xué)習(xí)研究的美學(xué)性討論了起來(lái)。有人認(rèn)為,機(jī)器學(xué)習(xí)理論家其實(shí)也在談?wù)搩?yōu)雅這個(gè)東西,尤其是那些具有理論計(jì)算機(jī)背景或者傳統(tǒng)物理學(xué)背景的人。也有人言語(yǔ)犀利:之所以很少有人談?wù)撁缹W(xué),是因?yàn)闄C(jī)器學(xué)習(xí)重在應(yīng)用,而不是像純粹數(shù)學(xué)那樣「毫無(wú)價(jià)值」。
谷歌大腦的研究員Chris Olah也來(lái)轉(zhuǎn)貼評(píng)論說(shuō):
LeCun表示:梯度下降?這我熟!
LeCun在1989年發(fā)表的那篇論文,就是通過(guò)使用梯度下降的方法訓(xùn)練了CNN進(jìn)行圖像識(shí)別,梯度下降后來(lái)成為計(jì)算機(jī)視覺(jué)研究的基礎(chǔ)理論。
LeCun還回憶了2000年丹佛NIPS會(huì)議上的一次經(jīng)歷。當(dāng)時(shí)一位非常杰出的ML研究人員在晚宴上問(wèn)道:「我們?cè)贛L中學(xué)到的最重要的東西是什么?」LeCun回答說(shuō):「梯度下降」。當(dāng)時(shí)那位研究人員臉上目瞪口呆的表情表明他對(duì)這個(gè)回答嗤之以鼻。
LeCun這個(gè)「仇」記得還挺久......
那么,「梯度下降」是最優(yōu)雅的ML算法嗎?有人贊成有人反對(duì)。
LeCun正忙著與網(wǎng)友進(jìn)行友好交流,Marcus也來(lái)了。有討論深度學(xué)習(xí)的地方,怎能沒(méi)有我Marcus的身影?
LeCun一看:所以你的意思是要拋棄梯度下降了??
2.未來(lái)會(huì)有什么方案可能替代基于梯度的優(yōu)化?你是相信(a)無(wú)梯度優(yōu)化不好?,還是(b)優(yōu)化本身不好?
對(duì)此,Marcus表示很委屈:我的意思是DL需要「補(bǔ)充」,而不是「替換」!
Marcus還搬出發(fā)表于2018年的一篇文章“Deep Learning: A Critical Appraisal”作為證據(jù):
還有最近的一場(chǎng)keynote演講:
但是,LeCun并不買(mǎi)賬,他接著Marcus的話(huà)回復(fù):
這可把Marcus惹急了:
那就來(lái)翻翻舊賬,針對(duì)Marcus在2018年寫(xiě)的那篇文章,LeCun的確曾這樣評(píng)論(蝦仁豬心):
到這兒大家也能看出來(lái),二人討論的對(duì)象和觀點(diǎn)是有錯(cuò)位的。LeCun希望如果有新的方案,仍需要封裝在DL下,而Marcus的意思是新的方案需要圍繞著DL進(jìn)行封裝,前者是關(guān)于規(guī)模的擴(kuò)展,后者則是一種混合和補(bǔ)充。
大家怎么看?
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。