0
本文作者: 岑大師 | 2017-12-06 14:33 |
雷鋒網(wǎng)按:12 月 5 日,在經(jīng)過一天的Tutorial預熱后,加州長灘舉辦的第 31 屆 NIPS 大會進入正會的階段,所有論文也將在此后的三天內(nèi)進行展示。 據(jù)統(tǒng)計,本次NIPS大會總共接收 3240 篇論文,其中 678 篇被收錄。本次大會共有超過8000人注冊參會,NIPS大會在機器學習理論研究方面的地位毋庸置疑。
在昨天(12月4日),大會官方公布了本次大會的三篇最佳論文(Best Paper Award)和一篇時間檢驗獎論文(Test of Time Award)。而在大會的議程安排中,第一篇講解的論文就是獲得了時間檢驗獎論文:《Random Features for Large-Scale Kernel Machines》。雷鋒網(wǎng)認為,這也表明這一獎項在NIPS大會眼中的重要性:最佳論文可能是當年觀點最新穎、最能打動評審者的論文,但這種新穎的觀點在某種程度上仍有待時間證明。而從歷年大會的論文表現(xiàn)看,那些“最佳論文”可能起跑占優(yōu),但在時間的檢驗下卻往往敗下陣來,而往往有一些當年不起眼的論文,在此后的很長一段時間逐步顯現(xiàn)出自己的長遠影響力,而這樣的論文正是人工智能社區(qū)長期發(fā)展所需要和被鼓勵的。
在大會現(xiàn)場,論文作者之一的Ali Rahimi發(fā)表了精彩的論文解讀和獲獎演講。除去對文章本身的技術講解,給雷鋒網(wǎng)印象最深的是,在演講中, Rahimi回顧了其十年前頂著“學術警察”對于機器學習這門新學科的質(zhì)疑前進的過程,并提出經(jīng)過十年的發(fā)展,機器學習需要從野蠻生長到建立一個完整的體系的過程,并號召大家去為機器學習的理論框架添磚加瓦。
Rahimi的演講雷鋒網(wǎng)摘編如下(對于演講中的技術講解,雷鋒網(wǎng)已做相應簡寫,關于論文的技術部分請參閱原論文):
謝謝,得到這個獎真好。但我要說,拿到這個叫做“時間檢驗獎”的獎項并不會讓你感覺你老了,而是所有公司、所有課題組成員的激勵。如果將這一系列論文當做一個三部曲,那么最好的東西總是留在最后,而不是最初。Ben和我已經(jīng)不再年輕,所以如果你能容忍我老年人的絮絮叨叨,我想把你帶回我們寫這篇論文的2006年,那個時候,恐龍還在地球上游蕩,我和Ben還年輕力壯,身手敏捷。
(Ali Rahimi提到的“三步曲”的三篇論文)
在2006年的NIPS上,深度學習就像一塊扔進水塘里的石頭一樣激起了波瀾。當時的深度學習訓練算法復雜,結果比PCA和SPMS等線性算法略微占優(yōu),在當年的Workshop上結果令人信服。但也有人說,應該拿深度學習與如支持向量機等非線性算法做比較,但當時我們?nèi)狈?shù)據(jù)集,萬事開頭難。
當時,Ben和我都在隨機算法上各自奮戰(zhàn):Ben研究壓縮感應,我研究用于加速計算機視覺的二分圖匹配的架構。在通過兩封郵件后我們成了戰(zhàn)友,也導致了這篇論文的誕生。
我們很快找到了方法。實際上這個方法效果很好,于是我們開始計劃設置一個Baseline以便可以和非線性方法進行比較,但當時我們無法找到任何代碼來進行比較,在這過程中,我們也經(jīng)受了不少質(zhì)疑和嘲笑。
為了準確地用這些隨機特征去構造一個核近似映射,你可能需要用到幾萬個隨機特征,但在我們的試驗中我們只用了幾百個特征,而且在一些試驗中,我們的近似方法就取得了不錯的結果。更讓人感到驚奇的是,在一些試驗中我們的近似方法的測試錯誤比我們試圖模擬的原始的核機器方法更低。
這從現(xiàn)在來看很容易解釋,而在當時,機器學習的概念剛剛處于萌芽階段,剛從一個學術會議的想法變成一個更嚴密的理論體系,在NIPS大會有一些老學究,他們就像“學術警察”一樣,他們質(zhì)疑這個想法的嚴密性,如果你不走運,你的研究會被他們批得一文不值。但我們最后決定還是要提交這篇論文,去做一件我們認為正確的事,去挑戰(zhàn)這些“學術警察”。幸而我們最終找到了對于這一現(xiàn)象的一個合理解釋。
這就是我們的算法。你無需討論內(nèi)核,只需要從你的數(shù)據(jù)集中獨立繪制一組函數(shù),然后調(diào)整他們的權重,就可以得到更低的Loss,我們在第二篇論文中證明了這一點。我們使用傅里葉特征的方法,同樣,用三層的神經(jīng)網(wǎng)絡可以任意地近似模擬希爾伯特空間中的函數(shù),你無需討論內(nèi)核以證明特征。最后在第三篇論文(Random kitchen sinks: replacing optimization with randomization in learning)中我們提出了Random Kitchen Sinks,為徑向基函數(shù)核構造一個近似映射,我們跳出了與傳統(tǒng)方法比較的圈子,為深度學習提供了一個Baseline,之后,這一方法被越來越多人應用和改善,直到今天,我仍然在使用隨機特征方法。
到2017年的今天,在機器學習領域我們已經(jīng)取得了難以想象的進步。我們可以自由地共享代碼,使用常見的任務基準,如無人駕駛、自動為照片加標簽、語音轉文字、翻譯等方面的應用,都在表明人工智能時代正在到來,研究機器學習的公司得到了數(shù)十億美元的估值,應該說很多方面比起我們當年那個時候要好得多,但有些地方值得我們警惕。
今天我們會說,“人工智能就是新的電力”。但我想提醒大家的一點是,今天的人工智能又何嘗不像煉金術呢?煉金術的確對時代有推動,是現(xiàn)代化學等科學的基礎,但當年的煉金術師們同樣認為,用水蛭可以治療疾病,可以將其它金屬變成黃金,用1700年的物理和化學方法來面對2000年的星辰大海,其結果可想而知。
我并不是說煉金術沒有用——如果你只是做一個照片分享這樣的應用,煉金術完全OK。但我們希望用人工智能解決的,是諸如建立一套制度體系,解決醫(yī)療問題、改變溝通方式、影響選舉等大問題,我希望未來我們生活的社會是一個嚴謹?shù)摹⒂袚?jù)可查的體系,而不是像煉金術一樣。甚至我有些懷念那些“學術警察”,為什么這樣說呢?你們當中有多少人從零開始搭建一個深層網(wǎng)絡并訓練它,當它表現(xiàn)不佳,讓你感覺自己做錯了事情一樣?如果是,請舉手(現(xiàn)場不少人舉手)。我自己也是這樣,每三個月就會這樣發(fā)作一次。我要說的是,這不是你的錯,是梯度下降的錯(眾笑)。當我們遇到問題時,我們會各種猜想,例如這是否只是局部最優(yōu),或者是個鞍點?但并不是這樣。
我理解各位的痛處,這里有一封我收到的郵件,我念給大家聽一下(見上圖,略)。我有收到很多類似的郵件,因為我們?yōu)榱藘?yōu)化,我們采取簡單粗暴的技巧去降低Loss,而不是去了解當中的關系,這也給人工智能這一門神秘的學科又增加了更多的神秘。我們可以使用我們不了解的技術,例如我不了解飛機飛行的原理不影響我搭飛機一樣,但我知道這背后有一整套空氣動力學原理,知其然,所以知其所以然。我們現(xiàn)在知道神經(jīng)網(wǎng)絡有用,但進一步想,難道你不想知道如何優(yōu)化神經(jīng)連接和減少內(nèi)部協(xié)變從而加快梯度下降,或者神經(jīng)元之間聯(lián)系和協(xié)作的原理是怎樣的嗎?我們對神經(jīng)元的模擬已經(jīng)成為我們建立深度網(wǎng)絡的基本工具,但作為一個領域,但我們對其幾乎一無所知。
想象這樣不同的兩個你:一個你在過去的一年中嘗試不同的技巧去刷分,而另一個你在過去一年中通過不同試驗,去試圖了解你所觀察到的各種奇怪現(xiàn)象,去尋找它們的根源。我們之前做過很多試驗,我們可以使用更多的“梯子”,但這些簡單試驗和梯子都是為了讓我們理解更復雜的系統(tǒng)的基石。
想象一下,如果我們現(xiàn)在有一個線性系統(tǒng)求解器或者矩陣分解的引擎,它們可以加快數(shù)據(jù)的處理和訓練,處理數(shù)以百億計的變量,并成為真正的產(chǎn)品——要實現(xiàn)這一點當然是一個艱難的數(shù)學問題或者困難的系統(tǒng)問題,但這正是我們這個群體、社區(qū)需要解決的問題。這也是為什么我現(xiàn)在希望大家更多去理解這些技術背后的嚴格的原理和關系,而不是像煉金術師一樣工作。我很高興獲得這個獎,而且認識了你們當中的很多人。我希望在未來,我們可以共同為之努力,把機器學習從“煉金術”變成真正的“電力”,謝謝。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。