0
本文作者: 岑大師 | 2017-12-06 14:33 |
雷鋒網(wǎng)按:12 月 5 日,在經(jīng)過一天的Tutorial預(yù)熱后,加州長灘舉辦的第 31 屆 NIPS 大會(huì)進(jìn)入正會(huì)的階段,所有論文也將在此后的三天內(nèi)進(jìn)行展示。 據(jù)統(tǒng)計(jì),本次NIPS大會(huì)總共接收 3240 篇論文,其中 678 篇被收錄。本次大會(huì)共有超過8000人注冊參會(huì),NIPS大會(huì)在機(jī)器學(xué)習(xí)理論研究方面的地位毋庸置疑。
在昨天(12月4日),大會(huì)官方公布了本次大會(huì)的三篇最佳論文(Best Paper Award)和一篇時(shí)間檢驗(yàn)獎(jiǎng)?wù)撐模═est of Time Award)。而在大會(huì)的議程安排中,第一篇講解的論文就是獲得了時(shí)間檢驗(yàn)獎(jiǎng)?wù)撐模骸禦andom Features for Large-Scale Kernel Machines》。雷鋒網(wǎng)認(rèn)為,這也表明這一獎(jiǎng)項(xiàng)在NIPS大會(huì)眼中的重要性:最佳論文可能是當(dāng)年觀點(diǎn)最新穎、最能打動(dòng)評(píng)審者的論文,但這種新穎的觀點(diǎn)在某種程度上仍有待時(shí)間證明。而從歷年大會(huì)的論文表現(xiàn)看,那些“最佳論文”可能起跑占優(yōu),但在時(shí)間的檢驗(yàn)下卻往往敗下陣來,而往往有一些當(dāng)年不起眼的論文,在此后的很長一段時(shí)間逐步顯現(xiàn)出自己的長遠(yuǎn)影響力,而這樣的論文正是人工智能社區(qū)長期發(fā)展所需要和被鼓勵(lì)的。
在大會(huì)現(xiàn)場,論文作者之一的Ali Rahimi發(fā)表了精彩的論文解讀和獲獎(jiǎng)演講。除去對(duì)文章本身的技術(shù)講解,給雷鋒網(wǎng)印象最深的是,在演講中, Rahimi回顧了其十年前頂著“學(xué)術(shù)警察”對(duì)于機(jī)器學(xué)習(xí)這門新學(xué)科的質(zhì)疑前進(jìn)的過程,并提出經(jīng)過十年的發(fā)展,機(jī)器學(xué)習(xí)需要從野蠻生長到建立一個(gè)完整的體系的過程,并號(hào)召大家去為機(jī)器學(xué)習(xí)的理論框架添磚加瓦。
Rahimi的演講雷鋒網(wǎng)摘編如下(對(duì)于演講中的技術(shù)講解,雷鋒網(wǎng)已做相應(yīng)簡寫,關(guān)于論文的技術(shù)部分請參閱原論文):
謝謝,得到這個(gè)獎(jiǎng)?wù)婧?。但我要說,拿到這個(gè)叫做“時(shí)間檢驗(yàn)獎(jiǎng)”的獎(jiǎng)項(xiàng)并不會(huì)讓你感覺你老了,而是所有公司、所有課題組成員的激勵(lì)。如果將這一系列論文當(dāng)做一個(gè)三部曲,那么最好的東西總是留在最后,而不是最初。Ben和我已經(jīng)不再年輕,所以如果你能容忍我老年人的絮絮叨叨,我想把你帶回我們寫這篇論文的2006年,那個(gè)時(shí)候,恐龍還在地球上游蕩,我和Ben還年輕力壯,身手敏捷。
(Ali Rahimi提到的“三步曲”的三篇論文)
在2006年的NIPS上,深度學(xué)習(xí)就像一塊扔進(jìn)水塘里的石頭一樣激起了波瀾。當(dāng)時(shí)的深度學(xué)習(xí)訓(xùn)練算法復(fù)雜,結(jié)果比PCA和SPMS等線性算法略微占優(yōu),在當(dāng)年的Workshop上結(jié)果令人信服。但也有人說,應(yīng)該拿深度學(xué)習(xí)與如支持向量機(jī)等非線性算法做比較,但當(dāng)時(shí)我們?nèi)狈?shù)據(jù)集,萬事開頭難。
當(dāng)時(shí),Ben和我都在隨機(jī)算法上各自奮戰(zhàn):Ben研究壓縮感應(yīng),我研究用于加速計(jì)算機(jī)視覺的二分圖匹配的架構(gòu)。在通過兩封郵件后我們成了戰(zhàn)友,也導(dǎo)致了這篇論文的誕生。
我們很快找到了方法。實(shí)際上這個(gè)方法效果很好,于是我們開始計(jì)劃設(shè)置一個(gè)Baseline以便可以和非線性方法進(jìn)行比較,但當(dāng)時(shí)我們無法找到任何代碼來進(jìn)行比較,在這過程中,我們也經(jīng)受了不少質(zhì)疑和嘲笑。
為了準(zhǔn)確地用這些隨機(jī)特征去構(gòu)造一個(gè)核近似映射,你可能需要用到幾萬個(gè)隨機(jī)特征,但在我們的試驗(yàn)中我們只用了幾百個(gè)特征,而且在一些試驗(yàn)中,我們的近似方法就取得了不錯(cuò)的結(jié)果。更讓人感到驚奇的是,在一些試驗(yàn)中我們的近似方法的測試錯(cuò)誤比我們試圖模擬的原始的核機(jī)器方法更低。
這從現(xiàn)在來看很容易解釋,而在當(dāng)時(shí),機(jī)器學(xué)習(xí)的概念剛剛處于萌芽階段,剛從一個(gè)學(xué)術(shù)會(huì)議的想法變成一個(gè)更嚴(yán)密的理論體系,在NIPS大會(huì)有一些老學(xué)究,他們就像“學(xué)術(shù)警察”一樣,他們質(zhì)疑這個(gè)想法的嚴(yán)密性,如果你不走運(yùn),你的研究會(huì)被他們批得一文不值。但我們最后決定還是要提交這篇論文,去做一件我們認(rèn)為正確的事,去挑戰(zhàn)這些“學(xué)術(shù)警察”。幸而我們最終找到了對(duì)于這一現(xiàn)象的一個(gè)合理解釋。
這就是我們的算法。你無需討論內(nèi)核,只需要從你的數(shù)據(jù)集中獨(dú)立繪制一組函數(shù),然后調(diào)整他們的權(quán)重,就可以得到更低的Loss,我們在第二篇論文中證明了這一點(diǎn)。我們使用傅里葉特征的方法,同樣,用三層的神經(jīng)網(wǎng)絡(luò)可以任意地近似模擬希爾伯特空間中的函數(shù),你無需討論內(nèi)核以證明特征。最后在第三篇論文(Random kitchen sinks: replacing optimization with randomization in learning)中我們提出了Random Kitchen Sinks,為徑向基函數(shù)核構(gòu)造一個(gè)近似映射,我們跳出了與傳統(tǒng)方法比較的圈子,為深度學(xué)習(xí)提供了一個(gè)Baseline,之后,這一方法被越來越多人應(yīng)用和改善,直到今天,我仍然在使用隨機(jī)特征方法。
到2017年的今天,在機(jī)器學(xué)習(xí)領(lǐng)域我們已經(jīng)取得了難以想象的進(jìn)步。我們可以自由地共享代碼,使用常見的任務(wù)基準(zhǔn),如無人駕駛、自動(dòng)為照片加標(biāo)簽、語音轉(zhuǎn)文字、翻譯等方面的應(yīng)用,都在表明人工智能時(shí)代正在到來,研究機(jī)器學(xué)習(xí)的公司得到了數(shù)十億美元的估值,應(yīng)該說很多方面比起我們當(dāng)年那個(gè)時(shí)候要好得多,但有些地方值得我們警惕。
今天我們會(huì)說,“人工智能就是新的電力”。但我想提醒大家的一點(diǎn)是,今天的人工智能又何嘗不像煉金術(shù)呢?煉金術(shù)的確對(duì)時(shí)代有推動(dòng),是現(xiàn)代化學(xué)等科學(xué)的基礎(chǔ),但當(dāng)年的煉金術(shù)師們同樣認(rèn)為,用水蛭可以治療疾病,可以將其它金屬變成黃金,用1700年的物理和化學(xué)方法來面對(duì)2000年的星辰大海,其結(jié)果可想而知。
我并不是說煉金術(shù)沒有用——如果你只是做一個(gè)照片分享這樣的應(yīng)用,煉金術(shù)完全OK。但我們希望用人工智能解決的,是諸如建立一套制度體系,解決醫(yī)療問題、改變溝通方式、影響選舉等大問題,我希望未來我們生活的社會(huì)是一個(gè)嚴(yán)謹(jǐn)?shù)?、有?jù)可查的體系,而不是像煉金術(shù)一樣。甚至我有些懷念那些“學(xué)術(shù)警察”,為什么這樣說呢?你們當(dāng)中有多少人從零開始搭建一個(gè)深層網(wǎng)絡(luò)并訓(xùn)練它,當(dāng)它表現(xiàn)不佳,讓你感覺自己做錯(cuò)了事情一樣?如果是,請舉手(現(xiàn)場不少人舉手)。我自己也是這樣,每三個(gè)月就會(huì)這樣發(fā)作一次。我要說的是,這不是你的錯(cuò),是梯度下降的錯(cuò)(眾笑)。當(dāng)我們遇到問題時(shí),我們會(huì)各種猜想,例如這是否只是局部最優(yōu),或者是個(gè)鞍點(diǎn)?但并不是這樣。
我理解各位的痛處,這里有一封我收到的郵件,我念給大家聽一下(見上圖,略)。我有收到很多類似的郵件,因?yàn)槲覀優(yōu)榱藘?yōu)化,我們采取簡單粗暴的技巧去降低Loss,而不是去了解當(dāng)中的關(guān)系,這也給人工智能這一門神秘的學(xué)科又增加了更多的神秘。我們可以使用我們不了解的技術(shù),例如我不了解飛機(jī)飛行的原理不影響我搭飛機(jī)一樣,但我知道這背后有一整套空氣動(dòng)力學(xué)原理,知其然,所以知其所以然。我們現(xiàn)在知道神經(jīng)網(wǎng)絡(luò)有用,但進(jìn)一步想,難道你不想知道如何優(yōu)化神經(jīng)連接和減少內(nèi)部協(xié)變從而加快梯度下降,或者神經(jīng)元之間聯(lián)系和協(xié)作的原理是怎樣的嗎?我們對(duì)神經(jīng)元的模擬已經(jīng)成為我們建立深度網(wǎng)絡(luò)的基本工具,但作為一個(gè)領(lǐng)域,但我們對(duì)其幾乎一無所知。
想象這樣不同的兩個(gè)你:一個(gè)你在過去的一年中嘗試不同的技巧去刷分,而另一個(gè)你在過去一年中通過不同試驗(yàn),去試圖了解你所觀察到的各種奇怪現(xiàn)象,去尋找它們的根源。我們之前做過很多試驗(yàn),我們可以使用更多的“梯子”,但這些簡單試驗(yàn)和梯子都是為了讓我們理解更復(fù)雜的系統(tǒng)的基石。
想象一下,如果我們現(xiàn)在有一個(gè)線性系統(tǒng)求解器或者矩陣分解的引擎,它們可以加快數(shù)據(jù)的處理和訓(xùn)練,處理數(shù)以百億計(jì)的變量,并成為真正的產(chǎn)品——要實(shí)現(xiàn)這一點(diǎn)當(dāng)然是一個(gè)艱難的數(shù)學(xué)問題或者困難的系統(tǒng)問題,但這正是我們這個(gè)群體、社區(qū)需要解決的問題。這也是為什么我現(xiàn)在希望大家更多去理解這些技術(shù)背后的嚴(yán)格的原理和關(guān)系,而不是像煉金術(shù)師一樣工作。我很高興獲得這個(gè)獎(jiǎng),而且認(rèn)識(shí)了你們當(dāng)中的很多人。我希望在未來,我們可以共同為之努力,把機(jī)器學(xué)習(xí)從“煉金術(shù)”變成真正的“電力”,謝謝。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。