0
本文作者: 奕欣 | 2017-02-18 09:39 | 專題:AAAI 2017 |
雷鋒網(wǎng)AI科技評論按:在舊金山參加 AAAI 期間,經(jīng)余凱老師的引薦,AI 君來到了位于 Palo Alto 的亞馬遜AWS 辦公室與李沐見了一面。從百度少帥到 CMU 博士再到 MXNet, 李沐的履歷儼然自帶距離感。但當穿著耐克灰色套頭衫和牛仔褲的李沐坐在我們面前侃侃而談時,AI 君在會面前的擔(dān)心一掃而光。
嚴格來說這并不是一次采訪,更像是朋友間的閑聊。經(jīng)李沐老師的同意,我們整理出了下面這篇文章,其中涉及的內(nèi)容僅代表他的個人觀點,特此聲明。
MXNet作者 李沐
2015 年的最后一天,李沐在朋友圈自嘲:
「15 年混跡于全球最大男性交友網(wǎng)站(GitHub),一切事都憑興趣」。
在這一年里,他為社區(qū)做出了 1580 個貢獻,最長連續(xù)參與了 39 天。
在接下來的幾個小時,他和小伙伴在 CMU 的機房跨了年。
當時的他說,2016 年有更多更多需要完成的重要的事情。
的確,李沐在剛剛過去的 2016 年完成了學(xué)業(yè)愛情事業(yè)的三豐收:準備 CMU 博士畢業(yè)答辯、步入婚姻殿堂、迎接兒子的誕生……而 MXNet 在 2016 年 11 月被亞馬遜選為官方開源平臺,無疑是其作者李沐在過去一年無法忽視的、濃墨重彩的一筆。
在知乎問答「如何評價 MXNet 被 Amazon AWS 選為官方深度學(xué)習(xí)平臺?」中,李沐個人覺得,不管是亞馬遜還是其它公司,第一點首先還是要聽從用戶的聲音(listen to the customer),基于社區(qū)驅(qū)動導(dǎo)向的 MXNet 實際上需要帶給用戶的不是別的,而是「爽」。
當用戶只需要關(guān)心數(shù)據(jù)量和運算量、寫好數(shù)學(xué)公式、把數(shù)據(jù)交給云并用花錢租算力;而不需要關(guān)心如何有效實現(xiàn)利用硬件、不需要關(guān)心自動求導(dǎo)是如何訓(xùn)練、云端如何優(yōu)化的時候,用戶才能夠真正把精力放在自己想做的事情上?!窤WS 最關(guān)心的是用戶體驗,然后是買資源賺錢。這里最保險的是支持所有流行的 DL 框架?!估钽逶?jīng)在一個知乎問答中這樣總結(jié)道。
在提及這一點的時候,李沐也向雷鋒網(wǎng)AI科技評論表達了他自己的看法,他認為亞馬遜看重的是「有與無」的問題,而不是「誰」的問題。
「亞馬遜靠的是機器時間(machine hour)賺錢,而不是靠軟件與平臺。因此,做社區(qū)的目的主要是為了把用戶量積累起來,而上面用的是什么開源平臺,其實并不重要?!?/p>
當然,亞馬遜不會傻到為谷歌做嫁衣裳而選擇 Tensorflow,因此它亟需的是找尋一個能夠?qū)儆谧约旱拈_源平臺。實際上這樁合作的促成,背后的「二傳手」Alex Smola 功不可沒。
Smola 是李沐在 CMU 的兩位博士導(dǎo)師之一,于 15 年從 CMU 重返工業(yè)界,加入亞馬遜 AWS 擔(dān)任機器學(xué)習(xí)總監(jiān)。此前在雷鋒網(wǎng)AI科技評論報道過的 AAAI 2017 大會上,Smola 也以 MXNet 做了主題分享,而在演講開始的感謝環(huán)節(jié),李沐的名字赫然在目。
在 AAAI 的演講中,Smola 拿 MXNet 的運行速度與其它開源平臺做對比,而在談話中李沐表示,自己并不愿意這樣簡單粗暴地做對比,他也告訴員工們,如果其它公司邀請你們做分享,一般不要做對比,只談技術(shù)就好。
「我很理解大家愛看對比類的文章,但這是一個有偏見(biased)的做法。我們比別人快一兩倍,不是我們想表達的東西,而為什么快,做了哪些優(yōu)化,離我們的理想狀態(tài)還有哪些差距,這樣的總結(jié)可能對我來說更有價值一些?!?/p>
但不論李沐如何避免對比,MXNet 還是經(jīng)常會被拿來與 TensorFlow 相提并論,他在談話過程中也時常提及后者。在知乎上,他索性將機器學(xué)習(xí)的發(fā)展歷史寫成了一篇武俠小傳,將修真世界里的 MXNet 比喻為「散修小團體」,而 TensorFlow 則是「最大流派平臺」。
誠然,不論是開始時間還是平臺特性,MXNet 都是與 Tensorflow 最為接近的一個:完整的多語言前端、全系統(tǒng)模塊化、編譯依賴小、適合快速開發(fā)的特性。雖然吃瓜群眾們津津樂道的無非是哪家更強、優(yōu)缺點是什么、兩家如何自處競爭這樣的問題,甚至還會八卦兩家之間的關(guān)系。但李沐表示,其實他們與 TensorFlow 并不是想象中那種劍拔弩張的狀態(tài),相反,幾個朋友每個星期都會碰頭交流,討論技術(shù)問題。
而更重要的一點在于,李沐認為所謂的「不同」純粹是設(shè)計理念(design choice)的差異所導(dǎo)致的。
「谷歌想做的是一個完完整整的語言,跟 python 無關(guān),自己就能成為一門語言 TF?!惯@樣的策略能讓谷歌從底層到上層擁有絕對控制權(quán),像安卓一樣,用戶只要在上層做東西,底層全交給谷歌。雖然大體量勢必會帶來優(yōu)化的困難,但這是谷歌的生態(tài)圈和戰(zhàn)略所決定的。而 MXNet 選擇的是輕量化的設(shè)計路線,畢竟這個平臺一開始也只是 DMLC 抱著純粹的熱情做起來的興趣項目,希望能降低深度學(xué)習(xí)的門檻。
「算法是科學(xué)??蚣懿皇?。它涉及的是設(shè)計者自己的審美觀、哲學(xué)等主觀理念,如果要用基于不同設(shè)計理念的表現(xiàn)性能來評論這個平臺的好壞,我覺得意義不大。」
是的,基因——李沐用這個詞來形容再恰當不過了。不論是亞馬遜選擇了 MXNet,抑或是谷歌做出了大而全的 TensorFlow,都是公司骨子里的基因在起著決定性的作用。
李沐覺得,框架的融合(merge)會是未來的趨勢,系統(tǒng)各自為政的時代會被更多的兼容與支持取代。但不論 AI 潮流會是驚濤駭浪或是風(fēng)平浪靜,李沐堅信前端的用戶驅(qū)動導(dǎo)向總是不會改變的。
初為人父的李沐在 2017 年初又實現(xiàn)了一個小目標。在 2 月初,他順利完成了 CMU 的博士論文答辯。
在旁人看起來難如登天的答辯環(huán)節(jié),對于李沐而言卻只是「走走流程」般的輕松及「了卻一件事」般的易如反掌。更何況,這場答辯匯集了全球頂尖科技公司的大牛們:谷歌、蘋果、亞馬遜深度學(xué)習(xí)項目的 Jeff Dean,Ruslan Salakhutdinov,Alex Smola,還有 CMU 機器學(xué)習(xí)助理教授 Barnabas Poczos。
雖然毫無懸念地被問到了「比較下 MXNet 和 TensorFlow」,但李沐在微博中調(diào)侃稱,「最后大家并沒有打起來」。
記得有位朋友這樣評價李沐,「他是少有的在工業(yè)界和學(xué)術(shù)界都有著深厚積累的人。」微軟亞洲研究院、百度少帥、谷歌實習(xí)生再到亞馬遜,任何一份工作放在別人身上都是閃閃發(fā)光的經(jīng)歷,然而李沐一人占全了。即使有著令人艷羨的工作,李沐還是選擇了到 CMU 讀博。
在美國深造五年的李沐也目睹了深度學(xué)習(xí)火得一塌糊涂的全過程,不少企業(yè)也開始涉足這一領(lǐng)域。在他看來,普通民眾更多的關(guān)注點是在強 AI,而學(xué)術(shù)界甚至都不會用「AI」這個詞。在美國的 Top 學(xué)校里,做純 ML 的其實不多,就連 MIT 這樣的學(xué)校也是新近才招募了專門教授機器學(xué)習(xí)的老師。
而李沐認為深度學(xué)習(xí)突然火起來的原因,其實是門檻太低的結(jié)果?!改悴恍枰當?shù)學(xué)。它就是一種語言,神經(jīng)網(wǎng)絡(luò)的層是不同的句子,每個人都可以通過這個語言描述你對問題的理解,鏈接不同層構(gòu)造一個程序。框架可以幫你完成計算,更何況計算量和數(shù)據(jù)都不缺,必然導(dǎo)致大家會慢慢進來?!?/p>
鑒于學(xué)術(shù)界與工業(yè)界的交互越來越頻繁,也有不少企業(yè)也會與大學(xué)研究院進行合作發(fā)表應(yīng)用性強的論文,但這些論文往往拿不到 Best 或 Oral Paper,也是因為評審標準的出發(fā)點不同所致。作為在工業(yè)界與學(xué)術(shù)界都待過的大牛,李沐雖然現(xiàn)在對于兩個領(lǐng)域的研究側(cè)重頗有心得,但在四年前,他在投遞論文時也吃過不少虧,NIPS、IJCAI、JMLR、UAI、KDD連續(xù)被拒絕的他,心情非常郁悶。2013 年 8 月,他在微博上無奈地寫道:
“今年往nips投了篇分布式優(yōu)化的文章,自覺性能和通用性都可以beat掉度廠和谷歌的當家機器學(xué)習(xí)系統(tǒng)。結(jié)果收了滿滿6頁的review 真是rebuttal不能啊,不報希望去nips普及大數(shù)據(jù)了。轉(zhuǎn)身投system會議去了....”
后來回顧這段歷程時,李沐感慨道:
「做產(chǎn)品和做學(xué)術(shù)研究是完全不同的東西。產(chǎn)品的導(dǎo)向是解決問題的 how,效果好、簡單好用、通用性強、資源消耗低、便于實踐,也就是東西要 work(應(yīng)用)。不同公司的側(cè)重點可能有些差異,比如百度對廣告的精準性要求高一些,騰訊可能需要產(chǎn)品簡單一些。而做學(xué)術(shù)研究時要寫清楚的是 why,最重要的是想法(idea),第二點是洞察(insight), 也就是你能把這個事情做出深層的解釋,再接下來才是結(jié)果好不好?!?/p>
但李沐在實踐的時候,還是會把應(yīng)用放在第一位。他在帶實習(xí)生的時候,就要求對方首先要做一個至少能跑得起來(work)的東西,然后再在其中提煉想法。在他的理解中,沒有實踐基礎(chǔ)的理論就是空中樓閣。
在 CMU 博士論文答辯之后,李沐從匹茲堡回加州的飛機上寫就了一篇隨想錄。他笑著對雷鋒網(wǎng)AI科技評論說,這篇文章本來設(shè)想了兩種寫法,一種是說自己有多牛多牛(李沐說,文中列舉的只有一半)。「但后來想了一下,第一種寫法雖然看上去很厲害,但對別人沒有意義。反過來,我寫自己做過了什么,哪些失敗了,原因是什么。其實這五年做的大部分事情是失敗的,如果不總結(jié)一下,錯誤總是一直在犯?!?/p>
文章寫就之后,李沐感悟最深的一點在于每個人都應(yīng)該走自己的路?!该總€人在文章中都看到了不同的東西,很多人看到工業(yè)界有錢,有的人看到技術(shù)方面的一些思考,也有的人看到我最后一段的情懷,但并不代表著你一定要跟著我走的路去走。如果只是因為這篇文章覺得雞血滿滿,轉(zhuǎn)頭去讀了個博士,可能也會后悔。我的背景決定了自己能做什么,每個人也都是如此?!?/p>
CMU的答辯結(jié)束之后,家庭暫時成為了李沐生活的重心,但這并不會持續(xù)很久。原來只有 Smola 和李沐兩個人的辦公室,現(xiàn)在已經(jīng)滿滿當當。李沐說,他們很快就要搬進不遠處的新辦公室,并計劃再招 300 個人,準備讓 MXNet 變得更好用一些。
雷鋒網(wǎng)AI科技評論后記:AI君一開始的文章標題其實并非長這樣,但李沐老師在看完文章之后,卻希望能換個低調(diào)一些的標題,他說自己并不希望靠上“亞馬遜”、“CMU”這樣的標簽。細想也是,以李沐老師的存在感,似乎也不需要吧。
封面與正文圖片由李沐本人提供,特此感謝。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章