0
本文作者: 奕欣 | 2017-02-18 09:39 | 專題:AAAI 2017 |
雷鋒網(wǎng)AI科技評(píng)論按:在舊金山參加 AAAI 期間,經(jīng)余凱老師的引薦,AI 君來到了位于 Palo Alto 的亞馬遜AWS 辦公室與李沐見了一面。從百度少帥到 CMU 博士再到 MXNet, 李沐的履歷儼然自帶距離感。但當(dāng)穿著耐克灰色套頭衫和牛仔褲的李沐坐在我們面前侃侃而談時(shí),AI 君在會(huì)面前的擔(dān)心一掃而光。
嚴(yán)格來說這并不是一次采訪,更像是朋友間的閑聊。經(jīng)李沐老師的同意,我們整理出了下面這篇文章,其中涉及的內(nèi)容僅代表他的個(gè)人觀點(diǎn),特此聲明。
MXNet作者 李沐
2015 年的最后一天,李沐在朋友圈自嘲:
「15 年混跡于全球最大男性交友網(wǎng)站(GitHub),一切事都憑興趣」。
在這一年里,他為社區(qū)做出了 1580 個(gè)貢獻(xiàn),最長連續(xù)參與了 39 天。
在接下來的幾個(gè)小時(shí),他和小伙伴在 CMU 的機(jī)房跨了年。
當(dāng)時(shí)的他說,2016 年有更多更多需要完成的重要的事情。
的確,李沐在剛剛過去的 2016 年完成了學(xué)業(yè)愛情事業(yè)的三豐收:準(zhǔn)備 CMU 博士畢業(yè)答辯、步入婚姻殿堂、迎接兒子的誕生……而 MXNet 在 2016 年 11 月被亞馬遜選為官方開源平臺(tái),無疑是其作者李沐在過去一年無法忽視的、濃墨重彩的一筆。
在知乎問答「如何評(píng)價(jià) MXNet 被 Amazon AWS 選為官方深度學(xué)習(xí)平臺(tái)?」中,李沐個(gè)人覺得,不管是亞馬遜還是其它公司,第一點(diǎn)首先還是要聽從用戶的聲音(listen to the customer),基于社區(qū)驅(qū)動(dòng)導(dǎo)向的 MXNet 實(shí)際上需要帶給用戶的不是別的,而是「爽」。
當(dāng)用戶只需要關(guān)心數(shù)據(jù)量和運(yùn)算量、寫好數(shù)學(xué)公式、把數(shù)據(jù)交給云并用花錢租算力;而不需要關(guān)心如何有效實(shí)現(xiàn)利用硬件、不需要關(guān)心自動(dòng)求導(dǎo)是如何訓(xùn)練、云端如何優(yōu)化的時(shí)候,用戶才能夠真正把精力放在自己想做的事情上?!窤WS 最關(guān)心的是用戶體驗(yàn),然后是買資源賺錢。這里最保險(xiǎn)的是支持所有流行的 DL 框架?!估钽逶?jīng)在一個(gè)知乎問答中這樣總結(jié)道。
在提及這一點(diǎn)的時(shí)候,李沐也向雷鋒網(wǎng)AI科技評(píng)論表達(dá)了他自己的看法,他認(rèn)為亞馬遜看重的是「有與無」的問題,而不是「誰」的問題。
「亞馬遜靠的是機(jī)器時(shí)間(machine hour)賺錢,而不是靠軟件與平臺(tái)。因此,做社區(qū)的目的主要是為了把用戶量積累起來,而上面用的是什么開源平臺(tái),其實(shí)并不重要。」
當(dāng)然,亞馬遜不會(huì)傻到為谷歌做嫁衣裳而選擇 Tensorflow,因此它亟需的是找尋一個(gè)能夠?qū)儆谧约旱拈_源平臺(tái)。實(shí)際上這樁合作的促成,背后的「二傳手」Alex Smola 功不可沒。
Smola 是李沐在 CMU 的兩位博士導(dǎo)師之一,于 15 年從 CMU 重返工業(yè)界,加入亞馬遜 AWS 擔(dān)任機(jī)器學(xué)習(xí)總監(jiān)。此前在雷鋒網(wǎng)AI科技評(píng)論報(bào)道過的 AAAI 2017 大會(huì)上,Smola 也以 MXNet 做了主題分享,而在演講開始的感謝環(huán)節(jié),李沐的名字赫然在目。
在 AAAI 的演講中,Smola 拿 MXNet 的運(yùn)行速度與其它開源平臺(tái)做對(duì)比,而在談話中李沐表示,自己并不愿意這樣簡單粗暴地做對(duì)比,他也告訴員工們,如果其它公司邀請(qǐng)你們做分享,一般不要做對(duì)比,只談技術(shù)就好。
「我很理解大家愛看對(duì)比類的文章,但這是一個(gè)有偏見(biased)的做法。我們比別人快一兩倍,不是我們想表達(dá)的東西,而為什么快,做了哪些優(yōu)化,離我們的理想狀態(tài)還有哪些差距,這樣的總結(jié)可能對(duì)我來說更有價(jià)值一些?!?/p>
但不論李沐如何避免對(duì)比,MXNet 還是經(jīng)常會(huì)被拿來與 TensorFlow 相提并論,他在談話過程中也時(shí)常提及后者。在知乎上,他索性將機(jī)器學(xué)習(xí)的發(fā)展歷史寫成了一篇武俠小傳,將修真世界里的 MXNet 比喻為「散修小團(tuán)體」,而 TensorFlow 則是「最大流派平臺(tái)」。
誠然,不論是開始時(shí)間還是平臺(tái)特性,MXNet 都是與 Tensorflow 最為接近的一個(gè):完整的多語言前端、全系統(tǒng)模塊化、編譯依賴小、適合快速開發(fā)的特性。雖然吃瓜群眾們津津樂道的無非是哪家更強(qiáng)、優(yōu)缺點(diǎn)是什么、兩家如何自處競爭這樣的問題,甚至還會(huì)八卦兩家之間的關(guān)系。但李沐表示,其實(shí)他們與 TensorFlow 并不是想象中那種劍拔弩張的狀態(tài),相反,幾個(gè)朋友每個(gè)星期都會(huì)碰頭交流,討論技術(shù)問題。
而更重要的一點(diǎn)在于,李沐認(rèn)為所謂的「不同」純粹是設(shè)計(jì)理念(design choice)的差異所導(dǎo)致的。
「谷歌想做的是一個(gè)完完整整的語言,跟 python 無關(guān),自己就能成為一門語言 TF?!惯@樣的策略能讓谷歌從底層到上層擁有絕對(duì)控制權(quán),像安卓一樣,用戶只要在上層做東西,底層全交給谷歌。雖然大體量勢(shì)必會(huì)帶來優(yōu)化的困難,但這是谷歌的生態(tài)圈和戰(zhàn)略所決定的。而 MXNet 選擇的是輕量化的設(shè)計(jì)路線,畢竟這個(gè)平臺(tái)一開始也只是 DMLC 抱著純粹的熱情做起來的興趣項(xiàng)目,希望能降低深度學(xué)習(xí)的門檻。
「算法是科學(xué)??蚣懿皇恰K婕暗氖窃O(shè)計(jì)者自己的審美觀、哲學(xué)等主觀理念,如果要用基于不同設(shè)計(jì)理念的表現(xiàn)性能來評(píng)論這個(gè)平臺(tái)的好壞,我覺得意義不大?!?/p>
是的,基因——李沐用這個(gè)詞來形容再恰當(dāng)不過了。不論是亞馬遜選擇了 MXNet,抑或是谷歌做出了大而全的 TensorFlow,都是公司骨子里的基因在起著決定性的作用。
李沐覺得,框架的融合(merge)會(huì)是未來的趨勢(shì),系統(tǒng)各自為政的時(shí)代會(huì)被更多的兼容與支持取代。但不論 AI 潮流會(huì)是驚濤駭浪或是風(fēng)平浪靜,李沐堅(jiān)信前端的用戶驅(qū)動(dòng)導(dǎo)向總是不會(huì)改變的。
初為人父的李沐在 2017 年初又實(shí)現(xiàn)了一個(gè)小目標(biāo)。在 2 月初,他順利完成了 CMU 的博士論文答辯。
在旁人看起來難如登天的答辯環(huán)節(jié),對(duì)于李沐而言卻只是「走走流程」般的輕松及「了卻一件事」般的易如反掌。更何況,這場答辯匯集了全球頂尖科技公司的大牛們:谷歌、蘋果、亞馬遜深度學(xué)習(xí)項(xiàng)目的 Jeff Dean,Ruslan Salakhutdinov,Alex Smola,還有 CMU 機(jī)器學(xué)習(xí)助理教授 Barnabas Poczos。
雖然毫無懸念地被問到了「比較下 MXNet 和 TensorFlow」,但李沐在微博中調(diào)侃稱,「最后大家并沒有打起來」。
記得有位朋友這樣評(píng)價(jià)李沐,「他是少有的在工業(yè)界和學(xué)術(shù)界都有著深厚積累的人?!刮④泚喼扪芯吭骸俣壬賻?、谷歌實(shí)習(xí)生再到亞馬遜,任何一份工作放在別人身上都是閃閃發(fā)光的經(jīng)歷,然而李沐一人占全了。即使有著令人艷羨的工作,李沐還是選擇了到 CMU 讀博。
在美國深造五年的李沐也目睹了深度學(xué)習(xí)火得一塌糊涂的全過程,不少企業(yè)也開始涉足這一領(lǐng)域。在他看來,普通民眾更多的關(guān)注點(diǎn)是在強(qiáng) AI,而學(xué)術(shù)界甚至都不會(huì)用「AI」這個(gè)詞。在美國的 Top 學(xué)校里,做純 ML 的其實(shí)不多,就連 MIT 這樣的學(xué)校也是新近才招募了專門教授機(jī)器學(xué)習(xí)的老師。
而李沐認(rèn)為深度學(xué)習(xí)突然火起來的原因,其實(shí)是門檻太低的結(jié)果?!改悴恍枰?dāng)?shù)學(xué)。它就是一種語言,神經(jīng)網(wǎng)絡(luò)的層是不同的句子,每個(gè)人都可以通過這個(gè)語言描述你對(duì)問題的理解,鏈接不同層構(gòu)造一個(gè)程序??蚣芸梢詭湍阃瓿捎?jì)算,更何況計(jì)算量和數(shù)據(jù)都不缺,必然導(dǎo)致大家會(huì)慢慢進(jìn)來?!?/p>
鑒于學(xué)術(shù)界與工業(yè)界的交互越來越頻繁,也有不少企業(yè)也會(huì)與大學(xué)研究院進(jìn)行合作發(fā)表應(yīng)用性強(qiáng)的論文,但這些論文往往拿不到 Best 或 Oral Paper,也是因?yàn)樵u(píng)審標(biāo)準(zhǔn)的出發(fā)點(diǎn)不同所致。作為在工業(yè)界與學(xué)術(shù)界都待過的大牛,李沐雖然現(xiàn)在對(duì)于兩個(gè)領(lǐng)域的研究側(cè)重頗有心得,但在四年前,他在投遞論文時(shí)也吃過不少虧,NIPS、IJCAI、JMLR、UAI、KDD連續(xù)被拒絕的他,心情非常郁悶。2013 年 8 月,他在微博上無奈地寫道:
“今年往nips投了篇分布式優(yōu)化的文章,自覺性能和通用性都可以beat掉度廠和谷歌的當(dāng)家機(jī)器學(xué)習(xí)系統(tǒng)。結(jié)果收了滿滿6頁的review 真是rebuttal不能啊,不報(bào)希望去nips普及大數(shù)據(jù)了。轉(zhuǎn)身投system會(huì)議去了....”
后來回顧這段歷程時(shí),李沐感慨道:
「做產(chǎn)品和做學(xué)術(shù)研究是完全不同的東西。產(chǎn)品的導(dǎo)向是解決問題的 how,效果好、簡單好用、通用性強(qiáng)、資源消耗低、便于實(shí)踐,也就是東西要 work(應(yīng)用)。不同公司的側(cè)重點(diǎn)可能有些差異,比如百度對(duì)廣告的精準(zhǔn)性要求高一些,騰訊可能需要產(chǎn)品簡單一些。而做學(xué)術(shù)研究時(shí)要寫清楚的是 why,最重要的是想法(idea),第二點(diǎn)是洞察(insight), 也就是你能把這個(gè)事情做出深層的解釋,再接下來才是結(jié)果好不好?!?/p>
但李沐在實(shí)踐的時(shí)候,還是會(huì)把應(yīng)用放在第一位。他在帶實(shí)習(xí)生的時(shí)候,就要求對(duì)方首先要做一個(gè)至少能跑得起來(work)的東西,然后再在其中提煉想法。在他的理解中,沒有實(shí)踐基礎(chǔ)的理論就是空中樓閣。
在 CMU 博士論文答辯之后,李沐從匹茲堡回加州的飛機(jī)上寫就了一篇隨想錄。他笑著對(duì)雷鋒網(wǎng)AI科技評(píng)論說,這篇文章本來設(shè)想了兩種寫法,一種是說自己有多牛多牛(李沐說,文中列舉的只有一半)?!傅髞硐肓艘幌拢谝环N寫法雖然看上去很厲害,但對(duì)別人沒有意義。反過來,我寫自己做過了什么,哪些失敗了,原因是什么。其實(shí)這五年做的大部分事情是失敗的,如果不總結(jié)一下,錯(cuò)誤總是一直在犯。」
文章寫就之后,李沐感悟最深的一點(diǎn)在于每個(gè)人都應(yīng)該走自己的路?!该總€(gè)人在文章中都看到了不同的東西,很多人看到工業(yè)界有錢,有的人看到技術(shù)方面的一些思考,也有的人看到我最后一段的情懷,但并不代表著你一定要跟著我走的路去走。如果只是因?yàn)檫@篇文章覺得雞血滿滿,轉(zhuǎn)頭去讀了個(gè)博士,可能也會(huì)后悔。我的背景決定了自己能做什么,每個(gè)人也都是如此?!?/p>
CMU的答辯結(jié)束之后,家庭暫時(shí)成為了李沐生活的重心,但這并不會(huì)持續(xù)很久。原來只有 Smola 和李沐兩個(gè)人的辦公室,現(xiàn)在已經(jīng)滿滿當(dāng)當(dāng)。李沐說,他們很快就要搬進(jìn)不遠(yuǎn)處的新辦公室,并計(jì)劃再招 300 個(gè)人,準(zhǔn)備讓 MXNet 變得更好用一些。
雷鋒網(wǎng)AI科技評(píng)論后記:AI君一開始的文章標(biāo)題其實(shí)并非長這樣,但李沐老師在看完文章之后,卻希望能換個(gè)低調(diào)一些的標(biāo)題,他說自己并不希望靠上“亞馬遜”、“CMU”這樣的標(biāo)簽。細(xì)想也是,以李沐老師的存在感,似乎也不需要吧。
封面與正文圖片由李沐本人提供,特此感謝。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章