丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給張進(jìn)
發(fā)送

0

AI Infra 往事之異構(gòu)計(jì)算篇:吳韌與他的學(xué)生們

本文作者: 張進(jìn) 2024-01-30 14:35
導(dǎo)語:“吳韌、劉文志、顏深根、單羿、孫剛、黨青青……中國最早一批將深度學(xué)習(xí)與異構(gòu)計(jì)算結(jié)合起來的夢想家與開拓者?!?

2013年9月底,吳韌受百度邀請,以杰出科學(xué)家的身份加入百度深度學(xué)習(xí)研究院(IDL),此時(shí)正值他五十知天命的年紀(jì)。

吳韌在人工智能領(lǐng)域耕耘多年,當(dāng)時(shí)已是一名頂尖的AI計(jì)算科學(xué)家。2012年深度學(xué)習(xí)崛起前后,多年在AI領(lǐng)域的研究和工作經(jīng)驗(yàn)讓他堅(jiān)信:這一輪人工智能競爭其實(shí)比拼的是計(jì)算能力。

所以,當(dāng)百度找到他時(shí),吳韌覺得 IDL 是一個(gè)能讓他大展拳腳的平臺(tái),便在已知天命的年齡毅然選擇回國、加入百度,成為百度第四位杰出科學(xué)家。

吳韌的任務(wù)是從算力方面讓百度更好地迎接深度學(xué)習(xí)帶來的巨大改變和挑戰(zhàn),他招募團(tuán)隊(duì)幫助百度搭建異構(gòu)計(jì)算平臺(tái),并在上面研發(fā)超級計(jì)算機(jī)。換言之,當(dāng)時(shí)百度 AI 整體基礎(chǔ)設(shè)施中的計(jì)算部分,都由吳韌來負(fù)責(zé)。

當(dāng)時(shí)國內(nèi)研究深度學(xué)習(xí)的計(jì)算人才屈指可數(shù)。

吳韌從各個(gè)渠道精心挑選了三個(gè)技術(shù)年青人——?jiǎng)⑽闹?、顏深根、單羿——組成了異構(gòu)計(jì)算團(tuán)隊(duì)的核心,后來實(shí)習(xí)生黨青青轉(zhuǎn)正、孔暢加入,加上實(shí)習(xí)生孫剛(后自動(dòng)駕駛算法獨(dú)角獸 Momenta 聯(lián)合創(chuàng)始人),七人構(gòu)成百度 AI 計(jì)算的起點(diǎn),共同開啟了深度學(xué)習(xí)時(shí)代的一段計(jì)算探索之旅。

數(shù)據(jù)、算法與算力是深度學(xué)習(xí)時(shí)代的“三駕馬車”——這個(gè)說法其實(shí)是吳韌在 2014 年 GTC 演講中最早公開提出來的。但相比前兩者,AI 時(shí)代的算力人才并沒有得到太多的重視。從吳韌加入百度,到他離開、異構(gòu)計(jì)算團(tuán)隊(duì)解散,吳韌帶領(lǐng)的 AI 計(jì)算團(tuán)隊(duì)一直停留在六人規(guī)模。

作為 AI 崛起中不可或缺的 Infra 部分,算力設(shè)施與它背后的人才,實(shí)則為大時(shí)代的前進(jìn)起到了不可磨滅的貢獻(xiàn)。雷峰網(wǎng)的此次記錄,僅是一次對湮沒歷史的再現(xiàn),也是一次對 AI 計(jì)算先行者的致敬。

吳韌與他的計(jì)算啟蒙

37年前,吳韌就認(rèn)識到一件事:“計(jì)算能力是核心驅(qū)動(dòng)力”。

吳韌在上世紀(jì)70年代生于四川德陽,爺爺和年輕時(shí)候的父親都是一名木匠。吳韌遺傳了父輩愛鉆研的特質(zhì),從小也培養(yǎng)了極強(qiáng)的好奇心和探索欲,從初中開始就喜歡鼓搗家里的電器。

當(dāng)時(shí)通訊技術(shù)剛興起,電視機(jī)也剛在全國范圍開始普及,吳韌的鼓搗器件就從木材變?yōu)榱藭r(shí)興的無線電,從礦石收音機(jī)到更高級的收音機(jī)、電子管的音響、電子管的電視機(jī)等等,無一不是吳韌的研究對象。

組裝電視機(jī)時(shí),沒有電路圖,吳韌就基于僅有的布線圖一遍遍嘗試,憑借有限的資料、更多是自己的想象去開拓、設(shè)計(jì),最終居然組裝成功。

成年后的吳韌向雷峰網(wǎng)回憶,這其實(shí)是一個(gè)需要經(jīng)歷很多想象、推理與計(jì)算的過程,需要反復(fù)試錯(cuò),與他后來探索 AI 計(jì)算的研究具有異曲同工之處。

1983年,吳韌第一次接觸到計(jì)算機(jī)。當(dāng)時(shí),他在成都?xì)庀髮W(xué)院電子系(如今的成都信息工程大學(xué)工程)讀大三,剛認(rèn)識計(jì)算機(jī)后就對這個(gè)看起來像電視機(jī)、但又要神秘許多的電子物件產(chǎn)生了濃厚的興趣,開始自學(xué)有關(guān)計(jì)算機(jī)的一切知識,包括編程,從此在計(jì)算的道路上越走越遠(yuǎn)。

僅三年時(shí)間,1986年,吳韌就編寫出了中國大陸第一個(gè)中國象棋程序。

那時(shí),AlphaGo 還要數(shù)十年后才誕生,在國內(nèi)的計(jì)算機(jī)領(lǐng)域,像這種“寫一個(gè)計(jì)算機(jī)程序、讓它在棋局上戰(zhàn)勝別人”的任務(wù)是完全沒有資料可參考的。吳韌只有LISP語言教材中的一個(gè)簡單的搜索算法(AlphaBeta 搜索算法),剩下的所有細(xì)節(jié)都要靠自己“想象”,這也成為了他進(jìn)入AI領(lǐng)域后一個(gè)非常重要的練習(xí)。

在象棋程序的完善中,吳韌切身體會(huì)到:“它”(象棋程序)的進(jìn)步是可以量化的,即計(jì)算能力的提升!

此時(shí)的吳韌便已經(jīng)意識到算力在計(jì)算程序運(yùn)行中的重要性。

1990年,吳韌入職美國一家做字符識別的公司,負(fù)責(zé)用AI的方法做識別前的各種分析和處理。但是他逐漸希望能獲得更加專業(yè)的AI研究的訓(xùn)練,所以過了一年多,他便辭職去了英國,進(jìn)入倫敦大學(xué)攻讀AI專業(yè)的博士。

接下來,吳韌在人類象棋上的兩項(xiàng)研究讓他在AI屆名聲大噪。

博士期間,吳韌研究的《反溯算法及其應(yīng)用》,證明了一個(gè)“被認(rèn)為是平局的中國象棋殘局炮高兵單士象必勝士象全”其實(shí)是可以取勝的局。該反溯算法改進(jìn)了當(dāng)代計(jì)算機(jī)科學(xué)泰斗、圖靈獎(jiǎng)獲得者肯·湯普森發(fā)明的經(jīng)典算法,震動(dòng)了整個(gè)計(jì)算機(jī)界。

業(yè)界對肯·湯普森的工作有改進(jìn)的工作是深藍(lán)(97年擊敗國際象棋世界冠軍)的前身——深思,它的作者許峰雄博士把湯普森的數(shù)百個(gè)芯片組成的國際象棋計(jì)算機(jī)做到單芯片上,取得突破,也才有了后來IBM深藍(lán)的成功。

計(jì)算機(jī)博弈研究是AI研究的一個(gè)重要課題,是機(jī)器智能、兵棋推演、智能決策系統(tǒng)等人工智能領(lǐng)域的重要科研基礎(chǔ)?;旧希恳淮螜C(jī)器博弈都會(huì)引起全球人工智能熱潮。

接著,2000年,吳韌加入硅谷享譽(yù)盛名的惠普實(shí)驗(yàn)室。

要想獲得進(jìn)入美國惠普實(shí)驗(yàn)室的門票必須要滿足以下三個(gè)條件之一。第一、某個(gè)學(xué)科(分支)的學(xué)科帶頭人;第二、世界名人;第三、其博士研究成果要對該公司的發(fā)展有極大的幫助。

此時(shí)吳韌憑借《反溯算法及其應(yīng)用》已經(jīng)是世界設(shè)計(jì)計(jì)算機(jī)中國象棋程序的頂級人物。

在惠普實(shí)驗(yàn)室,他獨(dú)立設(shè)計(jì)開發(fā)出了一款中國象棋超級程序,并用中國現(xiàn)存最早的象棋棋譜“夢入神機(jī)”命名。該程序兩度獲得計(jì)算機(jī)象棋奧林匹克比賽冠軍,讓吳韌成為全世界設(shè)計(jì)計(jì)算機(jī)中國象棋程序的頂級專家。

吳韌的程序跟當(dāng)年的國際象棋程序類似, 追求的是極其精簡的知識編碼,最高效的策樹搜索算法以及優(yōu)化到極致的程序設(shè)計(jì)。在最頂級的競爭當(dāng)中,勝出的人必須在這三方面都必須是最頂級。這種無止境的對知識、算法、效率和下面支撐的算力的追求,也讓吳韌在他后續(xù)的各項(xiàng)工作中如魚得水。

在研究計(jì)算機(jī)中國象棋的過程中,吳韌已經(jīng)脫離了單純享受下中國象棋的樂趣,他更大的感受是來自AI的進(jìn)步:“它還使我們認(rèn)識到機(jī)器能夠思維,而且能達(dá)到一種什么樣的水平。”

對算力的追求,也讓吳韌對計(jì)算本身尤其是硬件實(shí)現(xiàn)額外關(guān)注。得益于惠普實(shí)驗(yàn)室得天獨(dú)厚的條件,從2005年起,他開始采用GPU來進(jìn)行通用計(jì)算。

據(jù)雷峰網(wǎng)了解,吳韌應(yīng)該是最早一批使用 GPU 進(jìn)行通用計(jì)算的人之一,并且在用GPU進(jìn)行大數(shù)據(jù)解析和機(jī)器學(xué)習(xí)方向取得很大成功。

(正是有了如文中他們在AI Infra的探索與貢獻(xiàn),中國的AI事業(yè)才能站在前人辛苦打下的地基上持續(xù)前進(jìn),誠如今天的大模型,不日雷峰網(wǎng)將推出《智譜狂飆365天》一文,揭秘中國這家最像OpenAI的大模型公司“智譜AI”在過去的2023年的崛起史,在OpenAI、Google、Meta、Anthropico、Mixtral等一眾海外公司引領(lǐng)了大模型的今天,看智譜如何摸索出中國大模型的一條路,歡迎添加作者微信 zzjj752254 來聊。)

2010年吳韌所在的實(shí)驗(yàn)室成為英偉達(dá)首批認(rèn)證的、世界范圍內(nèi)7個(gè)CUDA實(shí)驗(yàn)室中的一個(gè),吳韌也在其中升職為首席研究員。

在這五年里,吳韌就曾思考過:如果我的計(jì)算能力能夠有數(shù)量級的增長,跟別人比能有什么不一樣?世界上有沒有一款新的硬件,能把計(jì)算能力做得更好?

前26年,吳韌一直致力于計(jì)算機(jī)博弈研究,加入惠普實(shí)驗(yàn)室后他開始認(rèn)識到GPU作為新計(jì)算平臺(tái)的價(jià)值,而隨后在AMD收購ATI、推出異構(gòu)計(jì)算時(shí),他判斷異構(gòu)計(jì)算將主導(dǎo)世界未來計(jì)算的走向。

由于吳韌在惠普實(shí)驗(yàn)室對英偉達(dá)生態(tài)系統(tǒng)的貢獻(xiàn),AMD朝他拋出了橄欖枝,所以吳韌在2011年加入了AMD的異構(gòu)系統(tǒng)架構(gòu)(HSA)團(tuán)隊(duì)負(fù)責(zé)整個(gè)HAS軟件和生態(tài)系統(tǒng)。

所謂異構(gòu)計(jì)算,就是將CPU與GPU搭建在一起;更進(jìn)一步說,是將兩種或多種擅長不同任務(wù)的計(jì)算硬件結(jié)合在一起、使其發(fā)揮各自所長,完成計(jì)算任務(wù)。

早在第一次開發(fā)中國象棋程序時(shí)吳韌就已經(jīng)意識到計(jì)算能力的重要性,這一次他終于真正踏進(jìn)計(jì)算的世界。

在 AMD 待了兩年后,吳韌便選擇回國加入百度IDL,因?yàn)樗J(rèn)為百度IDL在新的方向上選對了。

那一陣,深度學(xué)習(xí)風(fēng)靡業(yè)界,只因Hinton(“AI教父”)的研究給AI信徒指引了一個(gè)新方向——深度學(xué)習(xí)算法。

國內(nèi)百度率先展開了行動(dòng),成立了深度學(xué)習(xí)研究院,并由李彥宏掛帥坐鎮(zhèn),親自出任院長,由當(dāng)時(shí)負(fù)責(zé)領(lǐng)導(dǎo)百度多媒體部的慕尼黑大學(xué)博士余凱任副院長。

在為深度學(xué)習(xí)研究院(IDL)網(wǎng)羅人才時(shí),吳韌也收到了橄欖枝,同期因?yàn)榘俣鹊腁I夢而加入的還有Facebook前資深科學(xué)家徐偉、美國新澤西州立大學(xué)統(tǒng)計(jì)系教授張潼、谷歌大腦項(xiàng)目聯(lián)合創(chuàng)始人吳恩達(dá)等等人工智能領(lǐng)域的技術(shù)大牛。

英偉達(dá)過來的劉文志

2013年9月底,吳韌正式加盟百度深度學(xué)習(xí)研究院出任杰出科學(xué)家,負(fù)責(zé)給百度搭建異構(gòu)計(jì)算平臺(tái)。

吳韌的加入其實(shí)是王海峰拍的板,當(dāng)時(shí)王海峰作為執(zhí)行負(fù)責(zé)人協(xié)助李彥宏創(chuàng)建了IDL。

跟年輕時(shí)不同,此時(shí)年近半百的吳韌已經(jīng)失去了對權(quán)力的欲望,一心想要借助百度的資源做件大事——就是用異構(gòu)計(jì)算方式去設(shè)計(jì)一個(gè)專用的超級計(jì)算機(jī),用于AI訓(xùn)練。因?yàn)樗呀?jīng)看清了算力對這一輪深度學(xué)習(xí)的重要性,他認(rèn)為大算力能夠給百度帶來巨大競爭優(yōu)勢。

在其他人眼里,深度學(xué)習(xí)是全新的技術(shù),而在吳韌的眼里,這只是歷史的一次重演。

吳韌愿意來百度做超級計(jì)算機(jī)有兩個(gè)前提:一,這是一個(gè)特定的領(lǐng)域。吳韌做事喜歡選一個(gè)特定的領(lǐng)域進(jìn)入,不能是其他人都搶著做的領(lǐng)域,而百度是國內(nèi)率先做深度學(xué)習(xí),也有資源做超級計(jì)算機(jī);二,這是他擅長的領(lǐng)域。從系統(tǒng)軟件、硬件到網(wǎng)絡(luò),吳韌都懂。

為了做超級計(jì)算機(jī),吳韌還跟上級王勁“借了”200萬美金。當(dāng)時(shí)王勁是百度技術(shù)體系的老大,他從1991年起在硅谷的多家公司擔(dān)任過技術(shù)和管理職務(wù),其中包括甲骨文、informix和E-Loan等,2010年4月加入百度后,逐步為百度構(gòu)建起一個(gè)強(qiáng)大的技術(shù)研發(fā)體系。

“200萬”的事情其實(shí)是這樣的:有一次開總監(jiān)會(huì),王勁帶著吳韌和其他總監(jiān)們坐高鐵從北京到無錫去看百度的數(shù)據(jù)中心。在火車上,吳韌就把自己想要做超級計(jì)算的想法告訴了王勁,他認(rèn)為自己的超級計(jì)算機(jī)完全可以改變未來AI的競爭局面。

沒想到王勁一次就聽進(jìn)去了,沒有吳韌想象中的反復(fù)說服、磨嘴皮子,回去后便批了200萬給他。

錢的問題解決了,但光桿司令吳韌還需要一個(gè)團(tuán)隊(duì)。經(jīng)過一番挑選,劉文志、顏深根、單羿陸續(xù)加入成為核心,黨青青、孔暢和實(shí)習(xí)生孫剛也逐漸加入,吳韌的異構(gòu)計(jì)算團(tuán)隊(duì)有了雛形。

招這幾個(gè)人吳韌是有所考量的,如劉文志是英偉達(dá)出身,顏深根對系統(tǒng)軟件設(shè)計(jì)有概念,單羿是硬件背景,懂芯片加速機(jī)器學(xué)習(xí)算法,黨青青主要做軟件。

劉文志是第一個(gè)加入的,此時(shí)劉文志剛從英偉達(dá)出來,正在尋找新機(jī)會(huì),他把簡歷發(fā)給吳韌的當(dāng)天就收到了回復(fù),兩個(gè)月后百度便給他發(fā)了offer。

在這幾個(gè)人中,劉文志的學(xué)歷最低,只有碩士學(xué)歷,但吳韌認(rèn)為他極其聰明。后來,劉文志也是最先從吳韌團(tuán)隊(duì)撤離的那一個(gè)——早于2014年ImageNet大型圖像識別挑戰(zhàn)賽(ILSVRC)風(fēng)波便離開了。

劉文志本科時(shí)就接觸到高性能計(jì)算,他學(xué)的是計(jì)算化學(xué)專業(yè),主要研究內(nèi)容是利用有效的數(shù)學(xué)近似以及電腦程序計(jì)算分子的性質(zhì),例如總能量、偶極矩、反應(yīng)活性等,并用以解釋一些具體的化學(xué)問題。

計(jì)算化學(xué)有一個(gè)很大的問題,就是實(shí)驗(yàn)成本很高,其中計(jì)算機(jī)實(shí)驗(yàn)成本高是時(shí)間長造成的,經(jīng)常需要幾百臺(tái)機(jī)器來計(jì)算。劉文志對解決這個(gè)問題很感興趣,他的編程能力也不錯(cuò)。

那時(shí)中國高校還沒人研究過這個(gè)問題,也沒幾個(gè)人會(huì)寫這類程序。

在中科院讀碩士時(shí),劉文志便開始專心研究這個(gè)方向,第二年進(jìn)研究所后用了三個(gè)月就完成了第一個(gè)計(jì)算,讓他的導(dǎo)師很是吃驚。

碩士畢業(yè)時(shí)因?yàn)樵贑UDA社區(qū)很有名的緣故,劉文志順利地進(jìn)入了英偉達(dá)。

CUDA是NVIDIA在2006年推出的一種通用并行計(jì)算平臺(tái)和編程模型,它利用NVIDIA GPU中的并行計(jì)算引擎以比CPU更有效的方式解決許多復(fù)雜的計(jì)算問題。今天,CUDA社區(qū)有超過400萬的開發(fā)者,CUDA生態(tài)已經(jīng)成為英偉達(dá)在AI芯片領(lǐng)域占據(jù)領(lǐng)先優(yōu)勢的強(qiáng)大壁壘。

2007年年底CUDA開始在中國推行,2008年劉文志就開始做CUDA,并以網(wǎng)名“風(fēng)辰”聞名于CUDA社區(qū),劉文志是國內(nèi)最早推廣CUDA的開發(fā)者之一,有名的還有周斌、趙開勇、陳實(shí)富等人。

劉文志在英偉達(dá)的上司是王鵬,王鵬喜歡工程技術(shù)勝過做領(lǐng)導(dǎo),面試時(shí)王鵬問劉文志未來的目標(biāo)是什么,劉文志說“三年后你升一級,我也升一級,我升到你的位置”,隨后兩個(gè)人都笑了。

從這時(shí)起劉文志便開始顯露他的鋒芒與聰明果決。

兩人一起搭檔工作到2013年,王鵬因?yàn)榫G卡原因必須回美國,希望劉文志接替他的工作,但此時(shí)劉文志去意已決。

因?yàn)樗l(fā)現(xiàn)英偉達(dá)的HPC業(yè)務(wù)很吃學(xué)歷,并且中國人在英偉達(dá)不受重視,后便跟王鵬達(dá)成一致,重新找到一個(gè)更合適的人。

新人上任三四個(gè)月后,劉文志就遇上了吳韌百度IDL這個(gè)機(jī)會(huì)。

在英偉達(dá),劉文志協(xié)助王鵬建立了北京CUDA團(tuán)隊(duì),并負(fù)責(zé)將大規(guī)模GPU計(jì)算集群應(yīng)用于石油和天然氣行業(yè)。

彼時(shí)AI深度學(xué)習(xí)尚未爆發(fā),石油勘探中的高性能計(jì)算是英偉達(dá)在中國最盈利的Tesla業(yè)務(wù)方向。但劉文志已經(jīng)意識到深度學(xué)習(xí)的未來以及HPC(異構(gòu)并行計(jì)算)對人工智能的重要性。他判斷,一旦深度學(xué)習(xí)普及,對GPU的需求量級將擴(kuò)大百倍以上。后來的事實(shí)甚至超出劉文志的預(yù)料——實(shí)際上是擴(kuò)大了近萬倍。

所以即便2013年12月百度給的offer并不是那么令他滿意,劉文志也接了,正是因?yàn)樗吹搅松疃葘W(xué)習(xí)與異構(gòu)計(jì)算的趨勢,而百度IDL是國內(nèi)最早做深度學(xué)習(xí)的。

加入后,劉文志一邊跟著吳韌做深度學(xué)習(xí)的AI平臺(tái)和算法相關(guān)工作,一邊協(xié)助吳韌建立團(tuán)隊(duì),不日,顏深根、單羿、黨青青、孫剛、孔暢也陸續(xù)加入。

懂系統(tǒng)軟件設(shè)計(jì)的顏深根

顏深根是異構(gòu)計(jì)算團(tuán)隊(duì)的第二個(gè)創(chuàng)始成員。

他博士還沒畢業(yè)就被吳韌拉進(jìn)團(tuán)隊(duì),那時(shí)顏深根還在美國做訪問學(xué)者,吳韌把他從美國挖了回來。

吳韌看中顏深根在博士期間負(fù)責(zé)過AMD的一個(gè)項(xiàng)目經(jīng)驗(yàn):把AMD的GPU在OpenCV上跑起來。

這個(gè)項(xiàng)目不僅涉及到計(jì)算,還涉及到很多計(jì)算機(jī)視覺(CV)的算法,比如要做邊緣檢測、人臉識別都需要專業(yè)人士去設(shè)計(jì)的這些算法。

那時(shí)顏深根還不了解深度學(xué)習(xí),偶然一次接觸還是一次他的師弟告訴他,現(xiàn)在出現(xiàn)了一個(gè)新的機(jī)器學(xué)習(xí)算法叫深度學(xué)習(xí),非常強(qiáng),跟以往的機(jī)器學(xué)習(xí)算法都不一樣,邊緣檢測、人臉識別這些只靠深度學(xué)習(xí)就能搞定。

但由于當(dāng)時(shí)要忙博士論文,所以他一直拖到2013年才開始去了解深度學(xué)習(xí)。

顏深根最早接觸AI是在哈工大讀本科的時(shí)候,他在那里學(xué)習(xí)了自然語言處理、搜索引擎等相關(guān)的知識,從這時(shí)起他便逐漸對AI產(chǎn)生興趣。

在中科院讀博士時(shí)他一開始其實(shí)是想繼續(xù)研究自然語言處理,但陰差陽錯(cuò)之下最后選擇了高性能計(jì)算,但他內(nèi)心一直對算法念念不忘。

讀博期間,顏深根聽同宿舍的師兄說博士要發(fā)論文才能畢業(yè),而他那位師兄博士讀了五六年還沒能畢業(yè),這讓顏深根非常擔(dān)心自己也畢不了業(yè)。

但沒想到2012年、2013年他連續(xù)兩年在并行計(jì)算頂級會(huì)議PPoPP發(fā)表長論文(大陸首次),不僅不用擔(dān)心畢不了業(yè),還超額完成論文任務(wù)。

2013年的那篇頂級會(huì)議PPoPP論文發(fā)布后,顏深根獲得了一次去美國北卡州立大學(xué)作訪問學(xué)者的機(jī)會(huì),在這期間他開始去研究深度學(xué)習(xí),才發(fā)現(xiàn)深度學(xué)習(xí)跟高性能計(jì)算聯(lián)系非常緊密,需要大量計(jì)算的支持。

也正是在美國訪問期間,顏深根看到了吳韌在微博發(fā)的招聘異構(gòu)計(jì)算方面人才的信息。

其實(shí)在發(fā)現(xiàn)這則招聘信息之前,顏深根就已經(jīng)被吳韌注意到:

因?yàn)橐淮晤伾罡卮鹆艘粋€(gè)網(wǎng)友有關(guān)高性能計(jì)算的問題,這個(gè)網(wǎng)友正是吳韌團(tuán)隊(duì)的實(shí)習(xí)生黨青青。

所以顏深根很順利地成為了吳韌團(tuán)隊(duì)繼劉文志之后的第二個(gè)成員。

多年以后跟雷峰網(wǎng)回憶往昔,顏深根感慨在百度的一年半時(shí)間里,他們做的事頂在別的地方三四年,做了很多具有挑戰(zhàn)性、有意思的工作。

(2015年左右,一大批AI公司創(chuàng)立,脫穎而出的“AI四小龍”將中國AI事業(yè)帶入到從研究到落地的階段,其中之一的曠視,創(chuàng)業(yè)十載,在風(fēng)雨中飄搖多年,如今正站在懸崖邊搖搖欲墜,焦急地等待上市祈求脫困,令人唏噓,曠視的十年也是中國過去十年中AI公司的興衰成敗,接下來雷峰網(wǎng)(公眾號:雷峰網(wǎng))將推出《曠視創(chuàng)業(yè)十年的艱辛與無奈》一文,歡迎添加作者微信 zzjj752254 交流。)

2014年初,顏深根正式加入百度IDL異構(gòu)計(jì)算團(tuán)隊(duì),一開始團(tuán)隊(duì)想在AMD的機(jī)器上把深度學(xué)習(xí)跑起來,因?yàn)閳F(tuán)隊(duì)有很多這方面的經(jīng)驗(yàn)。

首先吳韌就是AMD前異構(gòu)系統(tǒng)首席軟件架構(gòu)師,顏深根博士期間也為了把OpenCV在AMD的GPU上跑起來做了很多這方面的工作。

另一件事是組建了國內(nèi)第一個(gè)深度學(xué)習(xí)超級計(jì)算機(jī)Minwa,吳韌負(fù)責(zé)系統(tǒng)設(shè)計(jì),顏深根負(fù)責(zé)系統(tǒng)軟件。

有了超級計(jì)算機(jī)之后便開始進(jìn)行大規(guī)模的訓(xùn)練,在這個(gè)過程中,吳韌他們在Hinton之前率先發(fā)現(xiàn)了用數(shù)據(jù)并行和模型并行去做AlexNet神經(jīng)網(wǎng)絡(luò)。

當(dāng)時(shí)有兩個(gè)深度學(xué)習(xí)框架可選,一個(gè)是ConvNet,一個(gè)是Caffe。

如果要基于ConvNet去做大規(guī)模訓(xùn)練,但ConvNet只能做兩張GPU的,做更多GPU就得做擴(kuò)展。

那時(shí)賈揚(yáng)清的Caffe剛出來,但也只能支持一張GPU。吳韌他們需要的是能夠支持在一個(gè)集群上跑的架構(gòu),那時(shí)一個(gè)集群一般是8張GPU。

無可奈何之下,只能自己設(shè)計(jì)一個(gè)可擴(kuò)展的并行方案。這個(gè)項(xiàng)目主要由顏深根負(fù)責(zé),而當(dāng)時(shí)行業(yè)里沒有任何可參考的案例。

顏深根他們分析了AlexNet神經(jīng)網(wǎng)絡(luò),發(fā)現(xiàn)有兩個(gè)部分,前面是五層卷積,后面是三層全連接。但這兩部的計(jì)算、通信特點(diǎn)都不一樣。

他們發(fā)現(xiàn),五層卷積其實(shí)可以用數(shù)據(jù)并行這種方式來做,后面三層全連接可以用模型并行的方式。

那會(huì)兒還沒有數(shù)據(jù)并行、模型并行的概念,后面業(yè)界才將這兩種并行方式命名為數(shù)據(jù)并行和模型并行。但在當(dāng)時(shí),這都是顏深根等人手推出來的,推公式,把矩陣乘拆開去做計(jì)算。

有了這個(gè)發(fā)現(xiàn)后,當(dāng)他們準(zhǔn)備寫代碼去實(shí)現(xiàn)時(shí),Hinton團(tuán)隊(duì)發(fā)了第二篇論文,介紹了如何做AlexNet的并行方法,跟顏深根他們想的方法相同。

這個(gè)方法后來成為一個(gè)非常經(jīng)典的方法,奠定了數(shù)據(jù)并行和模型并行的一個(gè)基本方式。

除此,顏深根等人也可能是業(yè)內(nèi)第一個(gè)將GPU多卡計(jì)算的通信優(yōu)化算法—Ring Allreduce應(yīng)用到深度學(xué)習(xí)領(lǐng)域的研究團(tuán)隊(duì)。

當(dāng)時(shí),顏深根他們在做數(shù)據(jù)并行時(shí)需要做大量通信,彼時(shí)只有MPI可用,但MPI自帶的Allreduce算法性能很差,他們不得不自己去優(yōu)化。

顏深根想了很長時(shí)間,設(shè)計(jì)出來一種計(jì)算方式可以保證通信量不會(huì)隨著GPU數(shù)量增加而增加,即用多少GPU,通信量都是恒定的。

他把這個(gè)算法講給在美國的吳韌聽了以后,吳韌非常認(rèn)可,還取了個(gè)名字叫“Butterfly”,因?yàn)樗惴ó媹D顯示是一個(gè)蝴蝶形狀。

結(jié)果一年后百度另一個(gè)團(tuán)隊(duì)發(fā)現(xiàn)這個(gè)算法早已在高性能計(jì)算的歷史中存在了,叫Ring Allreduce——其通信成本是恒定的并且與系統(tǒng)中GPU的數(shù)量無關(guān),并且僅由系統(tǒng)中GPU之間的最慢連接確定。Ring Allreduce能減少不同 GPU 之間的通信時(shí)間,從而允許將更多時(shí)間用在有用計(jì)算上。

因此這種情況下,雖然是顏深根他們自己研究出來的“Butterfly”算法,但新人老路,只能說應(yīng)該是第一個(gè)將Ring Allreduce應(yīng)用到深度學(xué)習(xí)領(lǐng)域的團(tuán)隊(duì)。

到了2014年底,吳韌、顏深根他們已經(jīng)可以做到128張GPU同時(shí)并行了,領(lǐng)先國內(nèi)廠商多年。

在團(tuán)隊(duì)里,顏深根主要跟單羿合作,兩人一個(gè)負(fù)責(zé)系統(tǒng)一個(gè)負(fù)責(zé)算法,顏深根認(rèn)為單羿是一個(gè)很有格局的人。

有硬件背景的單羿

單羿在顏深根之后加入,他清華博士畢業(yè)后就選擇了創(chuàng)立僅一年半的百度IDL。

單羿擁有很強(qiáng)的硬件背景,在博士期間做了很多芯片相關(guān)的事情,基本上是用FPGA芯片加速機(jī)器學(xué)習(xí)算法。

單羿本碩博均就讀于清華電子工程系,2008年起在汪玉門下讀博士。

汪玉本碩博同樣就讀于清華,博士師從楊華中和謝源,07年開始留校任教,單羿是他的第一個(gè)博士生。

兩人第一次見面時(shí),汪玉問他想研究什么方向,單羿說自己想做跟互聯(lián)網(wǎng)相關(guān)的(例如搜索引擎)、能賺錢的方向。

當(dāng)時(shí)單羿暑假在微軟亞研許峰雄博士手底下做實(shí)習(xí)生時(shí),就是做的搜索引擎方向,汪玉提議他沿著暑假實(shí)習(xí)的話題繼續(xù)做。

做的具體事情是:用芯片加速搜索引擎中的機(jī)器學(xué)習(xí)算法,這既跟電子系有關(guān),而且搜索引擎、微軟亞研也是當(dāng)時(shí) AI 領(lǐng)域最熱的關(guān)鍵詞。

谷歌當(dāng)年提出了PageRank,是為了在搜索引擎優(yōu)化中評估網(wǎng)頁優(yōu)化的成效,這背后其實(shí)是很簡單的機(jī)器學(xué)習(xí),但后來隨著搜索引擎越來越重要,像SVM、PageRank越來越多的機(jī)器學(xué)習(xí)算法都應(yīng)用到里面,這背后開始蘊(yùn)含著大量的計(jì)算壓力。

當(dāng)時(shí)大家都用CPU去做這種計(jì)算,但在微軟,許峰雄提出了用FPGA芯片去加速機(jī)器學(xué)習(xí)。

許峰雄曾經(jīng)為IBM開發(fā)“深藍(lán)”(Deep Blue)計(jì)算機(jī),打敗了世界棋王,因此得名“深藍(lán)教父”,他在做深藍(lán)時(shí)就想到可以用FPGA芯片去加速機(jī)器學(xué)習(xí)算法,后來到微軟亞研后發(fā)現(xiàn)微軟也有這方面的場景,便提出了用FPGA芯片去加速機(jī)器學(xué)習(xí),解決搜索的延遲,算得更快。

這個(gè)項(xiàng)目由正式員工徐寧儀,和清華博士在讀的單羿、中科大碩士在讀的歐陽劍兩個(gè)實(shí)習(xí)生負(fù)責(zé)。

用FPGA芯片去加速搜索引擎,即把搜索引擎里面的機(jī)器算法芯片化。

涉及的方面非常多,例如不同算法的硬件實(shí)現(xiàn),當(dāng)時(shí)CPU還在串行計(jì)算里面打轉(zhuǎn),單羿他們就用矩陣乘法做了很多優(yōu)化,開始用并行計(jì)算發(fā)現(xiàn)算得更快。

08年單羿開始做稀疏矩陣向量乘(SpMV),那時(shí)SpMV是一個(gè)很數(shù)學(xué)的東西,很少有機(jī)器學(xué)習(xí)領(lǐng)域的人會(huì)關(guān)注,更何況當(dāng)時(shí)機(jī)器學(xué)習(xí)還沒火。

單羿設(shè)計(jì)了專用的芯片架構(gòu),用FPGA芯片去加速稀疏矩陣向量乘法,做到了當(dāng)時(shí)世界上最快的成績。

09年單羿還發(fā)了一篇用FPGA芯片去加速經(jīng)典的排序算法RankBoost論文,成為了該領(lǐng)域來自中國大陸的第一篇論文。

從2007年到2010年,單羿都在微軟亞研研究如何用FPGA芯片去加速搜索引擎,他每天靠微軟亞研的可樂機(jī)續(xù)命,基本都是忙到凌晨三點(diǎn)下班,早上八九點(diǎn)繼續(xù)上班。

同時(shí)這也是單羿博士的課題,“用芯片去加速機(jī)器學(xué)習(xí)”這個(gè)課題最后開創(chuàng)了汪玉博士生團(tuán)隊(duì)的一個(gè)研究新方向。

這三年單羿用芯片加速搜索引擎中的機(jī)器學(xué)習(xí),做了十多種機(jī)器學(xué)習(xí)算法的芯片加速,那時(shí)他就理解到,除了計(jì)算以外,存儲(chǔ)也很重要。如今從 Flash 到 DDR,到片上存儲(chǔ)等等一系列存儲(chǔ)架構(gòu),包括現(xiàn)在近存計(jì)算這些概念,都是單羿那時(shí)玩過的概念。

大概2010年的時(shí)候,他結(jié)束了微軟亞研的實(shí)習(xí),轉(zhuǎn)去做博士的另一個(gè)方向:用芯片去做立體視覺。上一個(gè)項(xiàng)目“用FPGA芯片去加速搜索引擎”也被微軟亞研接手,用到了搜索引擎、云計(jì)算當(dāng)中。

而歐陽劍碩士畢業(yè)后沒留在MSRA,去了百度,干了大概一年多時(shí)間,他還是堅(jiān)定地認(rèn)為在MSRA做的“用FPGA芯片去加速機(jī)器學(xué)習(xí)”這件事對百度是很有價(jià)值的,所以他又在百度繼續(xù)干,后來百度也開始意識到用芯片來加速搜索引擎的重要性。

歐陽劍也從此一路高升,在此后百度宣布旗下昆侖芯片業(yè)務(wù)成立獨(dú)立新公司——昆侖芯(北京)科技有限公司時(shí),身為百度芯片首席架構(gòu)師的歐陽劍出任該公司CEO,帶領(lǐng)百度努力跨越自研芯片的鴻溝。

后來徐寧儀從微軟亞研出來后也去了百度,由于他的背景便加入了歐陽劍的組,兩人再次成為同事。

單羿研究立體視覺是因?yàn)橥粲窀毡救庵毓さ囊粋€(gè)合作項(xiàng)目。三菱重工想在新加坡做一個(gè)道路的自動(dòng)通行系統(tǒng),類似國內(nèi)的ETC,但它不需要人,只有一個(gè)龍門架上面各種攝像頭、傳感器,埋在地下的線圈,降低了人的消耗,三菱重工想要在第二代系統(tǒng)里面只用攝像頭,其他都省略掉。

這就涉及到檢測追蹤,例如車牌識別,車的外形尺寸識別,三菱重工的想法是在路邊兒立一個(gè)桿,就像電線桿一樣,然后上面掛一個(gè)雙目攝像頭的立體相機(jī)。

這個(gè)項(xiàng)目始于2009年10月,當(dāng)時(shí)汪玉的電子系派單羿來做芯片實(shí)現(xiàn),清華自動(dòng)化系的張長學(xué)團(tuán)隊(duì)負(fù)責(zé)算法,派的是胡瀚,即后來 Swin Transformer 的作者、現(xiàn)在MSRA視覺組的老大。

單羿跟胡瀚都是 2004 級的清華本科,胡瀚在自動(dòng)化讀直博,單羿在電子系讀直博,兩人在這個(gè)項(xiàng)目里認(rèn)識。后來同一年去百度IDL當(dāng)了同事,再后來單羿去創(chuàng)業(yè),胡瀚就去了MSRA。

但當(dāng)時(shí)自動(dòng)化系對系統(tǒng)和芯片的了解并不深入,他們的算法多是堆各種各樣的特征,拼湊在一起,然后調(diào)調(diào)參數(shù)、權(quán)重,有一個(gè)精度不錯(cuò)的結(jié)果就丟給單羿。對于單羿來講,這是不能直接運(yùn)作的,因?yàn)樵谛酒瑢?shí)現(xiàn)的時(shí)候,每一份計(jì)算都代表的是芯片的代價(jià),而單羿要用最高的能效去實(shí)現(xiàn)這個(gè)算法。

所以給到他的代碼就只作為參考,單羿不得不自己去啃OpenCV那些算法,當(dāng)時(shí)大概有 100 多個(gè)軟件算法的模塊,他把絕大部分都寫成芯片的代碼,還為此做了一個(gè)芯片的OpenCV庫。

前面一年在做OpenCV基礎(chǔ)算法的芯片化,后面兩年都在研究立體視覺。最后在 2012 年給三菱交了差,單羿也拿到了三菱的博士生獎(jiǎng)學(xué)金,還發(fā)了一篇ACM的文章,這篇文章討論了用FPGA芯片來加速世界上最快的 1080P 分辨率下的立體視覺系統(tǒng)。

這個(gè)項(xiàng)目后來微軟也希望能用于 Kinect 機(jī),但是由于其對近距離的手勢識別比較差,微軟便放棄了。單羿后來向雷峰網(wǎng)回憶,“如果能在Kinect機(jī)上用起來,它的量會(huì)很恐怖。”

在那時(shí),單羿已經(jīng)堅(jiān)定地認(rèn)為視覺未來一定是往3D走的,后來隨著深度學(xué)習(xí)受到廣泛關(guān)注,單羿在深鑒、賽靈思、AMD時(shí)還一直有一個(gè)小團(tuán)隊(duì)堅(jiān)持用AI來做立體視覺。

2020年用AI做雙目攝像頭有了突破,當(dāng)時(shí)單羿在AMD,他發(fā)現(xiàn)賽靈思的汽車用戶 Continental 跟斯巴魯提了同樣的需求——用 AI 去做立體視覺,他才意識到這件事兒必須要做,而且是件大事,能夠替代激光雷達(dá),所以單羿便出去創(chuàng)建了鑒智機(jī)器人。

通過三菱重工項(xiàng)目,單羿從最初想要用芯片去加速機(jī)器學(xué)習(xí),慢慢才發(fā)現(xiàn)計(jì)算機(jī)視覺的算法也是機(jī)器學(xué)習(xí),做搜索引擎的算法也是機(jī)器學(xué)習(xí),所以他認(rèn)為用芯片去加速機(jī)器學(xué)習(xí)是很多領(lǐng)域都需要的,這是一個(gè)很重要的事情。

后來他又思考能否用更多的資源去做虛擬化的加速,便引出了在博士期間做的第三個(gè)項(xiàng)目:單羿博士最后一年在IBM研究院實(shí)習(xí),這期間他發(fā)了一篇有關(guān)“機(jī)器學(xué)習(xí)的芯片在云端虛擬化”的文章,被引用很多次。

單羿是第一個(gè)開始思考做這件事的人。

他結(jié)合OpeStack框架,把FPGA芯片的加速器在云端虛擬化了,這樣多個(gè)用戶就能共享該虛擬的加速器。

2014年博士畢業(yè)后他便加入了百度IDL異構(gòu)計(jì)算團(tuán)隊(duì),跟著吳韌進(jìn)入互聯(lián)網(wǎng),當(dāng)時(shí)百度還跟英特爾有合作,正是把FPGA 放在云端去加速Deep Learning算法。

劉文志、顏深根、單羿是國內(nèi)最早跟著吳韌把深度學(xué)習(xí)跟異構(gòu)計(jì)算結(jié)合起來的那批人。

隨著劉文志、顏深根、單羿三個(gè)主力就位,后面黨青青、孔暢、孫剛也陸續(xù)加入,吳韌的異構(gòu)計(jì)算團(tuán)隊(duì)初顯雛形。

黯淡離場

2014年,百度在AI的布局越來越廣,4月百度成立了大數(shù)據(jù)實(shí)驗(yàn)室(BDL),5月百度在美國加州的科技大本營成立了硅谷人工智能實(shí)驗(yàn)室(SVAIL),將自家研究院建到谷歌旁邊的同時(shí),還挖了谷歌大腦的聯(lián)合創(chuàng)始人吳恩達(dá)。

此次百度深入硅谷,正是為了與谷歌在AI上一較高下。

深度學(xué)習(xí)研究院改為深度學(xué)習(xí)實(shí)驗(yàn)室(沿用“IDL”的名稱),百度研究院也正式組建起來,研究院當(dāng)時(shí)包括IDL、BDL和SVAIL。

在硅谷的人都了解吳恩達(dá),他在人工智能領(lǐng)域是公認(rèn)的領(lǐng)軍人物之一。成為百度首席科學(xué)家之后,吳恩達(dá)將全面負(fù)責(zé)百度研究院,并與百度在北京的研究人員展開緊密合作。

在百度成立深度學(xué)習(xí)研究院,將AI確定為重要戰(zhàn)略方向時(shí),百度的技術(shù)體系老大王勁就一直在全球?qū)ひ捯晃籄I領(lǐng)軍人物,此次吳恩達(dá)加盟百度,王勁是幕后至關(guān)重要的操盤手,而吳恩達(dá)的匯報(bào)對象也正是王勁。

但也有一種說法是請吳恩達(dá)是余凱的主意,兩人曾是舊識。

隨著吳恩達(dá)的加入,百度研究院聚齊了一眾高手,包括王勁、余凱、吳韌……

但很快吳韌的異構(gòu)計(jì)算團(tuán)隊(duì)面臨了一次分崩離析的危機(jī)。

2015年6月,百度在ImageNet國際計(jì)算機(jī)視覺挑戰(zhàn)賽(ILSVRC)中超額提交行為暴露,國外技術(shù)媒體紛紛借機(jī)報(bào)道,稱百度在超算比賽中作弊。

輿論壓力下,百度隨后承認(rèn)了違規(guī)行為,并就此事道歉和調(diào)查。一周后百度公布事件的調(diào)查結(jié)果,開除此次參賽的異構(gòu)計(jì)算團(tuán)隊(duì)負(fù)責(zé)人吳韌。

在當(dāng)時(shí)百度研究院負(fù)責(zé)人吳恩達(dá)發(fā)布的公開信中,承認(rèn)吳韌在挑戰(zhàn)賽中曾指示初級工程師們每周進(jìn)行超過2次的提交,違反了ImageNet規(guī)定。解除吳韌之后,百度異構(gòu)計(jì)算5人團(tuán)隊(duì)由前Facebook資深科學(xué)家徐偉帶領(lǐng)。

吳韌被迫出局,手下的成員也大部分跟隨吳韌就此離開百度,一個(gè)中國異構(gòu)計(jì)算的夢之隊(duì)就此解散。

但當(dāng)年的真相也許并非如外界大肆報(bào)道的那樣。據(jù)雷峰網(wǎng)了解:

首先,當(dāng)時(shí)ImageNet官網(wǎng)上寫的是一個(gè)賬號每周最多提交兩次,但并沒有規(guī)定一個(gè)團(tuán)隊(duì)只能注冊一個(gè)賬號,所以吳韌團(tuán)隊(duì)的行為屬于無心之失,更達(dá)不到作弊的程度。

其次,這段時(shí)間的結(jié)果并不是真正意義上的參賽結(jié)果。當(dāng)時(shí)2014年ILSVRC比賽結(jié)束后(百度并沒有參與),ILSVRC比賽主辦方允許各個(gè)研究團(tuán)隊(duì)繼續(xù)上傳結(jié)果到服務(wù)器上,但這個(gè)結(jié)果不會(huì)被主辦方收錄到官方網(wǎng)站上,各個(gè)研究隊(duì)伍都會(huì)利用兩次競賽之間的時(shí)間上傳結(jié)果來驗(yàn)證最新的研究和工程方案,真正2015年的ILSVRC比賽還沒開始。

當(dāng)年也有參賽者指出,這就好比百米賽跑,ILSVRC是奧運(yùn)會(huì),各選手平時(shí)提交的是訓(xùn)練成績,然后選擇最好的一次訓(xùn)練成績公布給大家,但吳韌團(tuán)隊(duì)身體素質(zhì)好所以比別人多跑了幾次訓(xùn)練賽。即吳韌團(tuán)隊(duì)搭建的異構(gòu)計(jì)算平臺(tái)比別人的大,所以可以在有限時(shí)間里跑很多次。但實(shí)際上比賽成績和跑多少次其實(shí)關(guān)系并不大,更重要的是算法本身是否有效,就像一個(gè)上限是13秒的運(yùn)動(dòng)員跑一千次可能也進(jìn)不了10秒。

湯曉鷗當(dāng)年也曾公開為吳韌發(fā)聲,批駁“作弊”一說。

在湯曉鷗看來,吳韌的異構(gòu)計(jì)算團(tuán)隊(duì)其實(shí)具備了與世界一流研究機(jī)構(gòu)進(jìn)行競爭甚至在某些技術(shù)點(diǎn)上領(lǐng)先的能力。他們的計(jì)算平臺(tái)能夠在五天之內(nèi)提交40次的試驗(yàn)結(jié)果,也從側(cè)面反映了他們的系統(tǒng)優(yōu)勢。而從百度披露信息表明,參賽團(tuán)隊(duì)成員都是高性能計(jì)算背景,并沒有實(shí)際的計(jì)算機(jī)視覺的研究經(jīng)驗(yàn),才會(huì)導(dǎo)致對規(guī)則的誤解。

“這次事件的發(fā)展很是不幸,我相信造成的原因更多是誤解,然后被媒體過度放大。吳韌的工作是令人欽佩的,而目前部分媒體的報(bào)道有失公允?!?/p>

多年以后,再看當(dāng)年的異構(gòu)計(jì)算團(tuán)隊(duì)、他們做過的事情,吳韌當(dāng)時(shí)能組建這樣一個(gè)團(tuán)隊(duì),而團(tuán)隊(duì)里的每個(gè)人都有所長,能力相互補(bǔ)足,還是很有遠(yuǎn)見的。畢竟當(dāng)時(shí)谷歌和Facebook都沒有想清楚要怎么做,國內(nèi)也沒有這樣的團(tuán)隊(duì),全球都很少有。

更何況,深度學(xué)習(xí)跟高性能計(jì)算結(jié)合本身就是 AI 領(lǐng)域非常重要的創(chuàng)新。

或許,如果吳韌能在百度再多待兩年,百度或中國的 AI 發(fā)展歷史還有可能會(huì)被改寫。

各奔前程

多年以后,再看吳韌當(dāng)年在百度IDL異構(gòu)計(jì)算團(tuán)隊(duì)的學(xué)生們,初出茅廬時(shí)每個(gè)人各有千秋但都青澀稚嫩,在吳韌的號召下組成了一支中國異構(gòu)計(jì)算的夢之隊(duì),而這支隊(duì)伍在吳韌的領(lǐng)航下正式駛?cè)肷疃葘W(xué)習(xí)深水區(qū)。團(tuán)隊(duì)設(shè)計(jì)的敏媧超級計(jì)算機(jī),也點(diǎn)燃全球AI算力的軍備競賽!

當(dāng)年,吳韌團(tuán)隊(duì)在敏媧設(shè)計(jì)中并沒有采用當(dāng)時(shí)英偉達(dá)自己的NVLINK,而是堅(jiān)持NUMA 架構(gòu)下GPU加 InfiniBand 網(wǎng)絡(luò)的設(shè)計(jì),這也為英偉達(dá)后來全資收購InfiniBand技術(shù)的擁有者以色列Mellanox公司埋下伏筆。今天,英偉達(dá)GPU和InfiniBand網(wǎng)絡(luò)也已經(jīng)成為AI算力的核心。

時(shí)至今日,距離百度IDL成立近十年之期,當(dāng)年吳韌在百度的學(xué)生們已經(jīng)全部成長為國內(nèi)一線AI創(chuàng)業(yè)公司的中流砥柱,每個(gè)人都已成長為AI infra領(lǐng)域非常厲害的人物:

劉文志歷經(jīng)商湯、華為,負(fù)責(zé)開拓過多條AI業(yè)務(wù)線,磨練多年后,如今創(chuàng)立了國產(chǎn)智能駕駛OS公司足下科技;

顏深根在商湯磨礪七年,幫商湯搭建了上萬張卡的集群,今天闖入大模型創(chuàng)立公司“無問芯穹”;

單羿創(chuàng)業(yè)深鑒科技兩年后賣給了當(dāng)時(shí)全球第一大FPGA廠商賽靈思(Xilinx),現(xiàn)在又投身于做自動(dòng)駕駛方案解決商鑒智機(jī)器人;

黨青青成為百度深度學(xué)習(xí)架構(gòu)Paddle Paddle(飛槳飛槳)團(tuán)隊(duì)主力;

孫剛作為聯(lián)合創(chuàng)始人的 Momenta 已經(jīng)躋身國內(nèi)自動(dòng)駕駛算法公司第一梯隊(duì)……

出走百度的幾人,慢慢都找到了自己的人生方向。

52歲的吳韌并沒有就此沉淪,回到硅谷后創(chuàng)立了 NovuMind異構(gòu)智能,一家專為行業(yè)提供ASIC芯片+訓(xùn)練模型的全棧式AI解決方案的AI公司,很快便獲得了1500萬美元的A輪融資,估值達(dá)到1億美元。

其他幾人則分散在今天幾家老牌AI公司里面,那時(shí)它們還都屬于剛創(chuàng)業(yè)的嬰幼兒階段,急需年輕的血液補(bǔ)充。所以他們幾人又零距離見證了中國過去十年中這些AI公司的興衰成敗,而且每個(gè)人都置身其中,有的人還親自參與掌舵。

(接下來雷峰網(wǎng)將推出《曠視創(chuàng)業(yè)十年的艱辛與無奈》一文,歡迎添加作者微信 zzjj752254 交流。)

在2014年,大量初創(chuàng)的人工智能公司集中出現(xiàn)。此后,隨著資本進(jìn)一步加持,全球范圍內(nèi)“Al”熱潮不斷迭起。后來的AI四小龍曠視、依圖、商湯、云從都是在這個(gè)時(shí)間段先后出現(xiàn)。

劉文志早于吳韌、顏深根、單羿他們離開百度,出去后他拿到了格林深瞳、曠視、商湯的offer。

最后他選擇了商湯,因?yàn)樗浅O嘈艤珪扎t。

在商湯,劉文志做出了很多成績,例如和林達(dá)華一起推動(dòng)并建立了深度學(xué)習(xí)訓(xùn)練框架Parrots,以及推動(dòng)推理引擎PPL,PPL亦成為商湯各項(xiàng)業(yè)務(wù)的技術(shù)基石。

2015年,劉文志把深度學(xué)習(xí)做到手機(jī)和攝像頭上,是商湯內(nèi)部最早將深度學(xué)習(xí)訓(xùn)練和推理分開研究的先行者;此外,他也是商湯智能汽車業(yè)務(wù)的創(chuàng)始成員之一,協(xié)助定義了商湯智能汽車產(chǎn)品和組織體系,確定 DMS、OMS、ADAS和AVP等產(chǎn)品,建立ASPICE流程體系,拿下多個(gè)重要汽車客戶。劉文志當(dāng)年力推的DMS,如今已引領(lǐng)中國市場。

劉文志加入商湯時(shí)是抱著跟商湯共進(jìn)退的想法,在商湯幾次生死攸關(guān)的關(guān)鍵時(shí)刻,他都發(fā)揮了重要作用。

例如,商湯第一次在人臉識別上跟曠視“干架”、并取得超過曠視的成績,就是劉文志、曹旭東和楊帆三個(gè)人聯(lián)手的成績,劉文志負(fù)責(zé)大規(guī)模的訓(xùn)練平臺(tái),曹旭東做AI算法,楊帆指揮人標(biāo)數(shù)據(jù)。

但劉文志最大的作用應(yīng)該是提醒湯曉鷗一定要搶占人臉識別在手機(jī)上的這個(gè)戰(zhàn)場。

當(dāng)時(shí)曠視吳文昊率先布局手機(jī)端的人臉識別,而商湯在這件事上一直猶豫不決。劉文志知曉后,便分析現(xiàn)狀:如果手機(jī)的人臉識別全是曠視的技術(shù),那么以后所有人都認(rèn)為中國人臉識別技術(shù)是曠視最強(qiáng),商湯發(fā)再多論文都沒用,用戶根本不會(huì)去看商湯有多少技術(shù)、有多少研究人員,只看手機(jī)中實(shí)際用到的技術(shù)來自于誰。

“如果手機(jī)的人臉識別被曠視占據(jù)了,商湯就不戰(zhàn)而敗了。”第二天商湯就讓王曉剛帶隊(duì)負(fù)責(zé)手機(jī)端的人臉識別。

還有一次是給本田的項(xiàng)目救火,就著本田項(xiàng)目的機(jī)會(huì),劉文志開始把商湯的汽車業(yè)務(wù)拉了起來,成為商湯智能汽車業(yè)務(wù)的開拓者。

從商湯出來后,劉文志加入了華為,2020年出任華為諾亞AI系統(tǒng)工程實(shí)驗(yàn)室主任,管理一個(gè)規(guī)模達(dá)一百多人的技術(shù)團(tuán)隊(duì)。

他在華為研發(fā)的Bolt產(chǎn)品為華為手機(jī)提供算力支持,研發(fā)的Vega作為計(jì)算產(chǎn)業(yè)的關(guān)鍵組件為模型生產(chǎn)提供支持,參與領(lǐng)導(dǎo)了華為NLP大模型和搜索大模型的研發(fā)攻關(guān),同時(shí)和海思相關(guān)團(tuán)隊(duì)一起優(yōu)化AI芯片軟件算法。

劉文志在華為的導(dǎo)師是王丙福,華為的5G之父,他非常感激王老師給他的幫助,讓他成功度過在華為的那些關(guān)鍵節(jié)點(diǎn)。

在華為干了2年8個(gè)月,出來后劉文志創(chuàng)立了足下科技,做國產(chǎn)智能駕駛操作系統(tǒng)。

而2015年經(jīng)歷ILSVRC風(fēng)波后,顏深根去了商湯,單羿加入了地平線,黨青青選擇留在百度,后來成為百度深度學(xué)習(xí)框架PaddlePaddle的研發(fā)主力。

顏深根加入商湯時(shí),商湯才100多人。他是聽了孫剛的建議才下定決心加入商湯。

兩人都曾在中科院軟件所,同一個(gè)實(shí)驗(yàn)室,同一級。顏根深比他早一年畢業(yè),那時(shí)孫剛在微軟亞研孫劍團(tuán)隊(duì)實(shí)習(xí),顏深根去了百度IDL后,孫剛后來也想去IDL,經(jīng)過顏深根對吳韌的極力推薦,孫剛才得以進(jìn)去實(shí)習(xí)。

畢業(yè)后,孫剛跟著曹旭東去了商湯,兩人相識于微軟亞研,都在孫劍團(tuán)隊(duì)。

聽了孫剛的建議,顏深根加入商湯,任數(shù)據(jù)與計(jì)算平臺(tái)部執(zhí)行研究總監(jiān),負(fù)責(zé)搭建大規(guī)模高性能AI計(jì)算平臺(tái)和深度學(xué)習(xí)訓(xùn)練框架,兩人再次成為同事。

顏深根團(tuán)隊(duì)跟曹旭東團(tuán)隊(duì)有合作,一個(gè)負(fù)責(zé)系統(tǒng),一個(gè)負(fù)責(zé)算法,而孫剛是曹旭東團(tuán)隊(duì)即懂算法又懂系統(tǒng)的人。

2016年,孫剛跟著曹旭東出去創(chuàng)立了自動(dòng)駕駛公司Momenta,孫剛代表Momenta在ImageNet 2016中獲得場景分類亞軍,ImageNet 2017中獲得圖像分類冠軍。

在商湯七年,顏深根共經(jīng)歷了三個(gè)階段:15年-16年從0開始,把團(tuán)隊(duì)帶來起;17-18年穩(wěn)定發(fā)展;19年之后開始擴(kuò)大規(guī)模。這也符合商湯本身的發(fā)展。

在商湯,顏深根主要負(fù)責(zé)推動(dòng)了三件事:

一是搭建了商湯的AI大裝置SenseCore。剛加入商湯時(shí),每個(gè)算法同學(xué)的桌子下都放著一個(gè)臺(tái)式機(jī),在上面做模型訓(xùn)練,還是單機(jī)的訓(xùn)練。顏深根進(jìn)去第一年便搭建了第一個(gè)深度學(xué)習(xí)集群,由于他在百度已經(jīng)搭建了128張卡,商湯就說要超過百度,最后搭了一個(gè)200張卡的集群。七年里不斷擴(kuò)大,2022年顏深根離開時(shí)商湯已經(jīng)有了差不多2萬張卡,從200張卡的集群變成了2萬多張卡的數(shù)據(jù)中心。

二是幫助商湯跟大學(xué)建立合作。創(chuàng)始團(tuán)隊(duì)是CV背景,沒有高性能計(jì)算和系統(tǒng)背景,所以早期商湯要招聘相關(guān)人才,其實(shí)很難,也因?yàn)楫?dāng)時(shí)國內(nèi)確實(shí)沒有什么這方面的人才。顏深根便負(fù)責(zé)幫商湯在系統(tǒng)領(lǐng)域跟高校建立合作,包括清北上交、南洋理工、中科院計(jì)算所等等。均是以項(xiàng)目的形式合作,學(xué)校提供學(xué)生,商湯給項(xiàng)目。

三是給商湯創(chuàng)收。顏深根負(fù)責(zé)搭建的計(jì)算平臺(tái)是業(yè)內(nèi)比較前沿的,然后商湯把該計(jì)算平臺(tái)做成一個(gè)產(chǎn)品對外輸出,這塊給商湯帶來了上億的收入。

從商湯出來后,顏深根加入互聯(lián)網(wǎng)公司小紅書擔(dān)任AI平臺(tái)部負(fù)責(zé)人,但只干了兩個(gè)月就離開了,此時(shí)大模型風(fēng)頭正盛,他覺得這是一個(gè)不可錯(cuò)失的機(jī)會(huì),便決定創(chuàng)業(yè)。

后來通過單羿,顏深根了解到汪玉也準(zhǔn)備進(jìn)軍大模型,于是兩人一拍即合決定合作,創(chuàng)立了大模型公司無問芯穹,目標(biāo)是打造大模型軟硬件一體化最佳解決方案。

而單羿從百度出來后,選擇加入余凱創(chuàng)立的AI芯片公司地平線。

其實(shí)一開始余凱并沒有找他,從百度出來后,15年冬天余凱跑到硅谷去為自己的新公司挖人,當(dāng)時(shí)他想找一個(gè)既懂深度學(xué)習(xí)又懂芯片實(shí)現(xiàn)的人,但問了一圈都沒找到合適的,因?yàn)檫@不是做芯片的事情,是一個(gè)高性能計(jì)算的事情,當(dāng)時(shí)硅谷那幫設(shè)計(jì)芯片的人沒幾個(gè)懂深度學(xué)習(xí)。

后來謝源告訴余凱可以找單羿,余凱這才知道單羿在百度IDL的工作。謝源算是單羿的祖師爺,因?yàn)橥粲竦牟┦繉?dǎo)師其一就是謝源,而汪玉又是單羿的博士導(dǎo)師。

余凱一開始還不相信單羿的能力,問謝源這人能行嗎,謝源說除了單羿他可能再也找不到更適合的人了。

就這樣單羿成為地平線前十號員工,是其中唯一一個(gè)知道怎么把算法芯片化的人。

在地平線,單羿做了一個(gè)人臉檢測的算法加速,黃暢當(dāng)時(shí)做算法的訓(xùn)練,單羿負(fù)責(zé)把它翻譯成芯片的代碼。黃暢曾在百度深度學(xué)習(xí)研究院主任架構(gòu)師,是余凱的下屬,2015年跟著余凱出來共同創(chuàng)立了地平線。

在地平線一段時(shí)間后,單羿有了自己創(chuàng)業(yè)的想法,于是和汪玉、姚頌、韓松一起創(chuàng)立了AI芯片公司深鑒科技。

沒想到很快受到國際大廠青睞,被收購了。

16年10月深鑒科技成立,2018年深鑒科技便以3億美金的價(jià)格賣給了美國芯片巨頭FPGA賽靈思,在業(yè)內(nèi)引起一片轟動(dòng)。

賽靈思收購深鑒是蓄謀已久,因?yàn)楫?dāng)時(shí)它想用AI跟英偉達(dá)競爭,補(bǔ)充自身AI能力最快速的辦法就是收購一個(gè)AI公司,當(dāng)時(shí)全世界范圍內(nèi)的標(biāo)的不多,而深鑒是最大最早的團(tuán)隊(duì)。完成收購后賽靈思便以深鑒為核心搭建了自己的AI體系。

當(dāng)時(shí),深鑒獲得了三星、賽靈思、聯(lián)發(fā)科國際資本的戰(zhàn)略投資,還量產(chǎn)了國內(nèi)首批AI芯片-聽濤(28nm),拿到了GM、斯巴魯、TOYOTA等很多POC(這些POC也讓賽靈思看到要在汽車領(lǐng)域去做智能化,做自動(dòng)駕駛,深鑒是最好的選擇),一切都在向好發(fā)展,為什么決定被收購呢?

2017年底,單羿跟汪玉談賽靈思收購的事情,他認(rèn)為靠他們自己不一定有能力把AI芯片商業(yè)化,必須借助大品牌的力量。

如果自己做商業(yè)化面臨最主要的問題是:客戶在哪里?中國客戶都想自己做,海康、BAT都在自研芯片,那機(jī)會(huì)只可能在海外,被賽靈思收購便是進(jìn)入海外市場的最便捷途徑。

作為團(tuán)隊(duì)的負(fù)責(zé)人,單羿先隨著深鑒打包進(jìn)入賽靈思,后來又跟隨賽靈思被收購進(jìn)入了AMD。

第一次被收購后,單羿帶著100多人去了研發(fā)線,剛進(jìn)去時(shí)他跟賽靈思CEO聊,想要300個(gè)人做端到端的解決方案,但是賽靈思沒同意,說他們是賣芯片,不是賣解決方案,不能搶客戶的生意。

到了AMD,四年后單羿的團(tuán)隊(duì)終于達(dá)到了300人,但也花了三年時(shí)間。

而且這300人不只是做自動(dòng)駕駛,還負(fù)責(zé)很多方向,包括汽車、工業(yè)、醫(yī)療、數(shù)據(jù)中心、筆記本、游戲,單羿想做的事情在賽靈思始終都沒能實(shí)現(xiàn),這也導(dǎo)致他在賽靈思、AMD認(rèn)清了一個(gè)現(xiàn)實(shí)——Founder(創(chuàng)始人)跟職業(yè)經(jīng)理人是不同的。

“創(chuàng)始人能決定整個(gè)企業(yè)的走向,正如英偉達(dá)在很多關(guān)鍵節(jié)點(diǎn)做出了更迅速果決的選擇,因?yàn)辄S仁勛不僅僅是CEO,還是創(chuàng)始人?!?/p>

在外企的四年,單羿的商業(yè)愿景一直沒能得到完全滿足。因?yàn)樗欢ㄎ怀梢粋€(gè)研發(fā)的負(fù)責(zé)人,而不是一個(gè)BU的負(fù)責(zé)人,除了研發(fā)之外,他期待能主導(dǎo)技術(shù)-商業(yè)-資本的完整鏈路,從而改變行業(yè)。

所以2022年單羿成為自由身后,便跟百度IDL、地平線的同事都大龍一起創(chuàng)立了鑒智機(jī)器人,主打以視覺3D理解為核心的下一代自動(dòng)駕駛方案。

這一次,他終于能再次以Founder的身份引領(lǐng)一家公司,在自動(dòng)駕駛領(lǐng)域一展宏圖。

單羿希望能親自掌舵一家AI公司,他期待能用AI改變世界,改變整個(gè)汽車行業(yè),在當(dāng)前很多人并不相信AI能改變世界的環(huán)境里:

All in AI,這點(diǎn)很重要!

后記

吳韌一直有一個(gè)沒有實(shí)現(xiàn)的夢,就是做職業(yè)攝影師。閑暇之余他喜歡帶上相機(jī),去戶外觀察、捕捉大自然的奇妙瞬間。

他最愛拍的是猛禽,因?yàn)槊颓菔且环N掠食性動(dòng)物,處于食物鏈頂端,它們行動(dòng)起來快如閃電。

從猛禽的存活之道中吳韌感受到了大自然的殘酷——生存,需要速度!而吳韌的一生也一直游走在時(shí)代的前列,吳韌認(rèn)為這得益于自己總能站在更高更大的維度去看待周遭世界。

2014年,吳韌懷揣著做超級計(jì)算機(jī)的夢,從硅谷回來加入百度,在他的一生中,從1986年編寫出了中國大陸第一個(gè)中國象棋程序時(shí),他便一直篤信計(jì)算能力的重要性。

他曾說過,當(dāng)計(jì)算能力足夠強(qiáng)的時(shí)候,人工智能就會(huì)獲得人類右腦的能力——直覺。

2014年,吳韌曾在GTC大會(huì)上首次提出兩個(gè)公式“大數(shù)據(jù)+深度學(xué)習(xí)+高性能計(jì)算=更高智能”, 和 “大數(shù)據(jù)+深度學(xué)習(xí)+異構(gòu)計(jì)算=成功”公式。

不曾想十年后,OpenAI踐行著“大數(shù)據(jù)+強(qiáng)算法+大算力”訓(xùn)練出了GPT大模型,人工智能第一次涌現(xiàn),世界因此迎來狂歡。

吳韌無形之中成為大模型的暴力美學(xué)早期推動(dòng)者之一。

(正是有了如文中他們在AI Infra的探索與貢獻(xiàn),中國的AI事業(yè)才能站在前人辛苦打下的地基上持續(xù)前進(jìn),誠如今天的大模型,不日雷峰網(wǎng)將推出《智譜狂飆365天》一文,揭秘中國這家最像OpenAI的大模型公司“智譜AI”在過去的2023年的崛起史,在OpenAI、Google、Meta、Anthropico、Mixtral等一眾海外公司引領(lǐng)了大模型的今天,看智譜如何摸索出中國大模型的一條路,歡迎添加作者微信 zzjj752254 來聊。)

算力作為大模型的基礎(chǔ)設(shè)施,支撐著算法和數(shù)據(jù),進(jìn)而影響著AI領(lǐng)域的發(fā)展,今天,AI算法模型對于算力的巨大需求,推動(dòng)了芯片業(yè)的發(fā)展,算力的重要性日益凸顯。在當(dāng)前大模型創(chuàng)業(yè)中,甚至有著“得算力者得天下”的趨勢。

而當(dāng)年因?yàn)閰琼g或者說是百度的超級計(jì)算機(jī)夢,讓劉文志、顏深根、單羿、孫剛……這幾人相聚在百度IDL異構(gòu)計(jì)算團(tuán)隊(duì)。

這位一直致力于站在更高更大的緯度去看周遭世界的老人,如今已是花甲之年,雖然當(dāng)年的超級計(jì)算機(jī)事業(yè)中道折戟,但他在AI領(lǐng)域的超前認(rèn)知一直影響著這些學(xué)生,今天,他們?nèi)慷汲蔀楦咝阅苡?jì)算、AI領(lǐng)域的佼佼者,有些人的風(fēng)采甚至橫跨整個(gè)AI領(lǐng)域。

未來,吳韌在高性能計(jì)算領(lǐng)域那些未實(shí)現(xiàn)的夢,還等待著他的學(xué)生們繼續(xù)去豐滿。

數(shù)風(fēng)流人物,還看今朝。

參考資料:

【獨(dú)家對話】從游走世界知名公司到創(chuàng)辦Novumind,吳韌如何練就頂級計(jì)算科學(xué)家本色?丨Xtecher 封面

關(guān)于 AI Infra,更多行業(yè)交流歡迎添加作者微信 XXX,稍后我們也將推出《袁進(jìn)輝與他的分布式計(jì)算江湖》,歡迎交流。



雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

AI Infra 往事之異構(gòu)計(jì)算篇:吳韌與他的學(xué)生們

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說