0
本文作者: 黃楠 | 2023-10-16 14:31 |
這是一個(gè),一群人用語(yǔ)言和語(yǔ)音技術(shù)探索前路、希望改變世界的故事。
一通特殊的電話,開啟徐鵬的 CLSP 之旅
1999年,徐鵬接到了一個(gè)從未設(shè)想過的電話。
24年后,已經(jīng)成為了螞蟻集團(tuán)副總裁、執(zhí)掌螞蟻基礎(chǔ)大模型,徐鵬仍然無法忘記那一通電話——而也是這一通電話,讓他的人生發(fā)生了重大的改變。
彼時(shí)的徐鵬,剛剛結(jié)束在中科院自動(dòng)化所三年的研究生項(xiàng)目,告別導(dǎo)師黃泰翼,來到了大洋彼岸的布朗大學(xué)進(jìn)修,研究語(yǔ)音識(shí)別和麥克風(fēng)陣列。
而電話另一頭的人一說話,就讓徐鵬吃了一驚,給他打來電話的,是約翰霍普金斯大學(xué)(以下簡(jiǎn)稱“JHU”)語(yǔ)言和語(yǔ)音處理中心(CLSP)的負(fù)責(zé)人 Frederick Jelinek。
布朗大學(xué)雖是藤校,但在語(yǔ)音識(shí)別領(lǐng)域里的名聲,卻難望 JHU CLSP 的項(xiàng)背。而真正令徐鵬印象深刻的,是世界級(jí)語(yǔ)音大牛——Jelinek 的親自致電。
一年前,徐鵬就曾經(jīng)申請(qǐng)過 Jelinek 的博士,但最終沒能如愿,然而去往JHU、在 Jelinek 手下工作的想法,一直沒在他心中熄滅。于是在布朗大學(xué)就讀一年后,徐鵬再次申請(qǐng)了CLSP 電子工程系的項(xiàng)目,這才終于等來了 Jelinek 的電話。
行家一出手,便知有沒有。兩人只是短暫交流,Jelinek 便給了徐鵬 Offer,只是希望徐鵬能夠早點(diǎn)來到學(xué)校,進(jìn)入 CLSP 的狀態(tài)。
于是,在布朗大學(xué)的第一年讀完,剛放暑假,徐鵬就帶著行李從羅得島離開,去往位于美國(guó)東部、馬里蘭州巴爾的摩里的 JHU。
巴爾的摩是世界著名的港口之一,這里四季分明,氣候溫和潮濕,比起紐約、洛杉磯等發(fā)達(dá)且“時(shí)髦”的城市,稍顯樸素。
JHU 的 Gilman Hall
有些人會(huì)將 JHU 的某些特質(zhì)和中科大進(jìn)行對(duì)比——地處二線城市,學(xué)風(fēng)淳樸。
“跟老師交流時(shí),他們關(guān)注的重心不是你能發(fā)多少篇文章,而是這個(gè)工作的原創(chuàng)性、能給領(lǐng)域帶來什么新的方向和思考,”畢業(yè)于 JHU 生物醫(yī)學(xué)工程專業(yè)的醫(yī)療 AI 創(chuàng)業(yè)者馬駿回憶道,“學(xué)生們也是,大家對(duì)學(xué)術(shù)是出于真心的喜歡,平時(shí)聊天、討論的內(nèi)容都是學(xué)術(shù)方向和學(xué)術(shù)大牛,跟今天大家討論明星八卦一樣,是他們的樂趣所在。”
事實(shí)上,在哈佛、耶魯?shù)冉虝?huì)學(xué)校大行其道的當(dāng)時(shí),JHU 第一任校長(zhǎng) Daniel Coite Gilman(卡內(nèi)基-梅隆大學(xué)的前身卡內(nèi)基學(xué)院創(chuàng)始人),特意遠(yuǎn)渡重洋招徠了六名知名教授,并引入德國(guó)的大學(xué)教育體系,成立了北美第一所研究型大學(xué) JHU,分專業(yè)錄取本科生、以討論班形式授課,意在將學(xué)術(shù)體系更細(xì)分化、專業(yè)化。
然而,能讓徐鵬放棄藤校的學(xué)位,最重要的,還是在 JHU CLSP 的學(xué)術(shù)領(lǐng)軍人物、美國(guó)工程院院士 Jelinek。
Frederick Jelinek
Jelinek 來自捷克,麻省理工畢業(yè)后,他曾在康奈爾教書十載,后加入 IBM 研究院,于 1972 年帶領(lǐng) IBM 華生實(shí)驗(yàn)室,提出了基于統(tǒng)計(jì)的語(yǔ)音識(shí)別框架,以提升語(yǔ)音識(shí)別的準(zhǔn)確率和識(shí)別范圍。
看山不是山,Jelinek 將語(yǔ)音的問題看作一個(gè)通信問題,使用聲學(xué)和語(yǔ)言兩個(gè)概率模型,精準(zhǔn)地概括了語(yǔ)音識(shí)別,將 IBM 的語(yǔ)音識(shí)別率從 70% 提升至 90%,單詞識(shí)別的規(guī)模也從數(shù)百上升到了兩萬——此后,語(yǔ)音識(shí)別技術(shù)有了初步應(yīng)用落地的可能性。
而沒過幾年,Jelinek 在 IBM 又有了一項(xiàng)新的成果:基于語(yǔ)料庫(kù) n-gram 語(yǔ)言模型的大詞表連續(xù)語(yǔ)音識(shí)別方法。簡(jiǎn)單來說,把語(yǔ)音識(shí)別的單位從“單詞”拓展到了“整句”,不僅讓語(yǔ)音識(shí)別的性能大大提升,也深遠(yuǎn)的影響了未來20年左右的語(yǔ)音識(shí)別和機(jī)器翻譯技術(shù)發(fā)展進(jìn)程。
對(duì) IBM 當(dāng)時(shí)的語(yǔ)音工作,黃學(xué)東對(duì)雷峰網(wǎng)如此評(píng)價(jià):“做語(yǔ)音最早的就是 IBM,如果從歷史的維度講述,IBM 內(nèi)部將做語(yǔ)音的方法應(yīng)用至機(jī)器翻譯、改寫了歷史,也影響了后面的 Transformer。IBM 對(duì)語(yǔ)音領(lǐng)域的研究做出了巨大的貢獻(xiàn)?!?/p>
而彼時(shí),前沿的語(yǔ)音研究,中心仍然在高校。Jelinek 從 IBM 來到 JHU,并且主掌 CLSP 的研究和人才招募。
研究和行政之外,Jelinek 也會(huì)親自帶博士,而徐鵬則是他的第四號(hào)博士。
Jelinek 素來以嚴(yán)格治學(xué)聞名,他的想法明確、學(xué)術(shù)視角毒辣,即使已是學(xué)術(shù)領(lǐng)軍,仍然與學(xué)生交流緊密。講課并非他最突出的能力,來到 CLSP,Jelinek 就已經(jīng)是花甲之年,也不會(huì)親自寫代碼。于是,徐鵬必須得把每一個(gè)實(shí)驗(yàn)的肌理分析得足夠清楚細(xì)致、追根問底,還得能夠把成果匯報(bào)給 Jelinek 。
對(duì)徐鵬,Jelinek 常常一次性給他20個(gè)問題,讓他寫出代碼實(shí)現(xiàn)驗(yàn)證。徐鵬和其他學(xué)生辦公的地方,是一個(gè)狹長(zhǎng)的長(zhǎng)條形房間,而 Jelinek 的辦公室就在門外,常常給出問題沒多久,Jelinek 就會(huì)親自來到徐鵬桌前詢問進(jìn)度,或干脆把徐鵬叫進(jìn)辦公室討論。
Jelinek 的嚴(yán)格,由此可見一斑。
另外,在批改論文時(shí),Jelinek 甚至?xí)?biāo)出文中的英文語(yǔ)法錯(cuò)誤。在中國(guó)學(xué)生越來越多的時(shí)候,Jelinek 還還專門讓他秘書在辦公室掛了一個(gè)“只能說英文”的牌子,甚至還出錢雇老師給徐鵬他們上英文課。
在 Jelinek 初到美國(guó)時(shí),他的夢(mèng)想本是研修法律,只愁捷克口音太重,英文發(fā)音稍遜一籌,便不得已選擇了麻省理工的電子工程系——他之所以如此,也是怕學(xué)生再吃語(yǔ)言的虧,重蹈他的“覆轍”。
每年暑期,CLSP 也會(huì)聯(lián)合各大高校開展 workshop。不同院校的學(xué)生、老師、企業(yè)的研究院都來到 JHU ,申報(bào)課題后,一起完成兩三個(gè)月的研究工作。
90年代末,正是統(tǒng)計(jì)方法開始被語(yǔ)音識(shí)別學(xué)界所重視起來的時(shí)候。在這個(gè)方向,當(dāng)時(shí)涌現(xiàn)出了一批重要學(xué)者。從Michael Collins、斯坦福的Christopher Manning 和他的學(xué)生等等,Jelinek 也經(jīng)常邀請(qǐng)他們來到CLSP訪問交流,一時(shí) CLSP 稱得上“談笑有鴻儒,往來無白丁”。
而 Daniel Povey 主創(chuàng)的語(yǔ)音識(shí)別開源工具 Kaldi,也正是誕生于 CLSP的 workshop。不過這是后話,先按下不表。
在學(xué)術(shù)之外,Jelinek 的生活作風(fēng)相當(dāng)簡(jiǎn)樸,沒有什么做派。他開一輛老豐田開了20年,啟動(dòng)時(shí)的聲音像飛機(jī)發(fā)動(dòng)機(jī)一樣,別人問起,他只說:“我要像用我的人一樣,用我的車?!崩宪噲?bào)廢之后,Jelinek 只是花了幾千美金,買了一輛很舊的二手車。
2001年,徐鵬跟 Jelinek 一起,去意大利參加一場(chǎng)重要的活動(dòng)。從米蘭落地,Jelinek 租了一輛車,載著徐鵬在米蘭的山路上近乎狂飆,抓住一切機(jī)會(huì)超車,絕不落人后,把副駕駛上的徐鵬驚出一身冷汗。
也正是在那場(chǎng)活動(dòng)上,當(dāng)時(shí)臺(tái)上不少語(yǔ)音領(lǐng)域的大牛,都在討論語(yǔ)音識(shí)別該怎么做、往哪個(gè)方向走,但各說各話,爭(zhēng)論不下。
在臺(tái)下,Jelinek 再看不下去了,于是站起來,對(duì)著臺(tái)上說:“在這里爭(zhēng)論這么久,仿佛這個(gè)事情是我們能決定的,我們就是各個(gè)政府的奴隸,他們給我們錢、讓我們干什么就得干什么,不要講得這么冠冕堂皇,實(shí)際上我們也影響不了研究方向。”
是時(shí),臺(tái)下數(shù)百觀者,臺(tái)上一眾嘉賓,無不瞠目結(jié)舌,Jelinek 也不愿退讓,最后還是有人圓場(chǎng),尷尬的氣氛才緩解了幾分。
“我覺得,他(Jelinek)看事情時(shí),更希望看到本質(zhì)——能做什么就做什么,不能做的事情干脆放棄,沒必要粉飾太平,說話直接,常常直戳痛點(diǎn)?!闭劦蕉鲙?Jelinek 時(shí),徐鵬如此評(píng)價(jià)道。
Jelinek 最出名,也最令人咋舌的一句名言——“Every time I fire a linguist, the performance of the speech recognizer goes up.”(我每開掉一個(gè)語(yǔ)言學(xué)家,我語(yǔ)音識(shí)別的效果就能上升一點(diǎn))也曾在業(yè)界掀起軒然大波。
即使外界一片爭(zhēng)議和誤解之下,Jelinek 也只和身邊親近的人解釋過。其實(shí),Jelinek 很希望能夠?qū)⒄Z(yǔ)法的解析,和語(yǔ)音識(shí)別、語(yǔ)音模型結(jié)合起來。
當(dāng)時(shí)徐鵬和一個(gè)師兄一起,在這個(gè)領(lǐng)域做過嘗試,而最后結(jié)果證明是,語(yǔ)法解析對(duì)模型效果確實(shí)能夠起到一定作用,只是跟 Jelinek 的想象相差甚遠(yuǎn)。
而 Jelinek 反對(duì)的,是用規(guī)則的方式做語(yǔ)音,他認(rèn)為語(yǔ)法應(yīng)該跟統(tǒng)計(jì)結(jié)合起來,加上他本就是做信息論出身,相較之下,更欣賞用概率論統(tǒng)計(jì)的方法去做研究。
而實(shí)際上,規(guī)則學(xué)習(xí)的方式,也在世紀(jì)之交時(shí)遇到了瓶頸——只用語(yǔ)法規(guī)則無法完全解釋語(yǔ)言,而語(yǔ)言學(xué)家標(biāo)注出的規(guī)則又無法窮盡使用者的語(yǔ)言使用;而就在這時(shí),Jelinek 所一貫主張的統(tǒng)計(jì)學(xué)習(xí),則一舉登上了語(yǔ)音領(lǐng)域機(jī)器學(xué)習(xí)的主流舞臺(tái)。
早期在 Jelinek 治下,徐鵬的研究談不上有什么自由度,直到做出成果讓導(dǎo)師信服后,才得以逐漸開展自己感興趣的的研究。
對(duì) Random Forest(隨機(jī)森林)算法效果提升的研究,是徐鵬心中,自己在 CLSP 時(shí)比較有新意的一個(gè)工作。這種機(jī)器學(xué)習(xí)算法,基于集成學(xué)習(xí)理論,根據(jù)隨機(jī)選擇的特征訓(xùn)練一棵一棵的“決策樹”,再根據(jù)多數(shù)投票的方式,把每棵樹的預(yù)測(cè)結(jié)果合并為最終的預(yù)測(cè)結(jié)果。
欣賞徐鵬的研究,Jelinek 特意將隨機(jī)森林算法的創(chuàng)始人之一——Leo Breiman 請(qǐng)到了實(shí)驗(yàn)室,讓徐鵬把自己的工作給他匯報(bào)。比起 Jelinek ,利奧·布雷曼還要大上四歲,已經(jīng)幾近古稀,特意從西海岸趕來巴爾的摩,稱贊了徐鵬的工作。
而在 JHU 進(jìn)修數(shù)年之后,徐鵬以親身領(lǐng)略到了最前沿的語(yǔ)音技術(shù)。而和不少心懷天下的 AI 探索者一樣,他不想把一身本領(lǐng)留在象牙塔——他的夢(mèng)想是長(zhǎng)風(fēng)破浪,直濟(jì)滄海,用語(yǔ)音 AI 改變世界。
PhD畢業(yè)后,徐鵬的下一站,選擇了一家年輕的公司——?jiǎng)?chuàng)始于硅谷山景城的谷歌。
谷歌:CLSPer 從學(xué)術(shù)界走向工業(yè)界
“我認(rèn)為,谷歌對(duì) AI 的貢獻(xiàn),今天很多人都沒有看到——其中最核心的一件事,就是在 2004、05 年左右,用分布式、云計(jì)算的方式來做語(yǔ)音識(shí)別和機(jī)器翻譯,把技術(shù)變成了一項(xiàng)實(shí)打?qū)嵉漠a(chǎn)品。”李志飛——徐鵬在 CLSP 的師弟,后來出門問問的創(chuàng)始人——如是說道。
21 世紀(jì)初,語(yǔ)音 AI 正有從高校向工業(yè)界轉(zhuǎn)移的趨勢(shì)。谷歌的不斷壯大,也吸引著越來越多華人 AI 新星的加入。而其中,同樣來自 JHU CLSP 的吳軍,就是谷歌最早一批的貢獻(xiàn)者。
吳軍比徐鵬大三屆,算得上是徐鵬的師兄,由于都是華人,兩人時(shí)常在實(shí)驗(yàn)室一起吃飯,吳軍時(shí)不時(shí)會(huì)請(qǐng)徐鵬來家里吃飯,徐鵬也幫吳軍搬過家。
徐鵬 2005 年畢業(yè),就直接加入了谷歌,成為了當(dāng)時(shí)谷歌為數(shù)不多的華人員工。當(dāng)年谷歌來到巴爾的摩,在 JHU 校招,吳軍還親自作為宣講的一員隨隊(duì)前往。
徐鵬
然而,招收徐鵬進(jìn)入谷歌的,并不是吳軍。
事實(shí)上,一年前的谷歌校招,吳軍就鼓動(dòng)徐鵬來試試,彼時(shí)徐鵬正讀到博士最后一年,到了面試才發(fā)現(xiàn)自己準(zhǔn)備得并不完備,發(fā)揮不盡人意,面試階段被刷了下去。
一個(gè)寒暑過去,再有兩天徐鵬就要畢業(yè)?;蛟S是命運(yùn)的安排,在一次會(huì)議上,徐鵬遇上了執(zhí)掌谷歌機(jī)器翻譯的 Franz Och。
兩人簡(jiǎn)單交流,Och 十分賞識(shí)面前的這位年輕人,便問徐鵬,為什么沒有申請(qǐng)谷歌的工作。而徐鵬仍在一年前面試失敗的陰影之下,感覺希望渺茫——谷歌當(dāng)時(shí)四五千人的規(guī)模,研究崗只有寥寥數(shù)十人。而 Och 卻想要給予徐鵬一個(gè)機(jī)會(huì),當(dāng)時(shí)谷歌的機(jī)器翻譯組也急需科研人才,便為徐鵬安排了一次線上面試。
這次,徐鵬沒有浪費(fèi)機(jī)會(huì),過五關(guān)斬六將,一周后就拿到了 Och 發(fā)來的 Offer。
5 月進(jìn)入谷歌,徐鵬便開始享受著相當(dāng)自由的工作氛圍:研究主要依靠研究員的自驅(qū);地點(diǎn)也十分自由,只需要提報(bào)一個(gè)簡(jiǎn)單的差旅手續(xù),就可以想去哪里去哪里;甚至有一次,徐鵬因?yàn)閷W⒐ぷ?,錯(cuò)過了 Peter Norvig(徐鵬在谷歌的第一個(gè) director)的年末績(jī)效匯報(bào),遲到了足足 20 分鐘,盡管是兩人的第一次會(huì)面,諾維格也只是輕飄飄一句:“做事去吧”。
在谷歌期間,徐鵬所在的機(jī)器翻譯組,是谷歌最早一批將統(tǒng)計(jì)方法機(jī)器學(xué)習(xí)做進(jìn)產(chǎn)品中的人。最早期,機(jī)器翻譯組只有十人不到,研究和產(chǎn)品化都有專人負(fù)責(zé)。徐鵬則被歸入了產(chǎn)品化團(tuán)隊(duì)中,從前端到后端、工程到產(chǎn)品均有涉獵。
幾年時(shí)間過去,谷歌的機(jī)器翻譯組也越發(fā)壯大,徐鵬也作為面試官,面試過大量的人才,其中也包括 Samy Bengio(Yoshua Bengio 的弟弟)
2013年,深度學(xué)習(xí)的風(fēng)潮興起,AI 的風(fēng)向再次變天。
硅谷的谷歌內(nèi)部,也清晰地感受到了這種變化,機(jī)器翻譯組的 Och 也被深度學(xué)習(xí)技術(shù)的發(fā)展所震撼,想要從底層研究到落地實(shí)現(xiàn)大包大攬;而徐鵬和 Och 的理解并不一致,他認(rèn)為,和谷歌大腦協(xié)作能更加集中公司內(nèi)部的資源,各取所長(zhǎng)。
彼時(shí),谷歌大腦的辦公室就在機(jī)器翻譯組的斜對(duì)面,門牌也只是貼在門上,一張寫著“谷歌大腦”的打印紙。而在那里,今天 OpenAI 的首席科學(xué)家、創(chuàng)始人之一——Ilya 和組員正在完成的卻是改變世界的研究:
在徐鵬的幫助下,谷歌大腦完成了 LSTM 在機(jī)器翻譯領(lǐng)域上技術(shù)研究,以及paper sequence to sequence translation背后數(shù)據(jù)的預(yù)處理等工作——Ilya 做的是模型和方法,徐鵬則用自己的模型和統(tǒng)計(jì)方法與 Ilya 方案對(duì)比,統(tǒng)計(jì)方法給基于LSTM的深度學(xué)習(xí)方法提供了很好的驗(yàn)證,讓深度學(xué)習(xí)模型更容易看到當(dāng)時(shí)的不足,并最終得以改進(jìn),取得了比統(tǒng)計(jì)模型更好的效果。
而和谷歌大腦的合作,讓徐鵬意識(shí)到繼續(xù)進(jìn)行統(tǒng)計(jì)方法研究的局限,在 Och 主導(dǎo)的翻譯團(tuán)隊(duì)進(jìn)行深度學(xué)習(xí)探索的自由度也受到了一定的限制。雖然徐鵬已經(jīng)是組里的manager,主管工程和部分研究,但是他還是提出了轉(zhuǎn)組,想去機(jī)器翻譯之外的地方嘗試。
再三思索,徐鵬沒有去 Ilya 的谷歌大腦——因?yàn)?Ilya 對(duì)深度學(xué)習(xí)執(zhí)念很深,意圖把研究方向全部攬到深度學(xué)習(xí)中來;而徐鵬更愿意做落地的工作,關(guān)注實(shí)際的效果,兩人最終也是道不同,不相為謀。
于是,徐鵬去了谷歌廣告,是第一個(gè)把深度學(xué)習(xí)做到線上系統(tǒng)的人,給公司帶來了幾個(gè)億的營(yíng)收。而在徐鵬離開機(jī)器翻譯組后不久,Och 就選擇了離開谷歌,去往了 Human Longevity 開始新的探索。
時(shí)間拉回2010年,徐鵬面試了另一個(gè)來自 CLSP 的年輕人,他比徐鵬小5屆,與徐鵬同樣分屬電子工程系,也正是書生意氣的年紀(jì)。當(dāng)時(shí),正是谷歌機(jī)器翻譯組決定在語(yǔ)音版圖上開始擴(kuò)張的時(shí)機(jī),徐鵬面試了不少在語(yǔ)音領(lǐng)域有所成就的技術(shù)大牛,而面前這位年輕人就是其中之一。
年輕人名叫李志飛,2004 年入學(xué),和吳軍一樣,拜在Sanjeev Khudanpur 門下。
Sanjeev,常常被中國(guó)學(xué)生戲稱為“三姐夫”,是 Jelinek 在早期招募進(jìn)入 CLSP 的學(xué)術(shù)精英,研究方向和 Jelinek 一脈相承,Sanjeev 也是一位“神人”。傳說每次有人來參加研討會(huì),Sanjeev 總能一眼看出對(duì)方數(shù)學(xué)公式中的錯(cuò)漏。
Sanjeev Khudanpur
原先也曾在 CLSP 讀書的云啟資本合伙人陳昱回憶,Sanjeev 對(duì)學(xué)生要求極嚴(yán)——不僅編程技術(shù)需要過關(guān),數(shù)學(xué)水平也要足夠高。開課時(shí),教室里還滿滿當(dāng)當(dāng)坐了幾十號(hào)人,而隨著課業(yè)進(jìn)行,學(xué)生便變得越來越少。
在電子工程系,李志飛的獎(jiǎng)學(xué)金是 Sanjeev 幫忙出的;而帶他做事情的導(dǎo)師,是一位叫 Jason Eisner 的計(jì)算機(jī)科學(xué)教授。
初到 JHU,李志飛最開始做的是分布式網(wǎng)絡(luò)系統(tǒng)——不同于語(yǔ)音、NLP ,這并不是 CLSP 的主要研究方向。而他當(dāng)時(shí)的導(dǎo)師是一個(gè)來自 MIT 的猶太人,對(duì)學(xué)生主動(dòng)性要求比較高。在上算法課時(shí),常常公式寫了兩條,就停下來看自己的股票是漲是跌,李志飛深感如果在他手下恐難畢業(yè),于是才跳槽到了 Jason Eisner 的手下。
Jason Eisner 也是 JHU 強(qiáng)大師資中的一員,他不僅是計(jì)算機(jī)科學(xué)系的教授、編程語(yǔ)言 Dyna 的首席設(shè)計(jì)師,也執(zhí)掌著微軟 Semantic Machines (2015年 Dan Klein 和 華裔科學(xué)家 Percy Liang 的 NLP 項(xiàng)目,后被微軟收購(gòu))研究,在解析算法、機(jī)器翻譯和加權(quán)有限狀態(tài)機(jī)等多個(gè)領(lǐng)域建樹頗深,并且獲得了 ACL2017 最佳長(zhǎng)論文獎(jiǎng)。
Jason Einser
而在李志飛眼中,Jason 是一位超級(jí)聰明的 NLP 大神。他說話語(yǔ)速極快,腦子轉(zhuǎn)得也快——在 CLSP 辦的會(huì)上,受邀參加演講的嘉賓,不少都是帶著不懂的問題來找到 Jason,來請(qǐng)他幫忙解答。
而在教書育人的角度,Jason 也有自己的一套風(fēng)格。在課堂上,他每年都會(huì)根據(jù)業(yè)界最新的動(dòng)態(tài),來增刪課程的內(nèi)容,以讓課堂能夠跟上科技發(fā)展的前沿。
除了有 Jason Einser 傳道解惑,李志飛在 JHU 里也和另一位 NLP 大神——David Yarowsky 有過合作,一起完成過一篇有關(guān)中文縮略語(yǔ)翻譯的論文。
David Yarowsky
David Yarowsky,和剛剛提到的 Jason Eisner、以及哥倫比亞大學(xué)的 Michael Collins 都師承于賓夕法尼亞大學(xué)的 Mitchell Marcus 教授。而 Mitchell 也正是“賓州樹庫(kù)”(Penn Treebank)的作者,為后世的 NLP 研究提供了一套成熟的句法分析數(shù)據(jù)集。
師出名門,David Yarowsky 在研究詞義消歧、跨語(yǔ)言學(xué)習(xí)等領(lǐng)域成果斐然。他性格有些可愛的古怪,被李志飛等一眾學(xué)生稱為“上帝”——David 從來不回復(fù)郵件,常常窩在四面都被書籍包圍的辦公室里,但幾乎對(duì)天下事無所不知,頗有當(dāng)年康德的風(fēng)范。
早年間,吳軍也曾在他門下學(xué)習(xí)。對(duì)同樣酷愛讀書的 David,吳軍評(píng)價(jià)道:“他的藏書量和讀書量可能都是我的十倍,但是他 95% 的書都只是瀏覽過。按照他的觀點(diǎn),絕大多數(shù)的書都不值得仔細(xì)讀,但是閱讀量大是有好處的,除了拓寬知識(shí)面,更重要的是能夠讓自己的想法保持客觀中立?!?/p>
在 CLSP ,李志飛一個(gè)主要成就,是開源統(tǒng)計(jì)型機(jī)器翻譯工具包 Joshua 的開發(fā)。使用并行和分布式計(jì)算技術(shù),Joshua 的可拓展性很強(qiáng),并且在 WMT09 的法-英轉(zhuǎn)譯上,實(shí)現(xiàn)了當(dāng)時(shí)最先進(jìn)的翻譯性能和翻譯任務(wù),給后世留下了很深遠(yuǎn)的影響。
2010 年,李志飛也順利從 JHU 博士畢業(yè)。5 年過去,谷歌的規(guī)模增長(zhǎng)了十倍左右;僅 2009 年前后,谷歌在一年內(nèi)就招收了 8000 名新人,甚至總部專門為此發(fā)函,談“如何在增加招聘人數(shù)的情況下,不影響招聘質(zhì)量”。
當(dāng)時(shí)的谷歌,對(duì)李志飛也有足夠的吸引力,為此,他還與陳昱通過電話,交流過谷歌的情況。
盡管都是谷歌,陳昱待過的地方是谷歌紐約,后來又去往上海;李志飛則是一頭扎向了位于硅谷的谷歌總部,并且在那里一直待到回國(guó)創(chuàng)業(yè)出門問問。
彼時(shí),谷歌研究院在硅谷的華人幾乎鳳毛麟角,除了李志飛,雷欣、趙勇、和李志飛在 CLSP 的學(xué)長(zhǎng)徐鵬,加在一起不超過十個(gè)人。
在谷歌,李志飛的故事人盡皆知,他在谷歌總部主導(dǎo)機(jī)器翻譯和語(yǔ)音識(shí)別的相關(guān)工作,與他在 JHU CLSP 的研究一脈相承,在谷歌的手機(jī)離線翻譯的開發(fā)工作上,完成了很多貢獻(xiàn)。
盡管風(fēng)光正好,但李志飛并未在硅谷做過多停留。僅僅兩年后,他就決定回到中國(guó)創(chuàng)業(yè),這才有了后來的出門問問。
有人說,李志飛早在谷歌期間,就有了創(chuàng)業(yè)的念頭。當(dāng)時(shí)適逢中國(guó)移動(dòng)互聯(lián)網(wǎng)的大發(fā)展開端,回國(guó)的決定是天時(shí)和地利的融合。也是同年,吳軍也從谷歌回國(guó),加入了騰訊的搜索部門,與當(dāng)時(shí)家大業(yè)大的百度、銳意進(jìn)取的搜狗形成犄角之勢(shì)。
而李楠——一位大致同時(shí)期也在谷歌工作的業(yè)內(nèi)人士,卻對(duì)雷峰網(wǎng)表示,李志飛離開,歸根結(jié)底還是語(yǔ)音和翻譯業(yè)務(wù),在谷歌并非如搜索、廣告一般的核心業(yè)務(wù),整體受重視程度不足,是比較邊緣的一塊領(lǐng)土。
“和服務(wù)大客戶的 IBM 不一樣,谷歌的基礎(chǔ)架構(gòu)當(dāng)年的確是最好的——基礎(chǔ)設(shè)施搭得好,上層應(yīng)用可以很快速地迭代,這也讓我們?cè)诤荛L(zhǎng)一段時(shí)間里有競(jìng)爭(zhēng)優(yōu)勢(shì)?!崩铋u(píng)價(jià)道,“但難以直接轉(zhuǎn)化成實(shí)際的營(yíng)收和用戶增長(zhǎng),對(duì)于 To C 的谷歌來說,語(yǔ)音還是很難站到主導(dǎo)的地位上?!?/p>
而另一位谷歌前員工安舍也表示:因?yàn)榉g的項(xiàng)目不賺錢,所以谷歌當(dāng)時(shí)也沒有投資源,算作一個(gè)純粹研究性質(zhì)的項(xiàng)目——而谷歌又想把它做得更大,所以在前兩年,機(jī)器翻譯組做的事情每年都要上公司的OKR,Och 要親自向高層匯報(bào)進(jìn)展,其中一項(xiàng)就是機(jī)器翻譯要做到什么程度。
在谷歌離線翻譯的項(xiàng)目上,李志飛和 Och 也曾經(jīng)有過一些想法上的摩擦。Och 認(rèn)為這個(gè)項(xiàng)目很難做出實(shí)際用途——他認(rèn)為,只需三年,所有終端都可以完成聯(lián)網(wǎng),到了那時(shí),離線包也就再也沒了用途。
而同樣在 Och 手下工作的徐鵬,知道前者是個(gè)“個(gè)人色彩濃烈”的領(lǐng)導(dǎo),也更理解李志飛的處境,于是給了李志飛不少支持,也讓李完成了第一版谷歌翻譯的離線包。
直到今天,這個(gè)離線包都支持用戶下載。
在象牙塔,李志飛多年的心血全部投入在機(jī)器翻譯上,來到谷歌,卻發(fā)現(xiàn)自己的專攻難有用武之地,肯定心里難受。技術(shù)先進(jìn)和商業(yè)成果的矛盾,也是不少進(jìn)入大廠的科學(xué)家們,所共有的一個(gè)命門。
在這個(gè)角度,出門問問的誕生也就成了必然。
2010年,除了谷歌退出中國(guó),李志飛加入谷歌,CLSP 還發(fā)生了另外一件大事——徐鵬的導(dǎo)師,CLSP 的扛鼎之人,F(xiàn)rederick Jelinek 在一個(gè)普通的星期二,在實(shí)驗(yàn)室工作時(shí)突然伏案不起,倒在了工作崗位上,終年78歲。
失去了先驅(qū)的引領(lǐng),CLSP 和卻并未停步,未來的十年,隨著一批又一批的人才加入,仍然群星薈萃,引領(lǐng)著 AI 語(yǔ)音語(yǔ)義技術(shù)的前進(jìn)方向。
語(yǔ)音 AI 浪潮下的創(chuàng)業(yè)青年
Jelinek 溘然長(zhǎng)逝,一顆引領(lǐng)著語(yǔ)音識(shí)別技術(shù)發(fā)展、為后世留下了諸多成就的啟明星隕落。在當(dāng)年 IEEE 悼念 Jelinek 的文章中,劍橋大學(xué)皇家工程院院士 Steve Young 評(píng)價(jià)他“He was not a pioneer of speech recognition, he was the pioneer of speech recognition.(是語(yǔ)音識(shí)別的先驅(qū)。)”
而此前,純粹的技術(shù)至上主義、淳樸的學(xué)風(fēng),在 Jelinek 影響下的 CLSP 風(fēng)格獨(dú)特,許多青年學(xué)者慕名前來,Jelinek 的離去,不僅是語(yǔ)音識(shí)別領(lǐng)域發(fā)展的損失,對(duì) CLSP 而言更是莫大的打擊。
陳果果便是受到過 Jelinek 直接影響的學(xué)生之一。
陳果果是 2006 年紹興市的高考狀元,本科就讀于清華大學(xué)電子工程系。
2010 年春節(jié)前后,陳果果還在讀大四,這是他在紹興老家度過的最后一個(gè)寒假。兩個(gè)月前,陳果果向 JHU 遞交了博士申請(qǐng),如果通過,錄取通知的時(shí)間正是這幾天。
他打開網(wǎng)站,郵箱自動(dòng)登錄跳轉(zhuǎn)到首頁(yè),在幾條未讀消息中,陳果果一眼看到了來自 CLSP 的郵件、通知他已被錄取。Offer 落款處寫著 Jelinek ,郵件內(nèi)容簡(jiǎn)潔,只寫了三件事:
第一、承諾給充足的研究資金;
第二、提供獎(jiǎng)學(xué)金和生活費(fèi);
第三、在博士第一年結(jié)束時(shí),可以去 IBM、Google 等大公司實(shí)習(xí),做產(chǎn)學(xué)研結(jié)合。
對(duì)從事語(yǔ)音識(shí)別處理研究的學(xué)生而言,CLSP 是頂級(jí)學(xué)府、在語(yǔ)音、NLP 和分布存儲(chǔ)系統(tǒng)領(lǐng)域極具話語(yǔ)權(quán),可以接觸到最前沿的技術(shù);更不用說 Jelinek 親自邀請(qǐng),陳果果幾乎受寵若驚,欣然接下了 Offer。
陳果果
同年 8 月末,陳果果乘上了飛往美國(guó)馬里蘭州的航班;也是那時(shí),李志飛剛剛好畢業(yè)離開,橫跨美國(guó)飛往硅谷,二人幾乎擦肩而過。
但在陳果果入學(xué)不到半個(gè)月的時(shí)間,Jelinek 突發(fā)意外,陳果果也就此痛失了人生的導(dǎo)師。
隨后兩年里,陳果果跟隨 Sanjeev 學(xué)習(xí)。那時(shí)候,CLSP 整個(gè)實(shí)驗(yàn)室的中國(guó)學(xué)生為數(shù)并不多,而陳果果驚喜地發(fā)現(xiàn),和自己同年入學(xué)的姚旭晨,同樣有著一顆“不安分”、喜歡折騰的心,因此兩人早早便相約畢業(yè)以后一起創(chuàng)業(yè)。
姚旭晨本科就讀于南京大學(xué),在格羅寧根大學(xué)和薩爾蘭德大學(xué)讀的碩士。有兩位 NLP 領(lǐng)域宗師級(jí)別的人此前都曾在薩爾蘭德大學(xué)教書,一位是歐洲科學(xué)院院士、北京深知無限人工智能研究院院長(zhǎng) Hans Uszkoreit,另一位則是他的妻子、聯(lián)想集團(tuán)前副總裁徐飛玉。
陳果果在電子系做語(yǔ)音,姚旭晨則是計(jì)算機(jī)系 NLP 方向。由于 JHU 電子系和計(jì)算機(jī)系均歸屬于工程學(xué)院,因此,陳果果和姚旭晨雖然專業(yè)不同,但使用的是同一個(gè)實(shí)驗(yàn)室,兩個(gè)人性情相投,經(jīng)常一起玩耍。
姚旭晨
這段時(shí)期,Sanjeev 也在不停地為實(shí)驗(yàn)室物色新的教授人選。CLSP 研討會(huì)的發(fā)展,對(duì)優(yōu)秀師資的納新起到了至關(guān)重要的作用。而前面提到的,開源語(yǔ)音識(shí)別工具Kaldi的主要開發(fā)者Daniel Povey就在這個(gè)時(shí)候登場(chǎng)了。
2012 年,陳果果迎來了他的另一位導(dǎo)師,語(yǔ)音識(shí)別大?!狣aniel Povey、現(xiàn)任小米語(yǔ)音首席科學(xué)家。
Daniel 的故事,世間流傳不少。他最主要的成就,莫過于他在 2009 年一個(gè) JHU Summer Workshop 發(fā)起的,語(yǔ)音識(shí)別開源工具 Kaldi。集成了隱馬爾可夫等多種語(yǔ)音識(shí)別模型,Kaldi 自推出以來下載量多達(dá) 2 萬余次。在 JHU 期間,陳果果也深度參與了 Kaldi 的工作,在上面貢獻(xiàn)過大量代碼。
但鮮少人知,Kaldi 最早被提出,正是 Dan 此前在一次 CLSP 研討會(huì)上啟動(dòng)的項(xiàng)目。
20 世紀(jì) 90 年代,得益于基于 GMM-HMM 聲學(xué)模型的區(qū)分性訓(xùn)練準(zhǔn)則和模型自適應(yīng)方法的提出,語(yǔ)音識(shí)別迎來了第一次產(chǎn)業(yè)應(yīng)用的小高潮。為了降低研究門檻,劍橋大學(xué)發(fā)布 HTK(Hidden Markov Model Toolkit)開源工具包,彼時(shí)還在劍橋大學(xué)讀書的 Dan 也深度參與了這項(xiàng)工作。
但到了 2010 年前后,HTK 開發(fā)步入停滯期,市面上幾乎找不出第二個(gè)專門為語(yǔ)音識(shí)別而生的開源工具。那時(shí)候的 Dan 已經(jīng)離開了 IBM、加入微軟研究院工作。
覺察到開發(fā)者對(duì)產(chǎn)品內(nèi)部維護(hù)的迫切需求,Dan 決心要為語(yǔ)音識(shí)別再做一個(gè)工作、類似于谷歌或微軟用于內(nèi)部維護(hù)的代碼庫(kù),并以開源工具包的方式呈現(xiàn)。
這一想法受到了普遍開發(fā)者和企業(yè)的追捧。Kaldi 推出后,很快便在開源社區(qū)中占據(jù)了一席之地。
Dan 將 Kaldi 的成功歸功于“除了 HTK 之外沒有任何真正的競(jìng)爭(zhēng)對(duì)手”,雖然 Kaldi 取得了階段性的勝利,不過在 ASR (Automatic Speech Recognition,自動(dòng)語(yǔ)音識(shí)別)軟件包領(lǐng)域,仍舊沒有能免費(fèi)使用的替代方案。降低 WER(語(yǔ)音識(shí)別詞錯(cuò)率)、給大家提供免費(fèi)的語(yǔ)音識(shí)別工具,這是 Dan 的畢生所求。
但是,受限于自己在微軟研究院的員工身份,早年想要在企業(yè)里做開源并非易事,微軟的內(nèi)部律師要求 Dan 不許更新 Kaldi 的新版本。
這意味著,如果想繼續(xù)做開源,留給他的只有大學(xué)一個(gè)選擇。
由于此前 Kaldi 和 CLSP 研討會(huì)的淵源,因此,Dan 也自然而然地選擇了加入 JHU。
JHU 期間,Dan 的研究工作主要由四部分組成,包括 Kaldi 的項(xiàng)目推廣,關(guān)于無網(wǎng)格 MMI 訓(xùn)練和時(shí)延神經(jīng)網(wǎng)絡(luò) (TDNN,這也是當(dāng)時(shí)許多開源項(xiàng)目中具有前沿性的工作,與學(xué)生、開發(fā)者合作研究用于說話人識(shí)別的 d-vector,之后又與 Vassil Panayotov、陳果果以及 Sanjeev 合作完成了 Librispeech 數(shù)據(jù)集。
Daniel Povey
陳果果是 Dan 的第一個(gè)博士畢業(yè)生。兩個(gè)人的第一次見面,Dan 就跟他說:“Send me emails whenever you have questions, I'm almost always online.(不管什么時(shí)候你有問題都可以給我發(fā)郵件,我隨時(shí)在線。)”
話音剛落,陳果果起初根本不相信,他心想:怎么可能有誰(shuí)會(huì)一直在線呢?但沒過多久,這個(gè)想法就被事實(shí)打臉了。
在陳果果整個(gè)博士期間,無論是工作日或周末,他發(fā)給 Dan 的絕大部分郵件,都會(huì)在 5 分種內(nèi)收到回復(fù)。對(duì)于 Kaldi 論壇上的問題郵件,Dan 也是如此,幾乎每個(gè)問題他都會(huì)回答。即便后來端到端開始流行、原本的 Kaldi 版本落后,Dan 在加入小米后仍一直沖在前線、帶隊(duì)做出了 Next-gen Kaldi,到今天,Dan 每天還會(huì)自己寫代碼,在 Github 上的狀態(tài)永遠(yuǎn)是綠。
可以說,“工作狂人”是刻在 Dan 身上最顯著的標(biāo)簽之一。
遇上研究任務(wù)緊迫的時(shí)候,陳果果會(huì)被 Dan 喊到辦公室里一起寫代碼。與 Dan 共處的兩年多里,陳果果最大的感觸便是:決不能浪費(fèi)一點(diǎn)寫代碼的時(shí)間。甚至,有時(shí)候 Dan 還會(huì)不惜推掉一切社交,只為了能呆在辦公室里工作。
有一次,實(shí)驗(yàn)室到華盛頓哥倫比亞特區(qū)附近參加一個(gè) Babel 的項(xiàng)目會(huì),會(huì)議結(jié)束時(shí)是下午三點(diǎn)多,即將開始下班高峰期。為了避免被堵在路上,Dan 便慫恿陳果果和自己先撤退。臨出發(fā)時(shí),因?yàn)殛惞管囁俣缺容^慢,Dan 主動(dòng)要求自己來開車。
于是,陳果果目睹了 Dan 敲代碼的雙手迅速轉(zhuǎn)動(dòng)方向盤、飄逸倒車,一路飛奔往 JHU 的方向開,直到踏進(jìn) CLSP 的辦公室才松了口氣,開心地工作起來。
而除了對(duì)時(shí)間的嚴(yán)格外,另一個(gè)不能被 Dan 接受的,便是服務(wù)器不穩(wěn)定。陳果果回憶,Dan 在很多事情上都比較寬容,但如果出現(xiàn)誰(shuí)亂用服務(wù)器資源,則會(huì)受到他非常嚴(yán)厲的警告。在 Dan 看來,數(shù)據(jù)和計(jì)算資源對(duì)整個(gè) CLSP 而言是極其重要的資產(chǎn),要隨時(shí)保證 CLSP 的每一個(gè)人都可以使用。由此可以推測(cè),或許這也是為什么 Dan 在 2019 年“學(xué)生抗議”事件中,他毅然選擇前往 JHU 行政樓試圖奪回服務(wù)器的原因。這是后話。
說回陳果果。跟他的許多師兄弟一樣,陳果果在讀博期間也曾在谷歌實(shí)習(xí)過。
那時(shí)候深度學(xué)習(xí)剛剛興起,而谷歌的語(yǔ)音團(tuán)隊(duì)也開始逐漸擁抱DNN(Deep Neural Networks)技術(shù)。2013 年 6 月,陳果果進(jìn)入谷歌,也是在這里,他初次感受到了一項(xiàng)技術(shù)走出實(shí)驗(yàn)室、從研究到落地的產(chǎn)品魅力。
在谷歌期間,“Okay Google”的熱詞檢測(cè)系統(tǒng),是陳果果完成的最具代表性的工作。在此后的十多年間,“Okay Google”作為 Google Assistant 的標(biāo)志性交互方式之一,進(jìn)入了數(shù)以億計(jì)的安卓設(shè)備,并讓其他的語(yǔ)音助手如亞馬遜的Alexa、蘋果的Siri也都采用類似的語(yǔ)音交互方案??梢哉f,陳果果當(dāng)時(shí)在谷歌的工作從某種程度上定義了接下來十多年間絕大部分主流語(yǔ)音助手以熱詞(又稱為喚醒詞)為主的交互方式。
“Okay Google”是一個(gè)熱詞檢測(cè)系統(tǒng)。傳統(tǒng)的語(yǔ)音識(shí)別交互方式中,如果用戶想要使用語(yǔ)音功能,意味著麥克風(fēng)功能必須保持長(zhǎng)期在線,并對(duì)語(yǔ)音做持續(xù)識(shí)別轉(zhuǎn)寫,這種方法不僅功耗大、同時(shí)還會(huì)出現(xiàn)許多噪聲引起的錯(cuò)誤識(shí)別。為了改善這個(gè)問題,早期的語(yǔ)音助手一般采用 Push-to-Talk(隨按即說)的方式,也即用戶需要和語(yǔ)音助手進(jìn)行交互的時(shí)候,需要首先點(diǎn)擊一個(gè)說話按鈕,再進(jìn)行交互,這意味著和語(yǔ)音助手的交流依然離不開手的幫助。
陳果果提出的想法是,可否通過定義一個(gè)熱詞,算法隨時(shí)監(jiān)控該熱詞,當(dāng)熱詞被觸發(fā)之后喚醒麥克風(fēng)來接受后續(xù)的用戶信息,這便是“Okay Google”提出的初衷。這個(gè)不經(jīng)意間的想法無意之中改變了主流語(yǔ)音助手的交互方式,比如 2014 年亞馬遜推出的 Alexa 即采用了此種交互方式,2015 年蘋果也給其語(yǔ)音助手“Siri”添加了“Hey Siri”熱詞喚醒。
有了清晰的思路后,陳果果說干便干,不到 1 個(gè)月的時(shí)間便將模型寫了出來。但隨后的性能提升以及產(chǎn)品化卻并沒有那么順利。經(jīng)過兩個(gè)多月的日夜奮斗,陳果果終于在實(shí)習(xí)結(jié)束之前將熱詞系統(tǒng)的性能調(diào)至上線可用,該系統(tǒng)也在隨后的 11 月份順利進(jìn)入安卓的正式系統(tǒng)。
陳果果在谷歌期間的另外一個(gè)重要收獲是找到了自己此后的創(chuàng)業(yè)伙伴。彼時(shí)姚旭晨正好也在谷歌實(shí)習(xí),兩人在工作間隙便經(jīng)常一起打球以及暢聊人生。兩人驚喜的發(fā)現(xiàn),不同于大多數(shù)人的選擇,兩人都希望在畢業(yè)之后可以做出一個(gè)屬于自己的公司,而不是加入一個(gè)大公司。于是一拍即合,相約在畢業(yè)之后一起創(chuàng)業(yè)。
時(shí)間來到 2014 年,姚旭晨率先畢業(yè),信守承諾單槍匹馬前往西雅圖創(chuàng)業(yè)。陳果果也緊鑼密鼓地開始博士論文的撰寫,準(zhǔn)備一畢業(yè)即一起加入創(chuàng)業(yè)。
同一時(shí)期選擇了創(chuàng)業(yè)的,還有已經(jīng)回國(guó)的李志飛。
2012 年,李志飛手握紅杉資本和真格基金的天使投資,回國(guó)創(chuàng)立出門問問,他的目標(biāo)只有一個(gè):探索下一代人機(jī)交互。
過去在谷歌的兩年里,李志飛專攻 NLP,軟件、硬件都做過,而李志飛當(dāng)年的 demo 是有個(gè)簡(jiǎn)陋的交互界面的,就和搜索引擎一樣,有個(gè)文本輸入框,用戶輸入一句話,它在網(wǎng)上把答案找出來
值得一提的是,在早期開發(fā)階段,出門問問正是圍繞著 Kaldi 來做的。由此可見 Kaldi 在當(dāng)時(shí)的影響力之大。
后來,李志飛帶著團(tuán)隊(duì)做語(yǔ)音搜索,在費(fèi)勁心思地拿到微信接口后,其產(chǎn)品賬號(hào)入選了騰訊“十大公共賬號(hào)”;又試水 APP,并在 2014 年將 APP 成功嵌入到 Google Glass 當(dāng)中;此后還推出操作系統(tǒng) Ticwear,發(fā)布智能手表 Ticwatch、闖蕩硬件賽道……期間,出門問問的團(tuán)隊(duì)規(guī)模也在不斷擴(kuò)大,到 2015 年,出門問問已經(jīng)成為以一家規(guī)模 230 余人、專注語(yǔ)音搜索應(yīng)用的科技公司。
對(duì)陳果果和姚旭晨來說,2015 年也是至關(guān)重要的一年。
2014 年 9 月,姚旭晨單槍匹馬來到西雅圖創(chuàng)立公司,以一個(gè)艾倫人工智能研究所(AllenInstitute for Artificial Intelligence,簡(jiǎn)稱 AI2)內(nèi)部孵化項(xiàng)目的形式跑了一段時(shí)間,效益還不錯(cuò)。期間,姚旭晨和陳果果頻繁電話,一方面更新自己在西雅圖的進(jìn)展,另一方面也希望陳果果可以盡快畢業(yè),一起加入。孵化器的薪資收入并不豐厚,但姚旭晨卻愿意將自己在孵化器的收入平分給陳果果。
兩人隨后將公司命名為 KITT.AI,并很快就開發(fā)了對(duì)話引擎 ChatFlow,可集成開發(fā)聊天機(jī)器人的各個(gè)模塊。
姚旭晨(左)和陳果果(右)在 KITT.AI 辦公室
而即便是今天,博士生畢業(yè)即創(chuàng)業(yè),冒著沒有綠卡的風(fēng)險(xiǎn),拿到微軟前聯(lián)合創(chuàng)始人保羅·阿蘭以及亞馬遜Alexa Fund的投資,并在不到三年時(shí)間內(nèi)順利被國(guó)內(nèi)頭部企業(yè)收購(gòu),這其實(shí)是一件不可思議的事情。
但 2017 年,這樣一件小概率事件突然降臨到了陳果果和姚旭晨身上?!拔覀兪菍儆诒容^幸運(yùn)的一批人,趕上了 AI 的第一波浪潮?!标惞f。
2017 年 7 月 5 日,百度第一屆 AI 開發(fā)者大會(huì)在北京的國(guó)家會(huì)議中心里召開。會(huì)上,時(shí)任百度度秘事業(yè)部總經(jīng)理景鯤宣布,百度全資收購(gòu)語(yǔ)音技術(shù)公司 KITT.AI。
一時(shí)間,國(guó)內(nèi)語(yǔ)音識(shí)別領(lǐng)域的從業(yè)者都關(guān)注起了這家遠(yuǎn)在美國(guó)西雅圖、規(guī)模不足十人的 AI Startup。
在投資者看來,KITT.AI 的資本背書極為優(yōu)越。它是全球唯一一家獲得亞馬遜 Alexa Fund 和微軟聯(lián)合創(chuàng)始人 Paul Allen 投資的創(chuàng)業(yè)公司,曾入選 CB Insights人工智能創(chuàng)業(yè) TOP 100。
但令人驚訝的是,KITT.AI 的兩位創(chuàng)始人卻如此年輕。
主導(dǎo)收購(gòu) KITT.AI 的,是時(shí)任百度集團(tuán)總裁兼首席運(yùn)營(yíng)官陸奇。西雅圖被視為創(chuàng)業(yè)“圣地”、恰如今天大模型下的新加坡,許多國(guó)內(nèi)投資人紛紛奔波海外,用敏銳的嗅覺,把握著信息和風(fēng)向。KITT.AI 背靠亞馬遜資本,有技術(shù)、又有業(yè)務(wù),自然成為投資人眼中的香餑餑。在百度之外,姚旭晨也見了不少其他的潛在收購(gòu)方。但百度戰(zhàn)投的投資總監(jiān)Peter Fang及其團(tuán)隊(duì)給他印象最深刻交流也最通暢。
最終選定百度,一方面是其開價(jià)足夠有誠(chéng)意,另一方面,也與百度在帶屏音箱的布局有一定的關(guān)系。被收購(gòu)后,KITT.AI 團(tuán)隊(duì)三個(gè)中國(guó)博士——姚旭晨、陳果果,以及曹原,一起加入了度秘事業(yè)部。
曹原也是 CLSP 的博士,主攻 NLP,畢業(yè)后參與開發(fā)了谷歌第一代基于神經(jīng)網(wǎng)絡(luò)的翻譯(Google’s Neural Machine Translation System)系統(tǒng),是其論文作者之一。之后加入 KITT.AI 任首席科學(xué)家,他性格低調(diào)沉穩(wěn),屬于喜歡默默鉆研技術(shù)的人。
KITT.AI 被收購(gòu)后,姚旭晨、陳果果和曹原加入百度景鯤麾下,一起參與了百度音箱的開發(fā),當(dāng)時(shí)的團(tuán)隊(duì)也是今天小度科技最早的雛形。百度最早的智能音箱設(shè)有喚醒詞,喚醒后可提供各種各樣的技能,還設(shè)置了內(nèi)容頻道,主要是為了增加用戶的使用頻次。
不過,有著雄心壯志的青年往往并不止步于短暫的勝利,持續(xù)創(chuàng)造、并改變世界是他們前行的坐標(biāo)。
就在陳果果和姚旭晨還考慮是否二次創(chuàng)業(yè)時(shí),2019 年,由于“學(xué)生抗議”事件,Daniel Povey 考慮離開歐美“政治正確”的輿論環(huán)境,Dan 想到了遙遠(yuǎn)東方大陸上一個(gè)正冉冉升起的國(guó)家——中國(guó)。
Dan 對(duì)中國(guó)雖然并不了解,但 Kaldi 在中國(guó)可謂名聲大震。一時(shí)間,Dan 的中國(guó)追捧者并不少。在一眾擁躉中間,Dan 最終答應(yīng)了時(shí)任小米集團(tuán)副總裁、技術(shù)委員會(huì)主席——崔寶秋的邀請(qǐng),來到小米重新開始,也成就了中國(guó)科技圈里的一樁美談。
那些有過短暫交匯、散落世界各地的 CLSPer 們,最終在中國(guó)得以匯聚。他們的到來,也深深地影響了中國(guó)語(yǔ)音 AI 發(fā)展。
永不止步
今天的大模型賽道,徐鵬與之也有頗深的淵源:在谷歌時(shí)期,他就用統(tǒng)計(jì)方法做過 N-gram,調(diào)用了四五千臺(tái)服務(wù)器,做到了三千億的參數(shù)規(guī)模。
在當(dāng)時(shí),把模型做到線上,對(duì)系統(tǒng)功能的挑戰(zhàn)很大。于是,徐鵬當(dāng)時(shí)與 Jeff Dean 合作很多——徐鵬負(fù)責(zé)使用 map reduce 做語(yǔ)言模型,Jeff Dean 主做 survey。
多年后,在中國(guó)崛起的螞蟻把眼光放到了海外,意圖在灣區(qū)建立一個(gè)團(tuán)隊(duì),漆遠(yuǎn)就找到了彼時(shí)正在谷歌的徐鵬。
2014 年,漆遠(yuǎn)就想過拉徐鵬加入,而當(dāng)時(shí),徐鵬剛剛擼起袖子加入谷歌廣告,意欲在公司最賺錢的部門大展宏圖,就拒絕了漆遠(yuǎn)的邀約。
而 2 年過去,徐鵬在谷歌的日子過得也并不舒坦。一個(gè)七八十億美元盈利的項(xiàng)目,本來是徐鵬主導(dǎo)的開發(fā),卻因?yàn)楣緝?nèi)繁瑣冗雜的跨團(tuán)隊(duì)溝通協(xié)同影響,比預(yù)期的進(jìn)展慢了很多——這讓徐鵬的心中也萌生了退意。
而螞蟻給出的 Offer 則誠(chéng)意滿滿:徐鵬加入即 P10,而螞蟻在國(guó)內(nèi)也挖到了李小龍、萬昊、蔣松,在硅谷找來了宋樂,一同在灣區(qū)建設(shè)團(tuán)隊(duì)。當(dāng)時(shí),螞蟻的 AI 路徑還并不明確,徐鵬就保持了一個(gè)十人左右的小團(tuán)隊(duì)規(guī)模,只做對(duì)話機(jī)器人。
而此時(shí),Tranformer 也正讓越來越多的學(xué)界、業(yè)界前沿,關(guān)注到了 AI 走向下一個(gè)時(shí)代的可能性。在諸多遠(yuǎn)見者中,李志飛也是其中之一。
2020 年,已經(jīng)成立了 8 年的出門問問,開始琢磨進(jìn)軍深圳。在深圳,李志飛在機(jī)緣巧合之下,見到了中國(guó)工程院院士、彼時(shí)已是 ACM Fellow 的高文,兩人見面短暫探討,話里就談到了大模型。但高文當(dāng)時(shí)行程擁擠,急著趕往下一個(gè)會(huì),話并沒有談透。
當(dāng)晚,高文組局,請(qǐng)李志飛吃飯,便不提大模型,只是希望李志飛幫他做機(jī)器翻譯的老本行,有關(guān)大模型的事情,也就不了了之。
沒有 ChatGPT 引爆市場(chǎng),資本對(duì)大模型往往并不青睞。李志飛的團(tuán)隊(duì),就在沒有大筆外來資金注入的情況下,先訓(xùn)出了一個(gè) 7B 規(guī)模的模型。
繼續(xù)尋找支持自己做大模型的人,李志飛又輾轉(zhuǎn)跑了南京、北京等幾個(gè)城市的經(jīng)信委,當(dāng)時(shí)能聽懂大模型人的并不多。反而上海經(jīng)信委的人,有關(guān) GPT-3 更加看好,來過出門問問幾趟探清虛實(shí),最終決定支持,只是錢打來的時(shí)候,已經(jīng)是 2022 年的 10 月份。
同是 2020 年,陳果果和姚旭晨?jī)晌缓糜延衷俣葦y手,在西雅圖共同成立 Seasalt.ai,瞄準(zhǔn)了云端通信方案及 AI 技術(shù)方向,推出了全渠道客戶體驗(yàn)平臺(tái) SeaX,生成式AI自動(dòng)化工具 SeaChat 以及對(duì)話智能平臺(tái) SeaMeet。目前 Seasalt.ai 以美國(guó)市場(chǎng)為主,在新加坡和臺(tái)灣也有客戶,類型涵蓋了出海電商、旅游、銀行等等。
按姚旭晨的規(guī)劃,接下來 Seasalt.ai 的主戰(zhàn)場(chǎng)還是會(huì)更聚焦在北美,一方面夯實(shí)東南亞基礎(chǔ),把大企業(yè)級(jí)應(yīng)用做深做透,另一方面,此前 KITT.AI 創(chuàng)業(yè)時(shí)就是在北美,面對(duì)北美市場(chǎng)的客戶自己也更有經(jīng)驗(yàn),聚焦 SaaS 企業(yè)服務(wù)。
而元旦剛過,2021 年 1 月的陳昱,在云啟資本上海辦公室附近的咖啡廳內(nèi),正在招待一位 JHU 女校友——贠燁祎。燁祎年紀(jì)輕輕,小陳昱十幾屆,卻在談吐中顯露出了一眾同年齡女性所難以具備的成熟和老練。
中國(guó)的科技圈,從不缺“千里馬與伯樂”的故事。聽過項(xiàng)目,陳昱的心動(dòng)了——早對(duì)大模型有意的他,也曾在科技圈尋尋覓覓,但一個(gè)看得上的應(yīng)用公司也沒找到。
良機(jī)難得,陳昱敲定了這位 JHU 師妹帶來的項(xiàng)目。短短三年過去,這家名叫 MiniMax 的 AI 公司,估值翻了 8 倍左右,也成為了在大模型賽道競(jìng)逐中的一號(hào)“種子選手”。
從 CLSP 走出的 AI 精英們,是彼時(shí)最具硅谷精神的一批人:他們接受了學(xué)界最前沿的教育,親眼見證過語(yǔ)音、語(yǔ)言 AI 科學(xué)的發(fā)展和演進(jìn);
在象牙塔取得了成就,他們卻不甘止步于實(shí)驗(yàn)室,偏要學(xué)以致用,把技術(shù)帶向工業(yè)界。
懷著熱忱,盡管經(jīng)歷風(fēng)雨,他們改變世界的少年之心仍然火熱地跳動(dòng),牽動(dòng)著 AI 時(shí)代的每一次脈搏。
在語(yǔ)音 AI 崛起的浪潮之中,吳軍、徐鵬、李志飛、陳果果、姚旭晨等這一批華人學(xué)者深度參與其中,成為推動(dòng)中國(guó)語(yǔ)音技術(shù)進(jìn)步和產(chǎn)業(yè)落地的重要力量。也期待他們?cè)诖竽P蜁r(shí)代書寫出新故事。
(雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng)))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。