0
本文作者: 黃楠 | 2023-10-16 14:31 |
這是一個,一群人用語言和語音技術(shù)探索前路、希望改變世界的故事。
一通特殊的電話,開啟徐鵬的 CLSP 之旅
1999年,徐鵬接到了一個從未設(shè)想過的電話。
24年后,已經(jīng)成為了螞蟻集團副總裁、執(zhí)掌螞蟻基礎(chǔ)大模型,徐鵬仍然無法忘記那一通電話——而也是這一通電話,讓他的人生發(fā)生了重大的改變。
彼時的徐鵬,剛剛結(jié)束在中科院自動化所三年的研究生項目,告別導(dǎo)師黃泰翼,來到了大洋彼岸的布朗大學(xué)進修,研究語音識別和麥克風(fēng)陣列。
而電話另一頭的人一說話,就讓徐鵬吃了一驚,給他打來電話的,是約翰霍普金斯大學(xué)(以下簡稱“JHU”)語言和語音處理中心(CLSP)的負責人 Frederick Jelinek。
布朗大學(xué)雖是藤校,但在語音識別領(lǐng)域里的名聲,卻難望 JHU CLSP 的項背。而真正令徐鵬印象深刻的,是世界級語音大?!狫elinek 的親自致電。
一年前,徐鵬就曾經(jīng)申請過 Jelinek 的博士,但最終沒能如愿,然而去往JHU、在 Jelinek 手下工作的想法,一直沒在他心中熄滅。于是在布朗大學(xué)就讀一年后,徐鵬再次申請了CLSP 電子工程系的項目,這才終于等來了 Jelinek 的電話。
行家一出手,便知有沒有。兩人只是短暫交流,Jelinek 便給了徐鵬 Offer,只是希望徐鵬能夠早點來到學(xué)校,進入 CLSP 的狀態(tài)。
于是,在布朗大學(xué)的第一年讀完,剛放暑假,徐鵬就帶著行李從羅得島離開,去往位于美國東部、馬里蘭州巴爾的摩里的 JHU。
巴爾的摩是世界著名的港口之一,這里四季分明,氣候溫和潮濕,比起紐約、洛杉磯等發(fā)達且“時髦”的城市,稍顯樸素。
JHU 的 Gilman Hall
有些人會將 JHU 的某些特質(zhì)和中科大進行對比——地處二線城市,學(xué)風(fēng)淳樸。
“跟老師交流時,他們關(guān)注的重心不是你能發(fā)多少篇文章,而是這個工作的原創(chuàng)性、能給領(lǐng)域帶來什么新的方向和思考,”畢業(yè)于 JHU 生物醫(yī)學(xué)工程專業(yè)的醫(yī)療 AI 創(chuàng)業(yè)者馬駿回憶道,“學(xué)生們也是,大家對學(xué)術(shù)是出于真心的喜歡,平時聊天、討論的內(nèi)容都是學(xué)術(shù)方向和學(xué)術(shù)大牛,跟今天大家討論明星八卦一樣,是他們的樂趣所在?!?/p>
事實上,在哈佛、耶魯?shù)冉虝W(xué)校大行其道的當時,JHU 第一任校長 Daniel Coite Gilman(卡內(nèi)基-梅隆大學(xué)的前身卡內(nèi)基學(xué)院創(chuàng)始人),特意遠渡重洋招徠了六名知名教授,并引入德國的大學(xué)教育體系,成立了北美第一所研究型大學(xué) JHU,分專業(yè)錄取本科生、以討論班形式授課,意在將學(xué)術(shù)體系更細分化、專業(yè)化。
然而,能讓徐鵬放棄藤校的學(xué)位,最重要的,還是在 JHU CLSP 的學(xué)術(shù)領(lǐng)軍人物、美國工程院院士 Jelinek。
Frederick Jelinek
Jelinek 來自捷克,麻省理工畢業(yè)后,他曾在康奈爾教書十載,后加入 IBM 研究院,于 1972 年帶領(lǐng) IBM 華生實驗室,提出了基于統(tǒng)計的語音識別框架,以提升語音識別的準確率和識別范圍。
看山不是山,Jelinek 將語音的問題看作一個通信問題,使用聲學(xué)和語言兩個概率模型,精準地概括了語音識別,將 IBM 的語音識別率從 70% 提升至 90%,單詞識別的規(guī)模也從數(shù)百上升到了兩萬——此后,語音識別技術(shù)有了初步應(yīng)用落地的可能性。
而沒過幾年,Jelinek 在 IBM 又有了一項新的成果:基于語料庫 n-gram 語言模型的大詞表連續(xù)語音識別方法。簡單來說,把語音識別的單位從“單詞”拓展到了“整句”,不僅讓語音識別的性能大大提升,也深遠的影響了未來20年左右的語音識別和機器翻譯技術(shù)發(fā)展進程。
對 IBM 當時的語音工作,黃學(xué)東對雷峰網(wǎng)如此評價:“做語音最早的就是 IBM,如果從歷史的維度講述,IBM 內(nèi)部將做語音的方法應(yīng)用至機器翻譯、改寫了歷史,也影響了后面的 Transformer。IBM 對語音領(lǐng)域的研究做出了巨大的貢獻?!?/p>
而彼時,前沿的語音研究,中心仍然在高校。Jelinek 從 IBM 來到 JHU,并且主掌 CLSP 的研究和人才招募。
研究和行政之外,Jelinek 也會親自帶博士,而徐鵬則是他的第四號博士。
Jelinek 素來以嚴格治學(xué)聞名,他的想法明確、學(xué)術(shù)視角毒辣,即使已是學(xué)術(shù)領(lǐng)軍,仍然與學(xué)生交流緊密。講課并非他最突出的能力,來到 CLSP,Jelinek 就已經(jīng)是花甲之年,也不會親自寫代碼。于是,徐鵬必須得把每一個實驗的肌理分析得足夠清楚細致、追根問底,還得能夠把成果匯報給 Jelinek 。
對徐鵬,Jelinek 常常一次性給他20個問題,讓他寫出代碼實現(xiàn)驗證。徐鵬和其他學(xué)生辦公的地方,是一個狹長的長條形房間,而 Jelinek 的辦公室就在門外,常常給出問題沒多久,Jelinek 就會親自來到徐鵬桌前詢問進度,或干脆把徐鵬叫進辦公室討論。
Jelinek 的嚴格,由此可見一斑。
另外,在批改論文時,Jelinek 甚至?xí)顺鑫闹械挠⑽恼Z法錯誤。在中國學(xué)生越來越多的時候,Jelinek 還還專門讓他秘書在辦公室掛了一個“只能說英文”的牌子,甚至還出錢雇老師給徐鵬他們上英文課。
在 Jelinek 初到美國時,他的夢想本是研修法律,只愁捷克口音太重,英文發(fā)音稍遜一籌,便不得已選擇了麻省理工的電子工程系——他之所以如此,也是怕學(xué)生再吃語言的虧,重蹈他的“覆轍”。
每年暑期,CLSP 也會聯(lián)合各大高校開展 workshop。不同院校的學(xué)生、老師、企業(yè)的研究院都來到 JHU ,申報課題后,一起完成兩三個月的研究工作。
90年代末,正是統(tǒng)計方法開始被語音識別學(xué)界所重視起來的時候。在這個方向,當時涌現(xiàn)出了一批重要學(xué)者。從Michael Collins、斯坦福的Christopher Manning 和他的學(xué)生等等,Jelinek 也經(jīng)常邀請他們來到CLSP訪問交流,一時 CLSP 稱得上“談笑有鴻儒,往來無白丁”。
而 Daniel Povey 主創(chuàng)的語音識別開源工具 Kaldi,也正是誕生于 CLSP的 workshop。不過這是后話,先按下不表。
在學(xué)術(shù)之外,Jelinek 的生活作風(fēng)相當簡樸,沒有什么做派。他開一輛老豐田開了20年,啟動時的聲音像飛機發(fā)動機一樣,別人問起,他只說:“我要像用我的人一樣,用我的車。”老車報廢之后,Jelinek 只是花了幾千美金,買了一輛很舊的二手車。
2001年,徐鵬跟 Jelinek 一起,去意大利參加一場重要的活動。從米蘭落地,Jelinek 租了一輛車,載著徐鵬在米蘭的山路上近乎狂飆,抓住一切機會超車,絕不落人后,把副駕駛上的徐鵬驚出一身冷汗。
也正是在那場活動上,當時臺上不少語音領(lǐng)域的大牛,都在討論語音識別該怎么做、往哪個方向走,但各說各話,爭論不下。
在臺下,Jelinek 再看不下去了,于是站起來,對著臺上說:“在這里爭論這么久,仿佛這個事情是我們能決定的,我們就是各個政府的奴隸,他們給我們錢、讓我們干什么就得干什么,不要講得這么冠冕堂皇,實際上我們也影響不了研究方向。”
是時,臺下數(shù)百觀者,臺上一眾嘉賓,無不瞠目結(jié)舌,Jelinek 也不愿退讓,最后還是有人圓場,尷尬的氣氛才緩解了幾分。
“我覺得,他(Jelinek)看事情時,更希望看到本質(zhì)——能做什么就做什么,不能做的事情干脆放棄,沒必要粉飾太平,說話直接,常常直戳痛點?!闭劦蕉鲙?Jelinek 時,徐鵬如此評價道。
Jelinek 最出名,也最令人咋舌的一句名言——“Every time I fire a linguist, the performance of the speech recognizer goes up.”(我每開掉一個語言學(xué)家,我語音識別的效果就能上升一點)也曾在業(yè)界掀起軒然大波。
即使外界一片爭議和誤解之下,Jelinek 也只和身邊親近的人解釋過。其實,Jelinek 很希望能夠?qū)⒄Z法的解析,和語音識別、語音模型結(jié)合起來。
當時徐鵬和一個師兄一起,在這個領(lǐng)域做過嘗試,而最后結(jié)果證明是,語法解析對模型效果確實能夠起到一定作用,只是跟 Jelinek 的想象相差甚遠。
而 Jelinek 反對的,是用規(guī)則的方式做語音,他認為語法應(yīng)該跟統(tǒng)計結(jié)合起來,加上他本就是做信息論出身,相較之下,更欣賞用概率論統(tǒng)計的方法去做研究。
而實際上,規(guī)則學(xué)習(xí)的方式,也在世紀之交時遇到了瓶頸——只用語法規(guī)則無法完全解釋語言,而語言學(xué)家標注出的規(guī)則又無法窮盡使用者的語言使用;而就在這時,Jelinek 所一貫主張的統(tǒng)計學(xué)習(xí),則一舉登上了語音領(lǐng)域機器學(xué)習(xí)的主流舞臺。
早期在 Jelinek 治下,徐鵬的研究談不上有什么自由度,直到做出成果讓導(dǎo)師信服后,才得以逐漸開展自己感興趣的的研究。
對 Random Forest(隨機森林)算法效果提升的研究,是徐鵬心中,自己在 CLSP 時比較有新意的一個工作。這種機器學(xué)習(xí)算法,基于集成學(xué)習(xí)理論,根據(jù)隨機選擇的特征訓(xùn)練一棵一棵的“決策樹”,再根據(jù)多數(shù)投票的方式,把每棵樹的預(yù)測結(jié)果合并為最終的預(yù)測結(jié)果。
欣賞徐鵬的研究,Jelinek 特意將隨機森林算法的創(chuàng)始人之一——Leo Breiman 請到了實驗室,讓徐鵬把自己的工作給他匯報。比起 Jelinek ,利奧·布雷曼還要大上四歲,已經(jīng)幾近古稀,特意從西海岸趕來巴爾的摩,稱贊了徐鵬的工作。
而在 JHU 進修數(shù)年之后,徐鵬以親身領(lǐng)略到了最前沿的語音技術(shù)。而和不少心懷天下的 AI 探索者一樣,他不想把一身本領(lǐng)留在象牙塔——他的夢想是長風(fēng)破浪,直濟滄海,用語音 AI 改變世界。
PhD畢業(yè)后,徐鵬的下一站,選擇了一家年輕的公司——創(chuàng)始于硅谷山景城的谷歌。
谷歌:CLSPer 從學(xué)術(shù)界走向工業(yè)界
“我認為,谷歌對 AI 的貢獻,今天很多人都沒有看到——其中最核心的一件事,就是在 2004、05 年左右,用分布式、云計算的方式來做語音識別和機器翻譯,把技術(shù)變成了一項實打?qū)嵉漠a(chǎn)品?!崩钪撅w——徐鵬在 CLSP 的師弟,后來出門問問的創(chuàng)始人——如是說道。
21 世紀初,語音 AI 正有從高校向工業(yè)界轉(zhuǎn)移的趨勢。谷歌的不斷壯大,也吸引著越來越多華人 AI 新星的加入。而其中,同樣來自 JHU CLSP 的吳軍,就是谷歌最早一批的貢獻者。
吳軍比徐鵬大三屆,算得上是徐鵬的師兄,由于都是華人,兩人時常在實驗室一起吃飯,吳軍時不時會請徐鵬來家里吃飯,徐鵬也幫吳軍搬過家。
徐鵬 2005 年畢業(yè),就直接加入了谷歌,成為了當時谷歌為數(shù)不多的華人員工。當年谷歌來到巴爾的摩,在 JHU 校招,吳軍還親自作為宣講的一員隨隊前往。
徐鵬
然而,招收徐鵬進入谷歌的,并不是吳軍。
事實上,一年前的谷歌校招,吳軍就鼓動徐鵬來試試,彼時徐鵬正讀到博士最后一年,到了面試才發(fā)現(xiàn)自己準備得并不完備,發(fā)揮不盡人意,面試階段被刷了下去。
一個寒暑過去,再有兩天徐鵬就要畢業(yè)。或許是命運的安排,在一次會議上,徐鵬遇上了執(zhí)掌谷歌機器翻譯的 Franz Och。
兩人簡單交流,Och 十分賞識面前的這位年輕人,便問徐鵬,為什么沒有申請谷歌的工作。而徐鵬仍在一年前面試失敗的陰影之下,感覺希望渺?!雀璁敃r四五千人的規(guī)模,研究崗只有寥寥數(shù)十人。而 Och 卻想要給予徐鵬一個機會,當時谷歌的機器翻譯組也急需科研人才,便為徐鵬安排了一次線上面試。
這次,徐鵬沒有浪費機會,過五關(guān)斬六將,一周后就拿到了 Och 發(fā)來的 Offer。
5 月進入谷歌,徐鵬便開始享受著相當自由的工作氛圍:研究主要依靠研究員的自驅(qū);地點也十分自由,只需要提報一個簡單的差旅手續(xù),就可以想去哪里去哪里;甚至有一次,徐鵬因為專注工作,錯過了 Peter Norvig(徐鵬在谷歌的第一個 director)的年末績效匯報,遲到了足足 20 分鐘,盡管是兩人的第一次會面,諾維格也只是輕飄飄一句:“做事去吧”。
在谷歌期間,徐鵬所在的機器翻譯組,是谷歌最早一批將統(tǒng)計方法機器學(xué)習(xí)做進產(chǎn)品中的人。最早期,機器翻譯組只有十人不到,研究和產(chǎn)品化都有專人負責。徐鵬則被歸入了產(chǎn)品化團隊中,從前端到后端、工程到產(chǎn)品均有涉獵。
幾年時間過去,谷歌的機器翻譯組也越發(fā)壯大,徐鵬也作為面試官,面試過大量的人才,其中也包括 Samy Bengio(Yoshua Bengio 的弟弟)
2013年,深度學(xué)習(xí)的風(fēng)潮興起,AI 的風(fēng)向再次變天。
硅谷的谷歌內(nèi)部,也清晰地感受到了這種變化,機器翻譯組的 Och 也被深度學(xué)習(xí)技術(shù)的發(fā)展所震撼,想要從底層研究到落地實現(xiàn)大包大攬;而徐鵬和 Och 的理解并不一致,他認為,和谷歌大腦協(xié)作能更加集中公司內(nèi)部的資源,各取所長。
彼時,谷歌大腦的辦公室就在機器翻譯組的斜對面,門牌也只是貼在門上,一張寫著“谷歌大腦”的打印紙。而在那里,今天 OpenAI 的首席科學(xué)家、創(chuàng)始人之一——Ilya 和組員正在完成的卻是改變世界的研究:
在徐鵬的幫助下,谷歌大腦完成了 LSTM 在機器翻譯領(lǐng)域上技術(shù)研究,以及paper sequence to sequence translation背后數(shù)據(jù)的預(yù)處理等工作——Ilya 做的是模型和方法,徐鵬則用自己的模型和統(tǒng)計方法與 Ilya 方案對比,統(tǒng)計方法給基于LSTM的深度學(xué)習(xí)方法提供了很好的驗證,讓深度學(xué)習(xí)模型更容易看到當時的不足,并最終得以改進,取得了比統(tǒng)計模型更好的效果。
而和谷歌大腦的合作,讓徐鵬意識到繼續(xù)進行統(tǒng)計方法研究的局限,在 Och 主導(dǎo)的翻譯團隊進行深度學(xué)習(xí)探索的自由度也受到了一定的限制。雖然徐鵬已經(jīng)是組里的manager,主管工程和部分研究,但是他還是提出了轉(zhuǎn)組,想去機器翻譯之外的地方嘗試。
再三思索,徐鵬沒有去 Ilya 的谷歌大腦——因為 Ilya 對深度學(xué)習(xí)執(zhí)念很深,意圖把研究方向全部攬到深度學(xué)習(xí)中來;而徐鵬更愿意做落地的工作,關(guān)注實際的效果,兩人最終也是道不同,不相為謀。
于是,徐鵬去了谷歌廣告,是第一個把深度學(xué)習(xí)做到線上系統(tǒng)的人,給公司帶來了幾個億的營收。而在徐鵬離開機器翻譯組后不久,Och 就選擇了離開谷歌,去往了 Human Longevity 開始新的探索。
時間拉回2010年,徐鵬面試了另一個來自 CLSP 的年輕人,他比徐鵬小5屆,與徐鵬同樣分屬電子工程系,也正是書生意氣的年紀。當時,正是谷歌機器翻譯組決定在語音版圖上開始擴張的時機,徐鵬面試了不少在語音領(lǐng)域有所成就的技術(shù)大牛,而面前這位年輕人就是其中之一。
年輕人名叫李志飛,2004 年入學(xué),和吳軍一樣,拜在Sanjeev Khudanpur 門下。
Sanjeev,常常被中國學(xué)生戲稱為“三姐夫”,是 Jelinek 在早期招募進入 CLSP 的學(xué)術(shù)精英,研究方向和 Jelinek 一脈相承,Sanjeev 也是一位“神人”。傳說每次有人來參加研討會,Sanjeev 總能一眼看出對方數(shù)學(xué)公式中的錯漏。
Sanjeev Khudanpur
原先也曾在 CLSP 讀書的云啟資本合伙人陳昱回憶,Sanjeev 對學(xué)生要求極嚴——不僅編程技術(shù)需要過關(guān),數(shù)學(xué)水平也要足夠高。開課時,教室里還滿滿當當坐了幾十號人,而隨著課業(yè)進行,學(xué)生便變得越來越少。
在電子工程系,李志飛的獎學(xué)金是 Sanjeev 幫忙出的;而帶他做事情的導(dǎo)師,是一位叫 Jason Eisner 的計算機科學(xué)教授。
初到 JHU,李志飛最開始做的是分布式網(wǎng)絡(luò)系統(tǒng)——不同于語音、NLP ,這并不是 CLSP 的主要研究方向。而他當時的導(dǎo)師是一個來自 MIT 的猶太人,對學(xué)生主動性要求比較高。在上算法課時,常常公式寫了兩條,就停下來看自己的股票是漲是跌,李志飛深感如果在他手下恐難畢業(yè),于是才跳槽到了 Jason Eisner 的手下。
Jason Eisner 也是 JHU 強大師資中的一員,他不僅是計算機科學(xué)系的教授、編程語言 Dyna 的首席設(shè)計師,也執(zhí)掌著微軟 Semantic Machines (2015年 Dan Klein 和 華裔科學(xué)家 Percy Liang 的 NLP 項目,后被微軟收購)研究,在解析算法、機器翻譯和加權(quán)有限狀態(tài)機等多個領(lǐng)域建樹頗深,并且獲得了 ACL2017 最佳長論文獎。
Jason Einser
而在李志飛眼中,Jason 是一位超級聰明的 NLP 大神。他說話語速極快,腦子轉(zhuǎn)得也快——在 CLSP 辦的會上,受邀參加演講的嘉賓,不少都是帶著不懂的問題來找到 Jason,來請他幫忙解答。
而在教書育人的角度,Jason 也有自己的一套風(fēng)格。在課堂上,他每年都會根據(jù)業(yè)界最新的動態(tài),來增刪課程的內(nèi)容,以讓課堂能夠跟上科技發(fā)展的前沿。
除了有 Jason Einser 傳道解惑,李志飛在 JHU 里也和另一位 NLP 大神——David Yarowsky 有過合作,一起完成過一篇有關(guān)中文縮略語翻譯的論文。
David Yarowsky
David Yarowsky,和剛剛提到的 Jason Eisner、以及哥倫比亞大學(xué)的 Michael Collins 都師承于賓夕法尼亞大學(xué)的 Mitchell Marcus 教授。而 Mitchell 也正是“賓州樹庫”(Penn Treebank)的作者,為后世的 NLP 研究提供了一套成熟的句法分析數(shù)據(jù)集。
師出名門,David Yarowsky 在研究詞義消歧、跨語言學(xué)習(xí)等領(lǐng)域成果斐然。他性格有些可愛的古怪,被李志飛等一眾學(xué)生稱為“上帝”——David 從來不回復(fù)郵件,常常窩在四面都被書籍包圍的辦公室里,但幾乎對天下事無所不知,頗有當年康德的風(fēng)范。
早年間,吳軍也曾在他門下學(xué)習(xí)。對同樣酷愛讀書的 David,吳軍評價道:“他的藏書量和讀書量可能都是我的十倍,但是他 95% 的書都只是瀏覽過。按照他的觀點,絕大多數(shù)的書都不值得仔細讀,但是閱讀量大是有好處的,除了拓寬知識面,更重要的是能夠讓自己的想法保持客觀中立?!?/p>
在 CLSP ,李志飛一個主要成就,是開源統(tǒng)計型機器翻譯工具包 Joshua 的開發(fā)。使用并行和分布式計算技術(shù),Joshua 的可拓展性很強,并且在 WMT09 的法-英轉(zhuǎn)譯上,實現(xiàn)了當時最先進的翻譯性能和翻譯任務(wù),給后世留下了很深遠的影響。
2010 年,李志飛也順利從 JHU 博士畢業(yè)。5 年過去,谷歌的規(guī)模增長了十倍左右;僅 2009 年前后,谷歌在一年內(nèi)就招收了 8000 名新人,甚至總部專門為此發(fā)函,談“如何在增加招聘人數(shù)的情況下,不影響招聘質(zhì)量”。
當時的谷歌,對李志飛也有足夠的吸引力,為此,他還與陳昱通過電話,交流過谷歌的情況。
盡管都是谷歌,陳昱待過的地方是谷歌紐約,后來又去往上海;李志飛則是一頭扎向了位于硅谷的谷歌總部,并且在那里一直待到回國創(chuàng)業(yè)出門問問。
彼時,谷歌研究院在硅谷的華人幾乎鳳毛麟角,除了李志飛,雷欣、趙勇、和李志飛在 CLSP 的學(xué)長徐鵬,加在一起不超過十個人。
在谷歌,李志飛的故事人盡皆知,他在谷歌總部主導(dǎo)機器翻譯和語音識別的相關(guān)工作,與他在 JHU CLSP 的研究一脈相承,在谷歌的手機離線翻譯的開發(fā)工作上,完成了很多貢獻。
盡管風(fēng)光正好,但李志飛并未在硅谷做過多停留。僅僅兩年后,他就決定回到中國創(chuàng)業(yè),這才有了后來的出門問問。
有人說,李志飛早在谷歌期間,就有了創(chuàng)業(yè)的念頭。當時適逢中國移動互聯(lián)網(wǎng)的大發(fā)展開端,回國的決定是天時和地利的融合。也是同年,吳軍也從谷歌回國,加入了騰訊的搜索部門,與當時家大業(yè)大的百度、銳意進取的搜狗形成犄角之勢。
而李楠——一位大致同時期也在谷歌工作的業(yè)內(nèi)人士,卻對雷峰網(wǎng)表示,李志飛離開,歸根結(jié)底還是語音和翻譯業(yè)務(wù),在谷歌并非如搜索、廣告一般的核心業(yè)務(wù),整體受重視程度不足,是比較邊緣的一塊領(lǐng)土。
“和服務(wù)大客戶的 IBM 不一樣,谷歌的基礎(chǔ)架構(gòu)當年的確是最好的——基礎(chǔ)設(shè)施搭得好,上層應(yīng)用可以很快速地迭代,這也讓我們在很長一段時間里有競爭優(yōu)勢?!崩铋u價道,“但難以直接轉(zhuǎn)化成實際的營收和用戶增長,對于 To C 的谷歌來說,語音還是很難站到主導(dǎo)的地位上。”
而另一位谷歌前員工安舍也表示:因為翻譯的項目不賺錢,所以谷歌當時也沒有投資源,算作一個純粹研究性質(zhì)的項目——而谷歌又想把它做得更大,所以在前兩年,機器翻譯組做的事情每年都要上公司的OKR,Och 要親自向高層匯報進展,其中一項就是機器翻譯要做到什么程度。
在谷歌離線翻譯的項目上,李志飛和 Och 也曾經(jīng)有過一些想法上的摩擦。Och 認為這個項目很難做出實際用途——他認為,只需三年,所有終端都可以完成聯(lián)網(wǎng),到了那時,離線包也就再也沒了用途。
而同樣在 Och 手下工作的徐鵬,知道前者是個“個人色彩濃烈”的領(lǐng)導(dǎo),也更理解李志飛的處境,于是給了李志飛不少支持,也讓李完成了第一版谷歌翻譯的離線包。
直到今天,這個離線包都支持用戶下載。
在象牙塔,李志飛多年的心血全部投入在機器翻譯上,來到谷歌,卻發(fā)現(xiàn)自己的專攻難有用武之地,肯定心里難受。技術(shù)先進和商業(yè)成果的矛盾,也是不少進入大廠的科學(xué)家們,所共有的一個命門。
在這個角度,出門問問的誕生也就成了必然。
2010年,除了谷歌退出中國,李志飛加入谷歌,CLSP 還發(fā)生了另外一件大事——徐鵬的導(dǎo)師,CLSP 的扛鼎之人,F(xiàn)rederick Jelinek 在一個普通的星期二,在實驗室工作時突然伏案不起,倒在了工作崗位上,終年78歲。
失去了先驅(qū)的引領(lǐng),CLSP 和卻并未停步,未來的十年,隨著一批又一批的人才加入,仍然群星薈萃,引領(lǐng)著 AI 語音語義技術(shù)的前進方向。
語音 AI 浪潮下的創(chuàng)業(yè)青年
Jelinek 溘然長逝,一顆引領(lǐng)著語音識別技術(shù)發(fā)展、為后世留下了諸多成就的啟明星隕落。在當年 IEEE 悼念 Jelinek 的文章中,劍橋大學(xué)皇家工程院院士 Steve Young 評價他“He was not a pioneer of speech recognition, he was the pioneer of speech recognition.(是語音識別的先驅(qū)。)”
而此前,純粹的技術(shù)至上主義、淳樸的學(xué)風(fēng),在 Jelinek 影響下的 CLSP 風(fēng)格獨特,許多青年學(xué)者慕名前來,Jelinek 的離去,不僅是語音識別領(lǐng)域發(fā)展的損失,對 CLSP 而言更是莫大的打擊。
陳果果便是受到過 Jelinek 直接影響的學(xué)生之一。
陳果果是 2006 年紹興市的高考狀元,本科就讀于清華大學(xué)電子工程系。
2010 年春節(jié)前后,陳果果還在讀大四,這是他在紹興老家度過的最后一個寒假。兩個月前,陳果果向 JHU 遞交了博士申請,如果通過,錄取通知的時間正是這幾天。
他打開網(wǎng)站,郵箱自動登錄跳轉(zhuǎn)到首頁,在幾條未讀消息中,陳果果一眼看到了來自 CLSP 的郵件、通知他已被錄取。Offer 落款處寫著 Jelinek ,郵件內(nèi)容簡潔,只寫了三件事:
第一、承諾給充足的研究資金;
第二、提供獎學(xué)金和生活費;
第三、在博士第一年結(jié)束時,可以去 IBM、Google 等大公司實習(xí),做產(chǎn)學(xué)研結(jié)合。
對從事語音識別處理研究的學(xué)生而言,CLSP 是頂級學(xué)府、在語音、NLP 和分布存儲系統(tǒng)領(lǐng)域極具話語權(quán),可以接觸到最前沿的技術(shù);更不用說 Jelinek 親自邀請,陳果果幾乎受寵若驚,欣然接下了 Offer。
陳果果
同年 8 月末,陳果果乘上了飛往美國馬里蘭州的航班;也是那時,李志飛剛剛好畢業(yè)離開,橫跨美國飛往硅谷,二人幾乎擦肩而過。
但在陳果果入學(xué)不到半個月的時間,Jelinek 突發(fā)意外,陳果果也就此痛失了人生的導(dǎo)師。
隨后兩年里,陳果果跟隨 Sanjeev 學(xué)習(xí)。那時候,CLSP 整個實驗室的中國學(xué)生為數(shù)并不多,而陳果果驚喜地發(fā)現(xiàn),和自己同年入學(xué)的姚旭晨,同樣有著一顆“不安分”、喜歡折騰的心,因此兩人早早便相約畢業(yè)以后一起創(chuàng)業(yè)。
姚旭晨本科就讀于南京大學(xué),在格羅寧根大學(xué)和薩爾蘭德大學(xué)讀的碩士。有兩位 NLP 領(lǐng)域宗師級別的人此前都曾在薩爾蘭德大學(xué)教書,一位是歐洲科學(xué)院院士、北京深知無限人工智能研究院院長 Hans Uszkoreit,另一位則是他的妻子、聯(lián)想集團前副總裁徐飛玉。
陳果果在電子系做語音,姚旭晨則是計算機系 NLP 方向。由于 JHU 電子系和計算機系均歸屬于工程學(xué)院,因此,陳果果和姚旭晨雖然專業(yè)不同,但使用的是同一個實驗室,兩個人性情相投,經(jīng)常一起玩耍。
姚旭晨
這段時期,Sanjeev 也在不停地為實驗室物色新的教授人選。CLSP 研討會的發(fā)展,對優(yōu)秀師資的納新起到了至關(guān)重要的作用。而前面提到的,開源語音識別工具Kaldi的主要開發(fā)者Daniel Povey就在這個時候登場了。
2012 年,陳果果迎來了他的另一位導(dǎo)師,語音識別大?!狣aniel Povey、現(xiàn)任小米語音首席科學(xué)家。
Daniel 的故事,世間流傳不少。他最主要的成就,莫過于他在 2009 年一個 JHU Summer Workshop 發(fā)起的,語音識別開源工具 Kaldi。集成了隱馬爾可夫等多種語音識別模型,Kaldi 自推出以來下載量多達 2 萬余次。在 JHU 期間,陳果果也深度參與了 Kaldi 的工作,在上面貢獻過大量代碼。
但鮮少人知,Kaldi 最早被提出,正是 Dan 此前在一次 CLSP 研討會上啟動的項目。
20 世紀 90 年代,得益于基于 GMM-HMM 聲學(xué)模型的區(qū)分性訓(xùn)練準則和模型自適應(yīng)方法的提出,語音識別迎來了第一次產(chǎn)業(yè)應(yīng)用的小高潮。為了降低研究門檻,劍橋大學(xué)發(fā)布 HTK(Hidden Markov Model Toolkit)開源工具包,彼時還在劍橋大學(xué)讀書的 Dan 也深度參與了這項工作。
但到了 2010 年前后,HTK 開發(fā)步入停滯期,市面上幾乎找不出第二個專門為語音識別而生的開源工具。那時候的 Dan 已經(jīng)離開了 IBM、加入微軟研究院工作。
覺察到開發(fā)者對產(chǎn)品內(nèi)部維護的迫切需求,Dan 決心要為語音識別再做一個工作、類似于谷歌或微軟用于內(nèi)部維護的代碼庫,并以開源工具包的方式呈現(xiàn)。
這一想法受到了普遍開發(fā)者和企業(yè)的追捧。Kaldi 推出后,很快便在開源社區(qū)中占據(jù)了一席之地。
Dan 將 Kaldi 的成功歸功于“除了 HTK 之外沒有任何真正的競爭對手”,雖然 Kaldi 取得了階段性的勝利,不過在 ASR (Automatic Speech Recognition,自動語音識別)軟件包領(lǐng)域,仍舊沒有能免費使用的替代方案。降低 WER(語音識別詞錯率)、給大家提供免費的語音識別工具,這是 Dan 的畢生所求。
但是,受限于自己在微軟研究院的員工身份,早年想要在企業(yè)里做開源并非易事,微軟的內(nèi)部律師要求 Dan 不許更新 Kaldi 的新版本。
這意味著,如果想繼續(xù)做開源,留給他的只有大學(xué)一個選擇。
由于此前 Kaldi 和 CLSP 研討會的淵源,因此,Dan 也自然而然地選擇了加入 JHU。
JHU 期間,Dan 的研究工作主要由四部分組成,包括 Kaldi 的項目推廣,關(guān)于無網(wǎng)格 MMI 訓(xùn)練和時延神經(jīng)網(wǎng)絡(luò) (TDNN,這也是當時許多開源項目中具有前沿性的工作,與學(xué)生、開發(fā)者合作研究用于說話人識別的 d-vector,之后又與 Vassil Panayotov、陳果果以及 Sanjeev 合作完成了 Librispeech 數(shù)據(jù)集。
Daniel Povey
陳果果是 Dan 的第一個博士畢業(yè)生。兩個人的第一次見面,Dan 就跟他說:“Send me emails whenever you have questions, I'm almost always online.(不管什么時候你有問題都可以給我發(fā)郵件,我隨時在線。)”
話音剛落,陳果果起初根本不相信,他心想:怎么可能有誰會一直在線呢?但沒過多久,這個想法就被事實打臉了。
在陳果果整個博士期間,無論是工作日或周末,他發(fā)給 Dan 的絕大部分郵件,都會在 5 分種內(nèi)收到回復(fù)。對于 Kaldi 論壇上的問題郵件,Dan 也是如此,幾乎每個問題他都會回答。即便后來端到端開始流行、原本的 Kaldi 版本落后,Dan 在加入小米后仍一直沖在前線、帶隊做出了 Next-gen Kaldi,到今天,Dan 每天還會自己寫代碼,在 Github 上的狀態(tài)永遠是綠。
可以說,“工作狂人”是刻在 Dan 身上最顯著的標簽之一。
遇上研究任務(wù)緊迫的時候,陳果果會被 Dan 喊到辦公室里一起寫代碼。與 Dan 共處的兩年多里,陳果果最大的感觸便是:決不能浪費一點寫代碼的時間。甚至,有時候 Dan 還會不惜推掉一切社交,只為了能呆在辦公室里工作。
有一次,實驗室到華盛頓哥倫比亞特區(qū)附近參加一個 Babel 的項目會,會議結(jié)束時是下午三點多,即將開始下班高峰期。為了避免被堵在路上,Dan 便慫恿陳果果和自己先撤退。臨出發(fā)時,因為陳果果倒車速度比較慢,Dan 主動要求自己來開車。
于是,陳果果目睹了 Dan 敲代碼的雙手迅速轉(zhuǎn)動方向盤、飄逸倒車,一路飛奔往 JHU 的方向開,直到踏進 CLSP 的辦公室才松了口氣,開心地工作起來。
而除了對時間的嚴格外,另一個不能被 Dan 接受的,便是服務(wù)器不穩(wěn)定。陳果果回憶,Dan 在很多事情上都比較寬容,但如果出現(xiàn)誰亂用服務(wù)器資源,則會受到他非常嚴厲的警告。在 Dan 看來,數(shù)據(jù)和計算資源對整個 CLSP 而言是極其重要的資產(chǎn),要隨時保證 CLSP 的每一個人都可以使用。由此可以推測,或許這也是為什么 Dan 在 2019 年“學(xué)生抗議”事件中,他毅然選擇前往 JHU 行政樓試圖奪回服務(wù)器的原因。這是后話。
說回陳果果。跟他的許多師兄弟一樣,陳果果在讀博期間也曾在谷歌實習(xí)過。
那時候深度學(xué)習(xí)剛剛興起,而谷歌的語音團隊也開始逐漸擁抱DNN(Deep Neural Networks)技術(shù)。2013 年 6 月,陳果果進入谷歌,也是在這里,他初次感受到了一項技術(shù)走出實驗室、從研究到落地的產(chǎn)品魅力。
在谷歌期間,“Okay Google”的熱詞檢測系統(tǒng),是陳果果完成的最具代表性的工作。在此后的十多年間,“Okay Google”作為 Google Assistant 的標志性交互方式之一,進入了數(shù)以億計的安卓設(shè)備,并讓其他的語音助手如亞馬遜的Alexa、蘋果的Siri也都采用類似的語音交互方案。可以說,陳果果當時在谷歌的工作從某種程度上定義了接下來十多年間絕大部分主流語音助手以熱詞(又稱為喚醒詞)為主的交互方式。
“Okay Google”是一個熱詞檢測系統(tǒng)。傳統(tǒng)的語音識別交互方式中,如果用戶想要使用語音功能,意味著麥克風(fēng)功能必須保持長期在線,并對語音做持續(xù)識別轉(zhuǎn)寫,這種方法不僅功耗大、同時還會出現(xiàn)許多噪聲引起的錯誤識別。為了改善這個問題,早期的語音助手一般采用 Push-to-Talk(隨按即說)的方式,也即用戶需要和語音助手進行交互的時候,需要首先點擊一個說話按鈕,再進行交互,這意味著和語音助手的交流依然離不開手的幫助。
陳果果提出的想法是,可否通過定義一個熱詞,算法隨時監(jiān)控該熱詞,當熱詞被觸發(fā)之后喚醒麥克風(fēng)來接受后續(xù)的用戶信息,這便是“Okay Google”提出的初衷。這個不經(jīng)意間的想法無意之中改變了主流語音助手的交互方式,比如 2014 年亞馬遜推出的 Alexa 即采用了此種交互方式,2015 年蘋果也給其語音助手“Siri”添加了“Hey Siri”熱詞喚醒。
有了清晰的思路后,陳果果說干便干,不到 1 個月的時間便將模型寫了出來。但隨后的性能提升以及產(chǎn)品化卻并沒有那么順利。經(jīng)過兩個多月的日夜奮斗,陳果果終于在實習(xí)結(jié)束之前將熱詞系統(tǒng)的性能調(diào)至上線可用,該系統(tǒng)也在隨后的 11 月份順利進入安卓的正式系統(tǒng)。
陳果果在谷歌期間的另外一個重要收獲是找到了自己此后的創(chuàng)業(yè)伙伴。彼時姚旭晨正好也在谷歌實習(xí),兩人在工作間隙便經(jīng)常一起打球以及暢聊人生。兩人驚喜的發(fā)現(xiàn),不同于大多數(shù)人的選擇,兩人都希望在畢業(yè)之后可以做出一個屬于自己的公司,而不是加入一個大公司。于是一拍即合,相約在畢業(yè)之后一起創(chuàng)業(yè)。
時間來到 2014 年,姚旭晨率先畢業(yè),信守承諾單槍匹馬前往西雅圖創(chuàng)業(yè)。陳果果也緊鑼密鼓地開始博士論文的撰寫,準備一畢業(yè)即一起加入創(chuàng)業(yè)。
同一時期選擇了創(chuàng)業(yè)的,還有已經(jīng)回國的李志飛。
2012 年,李志飛手握紅杉資本和真格基金的天使投資,回國創(chuàng)立出門問問,他的目標只有一個:探索下一代人機交互。
過去在谷歌的兩年里,李志飛專攻 NLP,軟件、硬件都做過,而李志飛當年的 demo 是有個簡陋的交互界面的,就和搜索引擎一樣,有個文本輸入框,用戶輸入一句話,它在網(wǎng)上把答案找出來
值得一提的是,在早期開發(fā)階段,出門問問正是圍繞著 Kaldi 來做的。由此可見 Kaldi 在當時的影響力之大。
后來,李志飛帶著團隊做語音搜索,在費勁心思地拿到微信接口后,其產(chǎn)品賬號入選了騰訊“十大公共賬號”;又試水 APP,并在 2014 年將 APP 成功嵌入到 Google Glass 當中;此后還推出操作系統(tǒng) Ticwear,發(fā)布智能手表 Ticwatch、闖蕩硬件賽道……期間,出門問問的團隊規(guī)模也在不斷擴大,到 2015 年,出門問問已經(jīng)成為以一家規(guī)模 230 余人、專注語音搜索應(yīng)用的科技公司。
對陳果果和姚旭晨來說,2015 年也是至關(guān)重要的一年。
2014 年 9 月,姚旭晨單槍匹馬來到西雅圖創(chuàng)立公司,以一個艾倫人工智能研究所(AllenInstitute for Artificial Intelligence,簡稱 AI2)內(nèi)部孵化項目的形式跑了一段時間,效益還不錯。期間,姚旭晨和陳果果頻繁電話,一方面更新自己在西雅圖的進展,另一方面也希望陳果果可以盡快畢業(yè),一起加入。孵化器的薪資收入并不豐厚,但姚旭晨卻愿意將自己在孵化器的收入平分給陳果果。
兩人隨后將公司命名為 KITT.AI,并很快就開發(fā)了對話引擎 ChatFlow,可集成開發(fā)聊天機器人的各個模塊。
姚旭晨(左)和陳果果(右)在 KITT.AI 辦公室
而即便是今天,博士生畢業(yè)即創(chuàng)業(yè),冒著沒有綠卡的風(fēng)險,拿到微軟前聯(lián)合創(chuàng)始人保羅·阿蘭以及亞馬遜Alexa Fund的投資,并在不到三年時間內(nèi)順利被國內(nèi)頭部企業(yè)收購,這其實是一件不可思議的事情。
但 2017 年,這樣一件小概率事件突然降臨到了陳果果和姚旭晨身上?!拔覀兪菍儆诒容^幸運的一批人,趕上了 AI 的第一波浪潮?!标惞f。
2017 年 7 月 5 日,百度第一屆 AI 開發(fā)者大會在北京的國家會議中心里召開。會上,時任百度度秘事業(yè)部總經(jīng)理景鯤宣布,百度全資收購語音技術(shù)公司 KITT.AI。
一時間,國內(nèi)語音識別領(lǐng)域的從業(yè)者都關(guān)注起了這家遠在美國西雅圖、規(guī)模不足十人的 AI Startup。
在投資者看來,KITT.AI 的資本背書極為優(yōu)越。它是全球唯一一家獲得亞馬遜 Alexa Fund 和微軟聯(lián)合創(chuàng)始人 Paul Allen 投資的創(chuàng)業(yè)公司,曾入選 CB Insights人工智能創(chuàng)業(yè) TOP 100。
但令人驚訝的是,KITT.AI 的兩位創(chuàng)始人卻如此年輕。
主導(dǎo)收購 KITT.AI 的,是時任百度集團總裁兼首席運營官陸奇。西雅圖被視為創(chuàng)業(yè)“圣地”、恰如今天大模型下的新加坡,許多國內(nèi)投資人紛紛奔波海外,用敏銳的嗅覺,把握著信息和風(fēng)向。KITT.AI 背靠亞馬遜資本,有技術(shù)、又有業(yè)務(wù),自然成為投資人眼中的香餑餑。在百度之外,姚旭晨也見了不少其他的潛在收購方。但百度戰(zhàn)投的投資總監(jiān)Peter Fang及其團隊給他印象最深刻交流也最通暢。
最終選定百度,一方面是其開價足夠有誠意,另一方面,也與百度在帶屏音箱的布局有一定的關(guān)系。被收購后,KITT.AI 團隊三個中國博士——姚旭晨、陳果果,以及曹原,一起加入了度秘事業(yè)部。
曹原也是 CLSP 的博士,主攻 NLP,畢業(yè)后參與開發(fā)了谷歌第一代基于神經(jīng)網(wǎng)絡(luò)的翻譯(Google’s Neural Machine Translation System)系統(tǒng),是其論文作者之一。之后加入 KITT.AI 任首席科學(xué)家,他性格低調(diào)沉穩(wěn),屬于喜歡默默鉆研技術(shù)的人。
KITT.AI 被收購后,姚旭晨、陳果果和曹原加入百度景鯤麾下,一起參與了百度音箱的開發(fā),當時的團隊也是今天小度科技最早的雛形。百度最早的智能音箱設(shè)有喚醒詞,喚醒后可提供各種各樣的技能,還設(shè)置了內(nèi)容頻道,主要是為了增加用戶的使用頻次。
不過,有著雄心壯志的青年往往并不止步于短暫的勝利,持續(xù)創(chuàng)造、并改變世界是他們前行的坐標。
就在陳果果和姚旭晨還考慮是否二次創(chuàng)業(yè)時,2019 年,由于“學(xué)生抗議”事件,Daniel Povey 考慮離開歐美“政治正確”的輿論環(huán)境,Dan 想到了遙遠東方大陸上一個正冉冉升起的國家——中國。
Dan 對中國雖然并不了解,但 Kaldi 在中國可謂名聲大震。一時間,Dan 的中國追捧者并不少。在一眾擁躉中間,Dan 最終答應(yīng)了時任小米集團副總裁、技術(shù)委員會主席——崔寶秋的邀請,來到小米重新開始,也成就了中國科技圈里的一樁美談。
那些有過短暫交匯、散落世界各地的 CLSPer 們,最終在中國得以匯聚。他們的到來,也深深地影響了中國語音 AI 發(fā)展。
永不止步
今天的大模型賽道,徐鵬與之也有頗深的淵源:在谷歌時期,他就用統(tǒng)計方法做過 N-gram,調(diào)用了四五千臺服務(wù)器,做到了三千億的參數(shù)規(guī)模。
在當時,把模型做到線上,對系統(tǒng)功能的挑戰(zhàn)很大。于是,徐鵬當時與 Jeff Dean 合作很多——徐鵬負責使用 map reduce 做語言模型,Jeff Dean 主做 survey。
多年后,在中國崛起的螞蟻把眼光放到了海外,意圖在灣區(qū)建立一個團隊,漆遠就找到了彼時正在谷歌的徐鵬。
2014 年,漆遠就想過拉徐鵬加入,而當時,徐鵬剛剛擼起袖子加入谷歌廣告,意欲在公司最賺錢的部門大展宏圖,就拒絕了漆遠的邀約。
而 2 年過去,徐鵬在谷歌的日子過得也并不舒坦。一個七八十億美元盈利的項目,本來是徐鵬主導(dǎo)的開發(fā),卻因為公司內(nèi)繁瑣冗雜的跨團隊溝通協(xié)同影響,比預(yù)期的進展慢了很多——這讓徐鵬的心中也萌生了退意。
而螞蟻給出的 Offer 則誠意滿滿:徐鵬加入即 P10,而螞蟻在國內(nèi)也挖到了李小龍、萬昊、蔣松,在硅谷找來了宋樂,一同在灣區(qū)建設(shè)團隊。當時,螞蟻的 AI 路徑還并不明確,徐鵬就保持了一個十人左右的小團隊規(guī)模,只做對話機器人。
而此時,Tranformer 也正讓越來越多的學(xué)界、業(yè)界前沿,關(guān)注到了 AI 走向下一個時代的可能性。在諸多遠見者中,李志飛也是其中之一。
2020 年,已經(jīng)成立了 8 年的出門問問,開始琢磨進軍深圳。在深圳,李志飛在機緣巧合之下,見到了中國工程院院士、彼時已是 ACM Fellow 的高文,兩人見面短暫探討,話里就談到了大模型。但高文當時行程擁擠,急著趕往下一個會,話并沒有談透。
當晚,高文組局,請李志飛吃飯,便不提大模型,只是希望李志飛幫他做機器翻譯的老本行,有關(guān)大模型的事情,也就不了了之。
沒有 ChatGPT 引爆市場,資本對大模型往往并不青睞。李志飛的團隊,就在沒有大筆外來資金注入的情況下,先訓(xùn)出了一個 7B 規(guī)模的模型。
繼續(xù)尋找支持自己做大模型的人,李志飛又輾轉(zhuǎn)跑了南京、北京等幾個城市的經(jīng)信委,當時能聽懂大模型人的并不多。反而上海經(jīng)信委的人,有關(guān) GPT-3 更加看好,來過出門問問幾趟探清虛實,最終決定支持,只是錢打來的時候,已經(jīng)是 2022 年的 10 月份。
同是 2020 年,陳果果和姚旭晨兩位好友又再度攜手,在西雅圖共同成立 Seasalt.ai,瞄準了云端通信方案及 AI 技術(shù)方向,推出了全渠道客戶體驗平臺 SeaX,生成式AI自動化工具 SeaChat 以及對話智能平臺 SeaMeet。目前 Seasalt.ai 以美國市場為主,在新加坡和臺灣也有客戶,類型涵蓋了出海電商、旅游、銀行等等。
按姚旭晨的規(guī)劃,接下來 Seasalt.ai 的主戰(zhàn)場還是會更聚焦在北美,一方面夯實東南亞基礎(chǔ),把大企業(yè)級應(yīng)用做深做透,另一方面,此前 KITT.AI 創(chuàng)業(yè)時就是在北美,面對北美市場的客戶自己也更有經(jīng)驗,聚焦 SaaS 企業(yè)服務(wù)。
而元旦剛過,2021 年 1 月的陳昱,在云啟資本上海辦公室附近的咖啡廳內(nèi),正在招待一位 JHU 女校友——贠燁祎。燁祎年紀輕輕,小陳昱十幾屆,卻在談吐中顯露出了一眾同年齡女性所難以具備的成熟和老練。
中國的科技圈,從不缺“千里馬與伯樂”的故事。聽過項目,陳昱的心動了——早對大模型有意的他,也曾在科技圈尋尋覓覓,但一個看得上的應(yīng)用公司也沒找到。
良機難得,陳昱敲定了這位 JHU 師妹帶來的項目。短短三年過去,這家名叫 MiniMax 的 AI 公司,估值翻了 8 倍左右,也成為了在大模型賽道競逐中的一號“種子選手”。
從 CLSP 走出的 AI 精英們,是彼時最具硅谷精神的一批人:他們接受了學(xué)界最前沿的教育,親眼見證過語音、語言 AI 科學(xué)的發(fā)展和演進;
在象牙塔取得了成就,他們卻不甘止步于實驗室,偏要學(xué)以致用,把技術(shù)帶向工業(yè)界。
懷著熱忱,盡管經(jīng)歷風(fēng)雨,他們改變世界的少年之心仍然火熱地跳動,牽動著 AI 時代的每一次脈搏。
在語音 AI 崛起的浪潮之中,吳軍、徐鵬、李志飛、陳果果、姚旭晨等這一批華人學(xué)者深度參與其中,成為推動中國語音技術(shù)進步和產(chǎn)業(yè)落地的重要力量。也期待他們在大模型時代書寫出新故事。
(雷峰網(wǎng)(公眾號:雷峰網(wǎng))雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。