0
回想2020年AlphaFold 2的橫空出世,以及延續(xù)下來的AI制藥創(chuàng)業(yè)熱情,我們很難承認(rèn)這是一個(gè)人或者一個(gè)團(tuán)隊(duì)的靈感成果。李明與他的前輩、后生,在所處的數(shù)個(gè)巨變時(shí)代中,成為了一個(gè)個(gè)照亮學(xué)科和行業(yè)的‘持炬者’。
說起李明,諸多生物信息學(xué)學(xué)者都不吝稱之為“學(xué)術(shù)大師”:他的學(xué)界成果以及給后世帶來的啟發(fā)性思考與推動(dòng),持續(xù)了數(shù)十年。
他在機(jī)器學(xué)習(xí)、自然語言處理、算法平均復(fù)雜度、現(xiàn)代信息論以及生物信息學(xué)方面都做出了重大貢獻(xiàn),解決了計(jì)算機(jī)科學(xué)領(lǐng)域諸多難題。
他的成就記錄在Nature、Nature Methods、Nature Machine Intelligence, Nature Communications, PNAS、Scientific American、JACM、CACM、FOCS、STOC等國(guó)際頂級(jí)雜志和會(huì)議上。在谷歌學(xué)術(shù),文章引用數(shù)超過三萬五千次。
他是現(xiàn)代信息論奠基人之一。他與荷蘭計(jì)算機(jī)科學(xué)家Paul Vitanyi合著了經(jīng)典著作《Kolmogorov復(fù)雜性及其應(yīng)用》。這本書至今四次再版,廣為引用,被學(xué)界公認(rèn)為迄今為止最具前瞻性的指導(dǎo)性文獻(xiàn)之一。
Amazon的讀者評(píng)論:這本書是每個(gè)程序員必讀之書。芝加哥大學(xué)教授Lance Fortnow 稱這本書是本領(lǐng)域獨(dú)一無二的必讀書。這本書寫作嚴(yán)謹(jǐn)、文筆流暢、理論漂亮、應(yīng)用新穎、信息全面,贏得了Amazon上眾多讀者的青睞,他們少見地為一本深?yuàn)W的數(shù)學(xué)著作給出一致的5星好評(píng)。
他是加拿大皇家科學(xué)院院士、ACM、IEEE和ISCB 的Fellow、以及Killam Prize的唯一一位獲獎(jiǎng)大陸華人。
他還是一位創(chuàng)業(yè)者。2000、2013年分別創(chuàng)辦兩家公司,二十多年里,他的生物信息公司不僅商業(yè)能力穩(wěn)健,還為無數(shù)生物信息學(xué)者的技術(shù)落地架起了一段橋梁。
李明院士數(shù)十年來,生物信息學(xué)科從無到有,經(jīng)歷了探索、勃興、反思、革命等諸多重要節(jié)點(diǎn),時(shí)代奔騰,學(xué)科起伏。
與李明同時(shí)代的好友姜濤、徐鷹、許東等人,仍在為學(xué)科奔走。
李明的晚生,如許錦波(博士師從李明)回國(guó)創(chuàng)立了分子之心、彭健(博士師從許錦波)創(chuàng)立了華深智藥,師徒的情誼有了更多傳承的意義。
他的足跡,是一幅跨越30年的生物信息學(xué)恢弘圖景。
北京海淀區(qū)科學(xué)院南路6號(hào),是中國(guó)科學(xué)院計(jì)算技術(shù)研究所(下稱“計(jì)算所”)。
1956年8月,中國(guó)科學(xué)院決定,成立計(jì)算技術(shù)所等三個(gè)研究所籌委會(huì),并建立半導(dǎo)體物理研究小組,中國(guó)第一個(gè)專門從事“計(jì)算機(jī)科學(xué)技術(shù)”的學(xué)術(shù)機(jī)構(gòu)由此誕生。
我國(guó)第一臺(tái)通用數(shù)字電子計(jì)算機(jī)、我國(guó)高性能計(jì)算機(jī)的研發(fā)基地、我國(guó)首枚通用CPU芯片,都出自于此。
計(jì)算所有一條準(zhǔn)則:瞄準(zhǔn)國(guó)家重大需求,開展研究和技術(shù)轉(zhuǎn)移工作。很長(zhǎng)一段時(shí)間,計(jì)算所都是我國(guó)的計(jì)算機(jī)人才高地,一大批年輕人代表國(guó)家新興力量留學(xué)海外。
其中一位,就是李明。
1980年,李明成為科學(xué)院公派出國(guó)的第一批研究生。這年4月,李明前往美國(guó)密歇根三大高校聯(lián)盟之一的韋恩州立大學(xué)(WSU),攻讀計(jì)算機(jī)科學(xué)碩士。只用了8個(gè)月時(shí)間,李明取得WSU碩士學(xué)位。
1981年,他赴康奈爾大學(xué)(Cornell)繼續(xù)攻讀計(jì)算機(jī)科學(xué)系??的螤柎髮W(xué)是美國(guó)大學(xué)協(xié)會(huì)的十四個(gè)創(chuàng)始院校之一,著名的常春藤盟校八成員之一,李明在那里成為「計(jì)算復(fù)雜性」理論奠基人、圖靈獎(jiǎng)得主——Juris Hartmanis 的學(xué)生。
Juris Hartmanis教授
康奈爾大學(xué)的計(jì)算機(jī)科學(xué)系與Hartmanis有著重要淵源。
五十年代,Hartmanis拿到博士學(xué)位后,曾在康奈爾大學(xué)數(shù)學(xué)系任教過一段時(shí)間,后加入通用電氣公司的信息研究部,與Richard Stearns一起開辟了計(jì)算復(fù)雜性。直到1965年,Hartmanis才離開通用電氣,重返康奈爾大學(xué)任教。但他沒有回到數(shù)學(xué)系,而是負(fù)責(zé)籌建計(jì)算機(jī)科學(xué)系。
Hartmanis的到來,隨即吸引了一批著名計(jì)算學(xué)者加盟,J.E.Hopcroft(1986年圖靈獎(jiǎng)得主)、David Gries(1995年ACM優(yōu)秀計(jì)算機(jī)教育獎(jiǎng)獲得者)、E.Horowitz、P.Wegner、A.Shaw,都慕名而來。
李明加入時(shí),Hartmanis帶領(lǐng)的計(jì)算機(jī)科學(xué)系正值發(fā)展上升期。蔡進(jìn)一、郭百寧、周禮棟后來也陸續(xù)來到了該校計(jì)算機(jī)系。
Hartmanis任教的25年中,有21個(gè)博士研究生,李明是第13位。他延承了導(dǎo)師的的計(jì)算復(fù)雜性研究。博士期間,李明曾用Kolmogorov復(fù)雜性完全解決了Hartmanis-Stearns 20年前留下來的未解難題。
此前,Michael O. Robin以及Zvi Galil等人曾做出部分進(jìn)展,但一直沒有人徹底解決該問題。
李明創(chuàng)造了一個(gè)分析算法平均復(fù)雜性的新方法。他解釋道,圖靈機(jī)有一個(gè)單向輸入帶,而他用一個(gè)工作帶,成功模擬出兩個(gè)工作帶的緊致時(shí)間下界,開創(chuàng)了Kolmogorov復(fù)雜性在計(jì)算機(jī)領(lǐng)域的應(yīng)用。
這個(gè)方法后來被李明和他的同事們用來解決諸多問題,如,Shellsort平均復(fù)雜性、Heapsort平均復(fù)雜性、Lovasz Local Lemma的新證明——多頭有限狀態(tài)自動(dòng)機(jī)是否可以做字符串匹配,k個(gè)下推棧是否真的比k-1個(gè)好,等等。
1985年3月,李明拿到博士學(xué)位后,去了俄亥俄州立大學(xué)的計(jì)算機(jī)科學(xué)與信息系任教一半年。
同期,李明的中科院碩士同學(xué)李國(guó)杰也讀完博士(1981年李國(guó)杰前往美國(guó)普渡大學(xué)攻讀博士學(xué)位,師從美國(guó)計(jì)算機(jī)界的權(quán)威華云生教授),進(jìn)入伊利諾伊大學(xué)CSL實(shí)驗(yàn)室工作。兩年后,李國(guó)杰回到中科院計(jì)算所,開始了自己終身的科創(chuàng)事業(yè)。
1986年,李明去往哈佛師從圖靈獎(jiǎng)得主——Les Valiant,做了一年的博士后。
Les Valiant教授
Les Valiant是一位英國(guó)人,同樣是計(jì)算機(jī)科學(xué)背景,求學(xué)和任教經(jīng)歷相當(dāng)豐富。他先后在英國(guó)劍橋大學(xué)、倫敦帝國(guó)理工學(xué)院、華威大學(xué)的計(jì)算機(jī)科學(xué)系學(xué)習(xí),此后在卡內(nèi)基梅隆大學(xué)、利茲大學(xué)和愛丁堡大學(xué)任教。直到1982年,Valiant來到哈佛,在異國(guó)他鄉(xiāng)開始了長(zhǎng)期的教學(xué)生活。
Valiant的一大貢獻(xiàn)是1984年的論文《A Theory of the Learnable》,這讓誕生于1950年代的機(jī)器學(xué)習(xí)第一次有了堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ),對(duì)人工智能諸多領(lǐng)域包括加強(qiáng)學(xué)習(xí)、機(jī)器視覺、自然語言處理和手寫識(shí)別等,都產(chǎn)生了巨大影響。
在與Valiant做博士后度過一年后,李明先后在哈佛大學(xué)Aiken計(jì)算實(shí)驗(yàn)室和加拿大約克大學(xué)短暫任教。兩年后的1989年,他以副教授的身份去了滑鐵盧大學(xué)的計(jì)算機(jī)科學(xué)系,與彼時(shí)剛剛博士畢業(yè)的楊強(qiáng)成為同事。
若干年后,楊強(qiáng)再赴他處就職,而李明留在了滑鐵盧大學(xué),1994年拿到終身教授職位,2009年成為校級(jí)教授(University Professor),并一直工作至今。
滑鐵盧大學(xué)計(jì)算機(jī)系和多倫多大學(xué)計(jì)算機(jī)系一直并列為加拿大第一名,但滑鐵盧大學(xué)計(jì)算機(jī)專業(yè)從來都是加拿大理科學(xué)生的首選。
在當(dāng)?shù)厝诵闹?,滑鐵盧既是一座大學(xué)城,也是加拿大的高科技重鎮(zhèn)。這所位于加拿大安大略省多倫多市西部、距離多倫多市區(qū)大約100公里的學(xué)校,創(chuàng)建于二戰(zhàn)后的1957,其初衷就是為加拿大的經(jīng)濟(jì)建設(shè)培養(yǎng)人才。
正因如此,學(xué)校非常注重工程學(xué)科的建設(shè)和發(fā)展,尤其是計(jì)算機(jī)科系和工程系,學(xué)校更是傾其全力發(fā)展,并以全面的Co-op系統(tǒng)(Cooperative Education Program,指“帶薪實(shí)習(xí)課程”)而世界聞名。時(shí)至今日,這兩大系仍是滑鐵盧大學(xué)的學(xué)術(shù)根基。
在這里,李明迎來了自己研究生涯的第一個(gè)“轉(zhuǎn)型期”。
在與雷峰網(wǎng)的對(duì)話中,李明坦言:“完全是誤打誤撞做起了生物學(xué)問題?!?/p>
在滑鐵盧開始獨(dú)立研究后,這位在計(jì)算機(jī)科學(xué)道路上近乎一路直線前進(jìn)的學(xué)者,絕想不到自己會(huì)有一天與人類基因組計(jì)劃產(chǎn)生聯(lián)系。
1985年,人類基因組計(jì)劃提出。這份史無前例的全人類的合作計(jì)劃,不到五年時(shí)間就完成了全部的準(zhǔn)備工作。
1990年,美國(guó)正式啟動(dòng)了該計(jì)劃。投資30億美元,用15年時(shí)間,破譯組成人體約2.5萬個(gè)基因的30億個(gè)堿基對(duì),繪制出關(guān)于人類基因的遺傳圖、物理圖、排序圖、轉(zhuǎn)錄圖等所有圖譜。
換言之,美國(guó)試圖用“1美元1個(gè)堿基對(duì)”的預(yù)算,破譯一本“生命天書”。
然而,這30億堿基對(duì)相當(dāng)于30億階樓梯,要按照正確的順序排列完成,工程之浩大難以想象,被稱為美國(guó)歷史上的“第三大工程”(第一大工程為1944年的曼哈頓原子彈計(jì)劃,第二大工程為1969年的阿波羅登月計(jì)劃)。
人體基因組計(jì)劃的意義及復(fù)雜程度史無前例。一旦揭開了基因的奧秘,人類將獲悉生命的種族、血型、孕育、生長(zhǎng)、凋亡等過程的全部信息。這也是為什么美、英、法、德、日和中國(guó)等六國(guó)的科學(xué)家,要共同參與這項(xiàng)國(guó)際性科研的原因。
一場(chǎng)對(duì)人類終極奧秘的探索,以1990年作為了分水嶺。
在《生物信息學(xué)三十年》系列專題中曾提到,徐鷹、許東二人就是在這個(gè)時(shí)候參與到人類基因組計(jì)劃中,他們建立了各種生物數(shù)據(jù)庫,開發(fā)各種檢索工具,并在DNA和蛋白質(zhì)序列分析方面,合作做出了那個(gè)年代最好用的算法工具Prospect。
1989年,李明來到滑鐵盧大學(xué),接觸的第一個(gè)問題就是困擾了計(jì)算機(jī)科學(xué)十年的——最短超串的近似算法分析。他發(fā)現(xiàn),這一抽象的理論研究能夠解決當(dāng)時(shí)科學(xué)界的一個(gè)實(shí)際問題—— DNA序列的組裝Shotgun算法的精確度問題。
用現(xiàn)在的眼光和影響來看,李明的這一發(fā)現(xiàn)恰逢其時(shí)。
基因組測(cè)序的困難在于,當(dāng)時(shí)的技術(shù)無法準(zhǔn)確讀取長(zhǎng)鏈,“讀取”技術(shù)僅能夠有效地讀取較短的鏈。于是,科學(xué)家們決定將長(zhǎng)鏈切成較短的碎片進(jìn)行測(cè)序,最后在所有測(cè)序完成后,再拼裝片段形成完整的DNA。當(dāng)時(shí)應(yīng)用最廣的一種技術(shù)為“快速標(biāo)簽測(cè)序法”,被多國(guó)合作小組所承包。
但沒想到的是,在人類基因組計(jì)劃啟動(dòng)后,這項(xiàng)研究不僅迅速席卷多國(guó),同時(shí)也擴(kuò)散到諸多私營(yíng)性質(zhì)的基因研究機(jī)構(gòu)中。
其中,最具代表性的就是的文特爾(J. C. Venter),他在1991年提出“霰彈槍法”的測(cè)序技術(shù),目的是將一個(gè)細(xì)胞的所有基因復(fù)制多次,粉碎成無數(shù)個(gè)DNA小片段,再把大量基因測(cè)序工作交給計(jì)算機(jī),從而大大加快DNA測(cè)序速度。一旦成功,他將把基因測(cè)序商業(yè)化,申請(qǐng)基因成果專利。
一場(chǎng)公私之間的競(jìng)爭(zhēng),在三十年前拉開帷幕。
J. C. Venter
李明身在計(jì)算機(jī)科學(xué)領(lǐng)域,卻發(fā)現(xiàn)了一個(gè)關(guān)鍵問題。
他注意到,霰彈槍法雖然大幅度提高了測(cè)序速度,但也造成了眾多重合度過高的碎片,導(dǎo)致原序列重建時(shí)速度降低。因此,只需要在大量的碎片中找到有最大重合的碎片,就可以像玩拼圖游戲一樣,將基因組還原,組裝速度大大加快。
這也就引出了“最短超串(shortest superstring)解決法”。
1990年,李明做出了長(zhǎng)度為O(n log n) 的超串來逼近長(zhǎng)度為n的最短超串,成果發(fā)表至計(jì)算機(jī)科學(xué)領(lǐng)域的頂級(jí)會(huì)議期刊FOCS。
一年后,李明找到在加拿大麥克馬斯特大學(xué)任教的姜濤,以及從荷蘭來的訪問學(xué)生John Tromp,合作鉆研這一問題。三人相距不遠(yuǎn),同在加拿大安大略省,開車一小時(shí)的距離。頻繁交流中,姜濤解決了修改過的貪婪算法的線性解。
正在此時(shí),三人發(fā)現(xiàn)MIT的Avrim Blum、貝爾實(shí)驗(yàn)室的Mihalis Yannakakis,也在鉆研這一問題,并且也獨(dú)立得到了修改過的貪婪算法線性解。
“分頭做不如合作”,李明表態(tài)。五人一拍即合,最后由李明解決了原始貪婪算法的線性解,并合作發(fā)布了一篇STOC論文《 Linear approximation of shortest superstrings》。
無意中,李明這一為期兩年的研究,為人類基因組測(cè)序方法提供了理論依據(jù),為這一全人類的科研項(xiàng)目添了一把火。
后續(xù),這一證明被收錄至眾多計(jì)算生物教科書中,其中影響最為廣泛的一本,就是1995年被Michael S. Waterman(生物信息學(xué)和計(jì)算生物學(xué)的奠基人之一)收錄至個(gè)人所著的《Introduction to Computational Biology:Maps, sequences and genomes》。
不過,對(duì)于這項(xiàng)成果,李明表現(xiàn)得相當(dāng)?shù)?。他向雷峰網(wǎng)說到,“完全是誤打誤撞,我們把一個(gè)計(jì)算理論的問題解決了,屬于先有了錘子再找釘子,結(jié)果可以用在生物學(xué)上,挺好玩,我們就開始做計(jì)算生物學(xué)了?!?/p>
也正是在這幾篇論文之后,李明走向了生物信息學(xué)。
1995年,李明和時(shí)任明尼蘇達(dá)大學(xué)計(jì)算機(jī)系教授的堵丁柱,決定回國(guó)創(chuàng)辦一個(gè)計(jì)算機(jī)和算法相關(guān)的會(huì)議。
堵丁柱教授
此時(shí),國(guó)內(nèi)與國(guó)外是兩個(gè)不同的世界。
盡管中國(guó)從1993年已經(jīng)開始參與人類基因組計(jì)劃,但由于國(guó)內(nèi)人才缺乏、信息網(wǎng)絡(luò)建設(shè)落后,生物信息學(xué)一直發(fā)展緩慢。
李明和堵丁柱起意,辦一個(gè)包含計(jì)算理論、算法、組合優(yōu)化、生物信息學(xué)幾個(gè)方向的會(huì)議,每年舉辦一次,名字就叫計(jì)算與組合學(xué)國(guó)際會(huì)議,英文簡(jiǎn)稱COCOON,是李明和John Tromp 一起起的名字。
有意思的是,這個(gè)簡(jiǎn)稱對(duì)應(yīng)的是正是英文單詞“繭”。這似乎暗含了李明的期待:中國(guó)生物信息學(xué)能如蝴蝶破繭。
在這次會(huì)議后,我國(guó)的生物信息學(xué)真正進(jìn)入了“黃金時(shí)代”。90年代中期,李衍達(dá)、孫之榮、陳潤(rùn)生、郝柏林等國(guó)內(nèi)學(xué)者,成為了這股學(xué)術(shù)潮流的“奔走者”。
李衍達(dá)、孫之榮、陳潤(rùn)生、郝柏林四位教授
此后,清華大學(xué)迅速成為學(xué)術(shù)中心,先后舉辦了華北生信研討會(huì),成立了我國(guó)第一個(gè)生物信息學(xué)重點(diǎn)實(shí)驗(yàn)室——清華大學(xué)生物信息學(xué)研究所,并在新世紀(jì)后擴(kuò)大規(guī)模,從區(qū)域會(huì)議變?yōu)槿珖?guó)會(huì)議,推出教育部直屬的生信重點(diǎn)實(shí)驗(yàn)室。
后來也在國(guó)內(nèi)創(chuàng)立生信會(huì)議的徐鷹,曾稱贊李明是一個(gè)“大”學(xué)者:所謂學(xué)者之大,即耕耘在今日,收獲在未來。
進(jìn)入新千年,伴隨著人類基因測(cè)序工作完成,生信研究再次邁入新時(shí)代——后基因組時(shí)代。
這次轉(zhuǎn)變的一個(gè)重要標(biāo)志是產(chǎn)生了「功能基因組學(xué)」,基因組學(xué)研究的重心由基因組的「結(jié)構(gòu)」向基因的「功能」,也就是向蛋白組學(xué)轉(zhuǎn)移。
后基因組時(shí)代,很多相關(guān)專業(yè)的人做起了生物信息學(xué),如現(xiàn)任上海計(jì)算生物學(xué)研究所所長(zhǎng)韓敬東、現(xiàn)北京大學(xué)前沿交叉學(xué)科研究院執(zhí)行院長(zhǎng)、中國(guó)科學(xué)院院士湯超、以及李明的博士生、被譽(yù)為“AI預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)全球第一人”的許錦波。
韓敬東教授、湯超教授、許錦波教授
套用文化研究者戴錦華教授的一段話:他們非常幸運(yùn)和不幸地有機(jī)會(huì)意識(shí)到他們置身大時(shí)代,而非小時(shí)代,就是因?yàn)楝F(xiàn)代文明登頂,這一代人不論他們是否自覺,他們都是作答者。
如果說李明在基因組學(xué)的時(shí)代還是在做理論、打醬油,蛋白組學(xué)時(shí)代注定成為他的舞臺(tái)。
他帶領(lǐng)團(tuán)隊(duì)開發(fā)的PEAKS 系列蛋白組學(xué)軟件,不僅跨界發(fā)表在了Nature Methods、PNAS、Nature Machine Intelligence、以及Nature Communications等期刊上,而且已經(jīng)成為國(guó)際上蛋白組學(xué)的主流軟件系統(tǒng),擁有包含幾乎所有跨國(guó)藥企、相關(guān)的生物技術(shù)企業(yè)、研究所、大學(xué)在內(nèi)的4000家用戶。
如今在國(guó)內(nèi),這一是蛋白組學(xué)軟件系統(tǒng)也覆蓋了80%的蛋白組學(xué)研究中心。
這些年來,因?yàn)楣ぷ魃项l繁接觸和經(jīng)常的思想交流,姜濤(現(xiàn)任加州大學(xué)河畔分校校長(zhǎng)講座教授)與李明結(jié)下深厚友誼。他一直把李明看作是亦師亦友的兄長(zhǎng),對(duì)李明的才能和品質(zhì)深為敬佩。姜濤說到,“人工智能帶動(dòng)了蛋白組學(xué)技術(shù)的革命性進(jìn)展,老大哥李明是這一場(chǎng)變革的主要推動(dòng)者之一。”
2000年,李明趁著滑鐵盧大學(xué)的兩年學(xué)術(shù)休假期,去往了加州大學(xué)圣巴巴拉分校(UCSB)。
問及緣由,李明說道,“我太太當(dāng)時(shí)想去加州,那兒天氣好,就去了?!?/p>
UCSB是一個(gè)“面朝大海,春暖花開”的濱海院校。臨湖沿??可?,號(hào)稱全美最美大學(xué),李明描述,“在沙灘走著,還能看到海豚跳來跳去。”
剛到這所最美大學(xué),李明回滑鐵盧創(chuàng)建了自己的第一個(gè)公司——生物信息學(xué)公司Bioinformatics Solutions Inc(BSI),開發(fā)蛋白組學(xué)通用軟件。
他的合作者包括姜濤、馬斌、徐鷹、許東、Paul Kearney、Jonathan Badger、Brona Brejova、Tomas Vinar。這一眾同事或?qū)W生日后全部成為世界上計(jì)算生物學(xué)中翹楚。
那段時(shí)間里,李明還被一位博士生找上門來,希望拜入門下。
這個(gè)博士生正是許錦波,他是全國(guó)高中數(shù)學(xué)聯(lián)賽江西省第一名。許錦波原本在滑鐵盧大學(xué)跟著計(jì)算機(jī)科學(xué)方向的導(dǎo)師Prabhakar Ragde讀博,嘗試用計(jì)算的方法做一些生物學(xué)的問題。
2001年上半年,許錦波決定轉(zhuǎn)入方向更為契合的李明組里。
按理說,李明在停薪留職期間不收學(xué)生,但他欣賞這位后生,兩人都畢業(yè)于中科院計(jì)算所,說起來師出同門。于是,李明從Prabhakar Ragde那里要來了許錦波,算是合作培養(yǎng)。
2001年,許錦波正式轉(zhuǎn)行計(jì)算生物學(xué)。
李明提議,“有一個(gè)很難的問題——蛋白質(zhì)折疊,想不想做?”
許錦波接下了這一課題?;貞浂昵暗哪枪蓻Q心,許錦波向雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))坦言,“就算一點(diǎn)結(jié)果都做不出來也沒關(guān)系,大不了去硅谷當(dāng)碼農(nóng)?!?/p>
很長(zhǎng)一段時(shí)間,這對(duì)師生都是遠(yuǎn)程交流,基本上兩個(gè)月才能見一次。
許錦波說到,“那時(shí)候沒有現(xiàn)在這么方便的網(wǎng)絡(luò)會(huì)議,剛開始的時(shí)候非常困難?!?002年李明回到滑鐵盧,許錦波馬上告訴了他一個(gè)好消息,“馬上要開始今年的CASP(全球蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)比賽)了,我們也去參加。”
結(jié)果許錦波在這屆比賽中一鳴驚人,在用于全自動(dòng)高通量蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的評(píng)比中,一舉奪冠。
對(duì)于徒弟的成就,李明沒有半點(diǎn)邀功,“我完全沒有什么監(jiān)督,全是錦波自己做的。”
此后很多年,兩人都保持著亦師亦友的關(guān)系,許錦波去往了芝加哥豐田計(jì)算技術(shù)所。很大程度上,李明影響了許錦波的學(xué)術(shù)價(jià)值觀。李明說到,“做一個(gè)事情就要把它做到最好,就算是一個(gè)小問題,也力爭(zhēng)把它做到世界級(jí)水平,不要用論文數(shù)量要求自己?!?/p>
此后,除了蛋白組學(xué),李明還在Kolmogorov復(fù)雜性、信息距離、蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)系統(tǒng)、同源搜索算法等領(lǐng)域都開展了大量的研究,直接促進(jìn)了信息檢索和基因測(cè)序方面的進(jìn)步。
2006年,李明當(dāng)選加拿大皇家科學(xué)院院士,成為獲此殊榮的第二位華人學(xué)者。在李明之后,憑借計(jì)算機(jī)科學(xué)獲得該獎(jiǎng)的華人學(xué)者還有兩位:京東副總裁、加拿大西蒙弗雷澤大學(xué)計(jì)算科學(xué)學(xué)院教授裴健、微眾銀行首席人工智能官、香港科技大學(xué)講席教授楊強(qiáng)。
2010年,李明再獲另一重量級(jí)獎(jiǎng)項(xiàng)——加拿大最高科學(xué)獎(jiǎng)Killam Prize。自從這個(gè)獎(jiǎng)設(shè)立至今40多年來,李明是唯一一位來自中國(guó)的華人學(xué)者獲得此獎(jiǎng)。
2010年,李明獲得加拿大最高科學(xué)獎(jiǎng)Killam Prize
滑鐵盧大學(xué)的第一位Killam Prize獲獎(jiǎng)?wù)遅illiam Thomas Tutte教授,于1982年獲獎(jiǎng)。他曾在二戰(zhàn)期間,破譯了一系列被稱為FISH的德國(guó)軍事加密代碼,使得諾曼底登陸得以大大提前。這被描述為第二次世界大戰(zhàn)中最偉大的智力壯舉之一。
換言之,近30年后,滑鐵盧大學(xué)中才誕生了第二位Killam獲獎(jiǎng)?wù)?。時(shí)至今日,迄今為止僅有五人憑借計(jì)算機(jī)科學(xué)獲此獎(jiǎng)項(xiàng)?!吧疃葘W(xué)習(xí)三巨頭”的其中兩位——Geoffrey Hinton和Yoshua Bengio,分別在2012年和2019年獲得Killam獎(jiǎng)。
Geoffrey Hinton和Yoshua Bengio
盛譽(yù)加身后,李明繼續(xù)創(chuàng)業(yè)。他最常用一句話告誡自己,“做得更實(shí)際一點(diǎn),更應(yīng)用一點(diǎn)。”2013年,李明在滑鐵盧創(chuàng)辦了第二家公司——RSVP Technologies Inc,基于信息論、深度學(xué)習(xí)與自然語言處理技術(shù),開發(fā)了深度語義理解平臺(tái),為企業(yè)提供場(chǎng)景對(duì)話服務(wù)。
面向B端客戶,這也是李明作為學(xué)者創(chuàng)業(yè)的獨(dú)特之處。
他曾在創(chuàng)立之初拿對(duì)話系統(tǒng)舉例,“針對(duì)C端的對(duì)話機(jī)器人并不受市場(chǎng)買單,其中最根本的一個(gè)問題是,目前大家對(duì)于語言/文本,在機(jī)器能處理的空間中沒有一個(gè)很好的表達(dá)方式,使得現(xiàn)有的對(duì)話機(jī)器人沒有辦法從語義和邏輯上去理解對(duì)話,并且缺乏自學(xué)習(xí)能力。”
李明認(rèn)為,從另一個(gè)角度看,NLP的工程化不是一個(gè)個(gè)算法的累積,也不是一個(gè)個(gè)任務(wù)的獨(dú)立優(yōu)化,而應(yīng)該是系統(tǒng)工程,綜合考慮語言、計(jì)算、場(chǎng)景等多種因素,不斷演進(jìn)融合,尋求效果滿意解的過程。這也是利用NLP技術(shù)可以達(dá)到賦能B端的原因所在。
至今,這番話仍能引起很多NLP從業(yè)者的共鳴。很大程度上,這也是“學(xué)者”李明與“創(chuàng)業(yè)者”李明的一種默契。
技術(shù)落地,仿佛貫穿了李明的人生,而創(chuàng)業(yè)的出發(fā)點(diǎn),也可以從他下面這句話得到答案。
“當(dāng)年做Kolmogorov復(fù)雜度理論,以及shortest superstring,那些都是純理論問題,只讓大家嗨了一下,離實(shí)際應(yīng)用還差得很遠(yuǎn)?!?/p>
2018年前后,谷歌下屬的DeepMind實(shí)驗(yàn)室,一下子調(diào)動(dòng)了30個(gè)人,動(dòng)用了幾百塊的GPU,涉足當(dāng)時(shí)略顯得冷清的生物信息領(lǐng)域——以深度學(xué)習(xí)工具預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)。
實(shí)際上,這是基于許錦波開始獨(dú)立研究后的一個(gè)工作。
2014年,許錦波曾設(shè)計(jì)了一種新的深度學(xué)習(xí)算法,開始使用深度學(xué)習(xí)去研究蛋白質(zhì)結(jié)構(gòu)。他先在蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)上測(cè)試,發(fā)現(xiàn)深度學(xué)習(xí)對(duì)這個(gè)簡(jiǎn)單問題有效,由此激發(fā)了他進(jìn)一步的研究。
2015年和2016年,許錦波開發(fā)了一種更好的深度學(xué)習(xí)算法——RaptorX,它可以直接用來預(yù)測(cè)蛋白質(zhì)的三維結(jié)構(gòu)。
很快,許錦波憑借這一工作在2016年的CASP比賽中嶄露頭角。當(dāng)年秋天,他把結(jié)果寫成一篇論文發(fā)布在了網(wǎng)上。發(fā)布后的第一個(gè)月,即在領(lǐng)域內(nèi)引起了一小波關(guān)注。次年1月,許錦波將前期成果正式發(fā)表于PLOS Computational Biology,將蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的聲浪推向高潮。
自此以后,無論是學(xué)術(shù)界還是產(chǎn)業(yè)界,都對(duì)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)給予了廣泛的關(guān)注,特別是受到許錦波前期研究成果啟發(fā)的AlphaFold 2,更是直接帶熱了AI制藥行業(yè)。
由于家中親人癌癥去世,從2005年,李明就開始研究癌癥。從2000年代以來,李明在質(zhì)譜儀肽段測(cè)序方面做了大量的研究,2016年他發(fā)現(xiàn),結(jié)合深度學(xué)習(xí)可以將此類技術(shù)應(yīng)用在癌癥個(gè)體化治療中。
目前,對(duì)于癌癥治療的傳統(tǒng)方法主要有以下三種模式:手術(shù)、化療、放療。但是由于手術(shù)風(fēng)險(xiǎn)較大,重要器官的腫瘤無法根除,化療和放療帶來的巨大副作用,價(jià)格高昂以及個(gè)體差異等種種因素,人們開始在傳統(tǒng)的治療方法以外尋求其他更為高效,對(duì)個(gè)體更為精準(zhǔn)以及副作用更小的療法。免疫療法成為不二之選。
李明進(jìn)一步解釋,當(dāng)一個(gè)細(xì)胞發(fā)生癌變,我們的白細(xì)胞抗原(HLA)系統(tǒng)會(huì)把一些變異的肽段(新抗原)表達(dá)在細(xì)胞表面,以通知胞毒T細(xì)胞(CD8+ T)來清除這個(gè)癌細(xì)胞。個(gè)體化癌癥免疫治療的關(guān)鍵就是找到這些新抗原。
然而,如何在個(gè)體化層面鑒定這類新抗原和相關(guān)驗(yàn)證仍然是一巨大挑戰(zhàn)。而這,也正是引入是深度學(xué)習(xí)的關(guān)鍵。李明將其稱之為“新抗原的從頭測(cè)序”。
具體來說,用深度學(xué)習(xí)尋找新抗原的過程,可以理解為三步:
一、在癌組織里面將癌細(xì)胞產(chǎn)生的新抗原提取出來,然后利用質(zhì)譜儀DIA采集模式,將新抗原肽段產(chǎn)生大的譜圖數(shù)據(jù)載入軟件分析;
二、利用個(gè)人的HLA 肽段重新訓(xùn)練個(gè)體化模型,繼續(xù)識(shí)別患者產(chǎn)生的新抗原;
三、最后也是最關(guān)鍵的一步是,用深度學(xué)習(xí)鑒定新抗原是否能激起免疫反應(yīng),也就是驗(yàn)證其有效性。
在傳統(tǒng)方法中,最常見的一種驗(yàn)證方法就是“濕實(shí)驗(yàn)”,即通過在實(shí)驗(yàn)室里采用分子、細(xì)胞、生理學(xué)試驗(yàn)方法進(jìn)行驗(yàn)證。然而,從大量的實(shí)驗(yàn)驗(yàn)證到藥物研制,這個(gè)過程不僅漫長(zhǎng),造價(jià)也極其高昂。
針對(duì)這個(gè)問題,李明提出了模擬人體中心耐受系統(tǒng)的思想來解決在免疫原性預(yù)測(cè)中沒有TCR 的問題,與Ngoc Hieu Tran博士和團(tuán)隊(duì)推出一個(gè)嶄新的DeepImmu AI平臺(tái),使用深度學(xué)習(xí)技術(shù)替代傳統(tǒng)濕實(shí)驗(yàn)室過程,新抗原的檢測(cè)精度大大提高。
李明說,“生命科學(xué)領(lǐng)域存在大量的數(shù)據(jù),單純靠濕實(shí)驗(yàn)室遠(yuǎn)遠(yuǎn)不夠。個(gè)性化治療的普及需要干實(shí)驗(yàn)室化,AI將會(huì)幫助生物學(xué)家將制藥流程從濕實(shí)驗(yàn)轉(zhuǎn)到干實(shí)驗(yàn)?!?/p>
從應(yīng)用價(jià)值上看,個(gè)體化癌癥免疫療法,也將隨著時(shí)間發(fā)展而更加深刻。它意味著個(gè)性化免疫藥物不再是花費(fèi)數(shù)十年、耗資巨大的一種藥物,而是可以通過產(chǎn)生針對(duì)每個(gè)人個(gè)體的特性新抗原,達(dá)到準(zhǔn)確的治療目的。甚至在未來,個(gè)體化治療也將被用于其他疾病,如自身免疫系統(tǒng)疾病的治療、降低器官移植的排異反應(yīng)、以及預(yù)防癌癥疫苗的生產(chǎn)上。
道阻且長(zhǎng),回頭再看選攻克癌癥這個(gè)選擇,李明表示,“個(gè)體性免疫治療在改變傳統(tǒng)制藥業(yè)的軌道,也是一個(gè)巨大的科學(xué)和工程問題。人工智能技術(shù)和時(shí)代的進(jìn)步,一定要靠理論的進(jìn)步,其次要用工程的思維找出一些有價(jià)值的應(yīng)用方向?!?/p>
在他看來,與傳統(tǒng)制藥業(yè)相比,個(gè)體化制藥是中國(guó)實(shí)現(xiàn)彎道超車的機(jī)會(huì),將人工智能與個(gè)體化癌癥免疫治療相結(jié)合,是完成這個(gè)目標(biāo)的關(guān)鍵。
2020年,BSI公司落地中國(guó)武漢和上海,李明取意詩經(jīng)中的“桃之夭夭,葉之蓁蓁”,將其名為“百蓁生物”。百蓁利用BSI在軟件和AI上的優(yōu)勢(shì),在國(guó)內(nèi)開始服務(wù)高端蛋白質(zhì)學(xué)CRO市場(chǎng)。
基于BSI的軟件,為制藥公司、科研院所,提供高端蛋白質(zhì)組學(xué)、糖基化分析、新抗原,蛋白質(zhì)從頭測(cè)序,抗體表征等一系列高端CRO服務(wù)。隨著公司的落地,他們的新抗原測(cè)序和鑒定管線已經(jīng)完成并開始服務(wù)。
李明表示,從BSI到百蓁生物,如果能夠?yàn)樯茖W(xué)做出一點(diǎn)推動(dòng),我的工作就算沒有白費(fèi)。
2021年4月,李明院士辦公室落成鄭州
去年四月,李明促成了一件大事,與鄭州中原科技城、中科院計(jì)算技術(shù)研究所大數(shù)據(jù)研究院聯(lián)手,將自己的實(shí)驗(yàn)室落成鄭州。
落地這家“院士辦公室”,它的意義不僅在于人才引領(lǐng)示范,還是鄭州乃至中國(guó)的科技轉(zhuǎn)型縮影。李明希望未來能夠打造大數(shù)據(jù)抗體和抗原庫,將人工智能與個(gè)體化癌癥免疫治療方法應(yīng)用到臨床治療,實(shí)現(xiàn)癌癥治療的突破性進(jìn)展。
歷史的尖峰時(shí)刻,都需要太長(zhǎng)的醞釀時(shí)間,每一樁影響深遠(yuǎn)的事件都需要一個(gè)發(fā)展的過程。就像避雷針的尖端匯聚了整個(gè)大氣層的電流一樣,那些不可勝數(shù)的事件也會(huì)擠在最短的時(shí)間內(nèi)發(fā)作,但它們的決定性影響卻超越時(shí)間之上。
所以,回想2020年AlphaFold 2的橫空出世,以及如今AI制藥等創(chuàng)業(yè)行業(yè)的火熱,我們很難承認(rèn),這是一個(gè)人或者一個(gè)團(tuán)隊(duì)的靈感成果。李明與他的前輩、后輩,與他所在的數(shù)個(gè)時(shí)代——身在暫時(shí)的黑暗中,也最先看到黎明。
他們,是持炬者。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。