0
本文作者: 任平 | 2022-10-26 10:30 |
許錦波的人生分水嶺是2016年秋天。
他提出的RaptorX-Contact方法,首次證明深度學(xué)習(xí)可以大幅提升蛋白質(zhì)結(jié)構(gòu)預(yù)測精度。
長期原地徘徊、進(jìn)步有限的研究領(lǐng)域終于邁出實(shí)質(zhì)性的一步,各界掀起了AI預(yù)測熱潮,無數(shù)公司獲得了進(jìn)入生命科學(xué)的時代入場券。
外界給他加封了一個頭銜:AI預(yù)測蛋白質(zhì)結(jié)構(gòu)全球第一人。
從2005年開始,許錦波就在芝加哥大學(xué)附屬的豐田技術(shù)研究所開展科研和教學(xué)工作。
這是一所受慈善捐助而成立的獨(dú)立計算機(jī)科學(xué)研究所。許錦波時間寬裕,每年的教學(xué)工作只有兩個月,很少受科研經(jīng)費(fèi)困擾。能靜下心來做研究,是他留在那兒的重要原因。
2021年9月,許錦波回國創(chuàng)業(yè)。2022年1月,他的公司成立,取名為“分子之心”(MoleculeMind)。此后,由許錦波牽頭,分子之心在國內(nèi)組建了一支25人左右的團(tuán)隊,其中不乏生物計算、計算機(jī)科學(xué)、生物化學(xué)物理等多學(xué)科背景的研究人員和工程師。
4月份,公司完成數(shù)千萬美元天使輪融資。
關(guān)于許錦波和他二十多年來的研究故事,被凝練成一句話:從冷清走向熱鬧,從象牙塔走向聚光燈。
1990年下半年,還在讀高三的許錦波,在全國高中數(shù)學(xué)聯(lián)賽中獲江西賽區(qū)第一名,成為江西臨川縣獲得該類獎項的第一人。競賽結(jié)果出來后 ,許錦波收到了國內(nèi)最好的五、六所大學(xué)發(fā)來的入學(xué)通知書。其中一封,就來自中國科學(xué)技術(shù)大學(xué)(下稱“中科大”)。
彼時,中科大經(jīng)過一系列的教學(xué)改革創(chuàng)新,在中外合作培養(yǎng)事業(yè)上取得了長足進(jìn)步,在國內(nèi)外聲譽(yù)鵲起,被《Nature》雜志撰文稱為“招風(fēng)的大樹”。
出生在安徽合肥的楊振寧更是多次訪問中科大,并擔(dān)任理學(xué)院名譽(yù)院長,倡導(dǎo)在中科大少年班中設(shè)立計算機(jī)軟件專業(yè),推動中國計算機(jī)科學(xué)發(fā)展與國際水平接軌。
在老師和親朋的建議下,許錦波思索再三,對數(shù)學(xué)的熱愛轉(zhuǎn)移到理論研究上,便將志愿定為“中科大計算機(jī)科學(xué)技術(shù)系”,并選擇了更偏向理論研究的“計算機(jī)算法”專業(yè)。
雖然專業(yè)偏向理論,但許錦波先于多數(shù)同學(xué)上手代碼和實(shí)際項目。大三下學(xué)期(五年制),他在校外找了一份工作,在一家做金融服務(wù)軟件的美國公司(合肥辦公室),主要做美國股票分析系統(tǒng)的用戶界面。
90年代初,許錦波用的還是元老級的編程語言——Borland C/C++來開發(fā)項目,寫了多少行代碼,他已經(jīng)記不清,但寫代碼的能力卻得到了鍛煉。
他回憶道,“那時還沒有實(shí)習(xí)的想法,更多是想打工掙錢。當(dāng)然學(xué)校機(jī)房確實(shí)沒幾臺電腦,學(xué)校更強(qiáng)調(diào)把基礎(chǔ)打牢,四大力學(xué)是必修課。”
抱著深造的目的,許錦波決定碩士研究計算機(jī)的另一分支——計算機(jī)系統(tǒng) 。用他自己的話講,“當(dāng)時想學(xué)怎么造計算機(jī)?!?/p>
1996年,許錦波進(jìn)入中國科學(xué)院計算技術(shù)研究所(下稱“中科院計算所”)。在那里,許錦波結(jié)緣中科院一支高性能計算研究組——曙光組。
90年代初,時任國家智能計算機(jī)研究開發(fā)中心主任的李國杰,帶著一支沒有設(shè)計經(jīng)驗的隊伍,承擔(dān)了研發(fā)“超級計算機(jī)”的重任。就在許錦波到來的前一年,曙光組做出一個重要決定:863計劃下一個目標(biāo)產(chǎn)品曙光2000,不再沿著計劃原定的“超級計算機(jī)”方向走,而是轉(zhuǎn)向研制“超級服務(wù)器”。
李國杰(身穿深色襯衣者)
兩者區(qū)別在于,超級計算機(jī)主要用于科學(xué)工程計算,從計算速度上追趕國際先進(jìn)水平。而超級服務(wù)器是更加通用的高端計算機(jī),除科學(xué)計算外,更多地用于事務(wù)處理與網(wǎng)絡(luò)服務(wù)。
這一決策也影響了許錦波后面的研究方向。
三年里,許錦波的重心放在了“分布式系統(tǒng)以及計算機(jī)安全”,陸續(xù)參與了曙光組的前沿項目,如虛擬主機(jī)系統(tǒng)、高可靠性系統(tǒng)等工程化項目。
他的朋友以及合作者對他的評價是:無需助手,能獨(dú)立進(jìn)行一項課題,獨(dú)立用算法實(shí)現(xiàn)一系列想法。這種能力,很大程度上得益于這段工作經(jīng)歷。
許錦波說,“代碼能力將成為不可忽視的底層能力,不僅是計算機(jī)專業(yè)要這么做,每一個理工人都要視其為基本功?!?/p>
1999年,南斯拉夫大使館事件讓中美關(guān)系陷入僵局。轉(zhuǎn)去加拿大,成了當(dāng)時很多人求學(xué)和任教的共同選擇。許錦波也是如此。
這一年,他去往加拿大南部腹地的大學(xué)——滑鐵盧大學(xué)(臨近多倫多),繼續(xù)攻讀計算機(jī)科學(xué)系。
在許錦波入校前,學(xué)校指派了一位做并行算法的印度裔教授Prabhakar Ragde為其導(dǎo)師。這位導(dǎo)師指導(dǎo)寬松,第一年,許錦波涉獵各個領(lǐng)域的論文,找感興趣的科研方向。
Prabhakar Ragde教授
2001年上半年,人類基因組計劃(HGP)比原計劃提前兩年完成,歷時11年的多國合作項目落下帷幕,隨即進(jìn)入了“功能基因組學(xué)”時代,研究的重心由基因組的“結(jié)構(gòu)”向基因的“功能”,也就是向蛋白組學(xué)轉(zhuǎn)移。
學(xué)術(shù)界一個明顯趨勢是,越來越多的學(xué)者愿意用計算機(jī)科學(xué)解決一些實(shí)際的生物學(xué)問題。兩個學(xué)科的結(jié)合越來越緊密,直至融合形成一個新興學(xué)科——計算生物學(xué)。
許錦波深受鼓舞,抱著試試看的心情,他毛遂自薦轉(zhuǎn)入方向更為契合的滑鐵盧大學(xué)李明教授組里。
為何轉(zhuǎn)入李明門下?
實(shí)際上,許錦波本碩就讀時,李明曾先后到中科大和計算所做過兩次講座,當(dāng)時李明已憑借Kolmogorov復(fù)雜性、不可壓縮方法、信息距離理論等研究,享譽(yù)計算機(jī)科學(xué)界。
1990年,李明做出了長度為O(n log n) 的超串來逼近長度為n的最短超串,成果發(fā)表至計算機(jī)科學(xué)領(lǐng)域的頂級會議期刊FOCS。
一年后,李明找到在加拿大麥克馬斯特大學(xué)任教的姜濤,以及從荷蘭來的訪問學(xué)生John Tromp,合作鉆研最短超串(shortest superstring)解決法。
正在此時,三人發(fā)現(xiàn)MIT的Avrim Blum、貝爾實(shí)驗室的Mihalis Yannakakis,也在鉆研這一問題,并且也獨(dú)立得到了修改過的貪婪算法線性解。最后,五人合作發(fā)布了一篇STOC論文《 Linear approximation of shortest superstrings》。
后來,這一證明被收錄至眾多計算生物教科書中。
因此,在許錦波轉(zhuǎn)入其門下時,李明已經(jīng)成為生物信息學(xué)的一位大家。
按理說,李明在停薪留職期間不收學(xué)生,但他欣賞這位后生,兩人都畢業(yè)于中科院計算所,說起來師出同門。于是,李明從Prabhakar Ragde那里要來了許錦波,算是合作培養(yǎng)。
2001年,許錦波正式做起了計算生物學(xué)。初次接觸,李明對許錦波說,“有一個很難的問題,研究蛋白質(zhì)折疊,想不想做?”
李明教授
那時候,學(xué)界已經(jīng)研究了四十年的蛋白質(zhì)結(jié)構(gòu)問題,一直難有大突破。李明也從未將此課題向任何學(xué)生提及,甚至他自己也未涉足這一課題。
許錦波為什么愿意接手?
多年后,他回憶起這個決定:“我們選擇研究課題的時候,通常要選擇一些比較重要和困難的問題,如果問題不重要,就沒必要花時間研究;如果問題不難,幾年之內(nèi)就被別人做出來,也沒有多大意義?!?/p>
對27歲的許錦波來說,接下導(dǎo)師拋過來的這一選題,也意味著他要進(jìn)行一次大范圍的自我轉(zhuǎn)變。不過,許錦波也不覺得這是明顯的換方向,仍然是用計算的方法解決問題,只不過對象換成了生物學(xué)。
不過,緊接著他又補(bǔ)了一句,“就算博士幾年一點(diǎn)結(jié)果都做不出來也沒關(guān)系,大不了去硅谷寫代碼、當(dāng)碼農(nóng)?!?/p>
許錦波說的不無道理。
加拿大最早成立計算機(jī)科學(xué)系,就在滑鐵盧大學(xué)。而該系所屬的二級學(xué)院,正是加拿大唯一且全球最大規(guī)模的獨(dú)立數(shù)學(xué)院——滑鐵盧數(shù)學(xué)院。作為數(shù)學(xué)院最具傳奇色彩的計算機(jī)科學(xué)系,微軟、谷歌、Facebook早早就來搶未畢業(yè)的學(xué)生。
決定從一個非常熱門的領(lǐng)域跳出來,去做生物學(xué)研究,無論對誰來說都需要很大的勇氣。
許錦波也沒想到,這次轉(zhuǎn)變將影響他一生的科研方向:在此后的二十余年時間里,他的任務(wù)就是開發(fā)和優(yōu)化算法,去無限縮小蛋白質(zhì)結(jié)構(gòu)預(yù)測結(jié)果和真實(shí)構(gòu)型之間的差距。
不過,開始研究生物學(xué)問題的半年時間,許錦波就很痛苦,“論文專業(yè)術(shù)語都看不懂,也沒人可以問?!?/p>
許錦波坦言,當(dāng)時他只有高中的一點(diǎn)點(diǎn)生物知識?;F盧大學(xué)是強(qiáng)理工科背景,僅有一個很小的生物系,他跟生物系教授沒有很多交流。此外,導(dǎo)師李明還在加州學(xué)術(shù)休假,不像現(xiàn)在發(fā)個微信就可以交流,師生二人兩個月才能見一次面。
那段時間,許錦波只能靠自己去啃論文,除了吃飯睡覺全是做科研。
“可能和大家印象中的科研形象不一樣”,許錦波笑著說到,“一個生物學(xué)家的實(shí)驗室是各種試管和試劑,但作為計算生物學(xué)家,全部的科研工作都在一臺電腦上完成?!?/p>
左圖為生物學(xué)家實(shí)驗室,右圖為許錦波實(shí)驗室
這也詮釋了計算生物學(xué)領(lǐng)域的研究手段,既有傳統(tǒng)的生物實(shí)驗,即濕實(shí)驗;也有包括計算手段在內(nèi)的數(shù)學(xué)建模、數(shù)值仿真、數(shù)據(jù)分析,或是機(jī)器學(xué)習(xí),即干實(shí)驗。
和傳統(tǒng)的濕實(shí)驗相比,干實(shí)驗最大優(yōu)勢即不需要特別大的經(jīng)費(fèi)投入,其次是比較靈活,可以隨時開展一個新的研究項目。
那段時間,許錦波沿用一種干實(shí)驗方法研究蛋白質(zhì)折疊——能量優(yōu)化。
他解釋到,安芬森法則是蛋白質(zhì)結(jié)構(gòu)預(yù)測的基石。在安芬森這個假設(shè)和理論基礎(chǔ)之下,科學(xué)家們?nèi)プ龅鞍踪|(zhì)折疊預(yù)測,都是從能量優(yōu)化的角度去做。如果將這種方法教給計算機(jī),就可以一步步優(yōu)化能量,從而達(dá)到預(yù)測蛋白質(zhì)結(jié)構(gòu)的目的。
2002年,李明學(xué)術(shù)休假結(jié)束,回到滑鐵盧,許錦波馬上告訴了他一個好消息,“馬上要開始今年的CASP(全球蛋白質(zhì)結(jié)構(gòu)預(yù)測比賽)了,我們也去參加?!?/p>
結(jié)果是,許錦波在全自動高通量蛋白質(zhì)結(jié)構(gòu)預(yù)測的評比中一舉奪冠。
不過,許錦波認(rèn)為,“雖然排名最好,但不是大的突破,因為預(yù)測結(jié)果并不比以前的方法好很多?!?/p>
他重新梳理那一年來的工作,發(fā)現(xiàn)這一思路有著天然缺陷。
“第一,一個蛋白質(zhì)是一個非常大的體系,由成千上萬個原子組成,對應(yīng)一個非常巨大的搜索空間,構(gòu)型是千變?nèi)f化的。第二,雖然說大家普遍接受蛋白質(zhì)折疊到最小能量狀態(tài),但能量函數(shù)到底是什么樣的?我們本身就對能量函數(shù)的理解還不是特別好?!?/p>
在當(dāng)時一大批學(xué)者紛紛比拼更好的能量優(yōu)化方法之際,許錦波站在了這一方法的對面:把生物學(xué)問題當(dāng)成純粹的算法問題,或許并不能從根本上解決問題。
“傳統(tǒng)的能量優(yōu)化方法可能不是一個很好的路徑?!?/p>
2003年,許錦波博士畢業(yè)后計劃赴美,開啟博士后工作。
然而,受2001年9月11日恐怖襲擊影響,美國政府一度收緊了赴美學(xué)生簽證,許錦波的簽證一直處于被審查狀態(tài)。
無奈之下,許錦波選擇暫留本校任教,一邊做助理教授,一邊等待簽證過審。
這也讓許錦波錯失了拜入徐鷹(時任佐治亞大學(xué)生物信息系主任)門下的重要機(jī)會。而導(dǎo)師李明曾推薦他去哈佛,最終也不了了之。
等待的時間里,許錦波做了一個新問題——蛋白質(zhì)的側(cè)鏈結(jié)構(gòu)預(yù)測。
那時,學(xué)術(shù)界對蛋白質(zhì)結(jié)構(gòu)預(yù)測的研究重心是主鏈蛋白,許錦波博士期間的精力便集中于此。
為何從側(cè)鏈下手?這是因為,蛋白質(zhì)三維結(jié)構(gòu)由主鏈和側(cè)鏈共同搭建而成,算法預(yù)測蛋白質(zhì)結(jié)構(gòu)的步驟,是先以蛋白質(zhì)主鏈建模,再根據(jù)主鏈的構(gòu)象為側(cè)鏈建模。
自然界中的蛋白質(zhì)含有20種氨基酸,它們的主鏈幾乎完全相同,而側(cè)鏈差異很大。因此,精準(zhǔn)的蛋白質(zhì)側(cè)鏈建模對蛋白質(zhì)折疊和蛋白質(zhì)設(shè)計至關(guān)重要。
簽證背調(diào)用了近一年時間,許錦波也在這個方向上投入了近一年時間。
他并沒有沿用當(dāng)時學(xué)界的主流方法,通過SCWRL軟件做近似優(yōu)化,而是將圖論算法引入側(cè)鏈結(jié)構(gòu)預(yù)測,成功地將側(cè)鏈結(jié)構(gòu)預(yù)測的時間,從十幾個小時縮短至幾分鐘。除了速度提高了上百倍外,新方法還可用于構(gòu)象復(fù)雜性更高的蛋白結(jié)構(gòu)。
“這算得上是側(cè)鏈結(jié)構(gòu)預(yù)測中,第一個不需要完全暴力運(yùn)算的算法?!?/p>
2004年,許錦波將成果投遞于RECOMB(國際計算分子生物學(xué)大會)。這是與ISMB(國際計算生物學(xué)會)齊名的計算生物學(xué)兩大頂級會議之一,會議從1997年開始舉辦,自2003年后投稿數(shù)量開始增加,接收率降低到20%左右。
此后很多年,許錦波陸續(xù)在RECOMB會議上分享過多次研究成果,并獲得了諸多獎項,如2009年最佳海報獎、2014年最佳論文獎、2019年時間檢驗獎。
許錦波印象最深的,還是2004年第一次投遞RECOMB。他記得,2004年上半年,自己的簽證終于過審。于是馬上動身前往MIT,開始了博士后生涯。2005年,該論文被RECOMB順利接收,許錦波被邀請前往波士頓做會議報告。
在那時,這一成果并沒有受到很多生物學(xué)家的關(guān)注,這和學(xué)術(shù)圈里的一個規(guī)律有關(guān)。
許錦波解釋道,“一般而言,多數(shù)生物學(xué)家認(rèn)為期刊論文更有價值,但在計算機(jī)領(lǐng)域,科研成果有很高的時效性,投稿一般都選擇學(xué)術(shù)會議,便于和同行交流。”
拿當(dāng)下最熱的深度學(xué)習(xí)來說,2014年AlexNet算是第一個大獲全勝的DL模型,距今僅8年時間,已經(jīng)變成了公認(rèn)的老古董。大約同年,生成對抗網(wǎng)絡(luò)GAN出現(xiàn)。截至目前,起碼有幾百種能叫上來名字的GAN變種。
2015年,物體檢測領(lǐng)域R-CNN被提出,深度學(xué)習(xí)正式攻陷此領(lǐng)域,之后fast-RCNN、faster-RCNN、YOLO、SSD、mask-RCNN,幾乎每年都有重大突破。
因此,計算機(jī)領(lǐng)域日新月異的發(fā)展特性,決定了重要結(jié)果幾乎先在會議上分享,其次才會在期刊里發(fā)表會議文章的擴(kuò)充版本。
許錦波不知道的是,就在報告現(xiàn)場,他的成果吸引了一個人的特別關(guān)注。
幾天后,許錦波收到了一封郵件,邀請他將成果整理為期刊論文發(fā)表,落款是時任Journal of the ACM(計算機(jī)科學(xué)領(lǐng)域頂級期刊)的德國編委,Thomas Lengauer。
Thomas Lengauer教授
曾于2018年至2021年擔(dān)任國際計算生物學(xué)學(xué)會主席的Lengauer,與許錦波的經(jīng)歷相似。
自20世紀(jì)90年代初以來,Lengauer的研究重點(diǎn)從理論計算機(jī)轉(zhuǎn)向計算生物學(xué),其中一個研究方向就是蛋白質(zhì)結(jié)構(gòu)和功能預(yù)測。2001年后,他一直擔(dān)任馬克斯普朗克信息學(xué)研究所(MPlI,位于德國)計算生物學(xué)和應(yīng)用算法部主任。
而當(dāng)時他所擔(dān)任編委的JACM,正是ACM (Association for Computing Machinery,國際計算機(jī)學(xué)會) 的官方刊物,遴選標(biāo)準(zhǔn)極為苛刻,只刊登對計算機(jī)科學(xué)有長遠(yuǎn)影響的論文,理論偏向性很重。成立至今的68年里,僅發(fā)表了3000篇論文,平均一年不到50篇。
收到來信后,許錦波馬上在論文中加入了一些理論結(jié)果,并于2005年投遞于JACM。
而這一意外之舉,直接將許錦波的命運(yùn)向前推了一把。在此之后,許錦波的研究得到了計算機(jī)學(xué)者、生物學(xué)者、以及計算生物學(xué)家等更多人的支持,為他留美任教埋下了重要伏筆。
2005年,許錦波去往芝加哥大學(xué)附屬的豐田技術(shù)研究所(另譯:豐田工大芝加哥分校,TTIC,Toyota Technological Institute Chicago)任教。
TTIC是豐田工業(yè)大學(xué)與芝加哥大學(xué)共建的獨(dú)立計算機(jī)科學(xué)研究所,于2003年9月正式運(yùn)營,目前僅13名正式教授。
與眾多高校不同的是,該研究所成立之初曾獲2.6億美元捐助,資金充足、支持力度大,可以支付大部分科研經(jīng)費(fèi)。
21世紀(jì)初,機(jī)器學(xué)習(xí)還沒有邁入黃金時期,該研究所便意識到機(jī)器學(xué)習(xí)的價值,將其作為研究方向之首。此后,許錦波的研究方法逐漸從能量優(yōu)化轉(zhuǎn)換為機(jī)器學(xué)習(xí),便是受研究所影響。
許錦波表示,傳統(tǒng)的機(jī)器學(xué)習(xí)方法是直接把蛋白質(zhì)的氨基酸序列映射到一個三維構(gòu)型上去,比基于物理或是統(tǒng)計的方法做得好一點(diǎn),但并沒有得到本質(zhì)上的改變,以至于大家認(rèn)為蛋白質(zhì)結(jié)構(gòu)問題沒辦法預(yù)測出來。
這段時間,很多人做不出新成果,申請研究經(jīng)費(fèi)也非常困難,陸陸續(xù)續(xù)從蛋白質(zhì)結(jié)構(gòu)預(yù)測轉(zhuǎn)向其他領(lǐng)域,比如RNA結(jié)構(gòu)預(yù)測、系統(tǒng)生物學(xué)等。
那種冷清直接反應(yīng)在人數(shù)上:CASP會場中不足兩百人,僅有新世紀(jì)初的三分之一。
許錦波的朋友也多次勸說他換個方向:憑他的能力,完全有機(jī)會在其他領(lǐng)域再起爐灶。
許錦波沒有動搖,他解釋說,“這和我的性格也有關(guān)系,而且我的團(tuán)隊一直不大,不想分散精力去管理一個大團(tuán)隊,做太多不同的方向?!?/p>
許錦波在豐田技術(shù)研究所任教時留影
一直到2014年,局面出現(xiàn)一線轉(zhuǎn)機(jī)。
2012年,深度學(xué)習(xí)開始在圖像識別領(lǐng)域展示出威力。許錦波很自然地想到,能不能用深度學(xué)習(xí)去做蛋白質(zhì)結(jié)構(gòu)預(yù)測。
2014年,許錦波設(shè)計了一種新的深度學(xué)習(xí)算法,從更為簡單的問題入手——預(yù)測蛋白質(zhì)的二級結(jié)構(gòu),即肽鏈主鏈骨架原子的空間位置排布,不涉及氨基酸殘基側(cè)鏈。測試發(fā)現(xiàn),深度學(xué)習(xí)對這個簡單問題有效。
這個時候,生物信息學(xué)領(lǐng)域里,只有極少數(shù)人關(guān)注到深度學(xué)習(xí)這一新的工具。
2015年和2016年,許錦波再次開發(fā)了一種更好的深度學(xué)習(xí)算法,可以直接用來預(yù)測蛋白質(zhì)的三維結(jié)構(gòu)。許錦波解釋道,“與能量最優(yōu)化的傳統(tǒng)方法不同,深度學(xué)習(xí)帶來的新思路是預(yù)測原子之間的相互作用關(guān)系?!?/p>
很多人對此后的事情并不陌生。
2016年暑假,許錦波開發(fā)出第一代人工智能方法RaptorX,證明了深度殘差卷積神經(jīng)網(wǎng)絡(luò)可以大幅度提高蛋白質(zhì)結(jié)構(gòu)預(yù)測的性能。
許錦波表示,“我們當(dāng)時預(yù)測的一個有兩百多個氨基酸的膜蛋白的結(jié)構(gòu),誤差大概是2.29個埃,已經(jīng)非常接近用實(shí)驗技術(shù)解出來的結(jié)構(gòu)的分辨率?!?/p>
2016年全球蛋白質(zhì)結(jié)構(gòu)預(yù)測比賽(CASP12),許錦波的這一方法震驚了在場人。這一年秋天,許錦波在自己的研究所召開了一個小型報告,邀請了芝加哥大學(xué)生物物理系合作者,共同探討研究成果。
其中一位是芝加哥大學(xué)生物物理系的博士后,在聽完許錦波報告后,全力轉(zhuǎn)向深度學(xué)習(xí)方法,并在一兩個月后加入Deepmind。他就是后來領(lǐng)導(dǎo)DeepMind團(tuán)隊,設(shè)計了AlphaFold人工智能系統(tǒng)的John Jumper博士。
John Jumper,被《Nature》評為2021年度十大科學(xué)人物
隨后,許錦波也將論文成果公布于網(wǎng)絡(luò),發(fā)布后的第一個月,即在領(lǐng)域內(nèi)引起了一波關(guān)注。
2017年1月,這篇論文正式發(fā)表于國際計算生物學(xué)的官方期刊 PLoS Computational Biology,并在2018年上半年拿到了該刊創(chuàng)新突破獎。
在2018年的CASP 13中,許錦波進(jìn)一步在比賽中驗證他的深度學(xué)習(xí)方法,激勵了蛋白質(zhì)結(jié)構(gòu)學(xué)界的許多研究小組,其中最具代表性的要屬DeepMind、Baker兩支團(tuán)隊,相繼推出了 AlphaFold2、RoseTTAFold等AI模型,將AI預(yù)測蛋白質(zhì)結(jié)構(gòu)的研究推向高潮。
許錦波也逐漸有了“AI預(yù)測蛋白質(zhì)結(jié)構(gòu)全球第一人”的稱號。
不過,這個成果本可以更早。因為2015年,許錦波就組織了學(xué)生去實(shí)現(xiàn)他的想法,但沒有成功。2016年初,騰出一些時間的許錦波開始親自寫代碼,直至七八月份完成初步成果。
還有一個小插曲是,這一成果最初投遞的是《Nature》子刊,但是審稿的編輯不太相信結(jié)果?!耙驗檫@個問題研究很多年了,一直沒有什么進(jìn)展,他不認(rèn)為我們能做得這么好。”事實(shí)上,無論是從方法還是成果上看,深度卷積殘差網(wǎng)絡(luò)都超前于時代。
所以,即便是跟隨許錦波多年的學(xué)生,或是權(quán)威雜志的審稿人,都很難理解他和他的成果。許錦波說,“當(dāng)時計算機(jī)科學(xué)背景的人都在扎堆做序列,研究結(jié)構(gòu)的非常少,所以很多結(jié)構(gòu)預(yù)測方面的成果不那么受重視。”不過,也有很多人成了許錦波“學(xué)術(shù)上的朋友”。
曾在1994年創(chuàng)辦CASP比賽,現(xiàn)任馬里蘭大學(xué)細(xì)胞生物學(xué)和分子遺傳學(xué)系教授的約翰·莫爾特,對許錦波的工作作出了肯定。
他評價道:“DeepMind在開發(fā)一種非常有效的方法方面做得很好。然而,這項工作背后的概念和方法并非憑空而來,關(guān)鍵技術(shù)是深度學(xué)習(xí)方法的應(yīng)用。毫無疑問,DeepMind直接建立在許錦波的工作之上?!?/p>
此外,2012年就轉(zhuǎn)向深度學(xué)習(xí),并在許錦波博士階段指導(dǎo)過他的許東(現(xiàn)密蘇里大學(xué)校董事會教授),對許錦波的工作寄予厚望:“錦波是蛋白質(zhì)結(jié)構(gòu)預(yù)測的少數(shù)且最重要的貢獻(xiàn)者之一。隨著蛋白質(zhì)結(jié)構(gòu)預(yù)測在更廣泛的領(lǐng)域中取得進(jìn)展,這一領(lǐng)域很可能再獲得諾貝爾獎的認(rèn)可?!?/p>
而許錦波的導(dǎo)師李明,更是毫不吝嗇對愛徒的贊賞,“他是我在職業(yè)生涯中遇到的最有才華、最杰出的學(xué)者之一?!?/p>
蛋白質(zhì)結(jié)構(gòu)預(yù)測的冷清已經(jīng)是過去式。2020年,AI預(yù)測蛋白質(zhì)結(jié)構(gòu),被國際頂級學(xué)術(shù)期刊《科學(xué)》雜志評為“十大科學(xué)突破之一”,2021年又被評為“十大科學(xué)突破之首”。
2021年8月,DeepMind公司在《Nature》上宣布,已將人類的98.5%的蛋白質(zhì)預(yù)測了一遍,計劃當(dāng)年年底將預(yù)測數(shù)量增加到1.3億個,達(dá)到人類已知蛋白質(zhì)總數(shù)的一半,并且公開了AlphaFold2的源代碼,免費(fèi)開源有關(guān)數(shù)據(jù)集,供全世界科研人員使用。
現(xiàn)任佐治亞大學(xué)校董事會教授的徐鷹,過去二十年來逐漸跳出蛋白質(zhì)研究,轉(zhuǎn)向了更接近實(shí)際問題的腫瘤生物學(xué)。看到越來越多工業(yè)力量的加入,他感嘆,“現(xiàn)在,AI技術(shù)已被應(yīng)用于各種與蛋白質(zhì)相關(guān)的問題,但這一切都有跡可循,離不開錦波多年來的堅持,他很善于用不同方法不斷改進(jìn)自己的研究工具?!?/p>
許錦波很樂于看到DeepMind繼承了他的思想。
“這種顛覆帶來的改變非常大,特別是改變了分子生物學(xué)家做研究的范式——以前分子生物學(xué)家研究一個蛋白質(zhì),都是基于氨基酸序列去研究蛋白質(zhì)的功能,但現(xiàn)在我們有了精確的結(jié)構(gòu)預(yù)測,分子學(xué)家可以直接基于預(yù)測出的結(jié)構(gòu)去研究蛋白質(zhì)的功能。”
被改變的,不僅僅是一種研究方式,更是一個產(chǎn)業(yè)的崛起。
互聯(lián)網(wǎng)巨頭如微軟、甲骨文、英偉達(dá)、亞馬遜,以及中國的騰訊、百度、字節(jié)跳動和華為等都在競相押注“AI for Science”。
許錦波認(rèn)為,“當(dāng)下的確是一個好時代。”
2021年年初,清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)的張亞勤找到許錦波,詢問其回國意向。2021年6月開始,許錦波陸續(xù)收到多方投資意向書。
很快,昌平國家實(shí)驗室的高毅勤教授(現(xiàn)任北京大學(xué)化學(xué)與分子工程學(xué)院教授)、謝曉亮教授(現(xiàn)北京大學(xué)生物醫(yī)學(xué)前沿創(chuàng)新中心主任)也找到許錦波。
兩位教授坦言,國內(nèi)學(xué)者評職稱與論文數(shù)量和影響因子強(qiáng)綁定,從事計算生物學(xué)的人比較吃虧,這個領(lǐng)域的學(xué)者太少;但如果以計算機(jī)學(xué)者的身份,更是吃虧。工業(yè)界薪酬高、待遇高,多數(shù)人想去大廠。即便是資格老的教授,門下無人的現(xiàn)象常有。
“你愿不愿意回來?”
這個問題更像是一種期盼。許錦波清楚,培養(yǎng)交叉型人才不是一個教授能推動的,但需要有人站出來。
高毅勤教授、謝曉亮教授
2021年9月,許錦波回國,將視野轉(zhuǎn)向應(yīng)用空間更大的AI蛋白質(zhì)優(yōu)化設(shè)計方向。
談及回國后的創(chuàng)業(yè)規(guī)劃,許錦波表示,“我希望打造一個有中國特色的計算生物學(xué),連接「 產(chǎn)學(xué)研用」,在創(chuàng)新藥研發(fā)、生物材料、合成生物學(xué)等領(lǐng)域做出一些真正有用的東西。”
他興致勃勃談到,“比如能否把一個抗體優(yōu)化得更好,使得它能夠跟抗原結(jié)合更好;或者設(shè)計一個自然界不存在的蛋白,用它來做藥或工業(yè)生產(chǎn),比如我們可以設(shè)計一些新的酶來提高工業(yè)催化的效率?!?/p>
2022年1月,許錦波的公司成立,取名為“分子之心”(MoleculeMind)。
此后,由許錦波牽頭,分子之心在國內(nèi)組建了一支25人左右的團(tuán)隊,其中不乏生物計算、計算機(jī)科學(xué)、生物化學(xué)物理等多學(xué)科背景的研究人員和工程師。
4月份,公司完成數(shù)千萬美元天使輪融資,由紅杉中國領(lǐng)投,百度風(fēng)投、生命園創(chuàng)投基金、芯航資本、未來啟創(chuàng)等跟投。
7月份,公司自主研發(fā)的AI大分子優(yōu)化與設(shè)計平臺“MoleculeOS”正式亮相,填補(bǔ)了我國尚沒有功能完整的AI蛋白質(zhì)設(shè)計和優(yōu)化平臺的空白。
8月份,AI蛋白預(yù)測完成三級進(jìn)化,全球首發(fā)孤兒蛋白預(yù)測新算法,進(jìn)一步擴(kuò)大了人類在蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域的探索效率和邊界。
如今,分子之心計劃與國外同行開展聯(lián)動,在全球范圍內(nèi)同步打造專業(yè)的研發(fā)實(shí)驗室,并持續(xù)尋找等各方面的優(yōu)秀人才。
作為全球人工智能和生命科學(xué)的交叉領(lǐng)域首屈一指的頂尖華人科學(xué)家,許錦波的社會責(zé)任是什么?
他有一句話,很能回答這個問題:“AI顛覆了蛋白質(zhì)結(jié)構(gòu)預(yù)測,但這只是一個開始。我希望打造出中國生物經(jīng)濟(jì)時代的基礎(chǔ)設(shè)施?!?/p>
分子之心MoleculeOS平臺框架圖誠然,如許錦波一樣,生活在二十世紀(jì)中后期的一些學(xué)者是幸運(yùn)的。他們有機(jī)會親身見證歷史的發(fā)生——70年代合成生物學(xué)誕生、80年代生物信息學(xué)誕生、90年代人類基因研究誕生、新世紀(jì)初基因測序成果誕生……如今,一個AI生命科學(xué)的時代到來。他們一生的探索都圍繞生命科學(xué)的話題,他們的激情與困惑,真誠與彷徨,成為這場科學(xué)探索中不可分割的一部分。幸也,李明、徐鷹、姜濤、潘毅、周耀旗、許東、許錦波,為生命真理的探索并未結(jié)束。
作者注:
1993年,中國參與人類基因組計劃,生物信息學(xué)科迎來大爆發(fā)。在近三十年的時間里,一大批生物、化學(xué)、物理、計算等專業(yè)的學(xué)者,前仆后繼加入到學(xué)科的產(chǎn)研建設(shè),那是一個靈感迸發(fā)、情誼綿長的年代,也是一個走出質(zhì)疑、迷茫的年代。目前,雷峰網(wǎng)(公眾號:雷峰網(wǎng))啟動《生物信息學(xué)的三十年往事》專題,陸續(xù)推出了李明、徐鷹、潘毅、周耀旗、許東、許錦波等新老學(xué)者的人物故事,記錄光輝歲月,以照后人之路。關(guān)于生物信息學(xué)的更多故事,歡迎與本文作者吳彤交流,微信號:icedaguniang
雷峰網(wǎng)雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。