「AI預(yù)測蛋白質(zhì)結(jié)構(gòu)第一人」許錦波：十年冷清終不渝，一個計算生物學(xué)的拓荒者

本文作者：任平

2022-10-26 10:30

導(dǎo)語：“就算博士幾年一點結(jié)果都做不出來也沒關(guān)系，大不了去硅谷寫代碼、當(dāng)碼農(nóng)?！?

許錦波的人生分水嶺是2016年秋天。

他提出的RaptorX-Contact方法，首次證明深度學(xué)習(xí)可以大幅提升蛋白質(zhì)結(jié)構(gòu)預(yù)測精度。

長期原地徘徊、進(jìn)步有限的研究領(lǐng)域終于邁出實質(zhì)性的一步，各界掀起了AI預(yù)測熱潮，無數(shù)公司獲得了進(jìn)入生命科學(xué)的時代入場券。

外界給他加封了一個頭銜：AI預(yù)測蛋白質(zhì)結(jié)構(gòu)全球第一人。

從2005年開始，許錦波就在芝加哥大學(xué)附屬的豐田技術(shù)研究所開展科研和教學(xué)工作。

這是一所受慈善捐助而成立的獨立計算機(jī)科學(xué)研究所。許錦波時間寬裕，每年的教學(xué)工作只有兩個月，很少受科研經(jīng)費困擾。能靜下心來做研究，是他留在那兒的重要原因。

2021年9月，許錦波回國創(chuàng)業(yè)。2022年1月，他的公司成立，取名為“分子之心”(MoleculeMind)。此后，由許錦波牽頭，分子之心在國內(nèi)組建了一支25人左右的團(tuán)隊，其中不乏生物計算、計算機(jī)科學(xué)、生物化學(xué)物理等多學(xué)科背景的研究人員和工程師。

4月份，公司完成數(shù)千萬美元天使輪融資。

關(guān)于許錦波和他二十多年來的研究故事，被凝練成一句話：從冷清走向熱鬧，從象牙塔走向聚光燈。

「AI預(yù)測蛋白質(zhì)結(jié)構(gòu)第一人」許錦波：十年冷清終不渝，一個計算生物學(xué)的拓荒者

金麟豈是池中物

1990年下半年，還在讀高三的許錦波，在全國高中數(shù)學(xué)聯(lián)賽中獲江西賽區(qū)第一名，成為江西臨川縣獲得該類獎項的第一人。競賽結(jié)果出來后，許錦波收到了國內(nèi)最好的五、六所大學(xué)發(fā)來的入學(xué)通知書。其中一封，就來自中國科學(xué)技術(shù)大學(xué)（下稱“中科大”）。

彼時，中科大經(jīng)過一系列的教學(xué)改革創(chuàng)新，在中外合作培養(yǎng)事業(yè)上取得了長足進(jìn)步，在國內(nèi)外聲譽(yù)鵲起，被《Nature》雜志撰文稱為“招風(fēng)的大樹”。

出生在安徽合肥的楊振寧更是多次訪問中科大，并擔(dān)任理學(xué)院名譽(yù)院長，倡導(dǎo)在中科大少年班中設(shè)立計算機(jī)軟件專業(yè)，推動中國計算機(jī)科學(xué)發(fā)展與國際水平接軌。

在老師和親朋的建議下，許錦波思索再三，對數(shù)學(xué)的熱愛轉(zhuǎn)移到理論研究上，便將志愿定為“中科大計算機(jī)科學(xué)技術(shù)系”，并選擇了更偏向理論研究的“計算機(jī)算法”專業(yè)。

雖然專業(yè)偏向理論，但許錦波先于多數(shù)同學(xué)上手代碼和實際項目。大三下學(xué)期（五年制），他在校外找了一份工作，在一家做金融服務(wù)軟件的美國公司（合肥辦公室），主要做美國股票分析系統(tǒng)的用戶界面。

90年代初，許錦波用的還是元老級的編程語言——Borland C/C++來開發(fā)項目，寫了多少行代碼，他已經(jīng)記不清，但寫代碼的能力卻得到了鍛煉。

他回憶道，“那時還沒有實習(xí)的想法，更多是想打工掙錢。當(dāng)然學(xué)校機(jī)房確實沒幾臺電腦，學(xué)校更強(qiáng)調(diào)把基礎(chǔ)打牢，四大力學(xué)是必修課?！?/p>

抱著深造的目的，許錦波決定碩士研究計算機(jī)的另一分支——計算機(jī)系統(tǒng) 。用他自己的話講，“當(dāng)時想學(xué)怎么造計算機(jī)?！?/p>

1996年，許錦波進(jìn)入中國科學(xué)院計算技術(shù)研究所（下稱“中科院計算所”）。在那里，許錦波結(jié)緣中科院一支高性能計算研究組——曙光組。

90年代初，時任國家智能計算機(jī)研究開發(fā)中心主任的李國杰，帶著一支沒有設(shè)計經(jīng)驗的隊伍，承擔(dān)了研發(fā)“超級計算機(jī)”的重任。就在許錦波到來的前一年，曙光組做出一個重要決定：863計劃下一個目標(biāo)產(chǎn)品曙光2000，不再沿著計劃原定的“超級計算機(jī)”方向走，而是轉(zhuǎn)向研制“超級服務(wù)器”。

「AI預(yù)測蛋白質(zhì)結(jié)構(gòu)第一人」許錦波：十年冷清終不渝，一個計算生物學(xué)的拓荒者

李國杰（身穿深色襯衣者）

兩者區(qū)別在于，超級計算機(jī)主要用于科學(xué)工程計算，從計算速度上追趕國際先進(jìn)水平。而超級服務(wù)器是更加通用的高端計算機(jī)，除科學(xué)計算外，更多地用于事務(wù)處理與網(wǎng)絡(luò)服務(wù)。

這一決策也影響了許錦波后面的研究方向。

三年里，許錦波的重心放在了“分布式系統(tǒng)以及計算機(jī)安全”，陸續(xù)參與了曙光組的前沿項目，如虛擬主機(jī)系統(tǒng)、高可靠性系統(tǒng)等工程化項目。

他的朋友以及合作者對他的評價是：無需助手，能獨立進(jìn)行一項課題，獨立用算法實現(xiàn)一系列想法。這種能力，很大程度上得益于這段工作經(jīng)歷。

許錦波說，“代碼能力將成為不可忽視的底層能力，不僅是計算機(jī)專業(yè)要這么做，每一個理工人都要視其為基本功?！?/p>

一悟歸身處，何山路不通

1999年，南斯拉夫大使館事件讓中美關(guān)系陷入僵局。轉(zhuǎn)去加拿大，成了當(dāng)時很多人求學(xué)和任教的共同選擇。許錦波也是如此。

這一年，他去往加拿大南部腹地的大學(xué)——滑鐵盧大學(xué)（臨近多倫多），繼續(xù)攻讀計算機(jī)科學(xué)系。

在許錦波入校前，學(xué)校指派了一位做并行算法的印度裔教授Prabhakar Ragde為其導(dǎo)師。這位導(dǎo)師指導(dǎo)寬松，第一年，許錦波涉獵各個領(lǐng)域的論文，找感興趣的科研方向。

「AI預(yù)測蛋白質(zhì)結(jié)構(gòu)第一人」許錦波：十年冷清終不渝，一個計算生物學(xué)的拓荒者

Prabhakar Ragde教授

2001年上半年，人類基因組計劃(HGP)比原計劃提前兩年完成，歷時11年的多國合作項目落下帷幕，隨即進(jìn)入了“功能基因組學(xué)”時代，研究的重心由基因組的“結(jié)構(gòu)”向基因的“功能”，也就是向蛋白組學(xué)轉(zhuǎn)移。

學(xué)術(shù)界一個明顯趨勢是，越來越多的學(xué)者愿意用計算機(jī)科學(xué)解決一些實際的生物學(xué)問題。兩個學(xué)科的結(jié)合越來越緊密，直至融合形成一個新興學(xué)科——計算生物學(xué)。

許錦波深受鼓舞，抱著試試看的心情，他毛遂自薦轉(zhuǎn)入方向更為契合的滑鐵盧大學(xué)李明教授組里。

為何轉(zhuǎn)入李明門下？

實際上，許錦波本碩就讀時，李明曾先后到中科大和計算所做過兩次講座，當(dāng)時李明已憑借Kolmogorov復(fù)雜性、不可壓縮方法、信息距離理論等研究，享譽(yù)計算機(jī)科學(xué)界。

1990年，李明做出了長度為O(n log n) 的超串來逼近長度為n的最短超串，成果發(fā)表至計算機(jī)科學(xué)領(lǐng)域的頂級會議期刊FOCS。

一年后，李明找到在加拿大麥克馬斯特大學(xué)任教的姜濤，以及從荷蘭來的訪問學(xué)生John Tromp，合作鉆研最短超串（shortest superstring)解決法。

正在此時，三人發(fā)現(xiàn)MIT的Avrim Blum、貝爾實驗室的Mihalis Yannakakis，也在鉆研這一問題，并且也獨立得到了修改過的貪婪算法線性解。最后，五人合作發(fā)布了一篇STOC論文《 Linear approximation of shortest superstrings》。

后來，這一證明被收錄至眾多計算生物教科書中。

因此，在許錦波轉(zhuǎn)入其門下時，李明已經(jīng)成為生物信息學(xué)的一位大家。

按理說，李明在停薪留職期間不收學(xué)生，但他欣賞這位后生，兩人都畢業(yè)于中科院計算所，說起來師出同門。于是，李明從Prabhakar Ragde那里要來了許錦波，算是合作培養(yǎng)。

2001年，許錦波正式做起了計算生物學(xué)。初次接觸，李明對許錦波說，“有一個很難的問題，研究蛋白質(zhì)折疊，想不想做？”

「AI預(yù)測蛋白質(zhì)結(jié)構(gòu)第一人」許錦波：十年冷清終不渝，一個計算生物學(xué)的拓荒者

李明教授

那時候，學(xué)界已經(jīng)研究了四十年的蛋白質(zhì)結(jié)構(gòu)問題，一直難有大突破。李明也從未將此課題向任何學(xué)生提及，甚至他自己也未涉足這一課題。

許錦波為什么愿意接手？

多年后，他回憶起這個決定：“我們選擇研究課題的時候，通常要選擇一些比較重要和困難的問題，如果問題不重要，就沒必要花時間研究；如果問題不難，幾年之內(nèi)就被別人做出來，也沒有多大意義。”

對27歲的許錦波來說，接下導(dǎo)師拋過來的這一選題，也意味著他要進(jìn)行一次大范圍的自我轉(zhuǎn)變。不過，許錦波也不覺得這是明顯的換方向，仍然是用計算的方法解決問題，只不過對象換成了生物學(xué)。

不過，緊接著他又補(bǔ)了一句，“就算博士幾年一點結(jié)果都做不出來也沒關(guān)系，大不了去硅谷寫代碼、當(dāng)碼農(nóng)?！?/p>

許錦波說的不無道理。

加拿大最早成立計算機(jī)科學(xué)系，就在滑鐵盧大學(xué)。而該系所屬的二級學(xué)院，正是加拿大唯一且全球最大規(guī)模的獨立數(shù)學(xué)院——滑鐵盧數(shù)學(xué)院。作為數(shù)學(xué)院最具傳奇色彩的計算機(jī)科學(xué)系，微軟、谷歌、Facebook早早就來搶未畢業(yè)的學(xué)生。

決定從一個非常熱門的領(lǐng)域跳出來，去做生物學(xué)研究，無論對誰來說都需要很大的勇氣。

許錦波也沒想到，這次轉(zhuǎn)變將影響他一生的科研方向：在此后的二十余年時間里，他的任務(wù)就是開發(fā)和優(yōu)化算法，去無限縮小蛋白質(zhì)結(jié)構(gòu)預(yù)測結(jié)果和真實構(gòu)型之間的差距。

不過，開始研究生物學(xué)問題的半年時間，許錦波就很痛苦，“論文專業(yè)術(shù)語都看不懂，也沒人可以問?！?/p>

許錦波坦言，當(dāng)時他只有高中的一點點生物知識?；F盧大學(xué)是強(qiáng)理工科背景，僅有一個很小的生物系，他跟生物系教授沒有很多交流。此外，導(dǎo)師李明還在加州學(xué)術(shù)休假，不像現(xiàn)在發(fā)個微信就可以交流，師生二人兩個月才能見一次面。

那段時間，許錦波只能靠自己去啃論文，除了吃飯睡覺全是做科研。

“可能和大家印象中的科研形象不一樣”，許錦波笑著說到，“一個生物學(xué)家的實驗室是各種試管和試劑，但作為計算生物學(xué)家，全部的科研工作都在一臺電腦上完成。”

「AI預(yù)測蛋白質(zhì)結(jié)構(gòu)第一人」許錦波：十年冷清終不渝，一個計算生物學(xué)的拓荒者

左圖為生物學(xué)家實驗室，右圖為許錦波實驗室

這也詮釋了計算生物學(xué)領(lǐng)域的研究手段，既有傳統(tǒng)的生物實驗，即濕實驗；也有包括計算手段在內(nèi)的數(shù)學(xué)建模、數(shù)值仿真、數(shù)據(jù)分析，或是機(jī)器學(xué)習(xí)，即干實驗。

和傳統(tǒng)的濕實驗相比，干實驗最大優(yōu)勢即不需要特別大的經(jīng)費投入，其次是比較靈活，可以隨時開展一個新的研究項目。

那段時間，許錦波沿用一種干實驗方法研究蛋白質(zhì)折疊——能量優(yōu)化。

他解釋到，安芬森法則是蛋白質(zhì)結(jié)構(gòu)預(yù)測的基石。在安芬森這個假設(shè)和理論基礎(chǔ)之下，科學(xué)家們?nèi)プ龅鞍踪|(zhì)折疊預(yù)測，都是從能量優(yōu)化的角度去做。如果將這種方法教給計算機(jī)，就可以一步步優(yōu)化能量，從而達(dá)到預(yù)測蛋白質(zhì)結(jié)構(gòu)的目的。

2002年，李明學(xué)術(shù)休假結(jié)束，回到滑鐵盧，許錦波馬上告訴了他一個好消息，“馬上要開始今年的CASP（全球蛋白質(zhì)結(jié)構(gòu)預(yù)測比賽）了，我們也去參加?！?/p>

結(jié)果是，許錦波在全自動高通量蛋白質(zhì)結(jié)構(gòu)預(yù)測的評比中一舉奪冠。

不過，許錦波認(rèn)為，“雖然排名最好，但不是大的突破，因為預(yù)測結(jié)果并不比以前的方法好很多?！?/p>

他重新梳理那一年來的工作，發(fā)現(xiàn)這一思路有著天然缺陷。

“第一，一個蛋白質(zhì)是一個非常大的體系，由成千上萬個原子組成，對應(yīng)一個非常巨大的搜索空間，構(gòu)型是千變?nèi)f化的。第二，雖然說大家普遍接受蛋白質(zhì)折疊到最小能量狀態(tài)，但能量函數(shù)到底是什么樣的？我們本身就對能量函數(shù)的理解還不是特別好?！?/p>

在當(dāng)時一大批學(xué)者紛紛比拼更好的能量優(yōu)化方法之際，許錦波站在了這一方法的對面：把生物學(xué)問題當(dāng)成純粹的算法問題，或許并不能從根本上解決問題。

“傳統(tǒng)的能量優(yōu)化方法可能不是一個很好的路徑?！?/p>

十年磨一劍，霜刃未曾試

2003年，許錦波博士畢業(yè)后計劃赴美，開啟博士后工作。

然而，受2001年9月11日恐怖襲擊影響，美國政府一度收緊了赴美學(xué)生簽證，許錦波的簽證一直處于被審查狀態(tài)。

無奈之下，許錦波選擇暫留本校任教，一邊做助理教授，一邊等待簽證過審。

這也讓許錦波錯失了拜入徐鷹（時任佐治亞大學(xué)生物信息系主任）門下的重要機(jī)會。而導(dǎo)師李明曾推薦他去哈佛，最終也不了了之。

等待的時間里，許錦波做了一個新問題——蛋白質(zhì)的側(cè)鏈結(jié)構(gòu)預(yù)測。

那時，學(xué)術(shù)界對蛋白質(zhì)結(jié)構(gòu)預(yù)測的研究重心是主鏈蛋白，許錦波博士期間的精力便集中于此。

為何從側(cè)鏈下手？這是因為，蛋白質(zhì)三維結(jié)構(gòu)由主鏈和側(cè)鏈共同搭建而成，算法預(yù)測蛋白質(zhì)結(jié)構(gòu)的步驟，是先以蛋白質(zhì)主鏈建模，再根據(jù)主鏈的構(gòu)象為側(cè)鏈建模。

自然界中的蛋白質(zhì)含有20種氨基酸，它們的主鏈幾乎完全相同，而側(cè)鏈差異很大。因此，精準(zhǔn)的蛋白質(zhì)側(cè)鏈建模對蛋白質(zhì)折疊和蛋白質(zhì)設(shè)計至關(guān)重要。

簽證背調(diào)用了近一年時間，許錦波也在這個方向上投入了近一年時間。

他并沒有沿用當(dāng)時學(xué)界的主流方法，通過SCWRL軟件做近似優(yōu)化，而是將圖論算法引入側(cè)鏈結(jié)構(gòu)預(yù)測，成功地將側(cè)鏈結(jié)構(gòu)預(yù)測的時間，從十幾個小時縮短至幾分鐘。除了速度提高了上百倍外，新方法還可用于構(gòu)象復(fù)雜性更高的蛋白結(jié)構(gòu)。

“這算得上是側(cè)鏈結(jié)構(gòu)預(yù)測中，第一個不需要完全暴力運算的算法?！?/p>

2004年，許錦波將成果投遞于RECOMB（國際計算分子生物學(xué)大會）。這是與ISMB（國際計算生物學(xué)會）齊名的計算生物學(xué)兩大頂級會議之一，會議從1997年開始舉辦，自2003年后投稿數(shù)量開始增加，接收率降低到20%左右。

此后很多年，許錦波陸續(xù)在RECOMB會議上分享過多次研究成果，并獲得了諸多獎項，如2009年最佳海報獎、2014年最佳論文獎、2019年時間檢驗獎。

許錦波印象最深的，還是2004年第一次投遞RECOMB。他記得，2004年上半年，自己的簽證終于過審。于是馬上動身前往MIT，開始了博士后生涯。2005年，該論文被RECOMB順利接收，許錦波被邀請前往波士頓做會議報告。

在那時，這一成果并沒有受到很多生物學(xué)家的關(guān)注，這和學(xué)術(shù)圈里的一個規(guī)律有關(guān)。

許錦波解釋道，“一般而言，多數(shù)生物學(xué)家認(rèn)為期刊論文更有價值，但在計算機(jī)領(lǐng)域，科研成果有很高的時效性，投稿一般都選擇學(xué)術(shù)會議，便于和同行交流?！?/p>

拿當(dāng)下最熱的深度學(xué)習(xí)來說，2014年AlexNet算是第一個大獲全勝的DL模型，距今僅8年時間，已經(jīng)變成了公認(rèn)的老古董。大約同年，生成對抗網(wǎng)絡(luò)GAN出現(xiàn)。截至目前，起碼有幾百種能叫上來名字的GAN變種。

2015年，物體檢測領(lǐng)域R-CNN被提出，深度學(xué)習(xí)正式攻陷此領(lǐng)域，之后fast-RCNN、faster-RCNN、YOLO、SSD、mask-RCNN，幾乎每年都有重大突破。

因此，計算機(jī)領(lǐng)域日新月異的發(fā)展特性，決定了重要結(jié)果幾乎先在會議上分享，其次才會在期刊里發(fā)表會議文章的擴(kuò)充版本。

許錦波不知道的是，就在報告現(xiàn)場，他的成果吸引了一個人的特別關(guān)注。

幾天后，許錦波收到了一封郵件，邀請他將成果整理為期刊論文發(fā)表，落款是時任Journal of the ACM（計算機(jī)科學(xué)領(lǐng)域頂級期刊）的德國編委，Thomas Lengauer。

「AI預(yù)測蛋白質(zhì)結(jié)構(gòu)第一人」許錦波：十年冷清終不渝，一個計算生物學(xué)的拓荒者

Thomas Lengauer教授

曾于2018年至2021年擔(dān)任國際計算生物學(xué)學(xué)會主席的Lengauer，與許錦波的經(jīng)歷相似。

自20世紀(jì)90年代初以來，Lengauer的研究重點從理論計算機(jī)轉(zhuǎn)向計算生物學(xué)，其中一個研究方向就是蛋白質(zhì)結(jié)構(gòu)和功能預(yù)測。2001年后，他一直擔(dān)任馬克斯普朗克信息學(xué)研究所（MPlI，位于德國）計算生物學(xué)和應(yīng)用算法部主任。

而當(dāng)時他所擔(dān)任編委的JACM，正是ACM (Association for Computing Machinery，國際計算機(jī)學(xué)會) 的官方刊物，遴選標(biāo)準(zhǔn)極為苛刻，只刊登對計算機(jī)科學(xué)有長遠(yuǎn)影響的論文，理論偏向性很重。成立至今的68年里，僅發(fā)表了3000篇論文，平均一年不到50篇。

收到來信后，許錦波馬上在論文中加入了一些理論結(jié)果，并于2005年投遞于JACM。

而這一意外之舉，直接將許錦波的命運向前推了一把。在此之后，許錦波的研究得到了計算機(jī)學(xué)者、生物學(xué)者、以及計算生物學(xué)家等更多人的支持，為他留美任教埋下了重要伏筆。

2005年，許錦波去往芝加哥大學(xué)附屬的豐田技術(shù)研究所（另譯：豐田工大芝加哥分校，TTIC，Toyota Technological Institute Chicago）任教。

TTIC是豐田工業(yè)大學(xué)與芝加哥大學(xué)共建的獨立計算機(jī)科學(xué)研究所，于2003年9月正式運營，目前僅13名正式教授。

與眾多高校不同的是，該研究所成立之初曾獲2.6億美元捐助，資金充足、支持力度大，可以支付大部分科研經(jīng)費。

21世紀(jì)初，機(jī)器學(xué)習(xí)還沒有邁入黃金時期，該研究所便意識到機(jī)器學(xué)習(xí)的價值，將其作為研究方向之首。此后，許錦波的研究方法逐漸從能量優(yōu)化轉(zhuǎn)換為機(jī)器學(xué)習(xí)，便是受研究所影響。

許錦波表示，傳統(tǒng)的機(jī)器學(xué)習(xí)方法是直接把蛋白質(zhì)的氨基酸序列映射到一個三維構(gòu)型上去，比基于物理或是統(tǒng)計的方法做得好一點，但并沒有得到本質(zhì)上的改變，以至于大家認(rèn)為蛋白質(zhì)結(jié)構(gòu)問題沒辦法預(yù)測出來。

這段時間，很多人做不出新成果，申請研究經(jīng)費也非常困難，陸陸續(xù)續(xù)從蛋白質(zhì)結(jié)構(gòu)預(yù)測轉(zhuǎn)向其他領(lǐng)域，比如RNA結(jié)構(gòu)預(yù)測、系統(tǒng)生物學(xué)等。

那種冷清直接反應(yīng)在人數(shù)上：CASP會場中不足兩百人，僅有新世紀(jì)初的三分之一。

許錦波的朋友也多次勸說他換個方向：憑他的能力，完全有機(jī)會在其他領(lǐng)域再起爐灶。

許錦波沒有動搖，他解釋說，“這和我的性格也有關(guān)系，而且我的團(tuán)隊一直不大，不想分散精力去管理一個大團(tuán)隊，做太多不同的方向?！?/p>

「AI預(yù)測蛋白質(zhì)結(jié)構(gòu)第一人」許錦波：十年冷清終不渝，一個計算生物學(xué)的拓荒者

許錦波在豐田技術(shù)研究所任教時留影

一直到2014年，局面出現(xiàn)一線轉(zhuǎn)機(jī)。

2012年，深度學(xué)習(xí)開始在圖像識別領(lǐng)域展示出威力。許錦波很自然地想到，能不能用深度學(xué)習(xí)去做蛋白質(zhì)結(jié)構(gòu)預(yù)測。

2014年，許錦波設(shè)計了一種新的深度學(xué)習(xí)算法，從更為簡單的問題入手——預(yù)測蛋白質(zhì)的二級結(jié)構(gòu)，即肽鏈主鏈骨架原子的空間位置排布，不涉及氨基酸殘基側(cè)鏈。測試發(fā)現(xiàn)，深度學(xué)習(xí)對這個簡單問題有效。

這個時候，生物信息學(xué)領(lǐng)域里，只有極少數(shù)人關(guān)注到深度學(xué)習(xí)這一新的工具。

2015年和2016年，許錦波再次開發(fā)了一種更好的深度學(xué)習(xí)算法，可以直接用來預(yù)測蛋白質(zhì)的三維結(jié)構(gòu)。許錦波解釋道，“與能量最優(yōu)化的傳統(tǒng)方法不同，深度學(xué)習(xí)帶來的新思路是預(yù)測原子之間的相互作用關(guān)系。”

很多人對此后的事情并不陌生。

2016年暑假，許錦波開發(fā)出第一代人工智能方法RaptorX，證明了深度殘差卷積神經(jīng)網(wǎng)絡(luò)可以大幅度提高蛋白質(zhì)結(jié)構(gòu)預(yù)測的性能。

許錦波表示，“我們當(dāng)時預(yù)測的一個有兩百多個氨基酸的膜蛋白的結(jié)構(gòu)，誤差大概是2.29個埃，已經(jīng)非常接近用實驗技術(shù)解出來的結(jié)構(gòu)的分辨率。”

2016年全球蛋白質(zhì)結(jié)構(gòu)預(yù)測比賽（CASP12），許錦波的這一方法震驚了在場人。這一年秋天，許錦波在自己的研究所召開了一個小型報告，邀請了芝加哥大學(xué)生物物理系合作者，共同探討研究成果。

其中一位是芝加哥大學(xué)生物物理系的博士后，在聽完許錦波報告后，全力轉(zhuǎn)向深度學(xué)習(xí)方法，并在一兩個月后加入Deepmind。他就是后來領(lǐng)導(dǎo)DeepMind團(tuán)隊，設(shè)計了AlphaFold人工智能系統(tǒng)的John Jumper博士。

「AI預(yù)測蛋白質(zhì)結(jié)構(gòu)第一人」許錦波：十年冷清終不渝，一個計算生物學(xué)的拓荒者

John Jumper，被《Nature》評為2021年度十大科學(xué)人物

隨后，許錦波也將論文成果公布于網(wǎng)絡(luò)，發(fā)布后的第一個月，即在領(lǐng)域內(nèi)引起了一波關(guān)注。

2017年1月，這篇論文正式發(fā)表于國際計算生物學(xué)的官方期刊 PLoS Computational Biology，并在2018年上半年拿到了該刊創(chuàng)新突破獎。

在2018年的CASP 13中，許錦波進(jìn)一步在比賽中驗證他的深度學(xué)習(xí)方法，激勵了蛋白質(zhì)結(jié)構(gòu)學(xué)界的許多研究小組，其中最具代表性的要屬DeepMind、Baker兩支團(tuán)隊，相繼推出了 AlphaFold2、RoseTTAFold等AI模型，將AI預(yù)測蛋白質(zhì)結(jié)構(gòu)的研究推向高潮。

許錦波也逐漸有了“AI預(yù)測蛋白質(zhì)結(jié)構(gòu)全球第一人”的稱號。

不過，這個成果本可以更早。因為2015年，許錦波就組織了學(xué)生去實現(xiàn)他的想法，但沒有成功。2016年初，騰出一些時間的許錦波開始親自寫代碼，直至七八月份完成初步成果。

還有一個小插曲是，這一成果最初投遞的是《Nature》子刊，但是審稿的編輯不太相信結(jié)果。“因為這個問題研究很多年了，一直沒有什么進(jìn)展，他不認(rèn)為我們能做得這么好。”事實上，無論是從方法還是成果上看，深度卷積殘差網(wǎng)絡(luò)都超前于時代。

所以，即便是跟隨許錦波多年的學(xué)生，或是權(quán)威雜志的審稿人，都很難理解他和他的成果。許錦波說，“當(dāng)時計算機(jī)科學(xué)背景的人都在扎堆做序列，研究結(jié)構(gòu)的非常少，所以很多結(jié)構(gòu)預(yù)測方面的成果不那么受重視?！辈贿^，也有很多人成了許錦波“學(xué)術(shù)上的朋友”。

曾在1994年創(chuàng)辦CASP比賽，現(xiàn)任馬里蘭大學(xué)細(xì)胞生物學(xué)和分子遺傳學(xué)系教授的約翰·莫爾特，對許錦波的工作作出了肯定。

他評價道：“DeepMind在開發(fā)一種非常有效的方法方面做得很好。然而，這項工作背后的概念和方法并非憑空而來，關(guān)鍵技術(shù)是深度學(xué)習(xí)方法的應(yīng)用。毫無疑問，DeepMind直接建立在許錦波的工作之上?！?/p>

此外，2012年就轉(zhuǎn)向深度學(xué)習(xí)，并在許錦波博士階段指導(dǎo)過他的許東（現(xiàn)密蘇里大學(xué)校董事會教授），對許錦波的工作寄予厚望：“錦波是蛋白質(zhì)結(jié)構(gòu)預(yù)測的少數(shù)且最重要的貢獻(xiàn)者之一。隨著蛋白質(zhì)結(jié)構(gòu)預(yù)測在更廣泛的領(lǐng)域中取得進(jìn)展，這一領(lǐng)域很可能再獲得諾貝爾獎的認(rèn)可?！?/p>

而許錦波的導(dǎo)師李明，更是毫不吝嗇對愛徒的贊賞，“他是我在職業(yè)生涯中遇到的最有才華、最杰出的學(xué)者之一?！?/p>

一木不成林，百花方為春

蛋白質(zhì)結(jié)構(gòu)預(yù)測的冷清已經(jīng)是過去式。2020年，AI預(yù)測蛋白質(zhì)結(jié)構(gòu)，被國際頂級學(xué)術(shù)期刊《科學(xué)》雜志評為“十大科學(xué)突破之一”，2021年又被評為“十大科學(xué)突破之首”。

2021年8月，DeepMind公司在《Nature》上宣布，已將人類的98.5%的蛋白質(zhì)預(yù)測了一遍，計劃當(dāng)年年底將預(yù)測數(shù)量增加到1.3億個，達(dá)到人類已知蛋白質(zhì)總數(shù)的一半，并且公開了AlphaFold2的源代碼，免費開源有關(guān)數(shù)據(jù)集，供全世界科研人員使用。

現(xiàn)任佐治亞大學(xué)校董事會教授的徐鷹，過去二十年來逐漸跳出蛋白質(zhì)研究，轉(zhuǎn)向了更接近實際問題的腫瘤生物學(xué)?？吹皆絹碓蕉喙I(yè)力量的加入，他感嘆，“現(xiàn)在，AI技術(shù)已被應(yīng)用于各種與蛋白質(zhì)相關(guān)的問題，但這一切都有跡可循，離不開錦波多年來的堅持，他很善于用不同方法不斷改進(jìn)自己的研究工具?！?/p>

許錦波很樂于看到DeepMind繼承了他的思想。

“這種顛覆帶來的改變非常大，特別是改變了分子生物學(xué)家做研究的范式——以前分子生物學(xué)家研究一個蛋白質(zhì)，都是基于氨基酸序列去研究蛋白質(zhì)的功能，但現(xiàn)在我們有了精確的結(jié)構(gòu)預(yù)測，分子學(xué)家可以直接基于預(yù)測出的結(jié)構(gòu)去研究蛋白質(zhì)的功能。”

被改變的，不僅僅是一種研究方式，更是一個產(chǎn)業(yè)的崛起。

互聯(lián)網(wǎng)巨頭如微軟、甲骨文、英偉達(dá)、亞馬遜，以及中國的騰訊、百度、字節(jié)跳動和華為等都在競相押注“AI for Science”。

許錦波認(rèn)為，“當(dāng)下的確是一個好時代。”

2021年年初，清華大學(xué)智能產(chǎn)業(yè)研究院（AIR）的張亞勤找到許錦波，詢問其回國意向。2021年6月開始，許錦波陸續(xù)收到多方投資意向書。

很快，昌平國家實驗室的高毅勤教授（現(xiàn)任北京大學(xué)化學(xué)與分子工程學(xué)院教授）、謝曉亮教授（現(xiàn)北京大學(xué)生物醫(yī)學(xué)前沿創(chuàng)新中心主任）也找到許錦波。

兩位教授坦言，國內(nèi)學(xué)者評職稱與論文數(shù)量和影響因子強(qiáng)綁定，從事計算生物學(xué)的人比較吃虧，這個領(lǐng)域的學(xué)者太少；但如果以計算機(jī)學(xué)者的身份，更是吃虧。工業(yè)界薪酬高、待遇高，多數(shù)人想去大廠。即便是資格老的教授，門下無人的現(xiàn)象常有。

“你愿不愿意回來？”

這個問題更像是一種期盼。許錦波清楚，培養(yǎng)交叉型人才不是一個教授能推動的，但需要有人站出來。

「AI預(yù)測蛋白質(zhì)結(jié)構(gòu)第一人」許錦波：十年冷清終不渝，一個計算生物學(xué)的拓荒者

高毅勤教授、謝曉亮教授

2021年9月，許錦波回國，將視野轉(zhuǎn)向應(yīng)用空間更大的AI蛋白質(zhì)優(yōu)化設(shè)計方向。

談及回國后的創(chuàng)業(yè)規(guī)劃，許錦波表示，“我希望打造一個有中國特色的計算生物學(xué)，連接「產(chǎn)學(xué)研用」，在創(chuàng)新藥研發(fā)、生物材料、合成生物學(xué)等領(lǐng)域做出一些真正有用的東西?！?/p>

他興致勃勃談到，“比如能否把一個抗體優(yōu)化得更好，使得它能夠跟抗原結(jié)合更好；或者設(shè)計一個自然界不存在的蛋白，用它來做藥或工業(yè)生產(chǎn)，比如我們可以設(shè)計一些新的酶來提高工業(yè)催化的效率。”

2022年1月，許錦波的公司成立，取名為“分子之心”(MoleculeMind)。

此后，由許錦波牽頭，分子之心在國內(nèi)組建了一支25人左右的團(tuán)隊，其中不乏生物計算、計算機(jī)科學(xué)、生物化學(xué)物理等多學(xué)科背景的研究人員和工程師。

4月份，公司完成數(shù)千萬美元天使輪融資，由紅杉中國領(lǐng)投，百度風(fēng)投、生命園創(chuàng)投基金、芯航資本、未來啟創(chuàng)等跟投。

7月份，公司自主研發(fā)的AI大分子優(yōu)化與設(shè)計平臺“MoleculeOS”正式亮相，填補(bǔ)了我國尚沒有功能完整的AI蛋白質(zhì)設(shè)計和優(yōu)化平臺的空白。

8月份，AI蛋白預(yù)測完成三級進(jìn)化，全球首發(fā)孤兒蛋白預(yù)測新算法，進(jìn)一步擴(kuò)大了人類在蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域的探索效率和邊界。

如今，分子之心計劃與國外同行開展聯(lián)動，在全球范圍內(nèi)同步打造專業(yè)的研發(fā)實驗室，并持續(xù)尋找等各方面的優(yōu)秀人才。

作為全球人工智能和生命科學(xué)的交叉領(lǐng)域首屈一指的頂尖華人科學(xué)家，許錦波的社會責(zé)任是什么？

他有一句話，很能回答這個問題：“AI顛覆了蛋白質(zhì)結(jié)構(gòu)預(yù)測，但這只是一個開始。我希望打造出中國生物經(jīng)濟(jì)時代的基礎(chǔ)設(shè)施。”

「AI預(yù)測蛋白質(zhì)結(jié)構(gòu)第一人」許錦波：十年冷清終不渝，一個計算生物學(xué)的拓荒者

分子之心MoleculeOS平臺框架圖誠然，如許錦波一樣，生活在二十世紀(jì)中后期的一些學(xué)者是幸運的。他們有機(jī)會親身見證歷史的發(fā)生——70年代合成生物學(xué)誕生、80年代生物信息學(xué)誕生、90年代人類基因研究誕生、新世紀(jì)初基因測序成果誕生……如今，一個AI生命科學(xué)的時代到來。他們一生的探索都圍繞生命科學(xué)的話題，他們的激情與困惑，真誠與彷徨，成為這場科學(xué)探索中不可分割的一部分。幸也，李明、徐鷹、姜濤、潘毅、周耀旗、許東、許錦波，為生命真理的探索并未結(jié)束。

「AI預(yù)測蛋白質(zhì)結(jié)構(gòu)第一人」許錦波：十年冷清終不渝，一個計算生物學(xué)的拓荒者

作者注：

1993年，中國參與人類基因組計劃，生物信息學(xué)科迎來大爆發(fā)。在近三十年的時間里，一大批生物、化學(xué)、物理、計算等專業(yè)的學(xué)者，前仆后繼加入到學(xué)科的產(chǎn)研建設(shè)，那是一個靈感迸發(fā)、情誼綿長的年代，也是一個走出質(zhì)疑、迷茫的年代。目前，雷峰網(wǎng)啟動《生物信息學(xué)的三十年往事》專題，陸續(xù)推出了李明、徐鷹、潘毅、周耀旗、許東、許錦波等新老學(xué)者的人物故事，記錄光輝歲月，以照后人之路。關(guān)于生物信息學(xué)的更多故事，歡迎與本文作者吳彤交流，微信號：icedaguniang

雷峰網(wǎng)(公眾號：雷峰網(wǎng))雷峰網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章