0
本文作者: 任平 | 2022-10-26 10:30 |
許錦波的人生分水嶺是2016年秋天。
他提出的RaptorX-Contact方法,首次證明深度學習可以大幅提升蛋白質結構預測精度。
長期原地徘徊、進步有限的研究領域終于邁出實質性的一步,各界掀起了AI預測熱潮,無數(shù)公司獲得了進入生命科學的時代入場券。
外界給他加封了一個頭銜:AI預測蛋白質結構全球第一人。
從2005年開始,許錦波就在芝加哥大學附屬的豐田技術研究所開展科研和教學工作。
這是一所受慈善捐助而成立的獨立計算機科學研究所。許錦波時間寬裕,每年的教學工作只有兩個月,很少受科研經(jīng)費困擾。能靜下心來做研究,是他留在那兒的重要原因。
2021年9月,許錦波回國創(chuàng)業(yè)。2022年1月,他的公司成立,取名為“分子之心”(MoleculeMind)。此后,由許錦波牽頭,分子之心在國內組建了一支25人左右的團隊,其中不乏生物計算、計算機科學、生物化學物理等多學科背景的研究人員和工程師。
4月份,公司完成數(shù)千萬美元天使輪融資。
關于許錦波和他二十多年來的研究故事,被凝練成一句話:從冷清走向熱鬧,從象牙塔走向聚光燈。
1990年下半年,還在讀高三的許錦波,在全國高中數(shù)學聯(lián)賽中獲江西賽區(qū)第一名,成為江西臨川縣獲得該類獎項的第一人。競賽結果出來后 ,許錦波收到了國內最好的五、六所大學發(fā)來的入學通知書。其中一封,就來自中國科學技術大學(下稱“中科大”)。
彼時,中科大經(jīng)過一系列的教學改革創(chuàng)新,在中外合作培養(yǎng)事業(yè)上取得了長足進步,在國內外聲譽鵲起,被《Nature》雜志撰文稱為“招風的大樹”。
出生在安徽合肥的楊振寧更是多次訪問中科大,并擔任理學院名譽院長,倡導在中科大少年班中設立計算機軟件專業(yè),推動中國計算機科學發(fā)展與國際水平接軌。
在老師和親朋的建議下,許錦波思索再三,對數(shù)學的熱愛轉移到理論研究上,便將志愿定為“中科大計算機科學技術系”,并選擇了更偏向理論研究的“計算機算法”專業(yè)。
雖然專業(yè)偏向理論,但許錦波先于多數(shù)同學上手代碼和實際項目。大三下學期(五年制),他在校外找了一份工作,在一家做金融服務軟件的美國公司(合肥辦公室),主要做美國股票分析系統(tǒng)的用戶界面。
90年代初,許錦波用的還是元老級的編程語言——Borland C/C++來開發(fā)項目,寫了多少行代碼,他已經(jīng)記不清,但寫代碼的能力卻得到了鍛煉。
他回憶道,“那時還沒有實習的想法,更多是想打工掙錢。當然學校機房確實沒幾臺電腦,學校更強調把基礎打牢,四大力學是必修課?!?/p>
抱著深造的目的,許錦波決定碩士研究計算機的另一分支——計算機系統(tǒng) 。用他自己的話講,“當時想學怎么造計算機?!?/p>
1996年,許錦波進入中國科學院計算技術研究所(下稱“中科院計算所”)。在那里,許錦波結緣中科院一支高性能計算研究組——曙光組。
90年代初,時任國家智能計算機研究開發(fā)中心主任的李國杰,帶著一支沒有設計經(jīng)驗的隊伍,承擔了研發(fā)“超級計算機”的重任。就在許錦波到來的前一年,曙光組做出一個重要決定:863計劃下一個目標產(chǎn)品曙光2000,不再沿著計劃原定的“超級計算機”方向走,而是轉向研制“超級服務器”。
李國杰(身穿深色襯衣者)
兩者區(qū)別在于,超級計算機主要用于科學工程計算,從計算速度上追趕國際先進水平。而超級服務器是更加通用的高端計算機,除科學計算外,更多地用于事務處理與網(wǎng)絡服務。
這一決策也影響了許錦波后面的研究方向。
三年里,許錦波的重心放在了“分布式系統(tǒng)以及計算機安全”,陸續(xù)參與了曙光組的前沿項目,如虛擬主機系統(tǒng)、高可靠性系統(tǒng)等工程化項目。
他的朋友以及合作者對他的評價是:無需助手,能獨立進行一項課題,獨立用算法實現(xiàn)一系列想法。這種能力,很大程度上得益于這段工作經(jīng)歷。
許錦波說,“代碼能力將成為不可忽視的底層能力,不僅是計算機專業(yè)要這么做,每一個理工人都要視其為基本功?!?/p>
1999年,南斯拉夫大使館事件讓中美關系陷入僵局。轉去加拿大,成了當時很多人求學和任教的共同選擇。許錦波也是如此。
這一年,他去往加拿大南部腹地的大學——滑鐵盧大學(臨近多倫多),繼續(xù)攻讀計算機科學系。
在許錦波入校前,學校指派了一位做并行算法的印度裔教授Prabhakar Ragde為其導師。這位導師指導寬松,第一年,許錦波涉獵各個領域的論文,找感興趣的科研方向。
Prabhakar Ragde教授
2001年上半年,人類基因組計劃(HGP)比原計劃提前兩年完成,歷時11年的多國合作項目落下帷幕,隨即進入了“功能基因組學”時代,研究的重心由基因組的“結構”向基因的“功能”,也就是向蛋白組學轉移。
學術界一個明顯趨勢是,越來越多的學者愿意用計算機科學解決一些實際的生物學問題。兩個學科的結合越來越緊密,直至融合形成一個新興學科——計算生物學。
許錦波深受鼓舞,抱著試試看的心情,他毛遂自薦轉入方向更為契合的滑鐵盧大學李明教授組里。
為何轉入李明門下?
實際上,許錦波本碩就讀時,李明曾先后到中科大和計算所做過兩次講座,當時李明已憑借Kolmogorov復雜性、不可壓縮方法、信息距離理論等研究,享譽計算機科學界。
1990年,李明做出了長度為O(n log n) 的超串來逼近長度為n的最短超串,成果發(fā)表至計算機科學領域的頂級會議期刊FOCS。
一年后,李明找到在加拿大麥克馬斯特大學任教的姜濤,以及從荷蘭來的訪問學生John Tromp,合作鉆研最短超串(shortest superstring)解決法。
正在此時,三人發(fā)現(xiàn)MIT的Avrim Blum、貝爾實驗室的Mihalis Yannakakis,也在鉆研這一問題,并且也獨立得到了修改過的貪婪算法線性解。最后,五人合作發(fā)布了一篇STOC論文《 Linear approximation of shortest superstrings》。
后來,這一證明被收錄至眾多計算生物教科書中。
因此,在許錦波轉入其門下時,李明已經(jīng)成為生物信息學的一位大家。
按理說,李明在停薪留職期間不收學生,但他欣賞這位后生,兩人都畢業(yè)于中科院計算所,說起來師出同門。于是,李明從Prabhakar Ragde那里要來了許錦波,算是合作培養(yǎng)。
2001年,許錦波正式做起了計算生物學。初次接觸,李明對許錦波說,“有一個很難的問題,研究蛋白質折疊,想不想做?”
李明教授
那時候,學界已經(jīng)研究了四十年的蛋白質結構問題,一直難有大突破。李明也從未將此課題向任何學生提及,甚至他自己也未涉足這一課題。
許錦波為什么愿意接手?
多年后,他回憶起這個決定:“我們選擇研究課題的時候,通常要選擇一些比較重要和困難的問題,如果問題不重要,就沒必要花時間研究;如果問題不難,幾年之內就被別人做出來,也沒有多大意義?!?/p>
對27歲的許錦波來說,接下導師拋過來的這一選題,也意味著他要進行一次大范圍的自我轉變。不過,許錦波也不覺得這是明顯的換方向,仍然是用計算的方法解決問題,只不過對象換成了生物學。
不過,緊接著他又補了一句,“就算博士幾年一點結果都做不出來也沒關系,大不了去硅谷寫代碼、當碼農。”
許錦波說的不無道理。
加拿大最早成立計算機科學系,就在滑鐵盧大學。而該系所屬的二級學院,正是加拿大唯一且全球最大規(guī)模的獨立數(shù)學院——滑鐵盧數(shù)學院。作為數(shù)學院最具傳奇色彩的計算機科學系,微軟、谷歌、Facebook早早就來搶未畢業(yè)的學生。
決定從一個非常熱門的領域跳出來,去做生物學研究,無論對誰來說都需要很大的勇氣。
許錦波也沒想到,這次轉變將影響他一生的科研方向:在此后的二十余年時間里,他的任務就是開發(fā)和優(yōu)化算法,去無限縮小蛋白質結構預測結果和真實構型之間的差距。
不過,開始研究生物學問題的半年時間,許錦波就很痛苦,“論文專業(yè)術語都看不懂,也沒人可以問。”
許錦波坦言,當時他只有高中的一點點生物知識。滑鐵盧大學是強理工科背景,僅有一個很小的生物系,他跟生物系教授沒有很多交流。此外,導師李明還在加州學術休假,不像現(xiàn)在發(fā)個微信就可以交流,師生二人兩個月才能見一次面。
那段時間,許錦波只能靠自己去啃論文,除了吃飯睡覺全是做科研。
“可能和大家印象中的科研形象不一樣”,許錦波笑著說到,“一個生物學家的實驗室是各種試管和試劑,但作為計算生物學家,全部的科研工作都在一臺電腦上完成?!?/p>
左圖為生物學家實驗室,右圖為許錦波實驗室
這也詮釋了計算生物學領域的研究手段,既有傳統(tǒng)的生物實驗,即濕實驗;也有包括計算手段在內的數(shù)學建模、數(shù)值仿真、數(shù)據(jù)分析,或是機器學習,即干實驗。
和傳統(tǒng)的濕實驗相比,干實驗最大優(yōu)勢即不需要特別大的經(jīng)費投入,其次是比較靈活,可以隨時開展一個新的研究項目。
那段時間,許錦波沿用一種干實驗方法研究蛋白質折疊——能量優(yōu)化。
他解釋到,安芬森法則是蛋白質結構預測的基石。在安芬森這個假設和理論基礎之下,科學家們去做蛋白質折疊預測,都是從能量優(yōu)化的角度去做。如果將這種方法教給計算機,就可以一步步優(yōu)化能量,從而達到預測蛋白質結構的目的。
2002年,李明學術休假結束,回到滑鐵盧,許錦波馬上告訴了他一個好消息,“馬上要開始今年的CASP(全球蛋白質結構預測比賽)了,我們也去參加。”
結果是,許錦波在全自動高通量蛋白質結構預測的評比中一舉奪冠。
不過,許錦波認為,“雖然排名最好,但不是大的突破,因為預測結果并不比以前的方法好很多?!?/p>
他重新梳理那一年來的工作,發(fā)現(xiàn)這一思路有著天然缺陷。
“第一,一個蛋白質是一個非常大的體系,由成千上萬個原子組成,對應一個非常巨大的搜索空間,構型是千變萬化的。第二,雖然說大家普遍接受蛋白質折疊到最小能量狀態(tài),但能量函數(shù)到底是什么樣的?我們本身就對能量函數(shù)的理解還不是特別好。”
在當時一大批學者紛紛比拼更好的能量優(yōu)化方法之際,許錦波站在了這一方法的對面:把生物學問題當成純粹的算法問題,或許并不能從根本上解決問題。
“傳統(tǒng)的能量優(yōu)化方法可能不是一個很好的路徑?!?/p>
2003年,許錦波博士畢業(yè)后計劃赴美,開啟博士后工作。
然而,受2001年9月11日恐怖襲擊影響,美國政府一度收緊了赴美學生簽證,許錦波的簽證一直處于被審查狀態(tài)。
無奈之下,許錦波選擇暫留本校任教,一邊做助理教授,一邊等待簽證過審。
這也讓許錦波錯失了拜入徐鷹(時任佐治亞大學生物信息系主任)門下的重要機會。而導師李明曾推薦他去哈佛,最終也不了了之。
等待的時間里,許錦波做了一個新問題——蛋白質的側鏈結構預測。
那時,學術界對蛋白質結構預測的研究重心是主鏈蛋白,許錦波博士期間的精力便集中于此。
為何從側鏈下手?這是因為,蛋白質三維結構由主鏈和側鏈共同搭建而成,算法預測蛋白質結構的步驟,是先以蛋白質主鏈建模,再根據(jù)主鏈的構象為側鏈建模。
自然界中的蛋白質含有20種氨基酸,它們的主鏈幾乎完全相同,而側鏈差異很大。因此,精準的蛋白質側鏈建模對蛋白質折疊和蛋白質設計至關重要。
簽證背調用了近一年時間,許錦波也在這個方向上投入了近一年時間。
他并沒有沿用當時學界的主流方法,通過SCWRL軟件做近似優(yōu)化,而是將圖論算法引入側鏈結構預測,成功地將側鏈結構預測的時間,從十幾個小時縮短至幾分鐘。除了速度提高了上百倍外,新方法還可用于構象復雜性更高的蛋白結構。
“這算得上是側鏈結構預測中,第一個不需要完全暴力運算的算法?!?/p>
2004年,許錦波將成果投遞于RECOMB(國際計算分子生物學大會)。這是與ISMB(國際計算生物學會)齊名的計算生物學兩大頂級會議之一,會議從1997年開始舉辦,自2003年后投稿數(shù)量開始增加,接收率降低到20%左右。
此后很多年,許錦波陸續(xù)在RECOMB會議上分享過多次研究成果,并獲得了諸多獎項,如2009年最佳海報獎、2014年最佳論文獎、2019年時間檢驗獎。
許錦波印象最深的,還是2004年第一次投遞RECOMB。他記得,2004年上半年,自己的簽證終于過審。于是馬上動身前往MIT,開始了博士后生涯。2005年,該論文被RECOMB順利接收,許錦波被邀請前往波士頓做會議報告。
在那時,這一成果并沒有受到很多生物學家的關注,這和學術圈里的一個規(guī)律有關。
許錦波解釋道,“一般而言,多數(shù)生物學家認為期刊論文更有價值,但在計算機領域,科研成果有很高的時效性,投稿一般都選擇學術會議,便于和同行交流?!?/p>
拿當下最熱的深度學習來說,2014年AlexNet算是第一個大獲全勝的DL模型,距今僅8年時間,已經(jīng)變成了公認的老古董。大約同年,生成對抗網(wǎng)絡GAN出現(xiàn)。截至目前,起碼有幾百種能叫上來名字的GAN變種。
2015年,物體檢測領域R-CNN被提出,深度學習正式攻陷此領域,之后fast-RCNN、faster-RCNN、YOLO、SSD、mask-RCNN,幾乎每年都有重大突破。
因此,計算機領域日新月異的發(fā)展特性,決定了重要結果幾乎先在會議上分享,其次才會在期刊里發(fā)表會議文章的擴充版本。
許錦波不知道的是,就在報告現(xiàn)場,他的成果吸引了一個人的特別關注。
幾天后,許錦波收到了一封郵件,邀請他將成果整理為期刊論文發(fā)表,落款是時任Journal of the ACM(計算機科學領域頂級期刊)的德國編委,Thomas Lengauer。
Thomas Lengauer教授
曾于2018年至2021年擔任國際計算生物學學會主席的Lengauer,與許錦波的經(jīng)歷相似。
自20世紀90年代初以來,Lengauer的研究重點從理論計算機轉向計算生物學,其中一個研究方向就是蛋白質結構和功能預測。2001年后,他一直擔任馬克斯普朗克信息學研究所(MPlI,位于德國)計算生物學和應用算法部主任。
而當時他所擔任編委的JACM,正是ACM (Association for Computing Machinery,國際計算機學會) 的官方刊物,遴選標準極為苛刻,只刊登對計算機科學有長遠影響的論文,理論偏向性很重。成立至今的68年里,僅發(fā)表了3000篇論文,平均一年不到50篇。
收到來信后,許錦波馬上在論文中加入了一些理論結果,并于2005年投遞于JACM。
而這一意外之舉,直接將許錦波的命運向前推了一把。在此之后,許錦波的研究得到了計算機學者、生物學者、以及計算生物學家等更多人的支持,為他留美任教埋下了重要伏筆。
2005年,許錦波去往芝加哥大學附屬的豐田技術研究所(另譯:豐田工大芝加哥分校,TTIC,Toyota Technological Institute Chicago)任教。
TTIC是豐田工業(yè)大學與芝加哥大學共建的獨立計算機科學研究所,于2003年9月正式運營,目前僅13名正式教授。
與眾多高校不同的是,該研究所成立之初曾獲2.6億美元捐助,資金充足、支持力度大,可以支付大部分科研經(jīng)費。
21世紀初,機器學習還沒有邁入黃金時期,該研究所便意識到機器學習的價值,將其作為研究方向之首。此后,許錦波的研究方法逐漸從能量優(yōu)化轉換為機器學習,便是受研究所影響。
許錦波表示,傳統(tǒng)的機器學習方法是直接把蛋白質的氨基酸序列映射到一個三維構型上去,比基于物理或是統(tǒng)計的方法做得好一點,但并沒有得到本質上的改變,以至于大家認為蛋白質結構問題沒辦法預測出來。
這段時間,很多人做不出新成果,申請研究經(jīng)費也非常困難,陸陸續(xù)續(xù)從蛋白質結構預測轉向其他領域,比如RNA結構預測、系統(tǒng)生物學等。
那種冷清直接反應在人數(shù)上:CASP會場中不足兩百人,僅有新世紀初的三分之一。
許錦波的朋友也多次勸說他換個方向:憑他的能力,完全有機會在其他領域再起爐灶。
許錦波沒有動搖,他解釋說,“這和我的性格也有關系,而且我的團隊一直不大,不想分散精力去管理一個大團隊,做太多不同的方向?!?/p>
許錦波在豐田技術研究所任教時留影
一直到2014年,局面出現(xiàn)一線轉機。
2012年,深度學習開始在圖像識別領域展示出威力。許錦波很自然地想到,能不能用深度學習去做蛋白質結構預測。
2014年,許錦波設計了一種新的深度學習算法,從更為簡單的問題入手——預測蛋白質的二級結構,即肽鏈主鏈骨架原子的空間位置排布,不涉及氨基酸殘基側鏈。測試發(fā)現(xiàn),深度學習對這個簡單問題有效。
這個時候,生物信息學領域里,只有極少數(shù)人關注到深度學習這一新的工具。
2015年和2016年,許錦波再次開發(fā)了一種更好的深度學習算法,可以直接用來預測蛋白質的三維結構。許錦波解釋道,“與能量最優(yōu)化的傳統(tǒng)方法不同,深度學習帶來的新思路是預測原子之間的相互作用關系?!?/p>
很多人對此后的事情并不陌生。
2016年暑假,許錦波開發(fā)出第一代人工智能方法RaptorX,證明了深度殘差卷積神經(jīng)網(wǎng)絡可以大幅度提高蛋白質結構預測的性能。
許錦波表示,“我們當時預測的一個有兩百多個氨基酸的膜蛋白的結構,誤差大概是2.29個埃,已經(jīng)非常接近用實驗技術解出來的結構的分辨率?!?/p>
2016年全球蛋白質結構預測比賽(CASP12),許錦波的這一方法震驚了在場人。這一年秋天,許錦波在自己的研究所召開了一個小型報告,邀請了芝加哥大學生物物理系合作者,共同探討研究成果。
其中一位是芝加哥大學生物物理系的博士后,在聽完許錦波報告后,全力轉向深度學習方法,并在一兩個月后加入Deepmind。他就是后來領導DeepMind團隊,設計了AlphaFold人工智能系統(tǒng)的John Jumper博士。
John Jumper,被《Nature》評為2021年度十大科學人物
隨后,許錦波也將論文成果公布于網(wǎng)絡,發(fā)布后的第一個月,即在領域內引起了一波關注。
2017年1月,這篇論文正式發(fā)表于國際計算生物學的官方期刊 PLoS Computational Biology,并在2018年上半年拿到了該刊創(chuàng)新突破獎。
在2018年的CASP 13中,許錦波進一步在比賽中驗證他的深度學習方法,激勵了蛋白質結構學界的許多研究小組,其中最具代表性的要屬DeepMind、Baker兩支團隊,相繼推出了 AlphaFold2、RoseTTAFold等AI模型,將AI預測蛋白質結構的研究推向高潮。
許錦波也逐漸有了“AI預測蛋白質結構全球第一人”的稱號。
不過,這個成果本可以更早。因為2015年,許錦波就組織了學生去實現(xiàn)他的想法,但沒有成功。2016年初,騰出一些時間的許錦波開始親自寫代碼,直至七八月份完成初步成果。
還有一個小插曲是,這一成果最初投遞的是《Nature》子刊,但是審稿的編輯不太相信結果?!耙驗檫@個問題研究很多年了,一直沒有什么進展,他不認為我們能做得這么好?!笔聦嵣?,無論是從方法還是成果上看,深度卷積殘差網(wǎng)絡都超前于時代。
所以,即便是跟隨許錦波多年的學生,或是權威雜志的審稿人,都很難理解他和他的成果。許錦波說,“當時計算機科學背景的人都在扎堆做序列,研究結構的非常少,所以很多結構預測方面的成果不那么受重視?!辈贿^,也有很多人成了許錦波“學術上的朋友”。
曾在1994年創(chuàng)辦CASP比賽,現(xiàn)任馬里蘭大學細胞生物學和分子遺傳學系教授的約翰·莫爾特,對許錦波的工作作出了肯定。
他評價道:“DeepMind在開發(fā)一種非常有效的方法方面做得很好。然而,這項工作背后的概念和方法并非憑空而來,關鍵技術是深度學習方法的應用。毫無疑問,DeepMind直接建立在許錦波的工作之上。”
此外,2012年就轉向深度學習,并在許錦波博士階段指導過他的許東(現(xiàn)密蘇里大學校董事會教授),對許錦波的工作寄予厚望:“錦波是蛋白質結構預測的少數(shù)且最重要的貢獻者之一。隨著蛋白質結構預測在更廣泛的領域中取得進展,這一領域很可能再獲得諾貝爾獎的認可。”
而許錦波的導師李明,更是毫不吝嗇對愛徒的贊賞,“他是我在職業(yè)生涯中遇到的最有才華、最杰出的學者之一。”
蛋白質結構預測的冷清已經(jīng)是過去式。2020年,AI預測蛋白質結構,被國際頂級學術期刊《科學》雜志評為“十大科學突破之一”,2021年又被評為“十大科學突破之首”。
2021年8月,DeepMind公司在《Nature》上宣布,已將人類的98.5%的蛋白質預測了一遍,計劃當年年底將預測數(shù)量增加到1.3億個,達到人類已知蛋白質總數(shù)的一半,并且公開了AlphaFold2的源代碼,免費開源有關數(shù)據(jù)集,供全世界科研人員使用。
現(xiàn)任佐治亞大學校董事會教授的徐鷹,過去二十年來逐漸跳出蛋白質研究,轉向了更接近實際問題的腫瘤生物學??吹皆絹碓蕉喙I(yè)力量的加入,他感嘆,“現(xiàn)在,AI技術已被應用于各種與蛋白質相關的問題,但這一切都有跡可循,離不開錦波多年來的堅持,他很善于用不同方法不斷改進自己的研究工具?!?/p>
許錦波很樂于看到DeepMind繼承了他的思想。
“這種顛覆帶來的改變非常大,特別是改變了分子生物學家做研究的范式——以前分子生物學家研究一個蛋白質,都是基于氨基酸序列去研究蛋白質的功能,但現(xiàn)在我們有了精確的結構預測,分子學家可以直接基于預測出的結構去研究蛋白質的功能?!?/p>
被改變的,不僅僅是一種研究方式,更是一個產(chǎn)業(yè)的崛起。
互聯(lián)網(wǎng)巨頭如微軟、甲骨文、英偉達、亞馬遜,以及中國的騰訊、百度、字節(jié)跳動和華為等都在競相押注“AI for Science”。
許錦波認為,“當下的確是一個好時代?!?/p>
2021年年初,清華大學智能產(chǎn)業(yè)研究院(AIR)的張亞勤找到許錦波,詢問其回國意向。2021年6月開始,許錦波陸續(xù)收到多方投資意向書。
很快,昌平國家實驗室的高毅勤教授(現(xiàn)任北京大學化學與分子工程學院教授)、謝曉亮教授(現(xiàn)北京大學生物醫(yī)學前沿創(chuàng)新中心主任)也找到許錦波。
兩位教授坦言,國內學者評職稱與論文數(shù)量和影響因子強綁定,從事計算生物學的人比較吃虧,這個領域的學者太少;但如果以計算機學者的身份,更是吃虧。工業(yè)界薪酬高、待遇高,多數(shù)人想去大廠。即便是資格老的教授,門下無人的現(xiàn)象常有。
“你愿不愿意回來?”
這個問題更像是一種期盼。許錦波清楚,培養(yǎng)交叉型人才不是一個教授能推動的,但需要有人站出來。
高毅勤教授、謝曉亮教授
2021年9月,許錦波回國,將視野轉向應用空間更大的AI蛋白質優(yōu)化設計方向。
談及回國后的創(chuàng)業(yè)規(guī)劃,許錦波表示,“我希望打造一個有中國特色的計算生物學,連接「 產(chǎn)學研用」,在創(chuàng)新藥研發(fā)、生物材料、合成生物學等領域做出一些真正有用的東西。”
他興致勃勃談到,“比如能否把一個抗體優(yōu)化得更好,使得它能夠跟抗原結合更好;或者設計一個自然界不存在的蛋白,用它來做藥或工業(yè)生產(chǎn),比如我們可以設計一些新的酶來提高工業(yè)催化的效率?!?/p>
2022年1月,許錦波的公司成立,取名為“分子之心”(MoleculeMind)。
此后,由許錦波牽頭,分子之心在國內組建了一支25人左右的團隊,其中不乏生物計算、計算機科學、生物化學物理等多學科背景的研究人員和工程師。
4月份,公司完成數(shù)千萬美元天使輪融資,由紅杉中國領投,百度風投、生命園創(chuàng)投基金、芯航資本、未來啟創(chuàng)等跟投。
7月份,公司自主研發(fā)的AI大分子優(yōu)化與設計平臺“MoleculeOS”正式亮相,填補了我國尚沒有功能完整的AI蛋白質設計和優(yōu)化平臺的空白。
8月份,AI蛋白預測完成三級進化,全球首發(fā)孤兒蛋白預測新算法,進一步擴大了人類在蛋白質結構預測領域的探索效率和邊界。
如今,分子之心計劃與國外同行開展聯(lián)動,在全球范圍內同步打造專業(yè)的研發(fā)實驗室,并持續(xù)尋找等各方面的優(yōu)秀人才。
作為全球人工智能和生命科學的交叉領域首屈一指的頂尖華人科學家,許錦波的社會責任是什么?
他有一句話,很能回答這個問題:“AI顛覆了蛋白質結構預測,但這只是一個開始。我希望打造出中國生物經(jīng)濟時代的基礎設施?!?/p>
分子之心MoleculeOS平臺框架圖誠然,如許錦波一樣,生活在二十世紀中后期的一些學者是幸運的。他們有機會親身見證歷史的發(fā)生——70年代合成生物學誕生、80年代生物信息學誕生、90年代人類基因研究誕生、新世紀初基因測序成果誕生……如今,一個AI生命科學的時代到來。他們一生的探索都圍繞生命科學的話題,他們的激情與困惑,真誠與彷徨,成為這場科學探索中不可分割的一部分。幸也,李明、徐鷹、姜濤、潘毅、周耀旗、許東、許錦波,為生命真理的探索并未結束。
作者注:
1993年,中國參與人類基因組計劃,生物信息學科迎來大爆發(fā)。在近三十年的時間里,一大批生物、化學、物理、計算等專業(yè)的學者,前仆后繼加入到學科的產(chǎn)研建設,那是一個靈感迸發(fā)、情誼綿長的年代,也是一個走出質疑、迷茫的年代。目前,雷峰網(wǎng)(公眾號:雷峰網(wǎng))啟動《生物信息學的三十年往事》專題,陸續(xù)推出了李明、徐鷹、潘毅、周耀旗、許東、許錦波等新老學者的人物故事,記錄光輝歲月,以照后人之路。關于生物信息學的更多故事,歡迎與本文作者吳彤交流,微信號:icedaguniang
雷峰網(wǎng)雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。