0
“做科學研究,不僅要認識世界,更要改造世界。”
曹洋在自己的個人實驗室網(wǎng)站上,將物理學家理查德·費曼的名言放在了顯眼的位置,讓每一位網(wǎng)站訪客都無法忽略?!癢hat I cannot create, I do not understand.”這是他以自己的方式提醒自己和所有科研人員,莫忘初心。
20 年前,曹洋坐在中科院擠滿人的大禮堂里,上一門叫做《生物信息學》的課,臺上講課的是“中國生物信息學研究開拓者”--陳潤生院士。在陳潤生院士的啟蒙下,曹洋進入了這個當年甚至還不是一個明確二級學科的新興領(lǐng)域。
如今作為四川大學生命科學學院副教授的曹洋,已經(jīng)在生物信息學領(lǐng)域深耕數(shù)年,具體研究方向包括藥物分子設(shè)計算法與應(yīng)用、蛋白設(shè)計和三維結(jié)構(gòu)預(yù)測及序列分析與功能預(yù)測。
在曹洋看來,科研工作不能僅停留在認識層面,只有研究成果轉(zhuǎn)化為實際應(yīng)用,真正做到改造世界,這是他做科研的初衷。在未來,他希望在 AI 技術(shù)的助力下,藥物設(shè)計領(lǐng)域能達到“畫好圖紙”就能“蓋好房子”的水平,讓前期準備工作完美落實到實驗階段,提高藥物研發(fā)的成功率。
近期,2024 年度「第二屆生物信息與轉(zhuǎn)化醫(yī)學大會」落下帷幕。本屆大會以 “人工智能時代的轉(zhuǎn)化醫(yī)學”為主題,由北京攜云啟源科技有限公司承辦。來自四川大學生命科學學院的曹洋副教授受邀參會。
借此契機,曹洋副教授與雷峰網(wǎng)進行了深入對話。以下為對話全文(經(jīng)編輯):
雷峰網(wǎng):從學科背景來看,您在本科階段學的是應(yīng)用物理相關(guān)專業(yè),為何碩博時期轉(zhuǎn)向生物信息學?
曹洋:本科時期我對物理比較感興趣,所以選擇了應(yīng)用物理大方向下的電子科學技術(shù)專業(yè)。到了研究生階段,我有幸進入中科院的生物物理研究所學習。
在 2004 年中科院入學的時候,新生要在各個實驗室輪轉(zhuǎn),然后雙向選擇確定導(dǎo)師和研究方向。我當時有考慮過選擇結(jié)構(gòu)生物學,用 X 射線衍射方法解析蛋白的三維結(jié)構(gòu);也考慮過神經(jīng)生物學,看人的認知是怎么建立起來的。
最后下定決心學生物信息學,是在研究生一年級上了陳潤生院士和凌倫獎老師主講的《生物信息學》之后。課堂上講了很多讓我耳目一新的內(nèi)容,比如怎么把生物學問題變成數(shù)學問題,非常引人入勝。我還記得當時上課的場景,研究生院的禮堂萬人空巷,水泄不通,很多同學沒有位置,只能坐在走道上聽。陳老師的講課內(nèi)容對我來說是一個很好的啟蒙,受益匪淺。
那時從事生物信息學研究的蔣太交教授剛好從國外回來組建實驗室,我被他有關(guān)蛋白結(jié)構(gòu)預(yù)測、設(shè)計的研究吸引了,因此成為他的第一批學生。
那時候生物信息學還不是學科體系下的二級學科。我入學的專業(yè)是生物物理專業(yè),到我畢業(yè)的時候,畢業(yè)學位證上變成了生物信息學。
雷峰網(wǎng):您在本科學習的物理學知識,對您之后的研究工作有沒有影響?
曹洋:影響還是挺大的。因為生物信息學是交叉學科,對數(shù)理的要求比較高。特別在早期,很多算法和軟件還不成型的時候,需要自己去做開發(fā),理解背后的原理。而我做的生物信息方向和分子模擬非常相關(guān),比如蛋白三維結(jié)構(gòu)預(yù)測,需要在結(jié)構(gòu)的基礎(chǔ)上分析生物學功能,其中會涉及到計算能量、相互作用、自由能等,如果前期沒有數(shù)理知識作為基礎(chǔ),后面很多問題理解起來肯定會比較困難。
我也注意到,在生物信息學領(lǐng)域,物理學、計算機背背景的科研者比較偏向方法學研究;而生物學背景的則偏向生物學問題研究。所以不同的學科背景對后續(xù)科研方向有潛移默化的影響,但學科背景不是絕對因素,只是有這樣的趨勢。
雷峰網(wǎng):在您看來,進入生物信息學這種跨學科領(lǐng)域,需要具備什么樣的能力?
曹洋:我認為,要有很好的邏輯思維能力和很強的學習能力,能夠迅速掌握相關(guān)的學科知識,并懂得如何在研究中運用上。
你會發(fā)現(xiàn),在這個交叉學科里,需要綜合應(yīng)用很多專業(yè)的知識來解決具體問題,不可能只學生物、化學等某一學科的知識就足夠,而沒有誰是能夠在大學本科就把各個專業(yè)知識都學完。所以從事前沿工作,一定要有開放的心態(tài),有很好的自學能力,才可以跟上整個領(lǐng)域的發(fā)展,有進一步的創(chuàng)新突破。這是我這些年感受非常深的一點。
雷峰網(wǎng):在中科院生物物理研究所學習期間,您的主要研究方向是什么?
曹洋:我當時主要做蛋白質(zhì)三維結(jié)構(gòu)預(yù)測的算法和應(yīng)用。2010 年,我所在的蔣太交教授實驗室所研發(fā)的蛋白質(zhì)結(jié)構(gòu)預(yù)測方法,進入了國際蛋白三維結(jié)構(gòu)預(yù)測比賽 CASP 的前二十名,是當時國內(nèi)參賽隊里成績最好的。此外,我還研究了一些生物學問題,包括流感進化突變帶來的影響,比如在結(jié)構(gòu)建模分子模擬的基礎(chǔ)上,研究流感病毒和細胞受體之間的相互作用。
雷峰網(wǎng):您在結(jié)束學業(yè)之后沒有進入企業(yè),而是選擇高校繼續(xù)科研工作是出于什么想法?
曹洋:我個人偏向在學術(shù)方面進行一些比較自由的探索。在高校的話,可以根據(jù)興趣去選擇研究課題,但在企業(yè)可能沒有辦法實現(xiàn)。當時剛好有一個機會,就入職四川大學了。
雷峰網(wǎng):請介紹一下您現(xiàn)在正在進行的研究工作?
曹洋:我們課題組主要研究是圍繞計算機輔助藥物設(shè)計展開的。這幾年,我們團隊將重心放在了做生物醫(yī)藥相關(guān)的算法和軟件的開發(fā),同時進行一些針對具體靶標的藥物設(shè)計與篩選。在計算機設(shè)計方法不斷落地,促進藥物研發(fā)的歷史進程中,我們希望貢獻一份力量。
雷峰網(wǎng):您如何看待目前的藥物設(shè)計開發(fā)領(lǐng)域的發(fā)展?在開發(fā)靶向藥物的計算方法方面,您有哪些研究成果可以分享?
曹洋:此前,在蛋白三維結(jié)構(gòu)預(yù)測領(lǐng)域有一個很大的突破——AlphaFold。在藥物設(shè)計開發(fā)領(lǐng)域,我們也期待能有這樣的突破。盡管現(xiàn)在出現(xiàn)了一些新的算法和技術(shù),但還是跟生物醫(yī)藥研究的實際需求有很大距離。我們團隊開發(fā)了一系列的分子模擬計算法方法,比較有代表性的是分子對接 CB-Dock 系列。
雷峰網(wǎng):請詳細介紹一下上述全自動化分子對接算法 CB-Dock 的優(yōu)勢?
曹洋:這個算法平臺的核心優(yōu)勢在于其高效和準確,用戶使用門檻低。
首先,它能準確識別靶標的分子結(jié)合口袋。這里采用了前期開發(fā)的算法 CurPocket,它基于分子的表面曲率,可以在給定蛋白質(zhì)三維結(jié)構(gòu)的情況下提取到其分子可能結(jié)合的口袋。這個口袋識別算法和下游計算能夠很好地匹配,使整個過程實現(xiàn)全自動化。
其次,它的分子對接可以學習已知的分子互作信息。我們開發(fā)了算法 FitDock,內(nèi)置在 CB-Dock 里,在預(yù)測新分子與已知靶標的結(jié)合模式方面有很大優(yōu)勢。
再有,我們在 CB-Dock 的軟件開發(fā)和維護方面很用心,使得操作軟件和分析結(jié)果都比較容易。它面向的是廣大生物醫(yī)學研究同行,能一定程度上減輕他們的學習負擔,更聚焦在研究具體問題上。
雷峰網(wǎng):這套算法平臺現(xiàn)在使用率如何?
曹洋:我們這套計算服務(wù)器已經(jīng)發(fā)布五年,國內(nèi)外同行提交了超過 30 萬次計算任務(wù),現(xiàn)在每天的使用量都有超過千次,相關(guān)論文的引用數(shù)量也上千。我發(fā)現(xiàn)在一些社交平臺都有這款軟件使用的視頻,是國內(nèi)外同行的使用體驗和推薦。對此我覺得由衷高興,感到我們的努力對社會是有用的。
這套軟件用戶來自世界各地,我常收到用戶的郵件,咨詢相關(guān)的問題,也有為我們在改進軟件方面出謀劃策。比如前段時間我們服務(wù)器的安全證書到期了,沒有及時去更新,就有好多用戶給我們發(fā)郵件說遇到問題了,問我們能不能趕緊解決。也有一些企業(yè)聯(lián)系我們,申請使用軟件的授權(quán)。
雷峰網(wǎng):接下來對于這套算法軟件的迭代更新有什么方向嗎?
曹洋:前段時間,有一個斯坦福的用戶給我們反饋,他建議可以在計算的過程中研究怎么樣合并不同對接算法的結(jié)果,還提到了批量的受體提交模式。因為現(xiàn)在這個軟件是一個受體對應(yīng)一個配體,只能單個提交。這位用戶希望可以添加批量化提交的方式,這樣他們可以利用其做小規(guī)模的橫向?qū)Ρ妊芯?。我覺得這是一個比較好的建議,還是得想方設(shè)法滿足相關(guān)研究的實際需求。
雷峰網(wǎng)(公眾號:雷峰網(wǎng)):我注意到您的團隊還建立了 AbRSA,AbAlign 等抗體分析算法,請介紹一下該算法的開發(fā)過程?
曹洋:我們也關(guān)注抗體相關(guān)的研究,這是生物藥里的主要類型。前些年,我們在做抗體人源化設(shè)計的過程中,遇到一個難題,就是業(yè)界的各種分析軟件都沒辦法對手頭上的抗體樣本進行識別。這激發(fā)了想要我自己開發(fā)相關(guān)算法的念頭,我們花了一年多的時間,開發(fā)了一款抗體可變區(qū)編號算法 AbRSA ,解決了我前面遇到的困難。
這款算法對各類抗體或者 BCR 序列有很強的適應(yīng)性,能準確地界定 CDR 區(qū)域、FR 區(qū)。在此基礎(chǔ)上,我們又進一步提出了抗體專用的多序列比對算法,可以對超大規(guī)模的抗體/ BCR 數(shù)據(jù)測序進行處理,進而幫助抗體的篩選和設(shè)計,同時也可以作為個體免疫狀態(tài)的分析。這些算法的源頭,都是我們在解決實際問題中想到的。
雷峰網(wǎng):這個抗體分析算法的實際應(yīng)用效果如何?
曹洋:軟件在發(fā)布后吸引了非常多用戶,包括國外很多知名的高校,還有像美國 FDA 食品藥品監(jiān)督局這樣的用戶,以及國內(nèi)的一些專利公司和做創(chuàng)新藥物開發(fā)的公司?,F(xiàn)在在這個領(lǐng)域,國際上能獲得的類似計算工具大概就三款,我們是其中之一。
雷峰網(wǎng):您覺得這款軟件在同類型中的核心競爭力是什么?
曹洋:從算法角度上講,它的健壯性更好,能超快速度處理大規(guī)模數(shù)據(jù)。因為抗體從基因重排到體細胞超突變,其中的多樣性非常大。若想在不同序列模式上進行準確界定,就需要從算法上做比較細致的優(yōu)化。
雷峰網(wǎng):除了算法方面的研究成果,請分享一下您此前設(shè)計人工蛋白的科研過程?
曹洋:在十年前,要想設(shè)計全人工蛋白,大家都覺得這是困難的事情。即便前有華盛頓大學的 David Baker 教授的成功經(jīng)驗,但對于普通實驗室團隊或者沒有深入了解這類研究的人看來,完成全人工蛋白的設(shè)計還存在很大的困難。而且這類實驗的成功率很低,經(jīng)驗不足就容易失敗。
我進入人工蛋白設(shè)計領(lǐng)域是 2016 年到 2017 年期間,當時我正在美國密歇根大學張陽教授的實驗室做訪問學者,在那時候參與了 EvoDesign 的開發(fā)與實踐。我當時做了幾個靶標,包括 EGFR 這些靶標的結(jié)合蛋白設(shè)計,比較成功地設(shè)計出了高親和力的人工蛋白。
在設(shè)計出人工蛋白之前,我個人對這個領(lǐng)域還有很多懷疑。做完之后我發(fā)現(xiàn),人工蛋白完全可以走向應(yīng)用,相信在不遠的未來,它會在生物醫(yī)藥研發(fā)中大放光彩。
雷峰網(wǎng):您覺得人工蛋白設(shè)計技術(shù)現(xiàn)在發(fā)展到什么階段了?
曹洋:我感觸特別深的是在 2020 年以后,AI 技術(shù)被大量引入蛋白設(shè)計領(lǐng)域,可以觀察到整個領(lǐng)域都蓬勃發(fā)展起來,其中不乏一些極富創(chuàng)意的設(shè)計新思路。
不僅僅是像 David Baker 團隊這樣的先驅(qū),還有很多實驗室都取得了長足的進步,比如說科大劉海燕教授的從頭設(shè)計氨基酸序列算法 ABACUS、SCUBA,計算所卜東波教授的蛋白質(zhì)序列設(shè)計算法 ProDESIGN,北航葉盛教授基于電子密度的設(shè)計算法 CUTEDGE 等,都像雨后春筍一樣被提出來,并且還有很多成功應(yīng)用的案例。
同時,我們也看到了很多企業(yè)在往這方向發(fā)展,他們對人工蛋白設(shè)計技術(shù)表現(xiàn)了很大的興趣。人工蛋白設(shè)計正處在其廣泛應(yīng)用的前夜。
雷峰網(wǎng):在您看來,當前藥物設(shè)計算法領(lǐng)域處在什么階段?面臨的主要挑戰(zhàn)是什么?
曹洋:藥物設(shè)計算法已經(jīng)取得了長足的進步,但是距離生物醫(yī)學的實踐需求還有較大的距離。我所期待的藥物設(shè)計技術(shù),就像蓋房子一樣,只要滿足力學規(guī)則,就能使用軟件設(shè)計出符合想象的結(jié)構(gòu)。但是實際上,現(xiàn)在藥物設(shè)計領(lǐng)域的技術(shù)還遠遠達不到上述理想狀態(tài)。往往很多時候是在設(shè)計階段想盡各種辦法達到指標,滿足要求,但最終實驗成功的概率只有千分之一,甚至萬分之一。雖然這個領(lǐng)域已經(jīng)出現(xiàn)了很多分子設(shè)計的成功案例,有一些已經(jīng)完成臨床甚至上市,但還沒有達到成熟的階段。在我看來,現(xiàn)在藥物設(shè)計領(lǐng)域面臨的最大挑戰(zhàn)在于,我們對于分子層面的規(guī)律認識不到位,計算能力不夠,這樣帶來的結(jié)果就是不夠準確。
雷峰網(wǎng):對于現(xiàn)在想要進入藥物設(shè)計領(lǐng)域的年輕科研工作者,您有什么建議?
曹洋:我的建議是,要保持一顆努力學習的心。整個領(lǐng)域進步很快,需要的知識專長非常多,幾年前的知識可能現(xiàn)在已經(jīng)落后了,所以要隨時保持學習,爭取走在前沿,有所突破。同時還希望密切結(jié)合應(yīng)用實踐,推動整個領(lǐng)域的發(fā)展進步。
總而言之,時刻保持學習,瞄準這個領(lǐng)域的重大問題去做開發(fā)、做研究。
雷峰網(wǎng):您怎么看待未來 AI 制藥的前景?
曹洋:引入這種人工智能系統(tǒng)來輔助藥物設(shè)計,是近年來最大的一個突破。雖然早期的工作也用了一些機器學習的方法,但不像現(xiàn)在這么大規(guī)模、廣泛的使用。而且新的 AI 技術(shù)建立在更多的數(shù)據(jù)基礎(chǔ)上,擁有更好的模型。相比之前的方法,有質(zhì)的飛躍。
但即便現(xiàn)在 AI 制藥的概念和相關(guān)研究工作這么火,還是有很多沒有落地,并沒有在實際藥物研發(fā)中產(chǎn)生突出的作用。我們很希望接下來,不論是實驗算法也好,還是理論的研究也好,都能夠轉(zhuǎn)化為實際上市藥物,真正地推動整個領(lǐng)域從理論到實踐上的突破。
雷峰網(wǎng):我注意到您的個人實驗室網(wǎng)站首頁有一句很顯眼的名言,是費曼的名言 “What I cannot create, I do not understand.” 請問您對這句話的理解?
曹洋:很多研究是試圖去解釋它背后的道理,但是解釋并不代表真正理解。排除所有可能性之后,如果能夠創(chuàng)造出預(yù)設(shè)的結(jié)果,才能夠稱之為真正理解。
這也是為什么我們看到很多研究,在解釋邏輯方面頭頭是道,似乎很讓人信服,但一旦應(yīng)用到生物醫(yī)學場景,就會遇到很多問題。就以藥物設(shè)計的工作來說,我們要去創(chuàng)造實際的分子,不能僅停留在解釋現(xiàn)象。作為科研工作者,我們不僅要認識世界,更要改造世界,只有這樣,我們對世界的認識和理解才能更加深刻。
雷峰網(wǎng):請介紹一下您第二屆生信大會上的演講內(nèi)容?
曹洋:我主要介紹了實驗室近期有關(guān)抗體/ BCR 的數(shù)據(jù)分析、建模方面的工作進展。一方面是有關(guān) BCR 或者抗體序列的多序列比對的新算法,在效率和準確性上達到了業(yè)內(nèi)領(lǐng)先。另一方面是在這個基礎(chǔ)上的抗體三維結(jié)構(gòu)預(yù)測,成藥性分析,就內(nèi)部測試的結(jié)果,相比已知的抗體可變區(qū)預(yù)測方法,我們的準確性是最好的。我希望通過這次報告,跟國內(nèi)同行分享相關(guān)的成果,也希望收到同行的建議和意見,把研究工作做得更好。
雷峰網(wǎng):您在第二屆生信大會上有什么收獲嗎?
曹洋:收獲挺大的。我注意到現(xiàn)在生物信息領(lǐng)域的研究和醫(yī)學實踐已經(jīng)深度聯(lián)系起來了。有幾個印象深刻的報告,比如有通過 BCR 的研究去分析人的健康狀態(tài),進行免疫力解碼;蛋白設(shè)計新方法在蛋白活性和實驗成功率方面取得突破;還有基于 AI 算法在毒性毒理代謝、重定位等研究的創(chuàng)新。我回去后還要好好消化學習。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。