0
本文作者: 任平 | 2023-03-24 09:56 |
在蛋白質-小分子復合體預測方面,“藥物設計和酶設計”等領域的項目未來是否加速落地? 當下火熱的AIGC技術,能為AI生命科學領域帶來多少可能?
在CASP比賽創(chuàng)建者John Moult教授看來,這一比賽從來不是閉門造車,或是學術界的圈地自嗨。
2018年,在第13屆CASP比賽中,一個頂著谷歌子公司帽子的參賽選手亮相,其AlphaFold系統(tǒng)以最高的預測準確率擊敗其他參賽隊伍。
2020年,在第14屆CASP比賽中,這一公司再次卷入競技場,憑借AlphaFold二代系統(tǒng)以絕對的優(yōu)勢大獲全勝,并在次年將技術成果全部發(fā)表于《Nature》和《Science》等頂級期刊。
這便是如今的AI殿堂級公司--DeepMind。
從那以后,人們首次將“人工智能”和“蛋白質結構預測”兩個毫不相關的領域聯(lián)系在一起。而DeepMind背后的谷歌,也憑借CASP大賽織造了一張夢寐以求的醫(yī)療商業(yè)藍圖。
從業(yè)內人士的角度,這或許是意料之中。正如John Moult教授創(chuàng)立CASP比賽的初心,便是希望以此推動計算生物學研究,加速理解細胞構建原理和推進藥物發(fā)現(xiàn),最終惠及全人類。
顯然,DeepMind已經蹚出了一條可參照的發(fā)展路徑。
不久前,CASP 15落下帷幕,盡管本屆比賽中未見DeepMind身影,但諸多華人團隊參賽熱情高漲,在蛋白質單體/多體結構預測、蛋白質-蛋白質復合體結構預測、RNA結構預測、蛋白質-小分子配體復合物結構預測等多賽道上奪得桂冠。
不少參賽選手直言,“這是‘后AlphaFold2時代’的首屆大型同臺競技,所有選手都獲得了業(yè)內前所未有的關注。”
在AlphaFold2的沖擊之下,蛋白質結構預測是否還能為人們帶來新的驚喜?
本屆首次新增蛋白質-小分子復合體預測和RNA結構預測兩大賽道,是否意味著蛋白質結構預測不再穩(wěn)占“C位”?
RNA結構預測領域是否會出現(xiàn)如AlphaFold2一般引發(fā)革命的技術工具?
從基礎研究到應用研究,人們不斷討論著在CASP 15背后行業(yè)發(fā)展的諸多可能。
近日,由雷峰網(wǎng)(公眾號:雷峰網(wǎng))GAIR Live&《醫(yī)健AI掘金志》舉辦的《生物計算“奧賽”冠軍團隊論道:當生命科學遇上史詩級AI,何去何從?》線上圓桌論壇落幕。
本次論壇邀請了多位在CASP 15中取得出色成績的參賽者,由上海智峪生科CEO王晟擔任主持,江蘇理工學院生物信息與醫(yī)藥工程研究所教授常珊、密歇根大學計算醫(yī)學和生物信息學系博士后研究員鄭偉、浙江工業(yè)大學信息工程學院教授張貴軍、上海智峪生科技CTO熊鵬參與討論。
在上篇中,幾位嘉賓共同分享了在CASP 15中的參賽經歷,以及在AlphaFold2沖擊下,蛋白質結構預測賽道該何去何從。
在下篇中,將聚焦本屆兩大新增賽道:蛋白質-小分子復合體預測和RNA結構預測在應用層面的潛力,探討當下火熱的AIGC技術在AI生命科學領域的可能性。
“全球人工智能與機器人大會”(GAIR)始于2016年雷峰網(wǎng)與中國計算機學會(CCF)合作創(chuàng)立的CCF-GAIR大會,旨在打造人工智能浪潮下,連接學術界、產業(yè)界、投資界的新平臺,而雷峰網(wǎng)“連接三界”的全新定位也在此大會上得以確立。
經過幾年發(fā)展,GAIR大會已成為行業(yè)標桿,是目前為止粵港澳大灣區(qū)人工智能領域規(guī)模最大、規(guī)格最高、跨界最廣的學術、工業(yè)和投資領域盛會。
GAIR Live作為雷峰網(wǎng)旗下視頻直播品牌,旨在輸出新鮮、深度、原創(chuàng)的大咖訪談與對話內容,打造輻射產、學、研、投的特色線上平臺。
以下是主題論壇的現(xiàn)場內容,雷峰網(wǎng)《醫(yī)健AI掘金志》做了不改變原意的編輯和整理:
王晟:在蛋白質-小分子復合體預測方面,“藥物設計和酶設計”等領域的項目未來是否加速落地?
常珊:其實不完全是蛋白質和小分子,剛剛我們探討的有兩個target,受體是RNA。當然我們做算法開發(fā)時,會偏向以蛋白質作為受體的蛋白質-小分子的相互作用預測。
但在去年江蘇生物信息學專委會上,有學者對靶向RNA的配體小分子設計,以及相應的藥物篩選表現(xiàn)出興趣,給我們很大啟發(fā)。因此,當CASP15上有這樣的題目時,我們就有很大的動力去研究靶向其他受體的小分子算法開發(fā)。
而且鄭偉博士說得很有道理,如果先靶向RNA,是不是比靶向后續(xù)它表達出來蛋白質更有效一些?這也是一個很好的思路。所以我覺得這一塊的確值得我們去深入研究相應的算法。我感覺這樣的一些工具,相對于蛋白和小分子的預測的工具來說,應該更少一些。印象中,我?guī)熜秩A中科技大學黃勝友教授團隊做了一個類似程序。
在本次CASP15的蛋白質-小分子的賽道設置上,組委會出了大概20多個題目,非常多,但有些場景我感覺跟藥物設計不是特別匹配。
比如其中一個題目是,“有一個受體,這個受體有很多結合的小分子,有56個配體, 請預測所有小分子的結合位置。”一般的藥物開發(fā)體系很少需要預測這么多配體分子。
因為我們平時和制藥公司合作比較多,經常合作做一些藥物方面的設計和開發(fā),制藥公司并不關心你能找出多少小分子,它們真正關心的是,不管你是自己生成,還是從數(shù)據(jù)庫里篩選,只要能夠找出一個抑制蛋白質的最合適的小分子就可以。
不過有人在CASP15交流會上透露,可能下一屆就會有小分子的篩選問題--從眾多小分子中篩選出最合適的配體。這也是目前制藥公司都很關心的問題,因此我們現(xiàn)在還要繼續(xù)完善方法,從而更針對于制藥過程中的關鍵問題。
值得一提的是,自從我們在CASP15比賽上獲得了蛋白質-小分子賽道第一名后,能明顯感覺到合作企業(yè)和科研機構變多了。另外我們也和江蘇本地的普美瑞生物科技公司合作開發(fā)了一些抑制劑,或PROTAC(Proteolysis-Targeting Chimeras,即蛋白水解靶向嵌合體)分子。目前一些實驗結果都非常出乎意料,剛剛篩選出來的配體降解能力就達到了皮摩爾(pM)級的水平,這意味著不需要進行多輪優(yōu)化就可以去做后續(xù)實驗。
王晟:常老師說得非常對,CASP比賽中有一個pose(構象)的問題。簡單來說,就是給你一個蛋白質,一個小分子,要把它建模到正確的口袋里面且形成合理的相互作用,查看和“標準答案”復合物之間是不是足夠得近。
剛才說的 ranking問題,其實包括兩層含義,一是構象預測/排序問題-找出最好構象的過程需要產生很多構象然后排序打分-即CASP15關系的復合體結構問題,二是不同分子的排序-即screening問題。在CASP蛋白質預測中,分成了 3D預測和QA預測,小分子結構預測中我個人理解上將二者融合起來一切稱為1-構象預測/排序問題。
而制藥公司也很關心的是screening問題。就是在眾多的小分子中,比如從幾千個,幾萬個,甚至幾百萬個,幾億個小分子中,篩選出一個或者幾個抑制蛋白質活性的小分子。
實際上,我認為這幾個問題的底層邏輯是相通的。如果我們能夠把Pose問題或者docking、結合位置都做得準確,構象RMSD做到很小,同時能量也計算正確,那么對工業(yè)界關心的screening問題,也一定會有很好的推動作用的。張貴軍老師對于蛋白-小分子,或者叫做大分子和小分子的對接,復合物建模應用有哪些看法?
張貴軍:我們課題組主要做蛋白結構預測的研究,復合物方面研究工作剛剛開始,這也是今后需要努力的一個方向。
實際上,無論是大分子,還是小分子,和靶標蛋白來形成相互作用,最終形成一個復合物,其中一個有效的方法是通過開發(fā)打分函數(shù),評估小分子或大分子在口袋里面的舒適度。此外,還有一種比較可靠的方式,即搜索模板,并基于模板信息做比對建模。
小分子這塊我不太了解,但是從大分子-大分子相互作用的結果來看,我們可能需要一種新方式。因為它本來就是一體,如果單獨對它建模,再進行剛性、柔性對接,這一定不符合實際的生命過程。所以fold和dock的過程應用同步進行。最近我看到有Arne Elofsson課題組的一個工作就是按照上述思想開展工作,精度提升非常高,受此啟發(fā),我們課題組也在開展相應工作,我相信未來在蛋白質結構預測、復合物組裝方向的下游應用會進展迅速。
王晟:張貴軍老師講了一個非常有意思的點,就是在實際的生物體當中,不管是大分子-小分子,還是大分子-大分子,它們在生命體中的相互作用,并不像傳統(tǒng)的計算模擬--先把兩個分子的結構搞出來,再把它們對接到一起,而是類似于“共折疊”(co-folding)的模式。
過去的Autodock Vina是怎么做的?蛋白質保持可以剛體模式也可以讓口袋去區(qū)域保持柔性,建模時候小分子可以和蛋白質側鏈一起按照能量下降以及蒙特卡洛方式去調整位置。因此,小分子和口袋區(qū)域蛋白質側鏈具有一定的自由度,但蛋白質至少在主鏈上是沒有什么自由度的。
但真實情況下確實是這樣嗎?并非如此,為什么?
誘導契合學說(induced- fit hypothesis)談到,在對接過程中,不僅小分子自身改變pose(構象),結合空腔中的氨基酸殘基位置也會改變,有時候可能會導致蛋白質loop區(qū)域的位移,即配體和受體雙向奔赴的過程。
所以,我們現(xiàn)在能不能用一種更好的建模方式,同時把這兩種分子作用在一起?
實際上,AlphaFold2-Multimer(專長于蛋白復合物特別是結合界面結構預測的模型)已經初步嘗試co-folding的方式,效果非常好。
那么類似的理念用到蛋白質-小分子的相互作用上,會不會也有奇效?答案是肯定的。
我們這次參賽的方法就是利用了類似理念。把AlphaFold2的這套方法,在蛋白序列后面再加上小分子frame,通過frame再構造成一個整體相互作用的模擬。我認為,未來這條路徑一定大家都選擇的方向,因為它更加偏向真實的物理過程。
鄭偉:在蛋白質-小分子的binding問題上,早些年CASP其實一直在關注這個問題。在CASP10之前一直有一個賽道---蛋白質功能預測(protein function prediction),用于預測蛋白質ligand binding site。當然它沒有特異性,只讓你預測蛋白質的哪個位點可以綁定小分子,選手只要給出該預測信息即可。
但在CASP11之后,這條賽道就一直被取消,直到本屆CASP15又重新設置基于Pose的蛋白質-小分子結構預測賽道。
因此,我覺得蛋白質-小分子賽道重新提上日程,而且是以更加精細的預測項目出現(xiàn),一個重要原因是蛋白質單體或者蛋白質復合物的結構預測精度已經非常高。
我們有了蛋白質結構、小分子的具體的binding位點,binding pose、以及具體的小分子信息之后,你可以預測工作就更多了。整體來看, CASP的賽道設置不是特別割裂,每條賽道之間都相互促進。
另外,我非常同意王晟師兄的意見。我們確實應該系統(tǒng)考慮蛋白質-小分子的折疊問題,而不是先折疊蛋白質,再讓小分子“打配合”。
實際上,PDB數(shù)據(jù)庫中解析的真實實驗結構,很多蛋白質可以配合小分子,也可以不配合小分子;甚至一些蛋白質和小分子配體后,但它的側鏈結構,甚至主鏈結構都會發(fā)生小范圍的變構。
所以蛋白質本身在折疊過程中,或者和小分子配體去做聯(lián)合折疊時,它不應該是一個彼此割裂,或者“先有雞還是先有蛋”的問題,它肯定是一個聯(lián)合發(fā)展的折疊問題。
因此,如果我們利用類似于共進化信息,控制蛋白質-小分子的體系,是更有預測優(yōu)勢的。當然,具體怎么構建這種蛋白質和-小分子共進化,可能比較難。
因為即使在結構預測領域,共進化也不是百分之百都解決透了的。而且在蛋白質復合物里面,共進化要比單體更難。所以推廣在蛋白質-小分子問題上,我們怎么設計共進化,或者是怎么發(fā)現(xiàn)潛在的共進化就更難了。具體的藥物落地這一方面,我研究得不是特別多,張貴軍、常珊兩位老師已經總結得很好。
熊鵬:關于蛋白質-小分子的相互作用,我研究比較少,也就不發(fā)表太多的評論。我主要跟大家談一談RNA-小分子結合的問題。
RNA結構和蛋白質結構有很大差別,因為蛋白質的最小折疊單元是domain,每個domain有一個疏水折疊核心(hydrophobic folding core),那些小分子結合的口袋,都是位于domain內部或者domain之間的空腔,預測蛋白質和小分子的結合,需要先預測蛋白質的整體結構。
但RNA所有的基團都是極性基團,在折疊過程中并沒有類似的疏水核心。所以RNA的最小折疊單元并不是domain,而是motif(少數(shù)堿基形成的結構模塊),由motif組裝后形成RNA的三維結構以及小分子接口。
CASP15上有好幾個target,都涉及RNA和小分子的相互作用。但這些相互作用并不牽涉到整個RNA結構,只是牽涉了其中一些motif。比如R1117 target,就是小分子結合到差不多十來個堿基左右的motif口袋中;還有一個是人工設計RNA,其來源也是將一個結合小分子的天然motif,拼接到人工設計的框架上。
也就是說,對于和RNA結合的小分子而言,它與RNA的結合并不牽扯到RNA的整體三維結構,而只是作用于結構中的特殊motif。因此,如果我們要針對RNA的小分子做藥物設計,問題的關鍵并非RNA的整體形狀預測,而是RNA內部功能motif的預測。
這也是我之前一直非常強調的問題??赡芪覀儾⒉恍枰^度關注RNA的端對端預測、overall fold預測,如果能夠把RNA的一些關鍵結構的motif預測好,那么對于理解RNA的功能,比如說如何結合小分子就已經足夠了。
王晟:熊老師講了一個非常深刻的觀點。因為我們知道RNA結構中,很多地方它是飄在那里的,類似于蛋白質里的intrinsically disordered regions (IDR) 。
熊鵬老師希望我們抓住問題的本質,也就是說,RNA跟蛋白質是類似的,都有一些motif組成的區(qū)域,只不過相對來說,蛋白質的這種剛性區(qū)域多一些,IDP相對少一點;RNA的非剛性區(qū)域可能會更多,但如果RNA要和小分子等結合形成結構,一定會有motif的存在,把它們給咬合在一起。
因此,從RNA的這點特性出發(fā),對于我們理解RNA功能,如何設計把靶標于RNA的小分子抑制劑都至關重要,而且對于我們今后如何去預測RNA結構也提供了全新思路。
王晟:再談一下時下最火熱的話題——ChatGPT。這段時間,以ChatGPT為代表的AIGC概念相當火爆。不少生物計算實驗室也拿出了一些成果。 能否站在您的角度,談談AIGC在AI生命科學領域的應用前景?
常珊:ChatGPT的放在生命科學領域來說再合適不過了。因為我們去表述生命科學中的一些分子,不管是核酸、蛋白還是小分子,都是以類似于語言“序列”的方式去表示,比如DNA 序列,蛋白序列、小分子SMILES。所以我覺得ChatGPT背后的語言模型天然適合生命科學研究,生命科學研究者也要盡快訓練大型語言模型理解蛋白質、分子、DNA和RNA。
剛才王晟提到幾個程序,我之前看過文獻,但沒有深入地去看這方面的算法細節(jié),但GPT和ChatGPT出來后,我發(fā)現(xiàn)它的算法可以直接用在生物上,但是我們也要注意兩個潛在問題。
一、數(shù)據(jù)。
ChatGPT在訓練過程中,數(shù)據(jù)有很多,而且處理得比較干凈。但對于生物學數(shù)據(jù)來說,哪怕在PDB數(shù)據(jù)庫中的數(shù)據(jù)也可能有錯誤,而且這些錯誤數(shù)據(jù)可能沒法通過簡單方式做清洗。只有通過大量的實驗才能做精確篩選。因此,在當前的生物學數(shù)據(jù)現(xiàn)狀之下,訓練完成的算法/模型都會有一些影響。
二、模型公開試用加大負反饋風險。
模型如何做驗證,最常用的方法就是開放做公開試用。對于ChatGPT這種通用型模型來講,大家會擔心廣泛且公開的試用,如果反饋學習可能會把模型“教壞”。但對生物學模型來說,判斷一個模型好壞還是需要一些實驗的方法,但是反饋可能會慢一些,導致模型迭代優(yōu)化的速度會相對緩慢。
我們最近也用語言模型做了一個抗菌肽的序列設計,核磁解析的結構發(fā)現(xiàn)和設計一致,所以我覺得語言模型天然具有優(yōu)勢,只是在數(shù)據(jù)、模型后續(xù)迭代上需要進一步完善。
張貴軍:分享幾點。
一、AIGC等生成式AI技術現(xiàn)在確實非?;?,我們已經看到ChatGPT技術、擴散模型等技術在小分子三維構象、蛋白質復合物預測等生命科學領域的潛力,未來可能會引領下一場變革。
三年前,我對人工智能的態(tài)度是,這個技術是生物信息研究中的一個必要條件,但不是充分條件,不是我們做什么都要用人工智能。但經過幾年發(fā)展,我的想法也在不斷改變。因為人工智能可以建立了強大的能量模型擬合函數(shù),甚至包含上千億個參數(shù)的大模型。在這種基于數(shù)據(jù)的模型表達下,或許AI真的能夠充分表征生命系統(tǒng)。
剛才大家講到的生命系統(tǒng),有蛋白質、核酸等發(fā)分子表達,這些都可以想象成是通過 “生命語言”來進行調控。蛋白質序列本質上類似于自然語言:氨基酸以多種組合排列形成具有功能的結構,就像字母構成單詞、單詞形成句子所具有的含義一樣。因此,在自然語言處理(NLP)技術應用到蛋白質結構建模問題也就不足為奇。
但人工智能進行蛋白質研究時,我們應該如何規(guī)避潛在問題?
一、圍繞蛋白質做系統(tǒng)性研究。
人類基因組編碼的蛋白質數(shù)量不少于20萬個,但目前已知的只有2萬多個,但由于可變剪切機制,同一個基因可以表達成多個不同的蛋白質,這2萬多個人類基因究竟能編碼多少個蛋白質目前仍是個謎。但可以確定的是,其余大部分蛋白質編碼基因都在做調控。因此,未來需要進一步協(xié)同考慮蛋白質跟小分子、DNA、 以及RNA等相互作用,從而進行相關設計。
二、從生命本質出發(fā)研究問題。
用AI研究生命系統(tǒng),實際上是人工智能模擬生命系統(tǒng)。因此,回到最本質的問題上,什么是智能?生命能夠被完全模擬嗎?
實際上,現(xiàn)在進行的蛋白質結構預測和設計,以及RNA研究、復合體研究等,它們即便能夠通過語義、語法與規(guī)則被表達出來,但它們如何形成“生命”?事實上,蛋白質本身是沒有生命的,通過蛋白質之間的互作以及細胞之間的協(xié)作,最終才形成生命活動,這是需要思考的一個方面。
就預測而言,現(xiàn)有挑戰(zhàn)在于揭示蛋白質的折疊機理和活體狀態(tài)的多態(tài)問題。目前AI模型擬合出來的還是一個靜態(tài)的蛋白質結構;
就設計而言,脫離實驗室條件,人工設計的蛋白質安全性、穩(wěn)定性、耐藥性(人工設計蛋白進入體內,白細胞可能會把它當成一個病毒來處理,馬上產生抗體,蛋白質就可能會失效)如何都不得而知,而能否適合工業(yè)生產又有很多不確定性。
因此,回到問題的源頭,為什么人是有生命的?因為人體存在一系列的群體連鎖反應,最后組成了一個復雜的、擁有智能和意識的生命體。
在前不久的第11屆全國生物信息學會議上,來自軍事醫(yī)學院的李昊稱,“最近的模型可解釋性方法將使我們能夠打開“黑匣子”,從而增強對折疊原理的理解?!弊阋钥闯錾烧Z言模型在設計功能序列方面的巨大潛力。
目前我們課題組也在不斷深入研究,從最初采樣到現(xiàn)在的能量模型,接下來我們就考慮蛋白質整體結構預測、多域、復合物模型,以及相應的模型質量評估技術。
鄭偉:AI生成內容最近特別火,我也在關注,ChatGPT和stable diffusion都試玩了一下,從AI產生的內容質量來看,確實蠻令人驚嘆。
具體地,AIGC在生命科學領域,或者在結構生物學、計算結構生物學領域都有什么應用。我個人認為,AIGC非常適合用在蛋白質設計和蛋白質結構預測。實際上,目前這一領域已經開始嘗試算法應用,比如PLM(protein language model )方法。
它是利用機器學習去學習隱式的蛋白質進化的語言信息,類似于隱式的MSA信息,從而用學習到的蛋白質語言信息來替代傳統(tǒng)的MSA。
總體來說,這一技術的前景很好。但是目前來看,我們訓練出來的PLM模型,以及一些大公司放出來的PLM,結果不太令人滿意,在CASP15中分數(shù)不高。
當然我個人覺得排名低不影響算法前景,目前分數(shù)不高可能是因為現(xiàn)在大家都在拼算力,以及大家剛開始描述MSA或者使用蛋白質語言,還在摸索階段。
熊鵬:前面幾位老師都分享了語言模型在蛋白質結構預測、蛋白質設計方面的應用,我就從另外一個角度聊一聊對ChatGPT的看法。
現(xiàn)在生命科學學術圈的每年論文增幅約幾十萬篇,我們逐篇地閱讀起來肯定是不充分的。因此我一直希望能有一個AI機器人,或者學術輔助工具,幫我了解一個新領域、幫我看文獻,給我一種學術指導。所以ChatGPT出來后,我很希望它能夠實現(xiàn)這一目標。
但據(jù)一些老師的測試結果,目前ChatGPT還沒有很好地實現(xiàn)學術輔助的功能。比如你問他一些專業(yè)的問題,它可能會給你列出一堆參考文獻,但是你仔細去翻看那些參考文獻,發(fā)現(xiàn)都是ChatGPT基于語言模型虛構出來的論文。格式都對,看上去很專業(yè),但實際上什么都不是,純碎是瞎編亂造的內容。
所以,如果要重新開發(fā)一個對我們做學術有幫助的AI機器人,可能需要重新訓練一套新的模型。它既需要幫助我們去閱讀文獻、理解文獻、總結文獻、幫我們快速進入一個新領域,也幫我們做一些學術交叉的研究。
我相信在不遠的將來,這個目標肯定能夠成為現(xiàn)實。
Q:請問常珊教授:今年您帶隊參加的蛋白質- ligand復合體結構預測,這一技術在合成生物學,尤其是小分子多肽和蛋白質受體作用的預測上,有沒有投入實用的可能性?
常珊:這是完全有可能的。
盡管和蛋白質結構預測相比,序列生成相對落后一點,但是目前Meta(Facebook)、Baker等幾個團隊都發(fā)表了很多論文,涵蓋多肽設計、小蛋白設計、單體蛋白設計等。其中Meta(Facebook)最近測試了30多個蛋白,效果都不錯,所以我覺得這一塊落地的可能性還是很大的。合成生物學對蛋白質序列設計非常重視,所以我覺得能夠設計出更好的蛋白質,一定會有助于合成生物學的發(fā)展。
Q:請問張貴軍教授,您帶隊獲準確性賽道復合物接觸殘基精度評估第一名,會帶來哪些實用性成果?
張貴軍:第一,模型的實用性,對后續(xù)的藥物研發(fā)等過程非常重要,因為藥物研發(fā)通常要花費十幾億美元,耗費十幾年的時間,最終可能僅有10%的成功率。因此,如果預測模型并不精準,下游的環(huán)節(jié)都會有問題。
第二,蛋白質結構預測是一個不斷優(yōu)化的問題,因此我們要采用不同的方法去做精修,比如建立一個力場,去模擬蛋白質折疊過程,不僅要找到得分為90分的蛋白質模型,還需要找到 20 分的, 30 分的、40分、50~90等中低段模型。
第三,在多態(tài)問題上,實際上已經有一些例子,比如抗體設計、抗原設計。但我們發(fā)現(xiàn)一個有意思的現(xiàn)象,預測的pDockQ可能在90分以上,但與實驗測定情況相差較多;有些實驗分數(shù)非常高,但預測的pDockQ卻在0. 23以下。這可能都是因為預測和實際結構多態(tài)現(xiàn)象所導致的原因之一,這也是我們將來非常重要的研究方向之一。
Q:請問鄭偉博士:您在多條賽道上獲第一名。有蛋白質單體單結構域、蛋白質單體多結構域、蛋白質復合體結構預測類別等賽項。后續(xù)的技術轉化有哪些?團隊都有哪些產學研合作?
鄭偉:首先,藥物研發(fā)的靶點很多都是蛋白質,所以蛋白質結構預測得好,無疑對藥物研發(fā)來說是一個基礎保障。
其次,今年的蛋白質-復合體的預測精度有明顯提升,一定會在制藥領域有一定應用前景。因為有些藥物不光僅是 RNA藥物,或者小分子藥物,可能也是一些蛋白類藥物。比如醫(yī)藥領域有一些抗體類藥物,其實也是比較依賴于蛋白質-復合體結構預測這一基礎問題。
CASP15上公布了antibody-antigen的復合體,也公布了nanobody-antigen的復合體,有些課題組在某些target上做得不錯,我們課題組在大部分的nanobody和antibody上,復合體預測的精度非常高。所以我個人覺得在制藥領域,復合體結構預測的落地速度會加快,因為它對抗體類的藥物研發(fā)作用更直接。
Q:請問熊鵬博士:您對于RNA結構預測的研究進展,未來的落地規(guī)劃是怎樣的?
熊鵬:RNA結構計算在落地方面,相對容易的是通過“計算+實驗”的方法做一些功能RNA分子的設計。因為功能RNA分子直接應用場景,比如基因治療藥物、調控元件等。第二是同時用計算+實驗的相互迭代的方法,也能夠更快地改進我們的方法,改進我們的計算模型。
長遠來看,靶向RNA的藥物設計是一個重要方向。RNA-小分子的相互作用預測,RNA-蛋白質在細胞內的調控元件的一些相互作用預測,將真正推動在生物醫(yī)藥領域的落地。
雷峰網(wǎng)原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。