0
本文作者: 朱可軒 | 2025-01-13 09:58 |
作者丨朱可軒
編輯丨陳彩嫻
“AlphaGo、ChatGPT 都是新科技突破的代表性工具。而在科學(xué)領(lǐng)域蛋白質(zhì)結(jié)構(gòu)預(yù)測獲得諾獎(jiǎng)就是 AI 巨大突破的高光時(shí)刻,諾獎(jiǎng)之后 AlphaFold 的研發(fā)模式已經(jīng)成為 AI for Science 的樣板?!背探终f道。
2025 年 1 月 5 日,雷峰網(wǎng)、AI 科技評論GAIR Live 品牌與 CASP 評估的優(yōu)秀華人團(tuán)隊(duì)聯(lián)合舉辦了一場主題為“諾獎(jiǎng)之后的新篇章:蛋白質(zhì)結(jié)構(gòu)預(yù)測的機(jī)遇與挑戰(zhàn)”的線上圓桌沙龍。
圓桌主持人為江蘇理工學(xué)院教授常珊,并邀請了密蘇里大學(xué)計(jì)算機(jī)系教授程建林、山東大學(xué)教授楊建益、南開大學(xué)統(tǒng)計(jì)與數(shù)據(jù)科學(xué)學(xué)院教授鄭偉、浙江工業(yè)大學(xué)信息工程學(xué)院教授張貴軍以及江蘇理工學(xué)院研究員孔韌共同開啟了一場深度對話。
常珊是江蘇理工學(xué)院教授,現(xiàn)任中國細(xì)胞生物學(xué)學(xué)會(huì)功能基因組信息學(xué)與系統(tǒng)生物學(xué)分會(huì)委員,中國疫苗行業(yè)協(xié)會(huì)疫苗基礎(chǔ)研究專委會(huì)委員,中國中醫(yī)藥信息學(xué)會(huì)中醫(yī)臨床藥學(xué)分會(huì)理事。
程建林教授目前供職于美國密蘇里大學(xué)計(jì)算機(jī)系,他 1999 年赴美留學(xué),2006 年在美國加州大學(xué)爾灣分校獲得了博士學(xué)位,并在 2004 年便開始參加 CASP,先后已經(jīng)參加了 11 屆。
楊建益則是山東大學(xué)教授,他自 2011 年開始在密西根大學(xué)跟張陽教授做結(jié)構(gòu)預(yù)測,至今已有十余年。南開大學(xué)統(tǒng)計(jì)與數(shù)據(jù)科學(xué)學(xué)院教授,傳染病預(yù)防與溯源全國重點(diǎn)實(shí)驗(yàn)室成員,鄭偉教授也是在張陽教授實(shí)驗(yàn)室開始的結(jié)構(gòu)預(yù)測的旅程,從 CASP12 起已經(jīng)參加了5次 CASP——近 10 年的比賽。
張貴軍是浙江工業(yè)大學(xué)信息工程學(xué)院教授,做蛋白質(zhì)結(jié)構(gòu)預(yù)測有十幾年時(shí)間了,先后參加了兩屆 CASP??醉g當(dāng)前是江蘇理工學(xué)院的研究員,博士開始和常珊教授一同在北京工業(yè)大學(xué)王存新教授的實(shí)驗(yàn)室做分子模擬以及蛋白質(zhì)復(fù)合物結(jié)構(gòu)預(yù)測。2015 年回國后,同常珊教授在江蘇理工學(xué)院組建了研究所,從 CASP13 開始參加。
幾位嘉賓都參加了本次第十六屆 CASP(Critical Assessment of Protein Structure Prediction)。CASP 作為自 1994 年以來每兩年進(jìn)行一次的全球蛋白質(zhì)結(jié)構(gòu)預(yù)測競賽,楊建益將其比作諾獎(jiǎng)的“孵化器”和科學(xué)研究的奧林匹克。
在此次圓桌會(huì)上,大家一一分享了參加 CASP 的心得,以及對于領(lǐng)域前沿進(jìn)展和突破的洞察,單序列結(jié)構(gòu)預(yù)測、多構(gòu)象預(yù)測、RNA 結(jié)構(gòu)預(yù)測、蛋白質(zhì)-小分子復(fù)合體預(yù)測等也成為了下一階段亟待得到突破的問題:
鄭偉說道,“今年整體看 RNA 賽道無論是難度、數(shù)量還是細(xì)化上變化都非常明顯。也可以看出整個(gè)領(lǐng)域在蛋白質(zhì)結(jié)構(gòu)預(yù)測發(fā)展得相對來說比較成熟的情況下,大家的關(guān)注點(diǎn)可能漸漸要往 RNA 結(jié)構(gòu)預(yù)測上產(chǎn)生一定傾斜了?!?/p>
同時(shí),“多構(gòu)象也是 CASP 一直想要增加的賽道,但是鑒于往年多構(gòu)象的數(shù)據(jù)不太好采集,今年是首次作為獨(dú)立賽道設(shè)置了比賽,預(yù)測好多構(gòu)象對后續(xù)的整個(gè)動(dòng)態(tài)過程預(yù)測很重要?!钡?dāng)前囿于真實(shí)數(shù)據(jù)的不足,還未能實(shí)現(xiàn)大的突破。
而在小分子預(yù)測方面,據(jù)孔韌介紹,“ AlphaFold 相對于傳統(tǒng)對接方法,已經(jīng)表現(xiàn)出優(yōu)勢,在某些靶點(diǎn)上比傳統(tǒng)對接方法要強(qiáng),將來感覺可以把傳統(tǒng)的對接方法和 AlphaFold 的深度學(xué)習(xí)方法結(jié)合起來做綜合考慮和使用?!?/p>
不過, AlphaFold3 在使用模版和選擇模型等方面仍存不少提升空間。值得一提的是,嘉賓們也針對諾獎(jiǎng)“預(yù)備役”展開了探討,其中單序列結(jié)構(gòu)預(yù)測被屢次提及:
楊建益認(rèn)為,“單序列結(jié)構(gòu)預(yù)測研究的是蛋白質(zhì)折疊問題,AlphaFold 與 ESMFold 等方法本質(zhì)上是數(shù)據(jù)驅(qū)動(dòng)的結(jié)果,并未涉及蛋白質(zhì)折疊問題。如果未來蛋白質(zhì)折疊問題解決了,也將會(huì)是諾獎(jiǎng)級的工作?!?/p>
程建林同樣看好,他表示,“單序列的結(jié)構(gòu)預(yù)測是經(jīng)典問題,當(dāng)前 AlphaFold3、AlphaFold2 都依賴于多序列輸入,但是很多時(shí)候只能找到一個(gè)序列,能否精確預(yù)測出結(jié)構(gòu),這甚至可能產(chǎn)生第二個(gè)諾獎(jiǎng)?!?/p>
以下是此次圓桌討論的精彩分享,AI 科技評論進(jìn)行了不改原意的編輯整理:
CASP 16 的進(jìn)步與突破
常珊:我們這次圓桌專注于結(jié)構(gòu)預(yù)測方向,主要是受到 CASP 評估會(huì)的啟發(fā),結(jié)構(gòu)預(yù)測還有很多可以探討的問題。今天一共有八個(gè)議題,四個(gè)偏專業(yè),四個(gè)偏科普。這次很多華人團(tuán)隊(duì)都線下參加 CASP 評估會(huì),對 CASP16 評估會(huì)有哪些印象深刻的事情?
程建林:這次 CASP 給我的印象一是參加的團(tuán)隊(duì)比以前多,二是大陸科學(xué)家取得了了不起的成就,包括在座的老師,這次 CASP 大家在所有領(lǐng)域都達(dá)到了世界前列的水平。
楊建益:2024 年是我第一次線下參加 CASP,從觀眾角度來講,我印象最深的是會(huì)議全程四天,參加會(huì)議的人都在,不像很多會(huì)議大家參加到一半就走了,這是很大的區(qū)別。從組織者到報(bào)告人大家都非常專注,CASP 能堅(jiān)持 16 屆 30 多年,我很感動(dòng)。感覺 CASP 有點(diǎn)像諾獎(jiǎng)的孵化器,大量結(jié)構(gòu)生物學(xué)家、計(jì)算生物學(xué)家堅(jiān)持長期主義,艱苦奮斗,長期量變的積累才有了今天的突破。
鄭偉:剛才建林老師提到,中國大陸的參賽團(tuán)隊(duì)明顯變多,我想補(bǔ)充一下,其實(shí)整個(gè)亞洲的團(tuán)隊(duì)數(shù)量都是明顯變多的,上屆日本的團(tuán)隊(duì)不少,這屆明顯感覺韓國的參賽團(tuán)隊(duì)數(shù)量不少,整個(gè)亞洲的團(tuán)隊(duì)數(shù)量可能差不多和歐美的持平,甚至快反超了。
近年 CASP 更傾向于解決實(shí)際的生物學(xué)問題,它的重要意義在于能指導(dǎo)結(jié)構(gòu)生物學(xué)整體的發(fā)展方向,包括計(jì)算結(jié)構(gòu)生物學(xué)里我們到底應(yīng)該做什么、這個(gè)方向的發(fā)展前景是什么。比賽其實(shí)更關(guān)注這種本質(zhì)的問題,而不是為了比賽而比賽。
線下評估會(huì)主要在討論賽制或下一屆比賽應(yīng)該怎么做,這也是很多學(xué)者不愿離開會(huì)場的原因之一。然后是近些年尤其是 CASP16 工業(yè)界課題組參賽熱情其實(shí)明顯下降了,大家可能都去卷大模型了,剩下學(xué)術(shù)界課題組還在堅(jiān)守本心(笑)。
張貴軍:我今年沒有去會(huì)場,但看了現(xiàn)場 PPT 以后,非常贊成 CASP 是實(shí)驗(yàn)而不是競賽這一原則,它更加關(guān)注的是生物學(xué)的 insight,而不僅僅是排名,這也估計(jì)是 CASP 評估的魅力所在。
孔韌:我是第一次在線下參加 CASP,現(xiàn)場氛圍確實(shí)非常好,討論也十分激烈。以前我們總說折疊問題或者復(fù)合物結(jié)構(gòu)預(yù)測問題,以 AlphaFold3 為代表的深度學(xué)習(xí)方法對于結(jié)構(gòu)預(yù)測領(lǐng)域的每個(gè)特別問題都給出了相應(yīng)較好的解決方案。
然后我聽了第一天主席講的歷史,他堅(jiān)持在這個(gè)方向做了 30 年,整個(gè)科研生涯都堅(jiān)持在解決結(jié)構(gòu)預(yù)測的問題,我對此非常感慨,這是我們生命科學(xué)領(lǐng)域非常核心的存在,任何一個(gè)細(xì)胞或動(dòng)物層面的生物特征,追其根本是生物大分子的結(jié)構(gòu)問題,結(jié)構(gòu)正?;虍惓:蜕飳W(xué)功能關(guān)系密切。
往屆比賽算法還不太發(fā)達(dá),我們解決的主要是單體結(jié)構(gòu)問題,但在整個(gè)細(xì)胞體系中,更多的是蛋白質(zhì) DNA、蛋白質(zhì) RNA 或者小分子形成的復(fù)雜體系,CASP 也可以看到解決復(fù)雜體系問題的趨向了。然后整個(gè)作用的過程是動(dòng)態(tài)的,基于此,組委會(huì)提出將來要發(fā)展算法解決動(dòng)態(tài)結(jié)構(gòu)預(yù)測問題,這對生命科學(xué)研究來說意義重大。
常珊:我們進(jìn)入下一個(gè)議題,本次比賽在蛋白質(zhì)預(yù)測方面有什么新進(jìn)步?以及今后的發(fā)展趨勢是怎樣的?這個(gè)問題請楊建益和程建林老師來講一下。
楊建益:蛋白質(zhì)單體結(jié)構(gòu)預(yù)測是 CASP 從第一屆到現(xiàn)在一直都有的主題,這一屆跟以往的區(qū)別在于分階段預(yù)測,分為 phase 0、1、2,phase0 只提供序列信息,但不知道化學(xué)計(jì)量,這個(gè)預(yù)測比較有挑戰(zhàn)性,如果這部分預(yù)測錯(cuò)會(huì)使結(jié)構(gòu)預(yù)測得很差。第二階段會(huì)告知化學(xué)計(jì)量信息,第三階段提供了 MassiveFold 生成的基于 AlphaFold2 的 8000 個(gè)結(jié)構(gòu)模型,供預(yù)測者挑選,從而改進(jìn)預(yù)測結(jié)果。
進(jìn)步方面其實(shí)是增量性的,許多團(tuán)隊(duì)都是用 AlphaFold3、AlphaFold2 或自己的方法結(jié)合起來,其中有兩個(gè) Baseline,AlphaFold3 的 Baseline 是 AF3-Server,AlphaFold2 的 Baseline 是 ColabFold,從 Baseline 來看,AlphaFold3 和AlphaFold2 相比確實(shí)有一定改進(jìn),但并不顯著,但 AlphaFold3 功能更全、可預(yù)測更多類型的生物分子結(jié)構(gòu)。
還有個(gè)較大的進(jìn)步在于抗體-抗原復(fù)合物結(jié)構(gòu)預(yù)測。Dima 團(tuán)隊(duì)結(jié)合 AlphaFold3、AlphaFold2,以及物理采樣方法 CluPro,通過 FFT 對接,生成大量候選結(jié)構(gòu)模型,最后基于聚類和打分,篩選最優(yōu)結(jié)構(gòu)模型。但評估數(shù)據(jù)集較小,CASP16 只包含 8 個(gè)評估對象,不確定這類方法對于抗體-抗原復(fù)合物結(jié)構(gòu)預(yù)測的泛化能力。
常珊:其實(shí)大家常有討論在預(yù)測過程中,人工干預(yù)究竟能起到多大的作用?
程建林:我覺得人工干預(yù)在選模型上是很難的事,因?yàn)楫?dāng)有幾個(gè)很不同的AlphaFold2 或 AlphaFold3 產(chǎn)生的結(jié)構(gòu),看起來都有可能,分?jǐn)?shù)也差不多,很難確定哪個(gè)結(jié)構(gòu)更好。
但在有些方面人工干預(yù)是有幫助的,特別是化學(xué)計(jì)量 phase0 的預(yù)測,這是個(gè)新引進(jìn)的項(xiàng)目。很多時(shí)候我們不知道化學(xué)計(jì)量,而要預(yù)測結(jié)構(gòu)需要先預(yù)測化學(xué)計(jì)量,這部分人工干預(yù)是有用的,因?yàn)榭梢匀フ椰F(xiàn)有的模板,這個(gè)模板提供有效的信息,然后結(jié)合這些信息產(chǎn)生結(jié)構(gòu)模型,用模型的分?jǐn)?shù)來評估。
然后,這次還有一個(gè)挑戰(zhàn)在于 AlphaFold3 是在比賽中間放出來的,在比賽前很多實(shí)驗(yàn)室的系統(tǒng)已經(jīng)在 AlphaFold2 的基礎(chǔ)上建好了,那 AlphaFold3 出來要怎么變化或快速反應(yīng),能不能馬上接受并有效使用,也是影響實(shí)驗(yàn)室成績的因素。鄭偉老師就跟我講他本來用 AlphaFold2 做得很好的,但是完全沒有用 AlphaFold3 ,所以表現(xiàn)就稍微下降了一點(diǎn)。
AlphaFold3 其實(shí)在大的復(fù)合物折疊上功能上要比 AlphaFold2 好,特別是當(dāng)有很多蛋白質(zhì)時(shí),AlphaFold2 產(chǎn)生不了很好的結(jié)果。此外,我也關(guān)注到在蛋白質(zhì)和小分子復(fù)合物的預(yù)測中,有一項(xiàng)進(jìn)展是人工智能方法趕上甚至超過了傳統(tǒng)對接方法,下屆 CASP 可能整個(gè)領(lǐng)域的水平都會(huì)上一個(gè)臺(tái)階。
有關(guān)發(fā)展趨勢方面,感覺結(jié)構(gòu)模型排序問題、選擇問題和質(zhì)量評估問題都很有挑戰(zhàn)性。以前領(lǐng)域中主要障礙在于如何產(chǎn)生好的結(jié)構(gòu)模型,現(xiàn)在很多時(shí)候能夠產(chǎn)生好的模型,抗體、抗原都能產(chǎn)生正確的結(jié)構(gòu),但無法選擇出來,這個(gè)問題沒有徹底解決。
化學(xué)計(jì)量的預(yù)測也很重要,目前 CASP16 中有的方法已經(jīng)能在一定的人工支持下實(shí)現(xiàn)高性能,達(dá)到百分之七十幾的精度,但如何自動(dòng)化以及繼續(xù)提高是很重要的。還有一個(gè)問題聚焦于大的復(fù)合體預(yù)測,就是當(dāng)復(fù)合體中有幾十個(gè)或更多蛋白質(zhì)形成時(shí)要怎樣預(yù)測結(jié)構(gòu),AlphaFold3、AlphaFold2 也沒有完全解決這個(gè)問題,這是之后需要突破的重要方向。
另外,單序列的結(jié)構(gòu)預(yù)測也是經(jīng)典問題,當(dāng)前 AlphaFold3、AlphaFold2 都依賴于多序列輸入,但很多時(shí)候只能找到一個(gè)序列,能否精確預(yù)測出結(jié)構(gòu),這甚至可能產(chǎn)生第二個(gè)諾獎(jiǎng)。
最后是人工智能,當(dāng)前人工智能在蛋白質(zhì)和小分子方面都已取得了突破,接下來會(huì)有很多應(yīng)用,但我比較驚訝的是,在核酸結(jié)構(gòu)預(yù)測中人工智能還未超過傳統(tǒng)方法,陳世杰老師這次在核酸 RNA 結(jié)構(gòu)預(yù)測中取得了最好的成績,也用了 AlphaFold3,但大量使用的還是傳統(tǒng)方法,近兩年可能會(huì)看到人工智能的超越。
蛋白質(zhì)預(yù)測新問題的挑戰(zhàn)和趨勢
常珊:單序列的蛋白質(zhì)結(jié)構(gòu)預(yù)測有可能揭示了蛋白質(zhì)結(jié)構(gòu)的一些機(jī)制,這是很重要的,核酸結(jié)構(gòu)預(yù)測我們后面也會(huì)討論到。程老師剛剛也提到了蛋白質(zhì)模型的排序、質(zhì)量評估,還有蛋白質(zhì)的多構(gòu)象、復(fù)合物的問題,這也是目前比較有挑戰(zhàn)的部分,正好引出了我們的第三個(gè)議題蛋白質(zhì)復(fù)合物組裝以及多構(gòu)象預(yù)測,蛋白質(zhì)模型質(zhì)量評估等新問題,請鄭偉老師和張貴軍老師給大家介紹一下挑戰(zhàn)和發(fā)展趨勢。
鄭偉:我先講一下模型質(zhì)量評估,目前在復(fù)合物結(jié)構(gòu)預(yù)測中比較麻煩的問題在于,我們通過大量采樣,復(fù)合物備選的模型中其實(shí)有很多是接近于真實(shí)結(jié)構(gòu)的,但還是默認(rèn)的 QA 打分,模型的置信系數(shù)沒法把最好的排到前面,在我們開發(fā)的方法里,這個(gè)問題比較大。剛才建益老師也提到了抗體問題,今年賽后我們看了一下整個(gè)模型池,這幾個(gè)抗體復(fù)合物我們也做了大量采樣,結(jié)果也有很多正確的模型,但它們在排序里很低,這就引出了獨(dú)立 QA 方式的問題。
今年蛋白質(zhì)模型質(zhì)量評估問題上有幾個(gè)變化,往年大家傾向于做其他參賽者提交的模型排序以及常規(guī)的 QA 評測,今年引入了 MassiveFold 的模型質(zhì)量評估,集成了各種改造版的 AlphaFold2 模型,大概產(chǎn)生 8000 個(gè)模型,CASP 有一個(gè)賽道就是在這些模型中重新選擇結(jié)果比較好的。另外,現(xiàn)在的 CASP 可能也更關(guān)注模型的自評估,這是從 CASP14 開始引入的,作為最后所有評估參賽表現(xiàn)的其中一個(gè)指標(biāo),QA 在整個(gè)蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域其實(shí)也日漸被重視。
但這個(gè)領(lǐng)域很難,我們今年也嘗試了參賽,賽前我們做了一個(gè) QA 評估,想用其他第三方 QA 來給模型重新打分,但基本所有第三方都沒法把我們的模型選好,所以我們就想能不能不用 QA 選模型,而是用模型反作 QA,因此我們構(gòu)建了一個(gè) QA 深度學(xué)習(xí)模型,然后用我們的模型做為主要的參考對其他模型進(jìn)行 QA 打分,這又引出了一個(gè)問題是 QA 到底應(yīng)不應(yīng)該脫離結(jié)果預(yù)測單獨(dú)去做,不過這部分問題可能還需要和建林、貴軍老師討論一下。
蛋白質(zhì)復(fù)合物組裝這部分除了加入了 Phase0、1、2 之外,整體的體系也在變大,以往復(fù)合物組裝都是比較小的體系,就是兩個(gè)蛋白或者這兩個(gè)蛋白 copy 數(shù)不太多,化學(xué)計(jì)量數(shù)也比較小,A1B1、 A2B2 都算比較大的了,整個(gè)體系就是一兩千個(gè)氨基酸,今年大的復(fù)合物變得特別多,有的體系里可能包含了十幾個(gè)蛋白,甚至有的整個(gè)體系下來七八千個(gè)氨基酸。今年整個(gè)復(fù)合物的組裝,一是化學(xué)計(jì)量變得更加復(fù)雜,二是復(fù)合物的體系變得更大,整體感覺變難了。
多構(gòu)象這塊其實(shí)是今年 CASP 一直想要增加的賽道,但鑒于往年多構(gòu)象數(shù)據(jù)不太好采集,今年是首次作為獨(dú)立賽道設(shè)置,相對其他賽道,多構(gòu)象不到 20 個(gè)結(jié)構(gòu),數(shù)量非常少。多構(gòu)象在生物學(xué)里其實(shí)很重要,因?yàn)樯镞^程不是靜態(tài)的,我們預(yù)測蛋白質(zhì)結(jié)構(gòu)其實(shí)大部分都是看某一個(gè)結(jié)構(gòu)中間的狀態(tài),是靜態(tài)的過程,但多構(gòu)象是動(dòng)態(tài)的,這對后續(xù)整個(gè)動(dòng)態(tài)預(yù)測很重要。
但今年一是賽題難度大,二是沒有明確的評測指標(biāo),還處于起步階段,多構(gòu)象預(yù)測相對其他賽道更難,數(shù)據(jù)量比較少,很難訓(xùn)練一個(gè)比較常規(guī)的深度學(xué)習(xí)模型預(yù)測所有多構(gòu)象問題,所以處理起來要 case by case,每個(gè) case 都要人工花費(fèi)很多精力。
從前景上來講,AlphaFold3 里用的擴(kuò)散模型的結(jié)構(gòu)模塊比 AlphaFold2 基于 Transformer 的結(jié)構(gòu)模塊在 Benchmark 的時(shí)候效果好些,多構(gòu)象預(yù)測比較好的發(fā)展方向是生成模型或 Diffusion 模型。
張貴軍:模型質(zhì)量評估聽起來簡單,但是實(shí)現(xiàn)并不容易,現(xiàn)在的指標(biāo)體系從單體遷徙到復(fù)合物上還存在很多問題,所以在 CASP 中針對復(fù)合物的模型質(zhì)量評估也增加了很多的改進(jìn),比如在局部指標(biāo)增加了 PatchQS 和 PatchDockQ 指標(biāo),在 CASP16 中,我們實(shí)驗(yàn)室開發(fā)了一個(gè)基于兩個(gè)單模型和一個(gè)共識方法的 QA 框架,一般來講,通過共識方法判斷模型是否合適會(huì)受限于預(yù)測方法,因此,從 EMA 賽道的設(shè)置的初衷而言,發(fā)展單模型方法是重點(diǎn)方向之一。
EMA 整體上需要考慮打分、排序、選擇三個(gè)不同步驟,它們之間是有區(qū)別的。對于一個(gè)復(fù)合物模型而言,打分的對象有很多種,包括全局、局部、接口殘基、側(cè)鏈、原子的評估分?jǐn)?shù),然后將這些分?jǐn)?shù)需要整合排序,最后根據(jù)生物學(xué)需要挑選出感興趣的模型。目前方式是挑選最佳模型,但在生物學(xué)功能問題中時(shí),如果存在多構(gòu)象問題時(shí),單一的 TOP1 選擇方式并不理想。因?yàn)閺?fù)合物模型可能存在兩種或以上的穩(wěn)定功能構(gòu)象。此外,CAPRI、CASP 在模型質(zhì)量評估及打分方面的指標(biāo)也是有區(qū)別的。在本屆 CASP16 中,除了 Guijunlab-QA 之外,我們實(shí)驗(yàn)室還分別開發(fā)了 Guijunlab-Complex、Guijunlab-DeepAssembly 兩個(gè)服務(wù)器參加了復(fù)合物建模類別,通過盲測分別驗(yàn)證一下 MSA 和模板兩個(gè)因素在高精度建模中的作用。
鄭偉老師的工作做得非常好,這也說明了從目前來看結(jié)構(gòu)預(yù)測方法是超前于模型質(zhì)量評估方法的,預(yù)測做得很好,預(yù)測的評估也會(huì)做得很好。但也會(huì)存在全新、預(yù)測做得不太好的蛋白,或者參賽隊(duì)伍間差異性較大的情況。此外,這屆 CASP 也考慮到了實(shí)驗(yàn)結(jié)構(gòu)的可靠性,從上屆開始組委會(huì)就已經(jīng)在考慮是模型預(yù)測錯(cuò)誤還是實(shí)驗(yàn)結(jié)構(gòu)測定誤差的問題了,這也表明計(jì)算建模方法已經(jīng)成為實(shí)驗(yàn)測定方法的有效環(huán)節(jié)。
化學(xué)計(jì)量學(xué)的評估也比較重要一個(gè)新問題,預(yù)測方面出現(xiàn)的新挑戰(zhàn)在評估方面都應(yīng)該考慮。比如二聚體、三聚體、四聚體等計(jì)量學(xué)問題不僅可以搜模板,還可能從 MSA 中分析得到接口指紋,然后通過指紋判斷保守性的方式去解決。如果考慮到模板和 MSA 的話,實(shí)際上又歸到序列層面相互作用的問題,目前,我們也在針對基于序列的蛋白質(zhì)相互作用方面開展工作。
另外一個(gè)需要關(guān)注的挑戰(zhàn)是多構(gòu)象的問題。我一直想跟大家討論 MSA 在建模和評估方面的雙刃劍問題。CASP 多構(gòu)象建模實(shí)踐表明,在 AlphaFold 中使用不同的 MSA 配對確實(shí)可以產(chǎn)生不同的構(gòu)象,而且已經(jīng)有成功的案例,是目前多構(gòu)象預(yù)測的基本流程。但是,從第一性原理的角度來看,多構(gòu)象信息應(yīng)該包含在其序列之中。我覺得多構(gòu)象預(yù)測之后應(yīng)該可以從以下幾個(gè)考慮,通過蛋白質(zhì)序列語言模型(也就是 AI)的方式,直接從單序列出發(fā)捕獲構(gòu)象變換的語義關(guān)系;第二個(gè)方面直接在第一性原理上基礎(chǔ)上,考慮氨基酸的物理化學(xué)性質(zhì)去預(yù)測動(dòng)態(tài)構(gòu)象。多構(gòu)象模型精度評估同樣需要考慮以上問題,從序列語義、物理化學(xué)的第一性原理考慮去研究。最后我想談?wù)?EMA 評估的指標(biāo)體系,除了目前考慮的全局、局部、殘基之外,化學(xué)計(jì)量學(xué)的評估指標(biāo)體系建立也很必要,在算法排序中,選擇 5 個(gè)模型中的 Best 模型可能更加合適,因?yàn)槎鄻?gòu)象、實(shí)驗(yàn)測定誤差以及特定生物學(xué)場景需求,使得 TOP1 模型的并不是最理想的選擇。
還有一個(gè)問題我也想和各位老師探討,從我們現(xiàn)在的 EMA 角度來看,接口殘基的辨識率和精度兩個(gè)指標(biāo)在 CASP 16 里存在沖突。本屆 CASP 16 給出了這兩個(gè)指標(biāo),但填寫精度數(shù)據(jù)時(shí)只給了一個(gè)地方填寫,現(xiàn)有的 PatchQA 和 PatchDockQ 是否有足夠的懲罰使得兩個(gè)指標(biāo)一致?其 Rank 權(quán)重能否真正體現(xiàn)精度就是接口的可能性。最近我們重現(xiàn)了一下,如果不太考慮精度的話,接口辨識成功率是可以提升很多的但精度會(huì)下降很多。
在蛋白質(zhì)復(fù)合物預(yù)測方面,我們專門從 MSA 改進(jìn)方面開發(fā)了一個(gè) Guijunlab-Complex 服務(wù)器,從模板改進(jìn)方面,開發(fā)了一個(gè) Guijunlab-DeepAssembly 服務(wù)器進(jìn)行測試,此外考慮到遠(yuǎn)程模板的重要性,開發(fā)了一個(gè)主要用于單體預(yù)測的 Guijunlab-Pathreader 服務(wù)器。從盲測測試效果上來看,基于 MSA 該進(jìn)的性能優(yōu)勢還是明顯的,這表明目前 AlphaFold2 和 AlphaFold3 在這個(gè)領(lǐng)域的成功應(yīng)用,MSA 的改進(jìn)仍然是目前的主流方式。
目前需要努力的方向在于化學(xué)計(jì)量學(xué)的預(yù)測,這部分工作的開展需要綜合考慮 MSA、模板的因素;另外,弱的交互作用的復(fù)合物預(yù)測也是 AI 方法的挑戰(zhàn)性問題,之前我們一直認(rèn)為纏繞蛋白很難預(yù)測,但 AI 出現(xiàn)后已經(jīng)有了一些成功案例(由于存在較大的接觸面積),與此相反,接觸面比較小的蛋白如果采用傳統(tǒng)組裝方法是相對容易實(shí)現(xiàn),傳統(tǒng)方法和 AI 的整合,可能是應(yīng)該此類問題的一種有效方式。
我也想請教程老師,多構(gòu)象預(yù)測方法目前都是以不同的 MSA 配對、選用不用模板、調(diào)參生成大量模型,更為理想方法的應(yīng)該是直接基于單序列。如果是基于 MSA 方式話,在不同的化學(xué)計(jì)量學(xué)下,可能存在的不同聚合關(guān)系,這種聚合關(guān)系使我們很難去完整預(yù)測所有靈活構(gòu)象。
除了剛才說的這些問題之外,還需要注意的是,設(shè)計(jì)的算法應(yīng)該是一個(gè)明確的、有界的步驟。目前廣泛采用 AlphaFold2、AlphaFold3,雖然考慮了精度,但并沒有充分地考慮時(shí)間復(fù)雜度和空間復(fù)雜度這兩個(gè)算法指標(biāo)。之后 CASP 比賽中應(yīng)該會(huì)考慮算法的效率問題。另外我覺得目前多構(gòu)象預(yù)測領(lǐng)域存在的挑戰(zhàn)還是數(shù)據(jù)問題,現(xiàn)有的 MSA、模板數(shù)據(jù)是否能支撐推斷出動(dòng)態(tài)信息,或者是否有良好整理的分子動(dòng)力學(xué)模擬的數(shù)據(jù)?,F(xiàn)在 AI 生成模型存在幻覺,但蛋白質(zhì)是不允許存在幻覺的,PDB 庫中的動(dòng)態(tài)結(jié)構(gòu)、良好的 MD 數(shù)據(jù)將會(huì)有效地克服這一問題。
程建林:多構(gòu)象預(yù)測現(xiàn)在有很多人開始做,最近微軟也開發(fā)了一個(gè)軟件預(yù)測分子動(dòng)力學(xué)的模擬結(jié)果,這個(gè)領(lǐng)域非常重要,但問題在于沒有足夠的真實(shí)實(shí)驗(yàn)數(shù)據(jù)來訓(xùn)練模型。
理論上來說可以用多構(gòu)象的實(shí)驗(yàn)數(shù)據(jù)來微調(diào)現(xiàn)有的模型,比如微調(diào) AlphaFold2、AlphaFold3,讓其產(chǎn)生多構(gòu)象,甚至從單序列能夠產(chǎn)生多構(gòu)象的結(jié)構(gòu),但做實(shí)驗(yàn)?zāi)玫蕉鄻?gòu)象的真實(shí)數(shù)據(jù)比較困難,我不知道現(xiàn)在蛋白質(zhì)結(jié)構(gòu) PDB 數(shù)據(jù)庫中有多少這樣的數(shù)據(jù)能支撐我們的訓(xùn)練,這是制約領(lǐng)域發(fā)展的重要問題。
質(zhì)量評估和結(jié)構(gòu)預(yù)測放在一起還是分開這個(gè)問題也很重要。自我的質(zhì)量評估是有必要的,但同時(shí)從用戶角度來說,用戶需要用不同的軟件來產(chǎn)生模型,然后得到質(zhì)量的評估,他們更需要的是獨(dú)立的、甚至是單模型的評估方法幫助他們選擇模型。另外是共識和單模型的質(zhì)量評估方法,共識方法其實(shí)是很簡單的,就是看模型之間的相似性,然后進(jìn)行排序,問題在于單模型方法還沒有突破共識方法,這是我們需要做的工作。
張貴軍:所以應(yīng)該鼓勵(lì)單模型方法,而不是共識基線方法,這樣可能會(huì)壓制單模型方法的開發(fā)。
程建林:是的,我們也試了幾種方法,共識方法、單模型方法和共識、單模型的組合方法,最后在 CASP 的比賽中共識方法還是超過了其他方法,雖然單模型和共識結(jié)合的方法在我們自己的實(shí)驗(yàn)中比共識方法好。共識方法目前沒有什么大的突破,但是設(shè)了一個(gè)很高的界限,其他的方法還沒有系統(tǒng)地超過它,如果有一天單模型或少模型的方法能超過共識方法的話,這個(gè)領(lǐng)域才算取得了重要突破。
張貴軍:那現(xiàn)在自評估 AlphaFold2 里對一些無序片段的評估質(zhì)量并不是太高,是不是意味著存在獨(dú)立于 AF 的第三方的預(yù)測和評估方法是非常有的必要的。
程建林:我覺得完全有必要,現(xiàn)在自評估其實(shí)也不錯(cuò),但有時(shí)高估一些模型的質(zhì)量,所以需要獨(dú)立的質(zhì)量評估。預(yù)測問題是產(chǎn)生結(jié)構(gòu)模型,而評估是選擇最優(yōu)模型,這是兩個(gè)不一樣的問題,都非常難,甚至難度可能是一樣的,只不過現(xiàn)在在結(jié)構(gòu)產(chǎn)生上取得了很大的進(jìn)展,而評估還需突破,但突破是可能發(fā)生的,目前評估的重要性已經(jīng)被 CASP 提到了一個(gè)高度。
RNA 結(jié)構(gòu)預(yù)測新進(jìn)展
常珊:我們進(jìn)入下一個(gè)議題,在 RNA 結(jié)構(gòu)預(yù)測、核酸復(fù)合物結(jié)構(gòu)預(yù)測方面,預(yù)測的數(shù)量和難度是不是都在提升?AlphaFold3 是否有明顯優(yōu)勢?請鄭偉老師和楊建益老師來介紹一下進(jìn)展。
鄭偉:我們今年是第一次做 RNA 賽道,今年 CASP 拔高了 RNA,上一屆 RNA 只有十幾個(gè) target,大部分集中在 RNA 單體上,復(fù)雜度也不高,可能一兩百個(gè)堿基已經(jīng)算比較多,但這屆 RNA 或 DNA 相關(guān)共有 60 多個(gè)。
RNA 和蛋白質(zhì)復(fù)合物結(jié)構(gòu)預(yù)測有點(diǎn)像,也分為 phase0 和 phase1,phase0 不告知幾聚體,phase1 再告知,今年我們猜 phase0 不會(huì)太大,但意外的是大的 RNA 復(fù)合物比比皆是,14 個(gè)或 8 個(gè) RNA 形成的復(fù)雜聚體非常多。
RNA 整個(gè)體系也很大,有好幾個(gè) target 都超過了 5000 個(gè)氨基酸,無論是通過我們自己的方法還是 AlphaFold3,都比較難預(yù)測。因?yàn)楫?dāng)時(shí) AlphaFold3 的 Server 的最大提交長度閾值大概設(shè)在 5000,很多 target 超過 5000,參賽者不太好預(yù)測。今年 RNA 細(xì)分賽道也很多,去年只有 RNA 單體,復(fù)合物很少,而且去年只有兩個(gè)蛋白質(zhì)-核酸復(fù)合物target,今年大概十幾個(gè) target。
核酸小分子上次也完全沒有 target,今年也設(shè)了幾個(gè),整體看 RNA 賽道無論是難度、數(shù)量還是細(xì)化上變化都很明顯。也可以看出整個(gè)領(lǐng)域在蛋白質(zhì)結(jié)構(gòu)預(yù)測發(fā)展得相對比較成熟的情況下,大家的關(guān)注點(diǎn)漸漸要往 RNA 結(jié)構(gòu)預(yù)測上產(chǎn)生傾斜了。
另外 AlphaFold3 在這個(gè)賽道上沒有優(yōu)勢,不光這個(gè)賽道,AlphaFold3 在各個(gè)賽道上整體排名在 6 ~ 10 名之間,整體精度沒那么理想,所以在結(jié)構(gòu)預(yù)測這個(gè)領(lǐng)域,即使大家拿到了相同的 AlphaFold3 的 Server,用的過程中經(jīng)驗(yàn)也很重要,這也是大家排名不一樣的原因。
蛋白質(zhì)核酸復(fù)合物結(jié)構(gòu)預(yù)測是我們今年比較感興趣的方向,往屆受限于方法,很少有做蛋白核酸復(fù)合物的方法,發(fā)展主要在近兩年,之前也有一些基于 Docking 或其他的方法,但純 AI 完全從頭預(yù)測是從 David Baker的 RosettaFoldNA 提出來之后開始的,然后 AlphaFold3 把這個(gè)體系發(fā)展得相對來說比較好,但整體看這個(gè)領(lǐng)域還較難,主要原因在于有效的、能夠用來訓(xùn)練的蛋白質(zhì)核酸復(fù)合物數(shù)量不太多,大概 3 ~ 5 千個(gè),這是制約蛋白質(zhì)核酸復(fù)合物結(jié)構(gòu)預(yù)測精度的原因之一。
今年其實(shí)還有幾個(gè) target 是抗體蛋白加核酸的復(fù)合物,整體來看,大家預(yù)測出的結(jié)果比蛋白質(zhì)抗體-抗原復(fù)合物精度差很多,尤其在核酸這部分,基本大家預(yù)測的結(jié)果相對來說很差。
楊建益:我再補(bǔ)充一下,上一屆 CASP 才引入 RNA,但那時(shí)只有 12 個(gè) RNA,其中 8 個(gè)天然,4 個(gè)人工設(shè)計(jì),人工設(shè)計(jì)最長有 700 多個(gè)核酸,天然的RNA都比較短,大概在幾十到一百左右。
這一屆類別明顯更多,包括復(fù)合物、小分子,甚至有 RNA 跟水分子的互作,整體上預(yù)測起來非常困難,尤其是復(fù)合物類型。我們課題組做的 trRosettaRNA 主要針對 RNA 單體而言,當(dāng)前可用 AlphaFold3 與 RoseTTAFold NA 預(yù)測蛋白-RNA 結(jié)構(gòu),但其性能依然不理想。
就 RNA 單體而言,預(yù)測跟上屆比不見得更難,上屆難在人工設(shè)計(jì),這部分無論 AI 還是傳統(tǒng)物理方法都做不好自動(dòng)預(yù)測,但上一屆比賽中熊鵬團(tuán)隊(duì)把人工設(shè)計(jì)的 RNA 做的很好。這屆 RNA 的精度不比上次低,我們自己方法的在 RNA 單體的平均 RMSD 大概 15 埃,上一屆是 20 埃以上,主要是人工設(shè)計(jì)的 RNA 做得不好,RMSD 都是三四十埃左右。
CASP16 的 RNA 通過 AI 預(yù)測的精度還是可接受的,但還沒那么精準(zhǔn),人工經(jīng)驗(yàn)還是比較重要,這方面和蛋白區(qū)別特別大,在蛋白結(jié)構(gòu)預(yù)測中,人工干預(yù)不一定有特別大幫助,但 RNA 中人工干預(yù)挺關(guān)鍵的,排名前三的團(tuán)隊(duì)都是人工干預(yù)做了很多修正,包括人工構(gòu)建二級結(jié)構(gòu)、模擬產(chǎn)生數(shù)據(jù)后人工篩選、基于 MSA 調(diào)整結(jié)構(gòu)等,過程非常繁瑣,AI 很難把所有方面都考慮到。
自動(dòng)預(yù)測好處在于會(huì)有許多人受益,我們提供了 trRosettaRNA 服務(wù)器,當(dāng)用戶輸入的序列在訓(xùn)練集中存在相似數(shù)據(jù)時(shí),自動(dòng)預(yù)測的結(jié)構(gòu)大概率會(huì)比較準(zhǔn)確。自動(dòng)預(yù)測的優(yōu)點(diǎn)在于可以服務(wù)更多用戶,我們服務(wù)器每天都會(huì)收到不少新任務(wù)。
自動(dòng)預(yù)測是未來發(fā)展方向,雖然現(xiàn)在 AlphaFold3 優(yōu)勢不明顯,但后面應(yīng)該會(huì)越來越好,它精度不高的原因還是已有實(shí)驗(yàn)數(shù)據(jù)有限,剛才鄭偉提到大概有幾千個(gè)數(shù)據(jù),但這些數(shù)據(jù)很多都來自同一類 RNA 或復(fù)合物,其中特別多 tRNA,我們服務(wù)器也經(jīng)常收到這類序列,預(yù)測結(jié)構(gòu)都挺可靠,但比較新的 RNA 做得并不好。蛋白結(jié)構(gòu)預(yù)測六七十年積累下來數(shù)據(jù)庫很大,有 20 多萬個(gè)結(jié)構(gòu)供 AI 學(xué)習(xí),但 RNA 數(shù)據(jù)還太少,非冗余的數(shù)據(jù)就幾百個(gè),學(xué)不好可以理解。
上屆比賽前幾名都沒有用到 AI 預(yù)測,但這屆前幾名都用 AlphaFold3 或 trRosettaRNA 輔助篩選或模擬,AI 的價(jià)值將會(huì)越來越大。我相信 RNA 數(shù)據(jù)積累是個(gè)過程,蛋白結(jié)構(gòu)預(yù)測早期其實(shí)結(jié)構(gòu)也不準(zhǔn)確,現(xiàn)在的進(jìn)步速度應(yīng)該比之前要快,下一屆應(yīng)該會(huì)有更多的 RNA 參賽團(tuán)隊(duì),結(jié)構(gòu)預(yù)測精度應(yīng)該會(huì)越來越高。
常珊:自動(dòng)化的 RNA 結(jié)構(gòu)預(yù)測非常重要,在 AlphaFold3 的文章里,其實(shí)在 CASP15 比較 RNA 結(jié)構(gòu)預(yù)測的時(shí)候,結(jié)果其實(shí)差距不大,人工組還更占優(yōu)一些,在小分子預(yù)測方面則顯示出有比較大的提升,就像程建林老師說的,確實(shí)這一屆的評估也展示了配體預(yù)測中 AlphaFold3 作為 Baseline 的結(jié)果,人工組沒有超過 AlphaFold3,這也是有挑戰(zhàn)的問題,請孔韌老師和程建林老師簡單介紹一下。
孔韌:上一屆比賽中更多是一個(gè)蛋白結(jié)合一個(gè)小分子,或者一個(gè)蛋白同時(shí)結(jié)合多個(gè)小分子,這樣的問題更像是這個(gè)生物體系中蛋白質(zhì)跟輔因子結(jié)合的預(yù)測問題,我們比賽結(jié)果非常好,因?yàn)橛玫氖?nbsp;template based docking的方法,那時(shí) AlphaFold 還不能預(yù)測蛋白小分子體系,在這種蛋白與輔因子結(jié)合的問題中,有很多高度類似 template 能被找到。
這屆比賽其實(shí)引入了更加現(xiàn)實(shí)的問題,就是一個(gè)蛋白作為一個(gè)藥物靶點(diǎn),我們通常在藥物發(fā)現(xiàn)的過程中需要去評估它跟多個(gè)不同化學(xué)結(jié)構(gòu)小分子結(jié)合的模式問題,以及結(jié)合的強(qiáng)度問題。這其實(shí)更接近于我們在小分子開發(fā)中會(huì)碰到的問題,這次 AlphaFold3 沒有作為參賽者參賽,但在評估實(shí)驗(yàn)中表現(xiàn)非常不錯(cuò)。
這次一共有 L1000 到 L4000 四個(gè) target,分別是四個(gè)藥靶對應(yīng)幾十個(gè)到上百個(gè)小分子,AlphaFold3 在 L3000 中表現(xiàn)超過所有參賽組,在 L4000 上表現(xiàn)沒那么好,在 L2000 和 L1000 這兩個(gè)同源蛋白中,它在 L2000 上的表現(xiàn)稍微好一點(diǎn)。整體來看,AlphaFold3 已經(jīng)表現(xiàn)出優(yōu)勢,在某些靶點(diǎn)上比傳統(tǒng)對接方法要強(qiáng),將來我們真正做藥物研發(fā)時(shí),可以把傳統(tǒng)的對接方法和 AlphaFold 的深度學(xué)習(xí)方法結(jié)合起來做綜合考慮和使用,產(chǎn)生更多有可能正確的 pose。
而這又帶來這么多正確 pose 如何挑選的新問題,蛋白質(zhì)結(jié)構(gòu)預(yù)測中也會(huì)碰到類似問題,通常如果用 template base 方法很簡單,就是如果能夠在 PDB 庫中找到類似的小分子、化學(xué) atom type,或者類似的周圍的 residue type 的話,根據(jù)相似性打分去評估,類似度較高的 pose 正確的可能性較大。
正確結(jié)構(gòu)挑出之后,其實(shí)比賽也分了兩個(gè)階段,第一階段是預(yù)測小分子的結(jié)合模式以及結(jié)合親和力,第二階段是告知全部晶體結(jié)構(gòu)和結(jié)合模式,直接預(yù)測親和力就行。但目前還沒有特別好的方法能評估小分子,或者多個(gè)小分子對同一靶點(diǎn)的結(jié)合親和力,將來我們也想往這個(gè)方向做。
程建林:孔老師提到 AlphaFold3 現(xiàn)在可能超過了其他方法,但其實(shí)還是有很多地方可以提高,比如怎么用模板、怎么選擇模型之類的,同時(shí)也會(huì)有其他競爭方法出現(xiàn),最近有方法自稱超過了 AlphaFold3,但也還需要客觀評估,另外這些方法各有所長,有沒有可能結(jié)合在一起得到更好的方法也是可以研究的問題。
另外我的學(xué)生在評估主要的蛋白質(zhì)小分子復(fù)合體預(yù)測的方法時(shí),發(fā)現(xiàn)了一個(gè)問題是很多方法在訓(xùn)練之后的測試過程中,如果小分子跟以前訓(xùn)練數(shù)據(jù)中有一定相似性的話,可能效果比較好,如果不一樣,性能就不可預(yù)測,那么要怎樣提高這些人工智能方法的通用性,這是一個(gè)需要解決的問題。
蛋白質(zhì)小分子結(jié)合親和力的預(yù)測對篩選藥物而言也非常重要,提供一個(gè)藥物靶點(diǎn),怎樣篩選各種和蛋白可能有相互作用的小分子藥物,哪怕不能預(yù)測結(jié)構(gòu),只要知道親和力也夠了。但這個(gè)領(lǐng)域還處于非常初級的階段,其實(shí)跟排序、質(zhì)量評估都是相關(guān)的,是個(gè)非常困難的問題,就像在所產(chǎn)生的上萬個(gè)模型中隨機(jī)挑選最優(yōu),這樣概率會(huì)非常低。
結(jié)構(gòu)預(yù)測的藍(lán)海方向
孔韌:我的領(lǐng)域?qū)儆?CADD(藥物輔助設(shè)計(jì)),后來因?yàn)?CASP 有了小分子賽道,我才更多參與到 CASP 的小分子結(jié)構(gòu)預(yù)測中。CADD 領(lǐng)域也有很多傳統(tǒng) docking、binding affinity 以及結(jié)合自由計(jì)算方向的專家和團(tuán)隊(duì),大家可以更多參與到 CASP 比賽中,因?yàn)?CASP 的數(shù)據(jù)集公布了結(jié)構(gòu)、親和力,可以用其數(shù)據(jù)集測試自己公司、課題組的 pipeline 是不是能很好地預(yù)測 binding affinity,我非常想看到這個(gè)方向有沒有比較好的解決方案。
常珊:孔老師的觀點(diǎn)正好和下個(gè)問題相關(guān),就是 CASP 評估賽對產(chǎn)業(yè)的實(shí)際應(yīng)用,比如對合成生物產(chǎn)業(yè)或生物醫(yī)藥的產(chǎn)業(yè)影響是什么?可以請張貴軍老師和孔老師再給我們分享一下。
張貴軍:只要跟生物有關(guān)的都和結(jié)構(gòu)密不可分,這幾年來醫(yī)學(xué)、藥學(xué)、農(nóng)學(xué)領(lǐng)域的專家對結(jié)構(gòu)都非常關(guān)注,因?yàn)樗芙沂局匾纳飳W(xué)功能機(jī)制。
對于藥學(xué)而言,藥物靶標(biāo)發(fā)現(xiàn)是比較重要的應(yīng)用,隨著目前焦點(diǎn)從的靜態(tài)構(gòu)象轉(zhuǎn)向多構(gòu)象研究,那么多構(gòu)象之中的某一個(gè)可能是潛在的靶點(diǎn)。醫(yī)學(xué)上抗體的進(jìn)展也非常迅猛,這意味著在疫苗的設(shè)計(jì)中,包括檢測、診斷、抗體治療上,都有很多東西能探索。
合成生物學(xué)方面,結(jié)構(gòu)的研究直接引起了產(chǎn)業(yè)的飛速發(fā)展,包括在可降解材料、綠色制造等領(lǐng)域,將成為有效應(yīng)對全球變暖問題的有效手段。今年都快放寒假了,但是杭州天氣還沒有去年那么冷,環(huán)保問題是事關(guān)人類生存的重大挑戰(zhàn)性問題。
孔韌:結(jié)構(gòu)對生命科學(xué)相關(guān)產(chǎn)業(yè)都會(huì)帶來一定影響,現(xiàn)在只是開始,隨著工具應(yīng)用變廣,應(yīng)用在具體問題上變多,影響會(huì)更深刻。
我們之前跟做基礎(chǔ)醫(yī)學(xué)的老師有合作交流,他們在解釋很多蛋白功能重要性問題時(shí),通常會(huì)用 coIP 或者 WB 來做,看兩個(gè)蛋白是否結(jié)合、誰跟誰結(jié)合,我們建議可以用結(jié)構(gòu)預(yù)測的方法從三維蛋白質(zhì)結(jié)構(gòu)的角度,看蛋白質(zhì)結(jié)構(gòu)跟功能間的關(guān)系、結(jié)構(gòu),以及如何結(jié)合另一個(gè)蛋白,哪個(gè)結(jié)構(gòu)發(fā)揮了作用,哪個(gè)界面殘基重要,用這些信息幫助他們做下一步實(shí)驗(yàn)設(shè)計(jì)。如果這樣的結(jié)合對細(xì)胞表型、疾病表型有重要影響的話,還可以涉及多肽、蛋白、抗體、小分子去影響這個(gè)過程,最終關(guān)聯(lián)到藥物研發(fā)上。
合成生物學(xué)領(lǐng)域現(xiàn)在也非常熱,當(dāng)中就是用細(xì)胞工廠來合成想要的東西,細(xì)胞工廠里具體的執(zhí)行者是蛋白質(zhì)、代謝網(wǎng)絡(luò)、代謝酶,其中限速酶是誰?限速酶是如何限速的?怎樣改進(jìn)限速酶的催化效率?限速酶跟它的產(chǎn)物如何結(jié)合?如果能知道底物結(jié)合與產(chǎn)物釋放的動(dòng)態(tài)過程,就可以找出其中的關(guān)鍵殘基,對酶改造進(jìn)行合理設(shè)計(jì),這也是可以想象的方向。
常珊:我最近看到 Baker 在采訪中指出了大概十幾個(gè)有可能使用結(jié)構(gòu)預(yù)測或者蛋白質(zhì)設(shè)計(jì)的藍(lán)海領(lǐng)域,是大家可以去關(guān)注的方向。還有哪些方向是諾獎(jiǎng)之后,結(jié)構(gòu)預(yù)測更好的發(fā)展方向,請程建林老師和楊建益老師分享一下。
楊建益:我覺得單序列預(yù)測如果把蛋白質(zhì)折疊問題解決了,將是諾獎(jiǎng)級的工作。要從單序列去預(yù)測結(jié)構(gòu),深入探索蛋白質(zhì)折疊機(jī)理和問題還有很長的路要走。以后肯定會(huì)是 AI 主導(dǎo)的,通過 AI 不斷迭代、更新,精度提高的同時(shí),不斷加深對折疊機(jī)理的理解。
此外,現(xiàn)在 AlphaFold 解決的是靜態(tài)結(jié)構(gòu)預(yù)測問題,現(xiàn)在大家關(guān)注的重點(diǎn)逐步從靜態(tài)轉(zhuǎn)為動(dòng)態(tài)。因?yàn)榈鞍踪|(zhì)要執(zhí)行生物學(xué)功能,主要是因?yàn)樗趧?dòng),雖然我一直覺得只研究一條蛋白質(zhì)的動(dòng)態(tài)沒有太大的意義,重點(diǎn)還是在復(fù)合物,因?yàn)閯?dòng)是有原因的,比如說跟小分子、蛋白、核酸互作。所以在復(fù)合物背景下研究動(dòng)態(tài)構(gòu)項(xiàng)變化是重要方向,但對于預(yù)測者、評估者來講都很困難。
程建林:獲得諾獎(jiǎng)是對我們整個(gè)領(lǐng)域的承認(rèn),會(huì)產(chǎn)生很大影響,吸引很多人來學(xué)習(xí)結(jié)構(gòu)預(yù)測。我覺得還有幾個(gè)可能達(dá)到諾獎(jiǎng)級別的工作,比如單序列結(jié)構(gòu)預(yù)測,然后 RNA 如果能做到 AlphaFold2 當(dāng)年對蛋白質(zhì)結(jié)構(gòu)預(yù)測的水平就已經(jīng)達(dá)到很高的精度了,這也是諾獎(jiǎng)級別的工作。
蛋白小分子復(fù)合體結(jié)構(gòu)預(yù)測,雖然現(xiàn)在 AlphaFold3 屬于領(lǐng)先狀態(tài),但它的精度還遠(yuǎn)遠(yuǎn)沒有達(dá)到解決大部分問題,不像它 90% 解決了蛋白單鏈的結(jié)構(gòu)預(yù)測問題。蛋白質(zhì)小分子其實(shí)還有很多工作要做,這個(gè)問題非常重要,因?yàn)楝F(xiàn)實(shí)意義是巨大的,對制藥、疾病的理解是非常重要的,如果能夠取得突破性的進(jìn)展,也是達(dá)到諾獎(jiǎng)級別的。
得到諾貝獎(jiǎng)最重要的因素在于要有巨大的、突然性的,顛覆性的突破,還有其實(shí)這是人工智能在科學(xué)領(lǐng)域里獲得的迄今為止第一個(gè)最重要的突破,AlphaGo、ChatGPT 都是新的代表性時(shí)刻,而在科學(xué)領(lǐng)域里的時(shí)刻其實(shí)就是蛋白質(zhì)結(jié)構(gòu)預(yù)測,已經(jīng)成為科學(xué)中的樣板。
很多人以前都不關(guān)心蛋白質(zhì)結(jié)構(gòu)預(yù)測,現(xiàn)在他們都要在自己研究的疾病或生物系統(tǒng)里預(yù)測蛋白質(zhì)結(jié)構(gòu),比如農(nóng)業(yè)里設(shè)計(jì)育種,使其更有抗旱性,能源領(lǐng)域設(shè)計(jì)酶,把生物廢料轉(zhuǎn)成能量。另外,很多生物科技公司甚至大公司也在投入其中,他們會(huì)使用、繼續(xù)開發(fā)這些工具,或者應(yīng)用到各個(gè)不同的領(lǐng)域里,所以它已經(jīng)成為非常有潛力的領(lǐng)域,但從學(xué)術(shù)界的角度來講還存在許多有挑戰(zhàn)性的研究問題待解。
常珊:諾獎(jiǎng)確實(shí)是對我們結(jié)構(gòu)預(yù)測領(lǐng)域的一個(gè)很重要的肯定,之前很少人會(huì)關(guān)注這個(gè)領(lǐng)域,或者大家不是特別了解,這也是我們舉辦這次圓桌會(huì)議的重要原因,結(jié)構(gòu)預(yù)測獲得諾獎(jiǎng)肯定以后,我們需要讓大家知道諾獎(jiǎng)到底為什么頒給結(jié)構(gòu)預(yù)測,結(jié)構(gòu)預(yù)測可以幫助學(xué)術(shù)研究、產(chǎn)業(yè)界做什么事。
目前中國團(tuán)隊(duì)參加 CASP 的熱情也很高,所以我們也在討論有沒有可能讓中國來承辦一次,在中國承辦的話,會(huì)更大地?cái)U(kuò)大結(jié)構(gòu)預(yù)測的影響力,這方面想請楊建益老師和鄭偉老師來談一下建議。
楊建益:CASP 發(fā)邀請信的時(shí)候我就問過下一屆能不能在中國辦,他們回復(fù)很感興趣,這次會(huì)議最后一天的預(yù)測會(huì)議中,也有人建議在亞洲舉辦 CASP17。Joun Moult 回復(fù)郵件說這一屆比賽的中國參賽者僅次于美國,日韓團(tuán)隊(duì)也很多,他很感興趣,不過還需要進(jìn)一步討論。
鄭偉:下一屆感覺因?yàn)闀?huì)議組織受國際政治的因素影響比較大,會(huì)不會(huì)選在中國其實(shí)不太好說,估計(jì)日韓概率會(huì)比較大,但是也不是說沒希望,要集體跟組委會(huì)反映,最大努力爭取。
常珊:評論區(qū)也還有一些問題需要討論一下,大家比較關(guān)心結(jié)構(gòu)預(yù)測對于突變后蛋白質(zhì)的預(yù)測效果如何?或者對于蛋白質(zhì)突變中比較小的細(xì)微的序列變化,會(huì)不會(huì)有比較好的預(yù)測結(jié)果嗎?還有對于 Loop 區(qū)的預(yù)測有沒有一些比較好的建議?有沒有老師可以解答一下。
程建林:我回答第一個(gè)問題。目前對突變的結(jié)構(gòu)預(yù)測還不是特別成功,因?yàn)?AlphaFold2、AlphaFold3 主要是用對齊的多序列作為輸入,所以如果只有幾個(gè)氨基酸發(fā)生變異之后,其實(shí)它不能敏感察覺變化,產(chǎn)生的結(jié)果和用原始序列是差不多的,我們今天沒有討論到,但這是之后結(jié)構(gòu)預(yù)測要解決的重要問題。
鄭偉:我覺得點(diǎn)突變分兩個(gè)方向,一是點(diǎn)突變對結(jié)構(gòu)影響比較大的,二是點(diǎn)突變對結(jié)構(gòu)影響并不那么大的。點(diǎn)突變對結(jié)構(gòu)改變比較大的方向,我們是有一些 case 能做的,CASP15 也有一個(gè)點(diǎn)突變復(fù)合物,很多團(tuán)隊(duì)都預(yù)測得還不錯(cuò),但點(diǎn)突變對結(jié)構(gòu)改變比較大的 case 現(xiàn)在不是太多。而點(diǎn)突變對小構(gòu)項(xiàng)的影響,如果從結(jié)構(gòu)預(yù)測看的話,其實(shí)在側(cè)鏈?zhǔn)悄芊从吵鰜淼模@種變化能有多少被真實(shí)反應(yīng)很難說,點(diǎn)突變問題需要以結(jié)構(gòu)預(yù)測加生物學(xué)驗(yàn)證的結(jié)合手段為主,這是比較正確的方向,現(xiàn)階段想依賴 AI 去解決比較難。
Loop 區(qū)我覺得本來就是比較靈活的區(qū)域,相對來說比較難預(yù)測,建議可以多預(yù)測一些模型,然后把 Loop 區(qū)整體對齊再看一下,然后還是需要結(jié)合生物學(xué)的驗(yàn)證經(jīng)驗(yàn)篩選模型,完全依賴于 AI 去預(yù)測也是很難的。
常珊:Loop 區(qū)的構(gòu)項(xiàng)本身也很多,有點(diǎn)類似于蛋白質(zhì)多構(gòu)象的預(yù)測問題,所以很難說有哪個(gè)構(gòu)項(xiàng)是占優(yōu)的,本身還是有一定不確定性的。
楊建益:同意。Loop 的話跟執(zhí)行功能是有關(guān)的,單純考慮一個(gè)蛋白說Loop 準(zhǔn)不準(zhǔn)意義不太大,這些區(qū)域預(yù)測精度低非常正常,即使做實(shí)驗(yàn)也無法獲取可靠的結(jié)構(gòu)。應(yīng)該要考慮它與結(jié)合對象的互作用,看通過結(jié)合其他對象能否穩(wěn)固 Loop 區(qū)的結(jié)構(gòu)。雷峰網(wǎng)(公眾號:雷峰網(wǎng))雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。