0
本文作者: 朱可軒 | 2025-01-13 09:58 |
作者丨朱可軒
編輯丨陳彩嫻
“AlphaGo、ChatGPT 都是新科技突破的代表性工具。而在科學(xué)領(lǐng)域蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)獲得諾獎(jiǎng)就是 AI 巨大突破的高光時(shí)刻,諾獎(jiǎng)之后 AlphaFold 的研發(fā)模式已經(jīng)成為 AI for Science 的樣板?!背探终f(shuō)道。
2025 年 1 月 5 日,雷峰網(wǎng)、AI 科技評(píng)論GAIR Live 品牌與 CASP 評(píng)估的優(yōu)秀華人團(tuán)隊(duì)聯(lián)合舉辦了一場(chǎng)主題為“諾獎(jiǎng)之后的新篇章:蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的機(jī)遇與挑戰(zhàn)”的線上圓桌沙龍。
圓桌主持人為江蘇理工學(xué)院教授常珊,并邀請(qǐng)了密蘇里大學(xué)計(jì)算機(jī)系教授程建林、山東大學(xué)教授楊建益、南開(kāi)大學(xué)統(tǒng)計(jì)與數(shù)據(jù)科學(xué)學(xué)院教授鄭偉、浙江工業(yè)大學(xué)信息工程學(xué)院教授張貴軍以及江蘇理工學(xué)院研究員孔韌共同開(kāi)啟了一場(chǎng)深度對(duì)話。
常珊是江蘇理工學(xué)院教授,現(xiàn)任中國(guó)細(xì)胞生物學(xué)學(xué)會(huì)功能基因組信息學(xué)與系統(tǒng)生物學(xué)分會(huì)委員,中國(guó)疫苗行業(yè)協(xié)會(huì)疫苗基礎(chǔ)研究專委會(huì)委員,中國(guó)中醫(yī)藥信息學(xué)會(huì)中醫(yī)臨床藥學(xué)分會(huì)理事。
程建林教授目前供職于美國(guó)密蘇里大學(xué)計(jì)算機(jī)系,他 1999 年赴美留學(xué),2006 年在美國(guó)加州大學(xué)爾灣分校獲得了博士學(xué)位,并在 2004 年便開(kāi)始參加 CASP,先后已經(jīng)參加了 11 屆。
楊建益則是山東大學(xué)教授,他自 2011 年開(kāi)始在密西根大學(xué)跟張陽(yáng)教授做結(jié)構(gòu)預(yù)測(cè),至今已有十余年。南開(kāi)大學(xué)統(tǒng)計(jì)與數(shù)據(jù)科學(xué)學(xué)院教授,傳染病預(yù)防與溯源全國(guó)重點(diǎn)實(shí)驗(yàn)室成員,鄭偉教授也是在張陽(yáng)教授實(shí)驗(yàn)室開(kāi)始的結(jié)構(gòu)預(yù)測(cè)的旅程,從 CASP12 起已經(jīng)參加了5次 CASP——近 10 年的比賽。
張貴軍是浙江工業(yè)大學(xué)信息工程學(xué)院教授,做蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)有十幾年時(shí)間了,先后參加了兩屆 CASP??醉g當(dāng)前是江蘇理工學(xué)院的研究員,博士開(kāi)始和常珊教授一同在北京工業(yè)大學(xué)王存新教授的實(shí)驗(yàn)室做分子模擬以及蛋白質(zhì)復(fù)合物結(jié)構(gòu)預(yù)測(cè)。2015 年回國(guó)后,同常珊教授在江蘇理工學(xué)院組建了研究所,從 CASP13 開(kāi)始參加。
幾位嘉賓都參加了本次第十六屆 CASP(Critical Assessment of Protein Structure Prediction)。CASP 作為自 1994 年以來(lái)每?jī)赡赀M(jìn)行一次的全球蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽,楊建益將其比作諾獎(jiǎng)的“孵化器”和科學(xué)研究的奧林匹克。
在此次圓桌會(huì)上,大家一一分享了參加 CASP 的心得,以及對(duì)于領(lǐng)域前沿進(jìn)展和突破的洞察,單序列結(jié)構(gòu)預(yù)測(cè)、多構(gòu)象預(yù)測(cè)、RNA 結(jié)構(gòu)預(yù)測(cè)、蛋白質(zhì)-小分子復(fù)合體預(yù)測(cè)等也成為了下一階段亟待得到突破的問(wèn)題:
鄭偉說(shuō)道,“今年整體看 RNA 賽道無(wú)論是難度、數(shù)量還是細(xì)化上變化都非常明顯。也可以看出整個(gè)領(lǐng)域在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)發(fā)展得相對(duì)來(lái)說(shuō)比較成熟的情況下,大家的關(guān)注點(diǎn)可能漸漸要往 RNA 結(jié)構(gòu)預(yù)測(cè)上產(chǎn)生一定傾斜了。”
同時(shí),“多構(gòu)象也是 CASP 一直想要增加的賽道,但是鑒于往年多構(gòu)象的數(shù)據(jù)不太好采集,今年是首次作為獨(dú)立賽道設(shè)置了比賽,預(yù)測(cè)好多構(gòu)象對(duì)后續(xù)的整個(gè)動(dòng)態(tài)過(guò)程預(yù)測(cè)很重要。”但當(dāng)前囿于真實(shí)數(shù)據(jù)的不足,還未能實(shí)現(xiàn)大的突破。
而在小分子預(yù)測(cè)方面,據(jù)孔韌介紹,“ AlphaFold 相對(duì)于傳統(tǒng)對(duì)接方法,已經(jīng)表現(xiàn)出優(yōu)勢(shì),在某些靶點(diǎn)上比傳統(tǒng)對(duì)接方法要強(qiáng),將來(lái)感覺(jué)可以把傳統(tǒng)的對(duì)接方法和 AlphaFold 的深度學(xué)習(xí)方法結(jié)合起來(lái)做綜合考慮和使用。”
不過(guò), AlphaFold3 在使用模版和選擇模型等方面仍存不少提升空間。值得一提的是,嘉賓們也針對(duì)諾獎(jiǎng)“預(yù)備役”展開(kāi)了探討,其中單序列結(jié)構(gòu)預(yù)測(cè)被屢次提及:
楊建益認(rèn)為,“單序列結(jié)構(gòu)預(yù)測(cè)研究的是蛋白質(zhì)折疊問(wèn)題,AlphaFold 與 ESMFold 等方法本質(zhì)上是數(shù)據(jù)驅(qū)動(dòng)的結(jié)果,并未涉及蛋白質(zhì)折疊問(wèn)題。如果未來(lái)蛋白質(zhì)折疊問(wèn)題解決了,也將會(huì)是諾獎(jiǎng)級(jí)的工作?!?/p>
程建林同樣看好,他表示,“單序列的結(jié)構(gòu)預(yù)測(cè)是經(jīng)典問(wèn)題,當(dāng)前 AlphaFold3、AlphaFold2 都依賴于多序列輸入,但是很多時(shí)候只能找到一個(gè)序列,能否精確預(yù)測(cè)出結(jié)構(gòu),這甚至可能產(chǎn)生第二個(gè)諾獎(jiǎng)?!?/p>
以下是此次圓桌討論的精彩分享,AI 科技評(píng)論進(jìn)行了不改原意的編輯整理:
CASP 16 的進(jìn)步與突破
常珊:我們這次圓桌專注于結(jié)構(gòu)預(yù)測(cè)方向,主要是受到 CASP 評(píng)估會(huì)的啟發(fā),結(jié)構(gòu)預(yù)測(cè)還有很多可以探討的問(wèn)題。今天一共有八個(gè)議題,四個(gè)偏專業(yè),四個(gè)偏科普。這次很多華人團(tuán)隊(duì)都線下參加 CASP 評(píng)估會(huì),對(duì) CASP16 評(píng)估會(huì)有哪些印象深刻的事情?
程建林:這次 CASP 給我的印象一是參加的團(tuán)隊(duì)比以前多,二是大陸科學(xué)家取得了了不起的成就,包括在座的老師,這次 CASP 大家在所有領(lǐng)域都達(dá)到了世界前列的水平。
楊建益:2024 年是我第一次線下參加 CASP,從觀眾角度來(lái)講,我印象最深的是會(huì)議全程四天,參加會(huì)議的人都在,不像很多會(huì)議大家參加到一半就走了,這是很大的區(qū)別。從組織者到報(bào)告人大家都非常專注,CASP 能堅(jiān)持 16 屆 30 多年,我很感動(dòng)。感覺(jué) CASP 有點(diǎn)像諾獎(jiǎng)的孵化器,大量結(jié)構(gòu)生物學(xué)家、計(jì)算生物學(xué)家堅(jiān)持長(zhǎng)期主義,艱苦奮斗,長(zhǎng)期量變的積累才有了今天的突破。
鄭偉:剛才建林老師提到,中國(guó)大陸的參賽團(tuán)隊(duì)明顯變多,我想補(bǔ)充一下,其實(shí)整個(gè)亞洲的團(tuán)隊(duì)數(shù)量都是明顯變多的,上屆日本的團(tuán)隊(duì)不少,這屆明顯感覺(jué)韓國(guó)的參賽團(tuán)隊(duì)數(shù)量不少,整個(gè)亞洲的團(tuán)隊(duì)數(shù)量可能差不多和歐美的持平,甚至快反超了。
近年 CASP 更傾向于解決實(shí)際的生物學(xué)問(wèn)題,它的重要意義在于能指導(dǎo)結(jié)構(gòu)生物學(xué)整體的發(fā)展方向,包括計(jì)算結(jié)構(gòu)生物學(xué)里我們到底應(yīng)該做什么、這個(gè)方向的發(fā)展前景是什么。比賽其實(shí)更關(guān)注這種本質(zhì)的問(wèn)題,而不是為了比賽而比賽。
線下評(píng)估會(huì)主要在討論賽制或下一屆比賽應(yīng)該怎么做,這也是很多學(xué)者不愿離開(kāi)會(huì)場(chǎng)的原因之一。然后是近些年尤其是 CASP16 工業(yè)界課題組參賽熱情其實(shí)明顯下降了,大家可能都去卷大模型了,剩下學(xué)術(shù)界課題組還在堅(jiān)守本心(笑)。
張貴軍:我今年沒(méi)有去會(huì)場(chǎng),但看了現(xiàn)場(chǎng) PPT 以后,非常贊成 CASP 是實(shí)驗(yàn)而不是競(jìng)賽這一原則,它更加關(guān)注的是生物學(xué)的 insight,而不僅僅是排名,這也估計(jì)是 CASP 評(píng)估的魅力所在。
孔韌:我是第一次在線下參加 CASP,現(xiàn)場(chǎng)氛圍確實(shí)非常好,討論也十分激烈。以前我們總說(shuō)折疊問(wèn)題或者復(fù)合物結(jié)構(gòu)預(yù)測(cè)問(wèn)題,以 AlphaFold3 為代表的深度學(xué)習(xí)方法對(duì)于結(jié)構(gòu)預(yù)測(cè)領(lǐng)域的每個(gè)特別問(wèn)題都給出了相應(yīng)較好的解決方案。
然后我聽(tīng)了第一天主席講的歷史,他堅(jiān)持在這個(gè)方向做了 30 年,整個(gè)科研生涯都堅(jiān)持在解決結(jié)構(gòu)預(yù)測(cè)的問(wèn)題,我對(duì)此非常感慨,這是我們生命科學(xué)領(lǐng)域非常核心的存在,任何一個(gè)細(xì)胞或動(dòng)物層面的生物特征,追其根本是生物大分子的結(jié)構(gòu)問(wèn)題,結(jié)構(gòu)正常或異常和生物學(xué)功能關(guān)系密切。
往屆比賽算法還不太發(fā)達(dá),我們解決的主要是單體結(jié)構(gòu)問(wèn)題,但在整個(gè)細(xì)胞體系中,更多的是蛋白質(zhì) DNA、蛋白質(zhì) RNA 或者小分子形成的復(fù)雜體系,CASP 也可以看到解決復(fù)雜體系問(wèn)題的趨向了。然后整個(gè)作用的過(guò)程是動(dòng)態(tài)的,基于此,組委會(huì)提出將來(lái)要發(fā)展算法解決動(dòng)態(tài)結(jié)構(gòu)預(yù)測(cè)問(wèn)題,這對(duì)生命科學(xué)研究來(lái)說(shuō)意義重大。
常珊:我們進(jìn)入下一個(gè)議題,本次比賽在蛋白質(zhì)預(yù)測(cè)方面有什么新進(jìn)步?以及今后的發(fā)展趨勢(shì)是怎樣的?這個(gè)問(wèn)題請(qǐng)楊建益和程建林老師來(lái)講一下。
楊建益:蛋白質(zhì)單體結(jié)構(gòu)預(yù)測(cè)是 CASP 從第一屆到現(xiàn)在一直都有的主題,這一屆跟以往的區(qū)別在于分階段預(yù)測(cè),分為 phase 0、1、2,phase0 只提供序列信息,但不知道化學(xué)計(jì)量,這個(gè)預(yù)測(cè)比較有挑戰(zhàn)性,如果這部分預(yù)測(cè)錯(cuò)會(huì)使結(jié)構(gòu)預(yù)測(cè)得很差。第二階段會(huì)告知化學(xué)計(jì)量信息,第三階段提供了 MassiveFold 生成的基于 AlphaFold2 的 8000 個(gè)結(jié)構(gòu)模型,供預(yù)測(cè)者挑選,從而改進(jìn)預(yù)測(cè)結(jié)果。
進(jìn)步方面其實(shí)是增量性的,許多團(tuán)隊(duì)都是用 AlphaFold3、AlphaFold2 或自己的方法結(jié)合起來(lái),其中有兩個(gè) Baseline,AlphaFold3 的 Baseline 是 AF3-Server,AlphaFold2 的 Baseline 是 ColabFold,從 Baseline 來(lái)看,AlphaFold3 和AlphaFold2 相比確實(shí)有一定改進(jìn),但并不顯著,但 AlphaFold3 功能更全、可預(yù)測(cè)更多類型的生物分子結(jié)構(gòu)。
還有個(gè)較大的進(jìn)步在于抗體-抗原復(fù)合物結(jié)構(gòu)預(yù)測(cè)。Dima 團(tuán)隊(duì)結(jié)合 AlphaFold3、AlphaFold2,以及物理采樣方法 CluPro,通過(guò) FFT 對(duì)接,生成大量候選結(jié)構(gòu)模型,最后基于聚類和打分,篩選最優(yōu)結(jié)構(gòu)模型。但評(píng)估數(shù)據(jù)集較小,CASP16 只包含 8 個(gè)評(píng)估對(duì)象,不確定這類方法對(duì)于抗體-抗原復(fù)合物結(jié)構(gòu)預(yù)測(cè)的泛化能力。
常珊:其實(shí)大家常有討論在預(yù)測(cè)過(guò)程中,人工干預(yù)究竟能起到多大的作用?
程建林:我覺(jué)得人工干預(yù)在選模型上是很難的事,因?yàn)楫?dāng)有幾個(gè)很不同的AlphaFold2 或 AlphaFold3 產(chǎn)生的結(jié)構(gòu),看起來(lái)都有可能,分?jǐn)?shù)也差不多,很難確定哪個(gè)結(jié)構(gòu)更好。
但在有些方面人工干預(yù)是有幫助的,特別是化學(xué)計(jì)量 phase0 的預(yù)測(cè),這是個(gè)新引進(jìn)的項(xiàng)目。很多時(shí)候我們不知道化學(xué)計(jì)量,而要預(yù)測(cè)結(jié)構(gòu)需要先預(yù)測(cè)化學(xué)計(jì)量,這部分人工干預(yù)是有用的,因?yàn)榭梢匀フ椰F(xiàn)有的模板,這個(gè)模板提供有效的信息,然后結(jié)合這些信息產(chǎn)生結(jié)構(gòu)模型,用模型的分?jǐn)?shù)來(lái)評(píng)估。
然后,這次還有一個(gè)挑戰(zhàn)在于 AlphaFold3 是在比賽中間放出來(lái)的,在比賽前很多實(shí)驗(yàn)室的系統(tǒng)已經(jīng)在 AlphaFold2 的基礎(chǔ)上建好了,那 AlphaFold3 出來(lái)要怎么變化或快速反應(yīng),能不能馬上接受并有效使用,也是影響實(shí)驗(yàn)室成績(jī)的因素。鄭偉老師就跟我講他本來(lái)用 AlphaFold2 做得很好的,但是完全沒(méi)有用 AlphaFold3 ,所以表現(xiàn)就稍微下降了一點(diǎn)。
AlphaFold3 其實(shí)在大的復(fù)合物折疊上功能上要比 AlphaFold2 好,特別是當(dāng)有很多蛋白質(zhì)時(shí),AlphaFold2 產(chǎn)生不了很好的結(jié)果。此外,我也關(guān)注到在蛋白質(zhì)和小分子復(fù)合物的預(yù)測(cè)中,有一項(xiàng)進(jìn)展是人工智能方法趕上甚至超過(guò)了傳統(tǒng)對(duì)接方法,下屆 CASP 可能整個(gè)領(lǐng)域的水平都會(huì)上一個(gè)臺(tái)階。
有關(guān)發(fā)展趨勢(shì)方面,感覺(jué)結(jié)構(gòu)模型排序問(wèn)題、選擇問(wèn)題和質(zhì)量評(píng)估問(wèn)題都很有挑戰(zhàn)性。以前領(lǐng)域中主要障礙在于如何產(chǎn)生好的結(jié)構(gòu)模型,現(xiàn)在很多時(shí)候能夠產(chǎn)生好的模型,抗體、抗原都能產(chǎn)生正確的結(jié)構(gòu),但無(wú)法選擇出來(lái),這個(gè)問(wèn)題沒(méi)有徹底解決。
化學(xué)計(jì)量的預(yù)測(cè)也很重要,目前 CASP16 中有的方法已經(jīng)能在一定的人工支持下實(shí)現(xiàn)高性能,達(dá)到百分之七十幾的精度,但如何自動(dòng)化以及繼續(xù)提高是很重要的。還有一個(gè)問(wèn)題聚焦于大的復(fù)合體預(yù)測(cè),就是當(dāng)復(fù)合體中有幾十個(gè)或更多蛋白質(zhì)形成時(shí)要怎樣預(yù)測(cè)結(jié)構(gòu),AlphaFold3、AlphaFold2 也沒(méi)有完全解決這個(gè)問(wèn)題,這是之后需要突破的重要方向。
另外,單序列的結(jié)構(gòu)預(yù)測(cè)也是經(jīng)典問(wèn)題,當(dāng)前 AlphaFold3、AlphaFold2 都依賴于多序列輸入,但很多時(shí)候只能找到一個(gè)序列,能否精確預(yù)測(cè)出結(jié)構(gòu),這甚至可能產(chǎn)生第二個(gè)諾獎(jiǎng)。
最后是人工智能,當(dāng)前人工智能在蛋白質(zhì)和小分子方面都已取得了突破,接下來(lái)會(huì)有很多應(yīng)用,但我比較驚訝的是,在核酸結(jié)構(gòu)預(yù)測(cè)中人工智能還未超過(guò)傳統(tǒng)方法,陳世杰老師這次在核酸 RNA 結(jié)構(gòu)預(yù)測(cè)中取得了最好的成績(jī),也用了 AlphaFold3,但大量使用的還是傳統(tǒng)方法,近兩年可能會(huì)看到人工智能的超越。
蛋白質(zhì)預(yù)測(cè)新問(wèn)題的挑戰(zhàn)和趨勢(shì)
常珊:?jiǎn)涡蛄械牡鞍踪|(zhì)結(jié)構(gòu)預(yù)測(cè)有可能揭示了蛋白質(zhì)結(jié)構(gòu)的一些機(jī)制,這是很重要的,核酸結(jié)構(gòu)預(yù)測(cè)我們后面也會(huì)討論到。程老師剛剛也提到了蛋白質(zhì)模型的排序、質(zhì)量評(píng)估,還有蛋白質(zhì)的多構(gòu)象、復(fù)合物的問(wèn)題,這也是目前比較有挑戰(zhàn)的部分,正好引出了我們的第三個(gè)議題蛋白質(zhì)復(fù)合物組裝以及多構(gòu)象預(yù)測(cè),蛋白質(zhì)模型質(zhì)量評(píng)估等新問(wèn)題,請(qǐng)鄭偉老師和張貴軍老師給大家介紹一下挑戰(zhàn)和發(fā)展趨勢(shì)。
鄭偉:我先講一下模型質(zhì)量評(píng)估,目前在復(fù)合物結(jié)構(gòu)預(yù)測(cè)中比較麻煩的問(wèn)題在于,我們通過(guò)大量采樣,復(fù)合物備選的模型中其實(shí)有很多是接近于真實(shí)結(jié)構(gòu)的,但還是默認(rèn)的 QA 打分,模型的置信系數(shù)沒(méi)法把最好的排到前面,在我們開(kāi)發(fā)的方法里,這個(gè)問(wèn)題比較大。剛才建益老師也提到了抗體問(wèn)題,今年賽后我們看了一下整個(gè)模型池,這幾個(gè)抗體復(fù)合物我們也做了大量采樣,結(jié)果也有很多正確的模型,但它們?cè)谂判蚶锖艿?,這就引出了獨(dú)立 QA 方式的問(wèn)題。
今年蛋白質(zhì)模型質(zhì)量評(píng)估問(wèn)題上有幾個(gè)變化,往年大家傾向于做其他參賽者提交的模型排序以及常規(guī)的 QA 評(píng)測(cè),今年引入了 MassiveFold 的模型質(zhì)量評(píng)估,集成了各種改造版的 AlphaFold2 模型,大概產(chǎn)生 8000 個(gè)模型,CASP 有一個(gè)賽道就是在這些模型中重新選擇結(jié)果比較好的。另外,現(xiàn)在的 CASP 可能也更關(guān)注模型的自評(píng)估,這是從 CASP14 開(kāi)始引入的,作為最后所有評(píng)估參賽表現(xiàn)的其中一個(gè)指標(biāo),QA 在整個(gè)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域其實(shí)也日漸被重視。
但這個(gè)領(lǐng)域很難,我們今年也嘗試了參賽,賽前我們做了一個(gè) QA 評(píng)估,想用其他第三方 QA 來(lái)給模型重新打分,但基本所有第三方都沒(méi)法把我們的模型選好,所以我們就想能不能不用 QA 選模型,而是用模型反作 QA,因此我們構(gòu)建了一個(gè) QA 深度學(xué)習(xí)模型,然后用我們的模型做為主要的參考對(duì)其他模型進(jìn)行 QA 打分,這又引出了一個(gè)問(wèn)題是 QA 到底應(yīng)不應(yīng)該脫離結(jié)果預(yù)測(cè)單獨(dú)去做,不過(guò)這部分問(wèn)題可能還需要和建林、貴軍老師討論一下。
蛋白質(zhì)復(fù)合物組裝這部分除了加入了 Phase0、1、2 之外,整體的體系也在變大,以往復(fù)合物組裝都是比較小的體系,就是兩個(gè)蛋白或者這兩個(gè)蛋白 copy 數(shù)不太多,化學(xué)計(jì)量數(shù)也比較小,A1B1、 A2B2 都算比較大的了,整個(gè)體系就是一兩千個(gè)氨基酸,今年大的復(fù)合物變得特別多,有的體系里可能包含了十幾個(gè)蛋白,甚至有的整個(gè)體系下來(lái)七八千個(gè)氨基酸。今年整個(gè)復(fù)合物的組裝,一是化學(xué)計(jì)量變得更加復(fù)雜,二是復(fù)合物的體系變得更大,整體感覺(jué)變難了。
多構(gòu)象這塊其實(shí)是今年 CASP 一直想要增加的賽道,但鑒于往年多構(gòu)象數(shù)據(jù)不太好采集,今年是首次作為獨(dú)立賽道設(shè)置,相對(duì)其他賽道,多構(gòu)象不到 20 個(gè)結(jié)構(gòu),數(shù)量非常少。多構(gòu)象在生物學(xué)里其實(shí)很重要,因?yàn)樯镞^(guò)程不是靜態(tài)的,我們預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)其實(shí)大部分都是看某一個(gè)結(jié)構(gòu)中間的狀態(tài),是靜態(tài)的過(guò)程,但多構(gòu)象是動(dòng)態(tài)的,這對(duì)后續(xù)整個(gè)動(dòng)態(tài)預(yù)測(cè)很重要。
但今年一是賽題難度大,二是沒(méi)有明確的評(píng)測(cè)指標(biāo),還處于起步階段,多構(gòu)象預(yù)測(cè)相對(duì)其他賽道更難,數(shù)據(jù)量比較少,很難訓(xùn)練一個(gè)比較常規(guī)的深度學(xué)習(xí)模型預(yù)測(cè)所有多構(gòu)象問(wèn)題,所以處理起來(lái)要 case by case,每個(gè) case 都要人工花費(fèi)很多精力。
從前景上來(lái)講,AlphaFold3 里用的擴(kuò)散模型的結(jié)構(gòu)模塊比 AlphaFold2 基于 Transformer 的結(jié)構(gòu)模塊在 Benchmark 的時(shí)候效果好些,多構(gòu)象預(yù)測(cè)比較好的發(fā)展方向是生成模型或 Diffusion 模型。
張貴軍:模型質(zhì)量評(píng)估聽(tīng)起來(lái)簡(jiǎn)單,但是實(shí)現(xiàn)并不容易,現(xiàn)在的指標(biāo)體系從單體遷徙到復(fù)合物上還存在很多問(wèn)題,所以在 CASP 中針對(duì)復(fù)合物的模型質(zhì)量評(píng)估也增加了很多的改進(jìn),比如在局部指標(biāo)增加了 PatchQS 和 PatchDockQ 指標(biāo),在 CASP16 中,我們實(shí)驗(yàn)室開(kāi)發(fā)了一個(gè)基于兩個(gè)單模型和一個(gè)共識(shí)方法的 QA 框架,一般來(lái)講,通過(guò)共識(shí)方法判斷模型是否合適會(huì)受限于預(yù)測(cè)方法,因此,從 EMA 賽道的設(shè)置的初衷而言,發(fā)展單模型方法是重點(diǎn)方向之一。
EMA 整體上需要考慮打分、排序、選擇三個(gè)不同步驟,它們之間是有區(qū)別的。對(duì)于一個(gè)復(fù)合物模型而言,打分的對(duì)象有很多種,包括全局、局部、接口殘基、側(cè)鏈、原子的評(píng)估分?jǐn)?shù),然后將這些分?jǐn)?shù)需要整合排序,最后根據(jù)生物學(xué)需要挑選出感興趣的模型。目前方式是挑選最佳模型,但在生物學(xué)功能問(wèn)題中時(shí),如果存在多構(gòu)象問(wèn)題時(shí),單一的 TOP1 選擇方式并不理想。因?yàn)閺?fù)合物模型可能存在兩種或以上的穩(wěn)定功能構(gòu)象。此外,CAPRI、CASP 在模型質(zhì)量評(píng)估及打分方面的指標(biāo)也是有區(qū)別的。在本屆 CASP16 中,除了 Guijunlab-QA 之外,我們實(shí)驗(yàn)室還分別開(kāi)發(fā)了 Guijunlab-Complex、Guijunlab-DeepAssembly 兩個(gè)服務(wù)器參加了復(fù)合物建模類別,通過(guò)盲測(cè)分別驗(yàn)證一下 MSA 和模板兩個(gè)因素在高精度建模中的作用。
鄭偉老師的工作做得非常好,這也說(shuō)明了從目前來(lái)看結(jié)構(gòu)預(yù)測(cè)方法是超前于模型質(zhì)量評(píng)估方法的,預(yù)測(cè)做得很好,預(yù)測(cè)的評(píng)估也會(huì)做得很好。但也會(huì)存在全新、預(yù)測(cè)做得不太好的蛋白,或者參賽隊(duì)伍間差異性較大的情況。此外,這屆 CASP 也考慮到了實(shí)驗(yàn)結(jié)構(gòu)的可靠性,從上屆開(kāi)始組委會(huì)就已經(jīng)在考慮是模型預(yù)測(cè)錯(cuò)誤還是實(shí)驗(yàn)結(jié)構(gòu)測(cè)定誤差的問(wèn)題了,這也表明計(jì)算建模方法已經(jīng)成為實(shí)驗(yàn)測(cè)定方法的有效環(huán)節(jié)。
化學(xué)計(jì)量學(xué)的評(píng)估也比較重要一個(gè)新問(wèn)題,預(yù)測(cè)方面出現(xiàn)的新挑戰(zhàn)在評(píng)估方面都應(yīng)該考慮。比如二聚體、三聚體、四聚體等計(jì)量學(xué)問(wèn)題不僅可以搜模板,還可能從 MSA 中分析得到接口指紋,然后通過(guò)指紋判斷保守性的方式去解決。如果考慮到模板和 MSA 的話,實(shí)際上又歸到序列層面相互作用的問(wèn)題,目前,我們也在針對(duì)基于序列的蛋白質(zhì)相互作用方面開(kāi)展工作。
另外一個(gè)需要關(guān)注的挑戰(zhàn)是多構(gòu)象的問(wèn)題。我一直想跟大家討論 MSA 在建模和評(píng)估方面的雙刃劍問(wèn)題。CASP 多構(gòu)象建模實(shí)踐表明,在 AlphaFold 中使用不同的 MSA 配對(duì)確實(shí)可以產(chǎn)生不同的構(gòu)象,而且已經(jīng)有成功的案例,是目前多構(gòu)象預(yù)測(cè)的基本流程。但是,從第一性原理的角度來(lái)看,多構(gòu)象信息應(yīng)該包含在其序列之中。我覺(jué)得多構(gòu)象預(yù)測(cè)之后應(yīng)該可以從以下幾個(gè)考慮,通過(guò)蛋白質(zhì)序列語(yǔ)言模型(也就是 AI)的方式,直接從單序列出發(fā)捕獲構(gòu)象變換的語(yǔ)義關(guān)系;第二個(gè)方面直接在第一性原理上基礎(chǔ)上,考慮氨基酸的物理化學(xué)性質(zhì)去預(yù)測(cè)動(dòng)態(tài)構(gòu)象。多構(gòu)象模型精度評(píng)估同樣需要考慮以上問(wèn)題,從序列語(yǔ)義、物理化學(xué)的第一性原理考慮去研究。最后我想談?wù)?EMA 評(píng)估的指標(biāo)體系,除了目前考慮的全局、局部、殘基之外,化學(xué)計(jì)量學(xué)的評(píng)估指標(biāo)體系建立也很必要,在算法排序中,選擇 5 個(gè)模型中的 Best 模型可能更加合適,因?yàn)槎鄻?gòu)象、實(shí)驗(yàn)測(cè)定誤差以及特定生物學(xué)場(chǎng)景需求,使得 TOP1 模型的并不是最理想的選擇。
還有一個(gè)問(wèn)題我也想和各位老師探討,從我們現(xiàn)在的 EMA 角度來(lái)看,接口殘基的辨識(shí)率和精度兩個(gè)指標(biāo)在 CASP 16 里存在沖突。本屆 CASP 16 給出了這兩個(gè)指標(biāo),但填寫(xiě)精度數(shù)據(jù)時(shí)只給了一個(gè)地方填寫(xiě),現(xiàn)有的 PatchQA 和 PatchDockQ 是否有足夠的懲罰使得兩個(gè)指標(biāo)一致?其 Rank 權(quán)重能否真正體現(xiàn)精度就是接口的可能性。最近我們重現(xiàn)了一下,如果不太考慮精度的話,接口辨識(shí)成功率是可以提升很多的但精度會(huì)下降很多。
在蛋白質(zhì)復(fù)合物預(yù)測(cè)方面,我們專門(mén)從 MSA 改進(jìn)方面開(kāi)發(fā)了一個(gè) Guijunlab-Complex 服務(wù)器,從模板改進(jìn)方面,開(kāi)發(fā)了一個(gè) Guijunlab-DeepAssembly 服務(wù)器進(jìn)行測(cè)試,此外考慮到遠(yuǎn)程模板的重要性,開(kāi)發(fā)了一個(gè)主要用于單體預(yù)測(cè)的 Guijunlab-Pathreader 服務(wù)器。從盲測(cè)測(cè)試效果上來(lái)看,基于 MSA 該進(jìn)的性能優(yōu)勢(shì)還是明顯的,這表明目前 AlphaFold2 和 AlphaFold3 在這個(gè)領(lǐng)域的成功應(yīng)用,MSA 的改進(jìn)仍然是目前的主流方式。
目前需要努力的方向在于化學(xué)計(jì)量學(xué)的預(yù)測(cè),這部分工作的開(kāi)展需要綜合考慮 MSA、模板的因素;另外,弱的交互作用的復(fù)合物預(yù)測(cè)也是 AI 方法的挑戰(zhàn)性問(wèn)題,之前我們一直認(rèn)為纏繞蛋白很難預(yù)測(cè),但 AI 出現(xiàn)后已經(jīng)有了一些成功案例(由于存在較大的接觸面積),與此相反,接觸面比較小的蛋白如果采用傳統(tǒng)組裝方法是相對(duì)容易實(shí)現(xiàn),傳統(tǒng)方法和 AI 的整合,可能是應(yīng)該此類問(wèn)題的一種有效方式。
我也想請(qǐng)教程老師,多構(gòu)象預(yù)測(cè)方法目前都是以不同的 MSA 配對(duì)、選用不用模板、調(diào)參生成大量模型,更為理想方法的應(yīng)該是直接基于單序列。如果是基于 MSA 方式話,在不同的化學(xué)計(jì)量學(xué)下,可能存在的不同聚合關(guān)系,這種聚合關(guān)系使我們很難去完整預(yù)測(cè)所有靈活構(gòu)象。
除了剛才說(shuō)的這些問(wèn)題之外,還需要注意的是,設(shè)計(jì)的算法應(yīng)該是一個(gè)明確的、有界的步驟。目前廣泛采用 AlphaFold2、AlphaFold3,雖然考慮了精度,但并沒(méi)有充分地考慮時(shí)間復(fù)雜度和空間復(fù)雜度這兩個(gè)算法指標(biāo)。之后 CASP 比賽中應(yīng)該會(huì)考慮算法的效率問(wèn)題。另外我覺(jué)得目前多構(gòu)象預(yù)測(cè)領(lǐng)域存在的挑戰(zhàn)還是數(shù)據(jù)問(wèn)題,現(xiàn)有的 MSA、模板數(shù)據(jù)是否能支撐推斷出動(dòng)態(tài)信息,或者是否有良好整理的分子動(dòng)力學(xué)模擬的數(shù)據(jù)?,F(xiàn)在 AI 生成模型存在幻覺(jué),但蛋白質(zhì)是不允許存在幻覺(jué)的,PDB 庫(kù)中的動(dòng)態(tài)結(jié)構(gòu)、良好的 MD 數(shù)據(jù)將會(huì)有效地克服這一問(wèn)題。
程建林:多構(gòu)象預(yù)測(cè)現(xiàn)在有很多人開(kāi)始做,最近微軟也開(kāi)發(fā)了一個(gè)軟件預(yù)測(cè)分子動(dòng)力學(xué)的模擬結(jié)果,這個(gè)領(lǐng)域非常重要,但問(wèn)題在于沒(méi)有足夠的真實(shí)實(shí)驗(yàn)數(shù)據(jù)來(lái)訓(xùn)練模型。
理論上來(lái)說(shuō)可以用多構(gòu)象的實(shí)驗(yàn)數(shù)據(jù)來(lái)微調(diào)現(xiàn)有的模型,比如微調(diào) AlphaFold2、AlphaFold3,讓其產(chǎn)生多構(gòu)象,甚至從單序列能夠產(chǎn)生多構(gòu)象的結(jié)構(gòu),但做實(shí)驗(yàn)?zāi)玫蕉鄻?gòu)象的真實(shí)數(shù)據(jù)比較困難,我不知道現(xiàn)在蛋白質(zhì)結(jié)構(gòu) PDB 數(shù)據(jù)庫(kù)中有多少這樣的數(shù)據(jù)能支撐我們的訓(xùn)練,這是制約領(lǐng)域發(fā)展的重要問(wèn)題。
質(zhì)量評(píng)估和結(jié)構(gòu)預(yù)測(cè)放在一起還是分開(kāi)這個(gè)問(wèn)題也很重要。自我的質(zhì)量評(píng)估是有必要的,但同時(shí)從用戶角度來(lái)說(shuō),用戶需要用不同的軟件來(lái)產(chǎn)生模型,然后得到質(zhì)量的評(píng)估,他們更需要的是獨(dú)立的、甚至是單模型的評(píng)估方法幫助他們選擇模型。另外是共識(shí)和單模型的質(zhì)量評(píng)估方法,共識(shí)方法其實(shí)是很簡(jiǎn)單的,就是看模型之間的相似性,然后進(jìn)行排序,問(wèn)題在于單模型方法還沒(méi)有突破共識(shí)方法,這是我們需要做的工作。
張貴軍:所以應(yīng)該鼓勵(lì)單模型方法,而不是共識(shí)基線方法,這樣可能會(huì)壓制單模型方法的開(kāi)發(fā)。
程建林:是的,我們也試了幾種方法,共識(shí)方法、單模型方法和共識(shí)、單模型的組合方法,最后在 CASP 的比賽中共識(shí)方法還是超過(guò)了其他方法,雖然單模型和共識(shí)結(jié)合的方法在我們自己的實(shí)驗(yàn)中比共識(shí)方法好。共識(shí)方法目前沒(méi)有什么大的突破,但是設(shè)了一個(gè)很高的界限,其他的方法還沒(méi)有系統(tǒng)地超過(guò)它,如果有一天單模型或少模型的方法能超過(guò)共識(shí)方法的話,這個(gè)領(lǐng)域才算取得了重要突破。
張貴軍:那現(xiàn)在自評(píng)估 AlphaFold2 里對(duì)一些無(wú)序片段的評(píng)估質(zhì)量并不是太高,是不是意味著存在獨(dú)立于 AF 的第三方的預(yù)測(cè)和評(píng)估方法是非常有的必要的。
程建林:我覺(jué)得完全有必要,現(xiàn)在自評(píng)估其實(shí)也不錯(cuò),但有時(shí)高估一些模型的質(zhì)量,所以需要獨(dú)立的質(zhì)量評(píng)估。預(yù)測(cè)問(wèn)題是產(chǎn)生結(jié)構(gòu)模型,而評(píng)估是選擇最優(yōu)模型,這是兩個(gè)不一樣的問(wèn)題,都非常難,甚至難度可能是一樣的,只不過(guò)現(xiàn)在在結(jié)構(gòu)產(chǎn)生上取得了很大的進(jìn)展,而評(píng)估還需突破,但突破是可能發(fā)生的,目前評(píng)估的重要性已經(jīng)被 CASP 提到了一個(gè)高度。
RNA 結(jié)構(gòu)預(yù)測(cè)新進(jìn)展
常珊:我們進(jìn)入下一個(gè)議題,在 RNA 結(jié)構(gòu)預(yù)測(cè)、核酸復(fù)合物結(jié)構(gòu)預(yù)測(cè)方面,預(yù)測(cè)的數(shù)量和難度是不是都在提升?AlphaFold3 是否有明顯優(yōu)勢(shì)?請(qǐng)鄭偉老師和楊建益老師來(lái)介紹一下進(jìn)展。
鄭偉:我們今年是第一次做 RNA 賽道,今年 CASP 拔高了 RNA,上一屆 RNA 只有十幾個(gè) target,大部分集中在 RNA 單體上,復(fù)雜度也不高,可能一兩百個(gè)堿基已經(jīng)算比較多,但這屆 RNA 或 DNA 相關(guān)共有 60 多個(gè)。
RNA 和蛋白質(zhì)復(fù)合物結(jié)構(gòu)預(yù)測(cè)有點(diǎn)像,也分為 phase0 和 phase1,phase0 不告知幾聚體,phase1 再告知,今年我們猜 phase0 不會(huì)太大,但意外的是大的 RNA 復(fù)合物比比皆是,14 個(gè)或 8 個(gè) RNA 形成的復(fù)雜聚體非常多。
RNA 整個(gè)體系也很大,有好幾個(gè) target 都超過(guò)了 5000 個(gè)氨基酸,無(wú)論是通過(guò)我們自己的方法還是 AlphaFold3,都比較難預(yù)測(cè)。因?yàn)楫?dāng)時(shí) AlphaFold3 的 Server 的最大提交長(zhǎng)度閾值大概設(shè)在 5000,很多 target 超過(guò) 5000,參賽者不太好預(yù)測(cè)。今年 RNA 細(xì)分賽道也很多,去年只有 RNA 單體,復(fù)合物很少,而且去年只有兩個(gè)蛋白質(zhì)-核酸復(fù)合物target,今年大概十幾個(gè) target。
核酸小分子上次也完全沒(méi)有 target,今年也設(shè)了幾個(gè),整體看 RNA 賽道無(wú)論是難度、數(shù)量還是細(xì)化上變化都很明顯。也可以看出整個(gè)領(lǐng)域在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)發(fā)展得相對(duì)比較成熟的情況下,大家的關(guān)注點(diǎn)漸漸要往 RNA 結(jié)構(gòu)預(yù)測(cè)上產(chǎn)生傾斜了。
另外 AlphaFold3 在這個(gè)賽道上沒(méi)有優(yōu)勢(shì),不光這個(gè)賽道,AlphaFold3 在各個(gè)賽道上整體排名在 6 ~ 10 名之間,整體精度沒(méi)那么理想,所以在結(jié)構(gòu)預(yù)測(cè)這個(gè)領(lǐng)域,即使大家拿到了相同的 AlphaFold3 的 Server,用的過(guò)程中經(jīng)驗(yàn)也很重要,這也是大家排名不一樣的原因。
蛋白質(zhì)核酸復(fù)合物結(jié)構(gòu)預(yù)測(cè)是我們今年比較感興趣的方向,往屆受限于方法,很少有做蛋白核酸復(fù)合物的方法,發(fā)展主要在近兩年,之前也有一些基于 Docking 或其他的方法,但純 AI 完全從頭預(yù)測(cè)是從 David Baker的 RosettaFoldNA 提出來(lái)之后開(kāi)始的,然后 AlphaFold3 把這個(gè)體系發(fā)展得相對(duì)來(lái)說(shuō)比較好,但整體看這個(gè)領(lǐng)域還較難,主要原因在于有效的、能夠用來(lái)訓(xùn)練的蛋白質(zhì)核酸復(fù)合物數(shù)量不太多,大概 3 ~ 5 千個(gè),這是制約蛋白質(zhì)核酸復(fù)合物結(jié)構(gòu)預(yù)測(cè)精度的原因之一。
今年其實(shí)還有幾個(gè) target 是抗體蛋白加核酸的復(fù)合物,整體來(lái)看,大家預(yù)測(cè)出的結(jié)果比蛋白質(zhì)抗體-抗原復(fù)合物精度差很多,尤其在核酸這部分,基本大家預(yù)測(cè)的結(jié)果相對(duì)來(lái)說(shuō)很差。
楊建益:我再補(bǔ)充一下,上一屆 CASP 才引入 RNA,但那時(shí)只有 12 個(gè) RNA,其中 8 個(gè)天然,4 個(gè)人工設(shè)計(jì),人工設(shè)計(jì)最長(zhǎng)有 700 多個(gè)核酸,天然的RNA都比較短,大概在幾十到一百左右。
這一屆類別明顯更多,包括復(fù)合物、小分子,甚至有 RNA 跟水分子的互作,整體上預(yù)測(cè)起來(lái)非常困難,尤其是復(fù)合物類型。我們課題組做的 trRosettaRNA 主要針對(duì) RNA 單體而言,當(dāng)前可用 AlphaFold3 與 RoseTTAFold NA 預(yù)測(cè)蛋白-RNA 結(jié)構(gòu),但其性能依然不理想。
就 RNA 單體而言,預(yù)測(cè)跟上屆比不見(jiàn)得更難,上屆難在人工設(shè)計(jì),這部分無(wú)論 AI 還是傳統(tǒng)物理方法都做不好自動(dòng)預(yù)測(cè),但上一屆比賽中熊鵬團(tuán)隊(duì)把人工設(shè)計(jì)的 RNA 做的很好。這屆 RNA 的精度不比上次低,我們自己方法的在 RNA 單體的平均 RMSD 大概 15 埃,上一屆是 20 埃以上,主要是人工設(shè)計(jì)的 RNA 做得不好,RMSD 都是三四十埃左右。
CASP16 的 RNA 通過(guò) AI 預(yù)測(cè)的精度還是可接受的,但還沒(méi)那么精準(zhǔn),人工經(jīng)驗(yàn)還是比較重要,這方面和蛋白區(qū)別特別大,在蛋白結(jié)構(gòu)預(yù)測(cè)中,人工干預(yù)不一定有特別大幫助,但 RNA 中人工干預(yù)挺關(guān)鍵的,排名前三的團(tuán)隊(duì)都是人工干預(yù)做了很多修正,包括人工構(gòu)建二級(jí)結(jié)構(gòu)、模擬產(chǎn)生數(shù)據(jù)后人工篩選、基于 MSA 調(diào)整結(jié)構(gòu)等,過(guò)程非常繁瑣,AI 很難把所有方面都考慮到。
自動(dòng)預(yù)測(cè)好處在于會(huì)有許多人受益,我們提供了 trRosettaRNA 服務(wù)器,當(dāng)用戶輸入的序列在訓(xùn)練集中存在相似數(shù)據(jù)時(shí),自動(dòng)預(yù)測(cè)的結(jié)構(gòu)大概率會(huì)比較準(zhǔn)確。自動(dòng)預(yù)測(cè)的優(yōu)點(diǎn)在于可以服務(wù)更多用戶,我們服務(wù)器每天都會(huì)收到不少新任務(wù)。
自動(dòng)預(yù)測(cè)是未來(lái)發(fā)展方向,雖然現(xiàn)在 AlphaFold3 優(yōu)勢(shì)不明顯,但后面應(yīng)該會(huì)越來(lái)越好,它精度不高的原因還是已有實(shí)驗(yàn)數(shù)據(jù)有限,剛才鄭偉提到大概有幾千個(gè)數(shù)據(jù),但這些數(shù)據(jù)很多都來(lái)自同一類 RNA 或復(fù)合物,其中特別多 tRNA,我們服務(wù)器也經(jīng)常收到這類序列,預(yù)測(cè)結(jié)構(gòu)都挺可靠,但比較新的 RNA 做得并不好。蛋白結(jié)構(gòu)預(yù)測(cè)六七十年積累下來(lái)數(shù)據(jù)庫(kù)很大,有 20 多萬(wàn)個(gè)結(jié)構(gòu)供 AI 學(xué)習(xí),但 RNA 數(shù)據(jù)還太少,非冗余的數(shù)據(jù)就幾百個(gè),學(xué)不好可以理解。
上屆比賽前幾名都沒(méi)有用到 AI 預(yù)測(cè),但這屆前幾名都用 AlphaFold3 或 trRosettaRNA 輔助篩選或模擬,AI 的價(jià)值將會(huì)越來(lái)越大。我相信 RNA 數(shù)據(jù)積累是個(gè)過(guò)程,蛋白結(jié)構(gòu)預(yù)測(cè)早期其實(shí)結(jié)構(gòu)也不準(zhǔn)確,現(xiàn)在的進(jìn)步速度應(yīng)該比之前要快,下一屆應(yīng)該會(huì)有更多的 RNA 參賽團(tuán)隊(duì),結(jié)構(gòu)預(yù)測(cè)精度應(yīng)該會(huì)越來(lái)越高。
常珊:自動(dòng)化的 RNA 結(jié)構(gòu)預(yù)測(cè)非常重要,在 AlphaFold3 的文章里,其實(shí)在 CASP15 比較 RNA 結(jié)構(gòu)預(yù)測(cè)的時(shí)候,結(jié)果其實(shí)差距不大,人工組還更占優(yōu)一些,在小分子預(yù)測(cè)方面則顯示出有比較大的提升,就像程建林老師說(shuō)的,確實(shí)這一屆的評(píng)估也展示了配體預(yù)測(cè)中 AlphaFold3 作為 Baseline 的結(jié)果,人工組沒(méi)有超過(guò) AlphaFold3,這也是有挑戰(zhàn)的問(wèn)題,請(qǐng)孔韌老師和程建林老師簡(jiǎn)單介紹一下。
孔韌:上一屆比賽中更多是一個(gè)蛋白結(jié)合一個(gè)小分子,或者一個(gè)蛋白同時(shí)結(jié)合多個(gè)小分子,這樣的問(wèn)題更像是這個(gè)生物體系中蛋白質(zhì)跟輔因子結(jié)合的預(yù)測(cè)問(wèn)題,我們比賽結(jié)果非常好,因?yàn)橛玫氖?nbsp;template based docking的方法,那時(shí) AlphaFold 還不能預(yù)測(cè)蛋白小分子體系,在這種蛋白與輔因子結(jié)合的問(wèn)題中,有很多高度類似 template 能被找到。
這屆比賽其實(shí)引入了更加現(xiàn)實(shí)的問(wèn)題,就是一個(gè)蛋白作為一個(gè)藥物靶點(diǎn),我們通常在藥物發(fā)現(xiàn)的過(guò)程中需要去評(píng)估它跟多個(gè)不同化學(xué)結(jié)構(gòu)小分子結(jié)合的模式問(wèn)題,以及結(jié)合的強(qiáng)度問(wèn)題。這其實(shí)更接近于我們?cè)谛》肿娱_(kāi)發(fā)中會(huì)碰到的問(wèn)題,這次 AlphaFold3 沒(méi)有作為參賽者參賽,但在評(píng)估實(shí)驗(yàn)中表現(xiàn)非常不錯(cuò)。
這次一共有 L1000 到 L4000 四個(gè) target,分別是四個(gè)藥靶對(duì)應(yīng)幾十個(gè)到上百個(gè)小分子,AlphaFold3 在 L3000 中表現(xiàn)超過(guò)所有參賽組,在 L4000 上表現(xiàn)沒(méi)那么好,在 L2000 和 L1000 這兩個(gè)同源蛋白中,它在 L2000 上的表現(xiàn)稍微好一點(diǎn)。整體來(lái)看,AlphaFold3 已經(jīng)表現(xiàn)出優(yōu)勢(shì),在某些靶點(diǎn)上比傳統(tǒng)對(duì)接方法要強(qiáng),將來(lái)我們真正做藥物研發(fā)時(shí),可以把傳統(tǒng)的對(duì)接方法和 AlphaFold 的深度學(xué)習(xí)方法結(jié)合起來(lái)做綜合考慮和使用,產(chǎn)生更多有可能正確的 pose。
而這又帶來(lái)這么多正確 pose 如何挑選的新問(wèn)題,蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)中也會(huì)碰到類似問(wèn)題,通常如果用 template base 方法很簡(jiǎn)單,就是如果能夠在 PDB 庫(kù)中找到類似的小分子、化學(xué) atom type,或者類似的周?chē)?nbsp;residue type 的話,根據(jù)相似性打分去評(píng)估,類似度較高的 pose 正確的可能性較大。
正確結(jié)構(gòu)挑出之后,其實(shí)比賽也分了兩個(gè)階段,第一階段是預(yù)測(cè)小分子的結(jié)合模式以及結(jié)合親和力,第二階段是告知全部晶體結(jié)構(gòu)和結(jié)合模式,直接預(yù)測(cè)親和力就行。但目前還沒(méi)有特別好的方法能評(píng)估小分子,或者多個(gè)小分子對(duì)同一靶點(diǎn)的結(jié)合親和力,將來(lái)我們也想往這個(gè)方向做。
程建林:孔老師提到 AlphaFold3 現(xiàn)在可能超過(guò)了其他方法,但其實(shí)還是有很多地方可以提高,比如怎么用模板、怎么選擇模型之類的,同時(shí)也會(huì)有其他競(jìng)爭(zhēng)方法出現(xiàn),最近有方法自稱超過(guò)了 AlphaFold3,但也還需要客觀評(píng)估,另外這些方法各有所長(zhǎng),有沒(méi)有可能結(jié)合在一起得到更好的方法也是可以研究的問(wèn)題。
另外我的學(xué)生在評(píng)估主要的蛋白質(zhì)小分子復(fù)合體預(yù)測(cè)的方法時(shí),發(fā)現(xiàn)了一個(gè)問(wèn)題是很多方法在訓(xùn)練之后的測(cè)試過(guò)程中,如果小分子跟以前訓(xùn)練數(shù)據(jù)中有一定相似性的話,可能效果比較好,如果不一樣,性能就不可預(yù)測(cè),那么要怎樣提高這些人工智能方法的通用性,這是一個(gè)需要解決的問(wèn)題。
蛋白質(zhì)小分子結(jié)合親和力的預(yù)測(cè)對(duì)篩選藥物而言也非常重要,提供一個(gè)藥物靶點(diǎn),怎樣篩選各種和蛋白可能有相互作用的小分子藥物,哪怕不能預(yù)測(cè)結(jié)構(gòu),只要知道親和力也夠了。但這個(gè)領(lǐng)域還處于非常初級(jí)的階段,其實(shí)跟排序、質(zhì)量評(píng)估都是相關(guān)的,是個(gè)非常困難的問(wèn)題,就像在所產(chǎn)生的上萬(wàn)個(gè)模型中隨機(jī)挑選最優(yōu),這樣概率會(huì)非常低。
結(jié)構(gòu)預(yù)測(cè)的藍(lán)海方向
孔韌:我的領(lǐng)域?qū)儆?CADD(藥物輔助設(shè)計(jì)),后來(lái)因?yàn)?CASP 有了小分子賽道,我才更多參與到 CASP 的小分子結(jié)構(gòu)預(yù)測(cè)中。CADD 領(lǐng)域也有很多傳統(tǒng) docking、binding affinity 以及結(jié)合自由計(jì)算方向的專家和團(tuán)隊(duì),大家可以更多參與到 CASP 比賽中,因?yàn)?CASP 的數(shù)據(jù)集公布了結(jié)構(gòu)、親和力,可以用其數(shù)據(jù)集測(cè)試自己公司、課題組的 pipeline 是不是能很好地預(yù)測(cè) binding affinity,我非常想看到這個(gè)方向有沒(méi)有比較好的解決方案。
常珊:孔老師的觀點(diǎn)正好和下個(gè)問(wèn)題相關(guān),就是 CASP 評(píng)估賽對(duì)產(chǎn)業(yè)的實(shí)際應(yīng)用,比如對(duì)合成生物產(chǎn)業(yè)或生物醫(yī)藥的產(chǎn)業(yè)影響是什么?可以請(qǐng)張貴軍老師和孔老師再給我們分享一下。
張貴軍:只要跟生物有關(guān)的都和結(jié)構(gòu)密不可分,這幾年來(lái)醫(yī)學(xué)、藥學(xué)、農(nóng)學(xué)領(lǐng)域的專家對(duì)結(jié)構(gòu)都非常關(guān)注,因?yàn)樗芙沂局匾纳飳W(xué)功能機(jī)制。
對(duì)于藥學(xué)而言,藥物靶標(biāo)發(fā)現(xiàn)是比較重要的應(yīng)用,隨著目前焦點(diǎn)從的靜態(tài)構(gòu)象轉(zhuǎn)向多構(gòu)象研究,那么多構(gòu)象之中的某一個(gè)可能是潛在的靶點(diǎn)。醫(yī)學(xué)上抗體的進(jìn)展也非常迅猛,這意味著在疫苗的設(shè)計(jì)中,包括檢測(cè)、診斷、抗體治療上,都有很多東西能探索。
合成生物學(xué)方面,結(jié)構(gòu)的研究直接引起了產(chǎn)業(yè)的飛速發(fā)展,包括在可降解材料、綠色制造等領(lǐng)域,將成為有效應(yīng)對(duì)全球變暖問(wèn)題的有效手段。今年都快放寒假了,但是杭州天氣還沒(méi)有去年那么冷,環(huán)保問(wèn)題是事關(guān)人類生存的重大挑戰(zhàn)性問(wèn)題。
孔韌:結(jié)構(gòu)對(duì)生命科學(xué)相關(guān)產(chǎn)業(yè)都會(huì)帶來(lái)一定影響,現(xiàn)在只是開(kāi)始,隨著工具應(yīng)用變廣,應(yīng)用在具體問(wèn)題上變多,影響會(huì)更深刻。
我們之前跟做基礎(chǔ)醫(yī)學(xué)的老師有合作交流,他們?cè)诮忉尯芏嗟鞍坠δ苤匾詥?wèn)題時(shí),通常會(huì)用 coIP 或者 WB 來(lái)做,看兩個(gè)蛋白是否結(jié)合、誰(shuí)跟誰(shuí)結(jié)合,我們建議可以用結(jié)構(gòu)預(yù)測(cè)的方法從三維蛋白質(zhì)結(jié)構(gòu)的角度,看蛋白質(zhì)結(jié)構(gòu)跟功能間的關(guān)系、結(jié)構(gòu),以及如何結(jié)合另一個(gè)蛋白,哪個(gè)結(jié)構(gòu)發(fā)揮了作用,哪個(gè)界面殘基重要,用這些信息幫助他們做下一步實(shí)驗(yàn)設(shè)計(jì)。如果這樣的結(jié)合對(duì)細(xì)胞表型、疾病表型有重要影響的話,還可以涉及多肽、蛋白、抗體、小分子去影響這個(gè)過(guò)程,最終關(guān)聯(lián)到藥物研發(fā)上。
合成生物學(xué)領(lǐng)域現(xiàn)在也非常熱,當(dāng)中就是用細(xì)胞工廠來(lái)合成想要的東西,細(xì)胞工廠里具體的執(zhí)行者是蛋白質(zhì)、代謝網(wǎng)絡(luò)、代謝酶,其中限速酶是誰(shuí)?限速酶是如何限速的?怎樣改進(jìn)限速酶的催化效率?限速酶跟它的產(chǎn)物如何結(jié)合?如果能知道底物結(jié)合與產(chǎn)物釋放的動(dòng)態(tài)過(guò)程,就可以找出其中的關(guān)鍵殘基,對(duì)酶改造進(jìn)行合理設(shè)計(jì),這也是可以想象的方向。
常珊:我最近看到 Baker 在采訪中指出了大概十幾個(gè)有可能使用結(jié)構(gòu)預(yù)測(cè)或者蛋白質(zhì)設(shè)計(jì)的藍(lán)海領(lǐng)域,是大家可以去關(guān)注的方向。還有哪些方向是諾獎(jiǎng)之后,結(jié)構(gòu)預(yù)測(cè)更好的發(fā)展方向,請(qǐng)程建林老師和楊建益老師分享一下。
楊建益:我覺(jué)得單序列預(yù)測(cè)如果把蛋白質(zhì)折疊問(wèn)題解決了,將是諾獎(jiǎng)級(jí)的工作。要從單序列去預(yù)測(cè)結(jié)構(gòu),深入探索蛋白質(zhì)折疊機(jī)理和問(wèn)題還有很長(zhǎng)的路要走。以后肯定會(huì)是 AI 主導(dǎo)的,通過(guò) AI 不斷迭代、更新,精度提高的同時(shí),不斷加深對(duì)折疊機(jī)理的理解。
此外,現(xiàn)在 AlphaFold 解決的是靜態(tài)結(jié)構(gòu)預(yù)測(cè)問(wèn)題,現(xiàn)在大家關(guān)注的重點(diǎn)逐步從靜態(tài)轉(zhuǎn)為動(dòng)態(tài)。因?yàn)榈鞍踪|(zhì)要執(zhí)行生物學(xué)功能,主要是因?yàn)樗趧?dòng),雖然我一直覺(jué)得只研究一條蛋白質(zhì)的動(dòng)態(tài)沒(méi)有太大的意義,重點(diǎn)還是在復(fù)合物,因?yàn)閯?dòng)是有原因的,比如說(shuō)跟小分子、蛋白、核酸互作。所以在復(fù)合物背景下研究動(dòng)態(tài)構(gòu)項(xiàng)變化是重要方向,但對(duì)于預(yù)測(cè)者、評(píng)估者來(lái)講都很困難。
程建林:獲得諾獎(jiǎng)是對(duì)我們整個(gè)領(lǐng)域的承認(rèn),會(huì)產(chǎn)生很大影響,吸引很多人來(lái)學(xué)習(xí)結(jié)構(gòu)預(yù)測(cè)。我覺(jué)得還有幾個(gè)可能達(dá)到諾獎(jiǎng)級(jí)別的工作,比如單序列結(jié)構(gòu)預(yù)測(cè),然后 RNA 如果能做到 AlphaFold2 當(dāng)年對(duì)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的水平就已經(jīng)達(dá)到很高的精度了,這也是諾獎(jiǎng)級(jí)別的工作。
蛋白小分子復(fù)合體結(jié)構(gòu)預(yù)測(cè),雖然現(xiàn)在 AlphaFold3 屬于領(lǐng)先狀態(tài),但它的精度還遠(yuǎn)遠(yuǎn)沒(méi)有達(dá)到解決大部分問(wèn)題,不像它 90% 解決了蛋白單鏈的結(jié)構(gòu)預(yù)測(cè)問(wèn)題。蛋白質(zhì)小分子其實(shí)還有很多工作要做,這個(gè)問(wèn)題非常重要,因?yàn)楝F(xiàn)實(shí)意義是巨大的,對(duì)制藥、疾病的理解是非常重要的,如果能夠取得突破性的進(jìn)展,也是達(dá)到諾獎(jiǎng)級(jí)別的。
得到諾貝獎(jiǎng)最重要的因素在于要有巨大的、突然性的,顛覆性的突破,還有其實(shí)這是人工智能在科學(xué)領(lǐng)域里獲得的迄今為止第一個(gè)最重要的突破,AlphaGo、ChatGPT 都是新的代表性時(shí)刻,而在科學(xué)領(lǐng)域里的時(shí)刻其實(shí)就是蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),已經(jīng)成為科學(xué)中的樣板。
很多人以前都不關(guān)心蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),現(xiàn)在他們都要在自己研究的疾病或生物系統(tǒng)里預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),比如農(nóng)業(yè)里設(shè)計(jì)育種,使其更有抗旱性,能源領(lǐng)域設(shè)計(jì)酶,把生物廢料轉(zhuǎn)成能量。另外,很多生物科技公司甚至大公司也在投入其中,他們會(huì)使用、繼續(xù)開(kāi)發(fā)這些工具,或者應(yīng)用到各個(gè)不同的領(lǐng)域里,所以它已經(jīng)成為非常有潛力的領(lǐng)域,但從學(xué)術(shù)界的角度來(lái)講還存在許多有挑戰(zhàn)性的研究問(wèn)題待解。
常珊:諾獎(jiǎng)確實(shí)是對(duì)我們結(jié)構(gòu)預(yù)測(cè)領(lǐng)域的一個(gè)很重要的肯定,之前很少人會(huì)關(guān)注這個(gè)領(lǐng)域,或者大家不是特別了解,這也是我們舉辦這次圓桌會(huì)議的重要原因,結(jié)構(gòu)預(yù)測(cè)獲得諾獎(jiǎng)肯定以后,我們需要讓大家知道諾獎(jiǎng)到底為什么頒給結(jié)構(gòu)預(yù)測(cè),結(jié)構(gòu)預(yù)測(cè)可以幫助學(xué)術(shù)研究、產(chǎn)業(yè)界做什么事。
目前中國(guó)團(tuán)隊(duì)參加 CASP 的熱情也很高,所以我們也在討論有沒(méi)有可能讓中國(guó)來(lái)承辦一次,在中國(guó)承辦的話,會(huì)更大地?cái)U(kuò)大結(jié)構(gòu)預(yù)測(cè)的影響力,這方面想請(qǐng)楊建益老師和鄭偉老師來(lái)談一下建議。
楊建益:CASP 發(fā)邀請(qǐng)信的時(shí)候我就問(wèn)過(guò)下一屆能不能在中國(guó)辦,他們回復(fù)很感興趣,這次會(huì)議最后一天的預(yù)測(cè)會(huì)議中,也有人建議在亞洲舉辦 CASP17。Joun Moult 回復(fù)郵件說(shuō)這一屆比賽的中國(guó)參賽者僅次于美國(guó),日韓團(tuán)隊(duì)也很多,他很感興趣,不過(guò)還需要進(jìn)一步討論。
鄭偉:下一屆感覺(jué)因?yàn)闀?huì)議組織受?chē)?guó)際政治的因素影響比較大,會(huì)不會(huì)選在中國(guó)其實(shí)不太好說(shuō),估計(jì)日韓概率會(huì)比較大,但是也不是說(shuō)沒(méi)希望,要集體跟組委會(huì)反映,最大努力爭(zhēng)取。
常珊:評(píng)論區(qū)也還有一些問(wèn)題需要討論一下,大家比較關(guān)心結(jié)構(gòu)預(yù)測(cè)對(duì)于突變后蛋白質(zhì)的預(yù)測(cè)效果如何?或者對(duì)于蛋白質(zhì)突變中比較小的細(xì)微的序列變化,會(huì)不會(huì)有比較好的預(yù)測(cè)結(jié)果嗎?還有對(duì)于 Loop 區(qū)的預(yù)測(cè)有沒(méi)有一些比較好的建議?有沒(méi)有老師可以解答一下。
程建林:我回答第一個(gè)問(wèn)題。目前對(duì)突變的結(jié)構(gòu)預(yù)測(cè)還不是特別成功,因?yàn)?AlphaFold2、AlphaFold3 主要是用對(duì)齊的多序列作為輸入,所以如果只有幾個(gè)氨基酸發(fā)生變異之后,其實(shí)它不能敏感察覺(jué)變化,產(chǎn)生的結(jié)果和用原始序列是差不多的,我們今天沒(méi)有討論到,但這是之后結(jié)構(gòu)預(yù)測(cè)要解決的重要問(wèn)題。
鄭偉:我覺(jué)得點(diǎn)突變分兩個(gè)方向,一是點(diǎn)突變對(duì)結(jié)構(gòu)影響比較大的,二是點(diǎn)突變對(duì)結(jié)構(gòu)影響并不那么大的。點(diǎn)突變對(duì)結(jié)構(gòu)改變比較大的方向,我們是有一些 case 能做的,CASP15 也有一個(gè)點(diǎn)突變復(fù)合物,很多團(tuán)隊(duì)都預(yù)測(cè)得還不錯(cuò),但點(diǎn)突變對(duì)結(jié)構(gòu)改變比較大的 case 現(xiàn)在不是太多。而點(diǎn)突變對(duì)小構(gòu)項(xiàng)的影響,如果從結(jié)構(gòu)預(yù)測(cè)看的話,其實(shí)在側(cè)鏈?zhǔn)悄芊从吵鰜?lái)的,但這種變化能有多少被真實(shí)反應(yīng)很難說(shuō),點(diǎn)突變問(wèn)題需要以結(jié)構(gòu)預(yù)測(cè)加生物學(xué)驗(yàn)證的結(jié)合手段為主,這是比較正確的方向,現(xiàn)階段想依賴 AI 去解決比較難。
Loop 區(qū)我覺(jué)得本來(lái)就是比較靈活的區(qū)域,相對(duì)來(lái)說(shuō)比較難預(yù)測(cè),建議可以多預(yù)測(cè)一些模型,然后把 Loop 區(qū)整體對(duì)齊再看一下,然后還是需要結(jié)合生物學(xué)的驗(yàn)證經(jīng)驗(yàn)篩選模型,完全依賴于 AI 去預(yù)測(cè)也是很難的。
常珊:Loop 區(qū)的構(gòu)項(xiàng)本身也很多,有點(diǎn)類似于蛋白質(zhì)多構(gòu)象的預(yù)測(cè)問(wèn)題,所以很難說(shuō)有哪個(gè)構(gòu)項(xiàng)是占優(yōu)的,本身還是有一定不確定性的。
楊建益:同意。Loop 的話跟執(zhí)行功能是有關(guān)的,單純考慮一個(gè)蛋白說(shuō)Loop 準(zhǔn)不準(zhǔn)意義不太大,這些區(qū)域預(yù)測(cè)精度低非常正常,即使做實(shí)驗(yàn)也無(wú)法獲取可靠的結(jié)構(gòu)。應(yīng)該要考慮它與結(jié)合對(duì)象的互作用,看通過(guò)結(jié)合其他對(duì)象能否穩(wěn)固 Loop 區(qū)的結(jié)構(gòu)。雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。