AI 科學(xué)家獲諾獎(jiǎng)后：從 CASP 看蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的機(jī)遇與挑戰(zhàn)丨GAIR Live

本文作者：朱可軒

2025-01-13 09:58

導(dǎo)語(yǔ)：?jiǎn)涡蛄蓄A(yù)測(cè)被看好為諾獎(jiǎng)「預(yù)備役」，多構(gòu)象、RNA 結(jié)構(gòu)重要程度上升。

作者丨朱可軒

編輯丨陳彩嫻

“AlphaGo、ChatGPT 都是新科技突破的代表性工具。而在科學(xué)領(lǐng)域蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)獲得諾獎(jiǎng)就是 AI 巨大突破的高光時(shí)刻，諾獎(jiǎng)之后 AlphaFold 的研發(fā)模式已經(jīng)成為 AI for Science 的樣板?！背探终f(shuō)道。

2025 年 1 月 5 日，雷峰網(wǎng)、AI 科技評(píng)論GAIR Live 品牌與 CASP 評(píng)估的優(yōu)秀華人團(tuán)隊(duì)聯(lián)合舉辦了一場(chǎng)主題為“諾獎(jiǎng)之后的新篇章：蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的機(jī)遇與挑戰(zhàn)”的線上圓桌沙龍。

圓桌主持人為江蘇理工學(xué)院教授常珊，并邀請(qǐng)了密蘇里大學(xué)計(jì)算機(jī)系教授程建林、山東大學(xué)教授楊建益、南開(kāi)大學(xué)統(tǒng)計(jì)與數(shù)據(jù)科學(xué)學(xué)院教授鄭偉、浙江工業(yè)大學(xué)信息工程學(xué)院教授張貴軍以及江蘇理工學(xué)院研究員孔韌共同開(kāi)啟了一場(chǎng)深度對(duì)話。

AI 科學(xué)家獲諾獎(jiǎng)后：從 CASP 看蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的機(jī)遇與挑戰(zhàn)丨GAIR Live

常珊是江蘇理工學(xué)院教授，現(xiàn)任中國(guó)細(xì)胞生物學(xué)學(xué)會(huì)功能基因組信息學(xué)與系統(tǒng)生物學(xué)分會(huì)委員，中國(guó)疫苗行業(yè)協(xié)會(huì)疫苗基礎(chǔ)研究專委會(huì)委員，中國(guó)中醫(yī)藥信息學(xué)會(huì)中醫(yī)臨床藥學(xué)分會(huì)理事。

程建林教授目前供職于美國(guó)密蘇里大學(xué)計(jì)算機(jī)系，他 1999 年赴美留學(xué)，2006 年在美國(guó)加州大學(xué)爾灣分校獲得了博士學(xué)位，并在 2004 年便開(kāi)始參加 CASP，先后已經(jīng)參加了 11 屆。

楊建益則是山東大學(xué)教授，他自 2011 年開(kāi)始在密西根大學(xué)跟張陽(yáng)教授做結(jié)構(gòu)預(yù)測(cè)，至今已有十余年。南開(kāi)大學(xué)統(tǒng)計(jì)與數(shù)據(jù)科學(xué)學(xué)院教授，傳染病預(yù)防與溯源全國(guó)重點(diǎn)實(shí)驗(yàn)室成員，鄭偉教授也是在張陽(yáng)教授實(shí)驗(yàn)室開(kāi)始的結(jié)構(gòu)預(yù)測(cè)的旅程，從 CASP12 起已經(jīng)參加了5次 CASP——近 10 年的比賽。

張貴軍是浙江工業(yè)大學(xué)信息工程學(xué)院教授，做蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)有十幾年時(shí)間了，先后參加了兩屆 CASP?？醉g當(dāng)前是江蘇理工學(xué)院的研究員，博士開(kāi)始和常珊教授一同在北京工業(yè)大學(xué)王存新教授的實(shí)驗(yàn)室做分子模擬以及蛋白質(zhì)復(fù)合物結(jié)構(gòu)預(yù)測(cè)。2015 年回國(guó)后，同常珊教授在江蘇理工學(xué)院組建了研究所，從 CASP13 開(kāi)始參加。

幾位嘉賓都參加了本次第十六屆 CASP（Critical Assessment of Protein Structure Prediction）。CASP 作為自 1994 年以來(lái)每?jī)赡赀M(jìn)行一次的全球蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽，楊建益將其比作諾獎(jiǎng)的“孵化器”和科學(xué)研究的奧林匹克。

在此次圓桌會(huì)上，大家一一分享了參加 CASP 的心得，以及對(duì)于領(lǐng)域前沿進(jìn)展和突破的洞察，單序列結(jié)構(gòu)預(yù)測(cè)、多構(gòu)象預(yù)測(cè)、RNA 結(jié)構(gòu)預(yù)測(cè)、蛋白質(zhì)-小分子復(fù)合體預(yù)測(cè)等也成為了下一階段亟待得到突破的問(wèn)題：

鄭偉說(shuō)道，“今年整體看 RNA 賽道無(wú)論是難度、數(shù)量還是細(xì)化上變化都非常明顯。也可以看出整個(gè)領(lǐng)域在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)發(fā)展得相對(duì)來(lái)說(shuō)比較成熟的情況下，大家的關(guān)注點(diǎn)可能漸漸要往 RNA 結(jié)構(gòu)預(yù)測(cè)上產(chǎn)生一定傾斜了?！?/p>

同時(shí)，“多構(gòu)象也是 CASP 一直想要增加的賽道，但是鑒于往年多構(gòu)象的數(shù)據(jù)不太好采集，今年是首次作為獨(dú)立賽道設(shè)置了比賽，預(yù)測(cè)好多構(gòu)象對(duì)后續(xù)的整個(gè)動(dòng)態(tài)過(guò)程預(yù)測(cè)很重要。”但當(dāng)前囿于真實(shí)數(shù)據(jù)的不足，還未能實(shí)現(xiàn)大的突破。

而在小分子預(yù)測(cè)方面，據(jù)孔韌介紹，“ AlphaFold 相對(duì)于傳統(tǒng)對(duì)接方法，已經(jīng)表現(xiàn)出優(yōu)勢(shì)，在某些靶點(diǎn)上比傳統(tǒng)對(duì)接方法要強(qiáng)，將來(lái)感覺(jué)可以把傳統(tǒng)的對(duì)接方法和 AlphaFold 的深度學(xué)習(xí)方法結(jié)合起來(lái)做綜合考慮和使用。”

不過(guò)， AlphaFold3 在使用模版和選擇模型等方面仍存不少提升空間。值得一提的是，嘉賓們也針對(duì)諾獎(jiǎng)“預(yù)備役”展開(kāi)了探討，其中單序列結(jié)構(gòu)預(yù)測(cè)被屢次提及：

楊建益認(rèn)為，“單序列結(jié)構(gòu)預(yù)測(cè)研究的是蛋白質(zhì)折疊問(wèn)題，AlphaFold 與 ESMFold 等方法本質(zhì)上是數(shù)據(jù)驅(qū)動(dòng)的結(jié)果，并未涉及蛋白質(zhì)折疊問(wèn)題。如果未來(lái)蛋白質(zhì)折疊問(wèn)題解決了，也將會(huì)是諾獎(jiǎng)級(jí)的工作?！?/p>

程建林同樣看好，他表示，“單序列的結(jié)構(gòu)預(yù)測(cè)是經(jīng)典問(wèn)題，當(dāng)前 AlphaFold3、AlphaFold2 都依賴于多序列輸入，但是很多時(shí)候只能找到一個(gè)序列，能否精確預(yù)測(cè)出結(jié)構(gòu)，這甚至可能產(chǎn)生第二個(gè)諾獎(jiǎng)?！?/p>

以下是此次圓桌討論的精彩分享，AI 科技評(píng)論進(jìn)行了不改原意的編輯整理：

CASP 16 的進(jìn)步與突破

常珊：我們這次圓桌專注于結(jié)構(gòu)預(yù)測(cè)方向，主要是受到 CASP 評(píng)估會(huì)的啟發(fā)，結(jié)構(gòu)預(yù)測(cè)還有很多可以探討的問(wèn)題。今天一共有八個(gè)議題，四個(gè)偏專業(yè)，四個(gè)偏科普。這次很多華人團(tuán)隊(duì)都線下參加 CASP 評(píng)估會(huì)，對(duì) CASP16 評(píng)估會(huì)有哪些印象深刻的事情？

程建林：這次 CASP 給我的印象一是參加的團(tuán)隊(duì)比以前多，二是大陸科學(xué)家取得了了不起的成就，包括在座的老師，這次 CASP 大家在所有領(lǐng)域都達(dá)到了世界前列的水平。

楊建益：2024 年是我第一次線下參加 CASP，從觀眾角度來(lái)講，我印象最深的是會(huì)議全程四天，參加會(huì)議的人都在，不像很多會(huì)議大家參加到一半就走了，這是很大的區(qū)別。從組織者到報(bào)告人大家都非常專注，CASP 能堅(jiān)持 16 屆 30 多年，我很感動(dòng)。感覺(jué) CASP 有點(diǎn)像諾獎(jiǎng)的孵化器，大量結(jié)構(gòu)生物學(xué)家、計(jì)算生物學(xué)家堅(jiān)持長(zhǎng)期主義，艱苦奮斗，長(zhǎng)期量變的積累才有了今天的突破。

鄭偉：剛才建林老師提到，中國(guó)大陸的參賽團(tuán)隊(duì)明顯變多，我想補(bǔ)充一下，其實(shí)整個(gè)亞洲的團(tuán)隊(duì)數(shù)量都是明顯變多的，上屆日本的團(tuán)隊(duì)不少，這屆明顯感覺(jué)韓國(guó)的參賽團(tuán)隊(duì)數(shù)量不少，整個(gè)亞洲的團(tuán)隊(duì)數(shù)量可能差不多和歐美的持平，甚至快反超了。

近年 CASP 更傾向于解決實(shí)際的生物學(xué)問(wèn)題，它的重要意義在于能指導(dǎo)結(jié)構(gòu)生物學(xué)整體的發(fā)展方向，包括計(jì)算結(jié)構(gòu)生物學(xué)里我們到底應(yīng)該做什么、這個(gè)方向的發(fā)展前景是什么。比賽其實(shí)更關(guān)注這種本質(zhì)的問(wèn)題，而不是為了比賽而比賽。

線下評(píng)估會(huì)主要在討論賽制或下一屆比賽應(yīng)該怎么做，這也是很多學(xué)者不愿離開(kāi)會(huì)場(chǎng)的原因之一。然后是近些年尤其是 CASP16 工業(yè)界課題組參賽熱情其實(shí)明顯下降了，大家可能都去卷大模型了，剩下學(xué)術(shù)界課題組還在堅(jiān)守本心（笑）。

張貴軍：我今年沒(méi)有去會(huì)場(chǎng)，但看了現(xiàn)場(chǎng) PPT 以后，非常贊成 CASP 是實(shí)驗(yàn)而不是競(jìng)賽這一原則，它更加關(guān)注的是生物學(xué)的 insight，而不僅僅是排名，這也估計(jì)是 CASP 評(píng)估的魅力所在。

孔韌：我是第一次在線下參加 CASP，現(xiàn)場(chǎng)氛圍確實(shí)非常好，討論也十分激烈。以前我們總說(shuō)折疊問(wèn)題或者復(fù)合物結(jié)構(gòu)預(yù)測(cè)問(wèn)題，以 AlphaFold3 為代表的深度學(xué)習(xí)方法對(duì)于結(jié)構(gòu)預(yù)測(cè)領(lǐng)域的每個(gè)特別問(wèn)題都給出了相應(yīng)較好的解決方案。

然后我聽(tīng)了第一天主席講的歷史，他堅(jiān)持在這個(gè)方向做了 30 年，整個(gè)科研生涯都堅(jiān)持在解決結(jié)構(gòu)預(yù)測(cè)的問(wèn)題，我對(duì)此非常感慨，這是我們生命科學(xué)領(lǐng)域非常核心的存在，任何一個(gè)細(xì)胞或動(dòng)物層面的生物特征，追其根本是生物大分子的結(jié)構(gòu)問(wèn)題，結(jié)構(gòu)正?；虍惓：蜕飳W(xué)功能關(guān)系密切。

往屆比賽算法還不太發(fā)達(dá)，我們解決的主要是單體結(jié)構(gòu)問(wèn)題，但在整個(gè)細(xì)胞體系中，更多的是蛋白質(zhì) DNA、蛋白質(zhì) RNA 或者小分子形成的復(fù)雜體系，CASP 也可以看到解決復(fù)雜體系問(wèn)題的趨向了。然后整個(gè)作用的過(guò)程是動(dòng)態(tài)的，基于此，組委會(huì)提出將來(lái)要發(fā)展算法解決動(dòng)態(tài)結(jié)構(gòu)預(yù)測(cè)問(wèn)題，這對(duì)生命科學(xué)研究來(lái)說(shuō)意義重大。

常珊：我們進(jìn)入下一個(gè)議題，本次比賽在蛋白質(zhì)預(yù)測(cè)方面有什么新進(jìn)步？以及今后的發(fā)展趨勢(shì)是怎樣的？這個(gè)問(wèn)題請(qǐng)楊建益和程建林老師來(lái)講一下。

楊建益：蛋白質(zhì)單體結(jié)構(gòu)預(yù)測(cè)是 CASP 從第一屆到現(xiàn)在一直都有的主題，這一屆跟以往的區(qū)別在于分階段預(yù)測(cè)，分為 phase 0、1、2，phase0 只提供序列信息，但不知道化學(xué)計(jì)量，這個(gè)預(yù)測(cè)比較有挑戰(zhàn)性，如果這部分預(yù)測(cè)錯(cuò)會(huì)使結(jié)構(gòu)預(yù)測(cè)得很差。第二階段會(huì)告知化學(xué)計(jì)量信息，第三階段提供了 MassiveFold 生成的基于 AlphaFold2 的 8000 個(gè)結(jié)構(gòu)模型，供預(yù)測(cè)者挑選，從而改進(jìn)預(yù)測(cè)結(jié)果。

進(jìn)步方面其實(shí)是增量性的，許多團(tuán)隊(duì)都是用 AlphaFold3、AlphaFold2 或自己的方法結(jié)合起來(lái)，其中有兩個(gè) Baseline，AlphaFold3 的 Baseline 是 AF3-Server，AlphaFold2 的 Baseline 是 ColabFold，從 Baseline 來(lái)看，AlphaFold3 和AlphaFold2 相比確實(shí)有一定改進(jìn)，但并不顯著，但 AlphaFold3 功能更全、可預(yù)測(cè)更多類型的生物分子結(jié)構(gòu)。

還有個(gè)較大的進(jìn)步在于抗體-抗原復(fù)合物結(jié)構(gòu)預(yù)測(cè)。Dima 團(tuán)隊(duì)結(jié)合 AlphaFold3、AlphaFold2，以及物理采樣方法 CluPro，通過(guò) FFT 對(duì)接，生成大量候選結(jié)構(gòu)模型，最后基于聚類和打分，篩選最優(yōu)結(jié)構(gòu)模型。但評(píng)估數(shù)據(jù)集較小，CASP16 只包含 8 個(gè)評(píng)估對(duì)象，不確定這類方法對(duì)于抗體-抗原復(fù)合物結(jié)構(gòu)預(yù)測(cè)的泛化能力。

常珊：其實(shí)大家常有討論在預(yù)測(cè)過(guò)程中，人工干預(yù)究竟能起到多大的作用？

程建林：我覺(jué)得人工干預(yù)在選模型上是很難的事，因?yàn)楫?dāng)有幾個(gè)很不同的AlphaFold2 或 AlphaFold3 產(chǎn)生的結(jié)構(gòu)，看起來(lái)都有可能，分?jǐn)?shù)也差不多，很難確定哪個(gè)結(jié)構(gòu)更好。

但在有些方面人工干預(yù)是有幫助的，特別是化學(xué)計(jì)量 phase0 的預(yù)測(cè)，這是個(gè)新引進(jìn)的項(xiàng)目。很多時(shí)候我們不知道化學(xué)計(jì)量，而要預(yù)測(cè)結(jié)構(gòu)需要先預(yù)測(cè)化學(xué)計(jì)量，這部分人工干預(yù)是有用的，因?yàn)榭梢匀フ椰F(xiàn)有的模板，這個(gè)模板提供有效的信息，然后結(jié)合這些信息產(chǎn)生結(jié)構(gòu)模型，用模型的分?jǐn)?shù)來(lái)評(píng)估。

然后，這次還有一個(gè)挑戰(zhàn)在于 AlphaFold3 是在比賽中間放出來(lái)的，在比賽前很多實(shí)驗(yàn)室的系統(tǒng)已經(jīng)在 AlphaFold2 的基礎(chǔ)上建好了，那 AlphaFold3 出來(lái)要怎么變化或快速反應(yīng)，能不能馬上接受并有效使用，也是影響實(shí)驗(yàn)室成績(jī)的因素。鄭偉老師就跟我講他本來(lái)用 AlphaFold2 做得很好的，但是完全沒(méi)有用 AlphaFold3 ，所以表現(xiàn)就稍微下降了一點(diǎn)。

AlphaFold3 其實(shí)在大的復(fù)合物折疊上功能上要比 AlphaFold2 好，特別是當(dāng)有很多蛋白質(zhì)時(shí)，AlphaFold2 產(chǎn)生不了很好的結(jié)果。此外，我也關(guān)注到在蛋白質(zhì)和小分子復(fù)合物的預(yù)測(cè)中，有一項(xiàng)進(jìn)展是人工智能方法趕上甚至超過(guò)了傳統(tǒng)對(duì)接方法，下屆 CASP 可能整個(gè)領(lǐng)域的水平都會(huì)上一個(gè)臺(tái)階。

有關(guān)發(fā)展趨勢(shì)方面，感覺(jué)結(jié)構(gòu)模型排序問(wèn)題、選擇問(wèn)題和質(zhì)量評(píng)估問(wèn)題都很有挑戰(zhàn)性。以前領(lǐng)域中主要障礙在于如何產(chǎn)生好的結(jié)構(gòu)模型，現(xiàn)在很多時(shí)候能夠產(chǎn)生好的模型，抗體、抗原都能產(chǎn)生正確的結(jié)構(gòu)，但無(wú)法選擇出來(lái)，這個(gè)問(wèn)題沒(méi)有徹底解決。

化學(xué)計(jì)量的預(yù)測(cè)也很重要，目前 CASP16 中有的方法已經(jīng)能在一定的人工支持下實(shí)現(xiàn)高性能，達(dá)到百分之七十幾的精度，但如何自動(dòng)化以及繼續(xù)提高是很重要的。還有一個(gè)問(wèn)題聚焦于大的復(fù)合體預(yù)測(cè)，就是當(dāng)復(fù)合體中有幾十個(gè)或更多蛋白質(zhì)形成時(shí)要怎樣預(yù)測(cè)結(jié)構(gòu)，AlphaFold3、AlphaFold2 也沒(méi)有完全解決這個(gè)問(wèn)題，這是之后需要突破的重要方向。

另外，單序列的結(jié)構(gòu)預(yù)測(cè)也是經(jīng)典問(wèn)題，當(dāng)前 AlphaFold3、AlphaFold2 都依賴于多序列輸入，但很多時(shí)候只能找到一個(gè)序列，能否精確預(yù)測(cè)出結(jié)構(gòu)，這甚至可能產(chǎn)生第二個(gè)諾獎(jiǎng)。

最后是人工智能，當(dāng)前人工智能在蛋白質(zhì)和小分子方面都已取得了突破，接下來(lái)會(huì)有很多應(yīng)用，但我比較驚訝的是，在核酸結(jié)構(gòu)預(yù)測(cè)中人工智能還未超過(guò)傳統(tǒng)方法，陳世杰老師這次在核酸 RNA 結(jié)構(gòu)預(yù)測(cè)中取得了最好的成績(jī)，也用了 AlphaFold3，但大量使用的還是傳統(tǒng)方法，近兩年可能會(huì)看到人工智能的超越。

蛋白質(zhì)預(yù)測(cè)新問(wèn)題的挑戰(zhàn)和趨勢(shì)

常珊：?jiǎn)涡蛄械牡鞍踪|(zhì)結(jié)構(gòu)預(yù)測(cè)有可能揭示了蛋白質(zhì)結(jié)構(gòu)的一些機(jī)制，這是很重要的，核酸結(jié)構(gòu)預(yù)測(cè)我們后面也會(huì)討論到。程老師剛剛也提到了蛋白質(zhì)模型的排序、質(zhì)量評(píng)估，還有蛋白質(zhì)的多構(gòu)象、復(fù)合物的問(wèn)題，這也是目前比較有挑戰(zhàn)的部分，正好引出了我們的第三個(gè)議題蛋白質(zhì)復(fù)合物組裝以及多構(gòu)象預(yù)測(cè)，蛋白質(zhì)模型質(zhì)量評(píng)估等新問(wèn)題，請(qǐng)鄭偉老師和張貴軍老師給大家介紹一下挑戰(zhàn)和發(fā)展趨勢(shì)。

鄭偉：我先講一下模型質(zhì)量評(píng)估，目前在復(fù)合物結(jié)構(gòu)預(yù)測(cè)中比較麻煩的問(wèn)題在于，我們通過(guò)大量采樣，復(fù)合物備選的模型中其實(shí)有很多是接近于真實(shí)結(jié)構(gòu)的，但還是默認(rèn)的 QA 打分，模型的置信系數(shù)沒(méi)法把最好的排到前面，在我們開(kāi)發(fā)的方法里，這個(gè)問(wèn)題比較大。剛才建益老師也提到了抗體問(wèn)題，今年賽后我們看了一下整個(gè)模型池，這幾個(gè)抗體復(fù)合物我們也做了大量采樣，結(jié)果也有很多正確的模型，但它們?cè)谂判蚶锖艿?，這就引出了獨(dú)立 QA 方式的問(wèn)題。

今年蛋白質(zhì)模型質(zhì)量評(píng)估問(wèn)題上有幾個(gè)變化，往年大家傾向于做其他參賽者提交的模型排序以及常規(guī)的 QA 評(píng)測(cè)，今年引入了 MassiveFold 的模型質(zhì)量評(píng)估，集成了各種改造版的 AlphaFold2 模型，大概產(chǎn)生 8000 個(gè)模型，CASP 有一個(gè)賽道就是在這些模型中重新選擇結(jié)果比較好的。另外，現(xiàn)在的 CASP 可能也更關(guān)注模型的自評(píng)估，這是從 CASP14 開(kāi)始引入的，作為最后所有評(píng)估參賽表現(xiàn)的其中一個(gè)指標(biāo)，QA 在整個(gè)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域其實(shí)也日漸被重視。

但這個(gè)領(lǐng)域很難，我們今年也嘗試了參賽，賽前我們做了一個(gè) QA 評(píng)估，想用其他第三方 QA 來(lái)給模型重新打分，但基本所有第三方都沒(méi)法把我們的模型選好，所以我們就想能不能不用 QA 選模型，而是用模型反作 QA，因此我們構(gòu)建了一個(gè) QA 深度學(xué)習(xí)模型，然后用我們的模型做為主要的參考對(duì)其他模型進(jìn)行 QA 打分，這又引出了一個(gè)問(wèn)題是 QA 到底應(yīng)不應(yīng)該脫離結(jié)果預(yù)測(cè)單獨(dú)去做，不過(guò)這部分問(wèn)題可能還需要和建林、貴軍老師討論一下。

蛋白質(zhì)復(fù)合物組裝這部分除了加入了 Phase0、1、2 之外，整體的體系也在變大，以往復(fù)合物組裝都是比較小的體系，就是兩個(gè)蛋白或者這兩個(gè)蛋白 copy 數(shù)不太多，化學(xué)計(jì)量數(shù)也比較小，A1B1、 A2B2 都算比較大的了，整個(gè)體系就是一兩千個(gè)氨基酸，今年大的復(fù)合物變得特別多，有的體系里可能包含了十幾個(gè)蛋白，甚至有的整個(gè)體系下來(lái)七八千個(gè)氨基酸。今年整個(gè)復(fù)合物的組裝，一是化學(xué)計(jì)量變得更加復(fù)雜，二是復(fù)合物的體系變得更大，整體感覺(jué)變難了。

多構(gòu)象這塊其實(shí)是今年 CASP 一直想要增加的賽道，但鑒于往年多構(gòu)象數(shù)據(jù)不太好采集，今年是首次作為獨(dú)立賽道設(shè)置，相對(duì)其他賽道，多構(gòu)象不到 20 個(gè)結(jié)構(gòu)，數(shù)量非常少。多構(gòu)象在生物學(xué)里其實(shí)很重要，因?yàn)樯镞^(guò)程不是靜態(tài)的，我們預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)其實(shí)大部分都是看某一個(gè)結(jié)構(gòu)中間的狀態(tài)，是靜態(tài)的過(guò)程，但多構(gòu)象是動(dòng)態(tài)的，這對(duì)后續(xù)整個(gè)動(dòng)態(tài)預(yù)測(cè)很重要。

但今年一是賽題難度大，二是沒(méi)有明確的評(píng)測(cè)指標(biāo)，還處于起步階段，多構(gòu)象預(yù)測(cè)相對(duì)其他賽道更難，數(shù)據(jù)量比較少，很難訓(xùn)練一個(gè)比較常規(guī)的深度學(xué)習(xí)模型預(yù)測(cè)所有多構(gòu)象問(wèn)題，所以處理起來(lái)要 case by case，每個(gè) case 都要人工花費(fèi)很多精力。

從前景上來(lái)講，AlphaFold3 里用的擴(kuò)散模型的結(jié)構(gòu)模塊比 AlphaFold2 基于 Transformer 的結(jié)構(gòu)模塊在 Benchmark 的時(shí)候效果好些，多構(gòu)象預(yù)測(cè)比較好的發(fā)展方向是生成模型或 Diffusion 模型。

張貴軍：模型質(zhì)量評(píng)估聽(tīng)起來(lái)簡(jiǎn)單，但是實(shí)現(xiàn)并不容易，現(xiàn)在的指標(biāo)體系從單體遷徙到復(fù)合物上還存在很多問(wèn)題，所以在 CASP 中針對(duì)復(fù)合物的模型質(zhì)量評(píng)估也增加了很多的改進(jìn)，比如在局部指標(biāo)增加了 PatchQS 和 PatchDockQ 指標(biāo)，在 CASP16 中，我們實(shí)驗(yàn)室開(kāi)發(fā)了一個(gè)基于兩個(gè)單模型和一個(gè)共識(shí)方法的 QA 框架，一般來(lái)講，通過(guò)共識(shí)方法判斷模型是否合適會(huì)受限于預(yù)測(cè)方法，因此，從 EMA 賽道的設(shè)置的初衷而言，發(fā)展單模型方法是重點(diǎn)方向之一。

EMA 整體上需要考慮打分、排序、選擇三個(gè)不同步驟，它們之間是有區(qū)別的。對(duì)于一個(gè)復(fù)合物模型而言，打分的對(duì)象有很多種，包括全局、局部、接口殘基、側(cè)鏈、原子的評(píng)估分?jǐn)?shù)，然后將這些分?jǐn)?shù)需要整合排序，最后根據(jù)生物學(xué)需要挑選出感興趣的模型。目前方式是挑選最佳模型，但在生物學(xué)功能問(wèn)題中時(shí)，如果存在多構(gòu)象問(wèn)題時(shí)，單一的 TOP1 選擇方式并不理想。因?yàn)閺?fù)合物模型可能存在兩種或以上的穩(wěn)定功能構(gòu)象。此外，CAPRI、CASP 在模型質(zhì)量評(píng)估及打分方面的指標(biāo)也是有區(qū)別的。在本屆 CASP16 中，除了 Guijunlab-QA 之外，我們實(shí)驗(yàn)室還分別開(kāi)發(fā)了 Guijunlab-Complex、Guijunlab-DeepAssembly 兩個(gè)服務(wù)器參加了復(fù)合物建模類別，通過(guò)盲測(cè)分別驗(yàn)證一下 MSA 和模板兩個(gè)因素在高精度建模中的作用。

鄭偉老師的工作做得非常好，這也說(shuō)明了從目前來(lái)看結(jié)構(gòu)預(yù)測(cè)方法是超前于模型質(zhì)量評(píng)估方法的，預(yù)測(cè)做得很好，預(yù)測(cè)的評(píng)估也會(huì)做得很好。但也會(huì)存在全新、預(yù)測(cè)做得不太好的蛋白，或者參賽隊(duì)伍間差異性較大的情況。此外，這屆 CASP 也考慮到了實(shí)驗(yàn)結(jié)構(gòu)的可靠性，從上屆開(kāi)始組委會(huì)就已經(jīng)在考慮是模型預(yù)測(cè)錯(cuò)誤還是實(shí)驗(yàn)結(jié)構(gòu)測(cè)定誤差的問(wèn)題了，這也表明計(jì)算建模方法已經(jīng)成為實(shí)驗(yàn)測(cè)定方法的有效環(huán)節(jié)。

化學(xué)計(jì)量學(xué)的評(píng)估也比較重要一個(gè)新問(wèn)題，預(yù)測(cè)方面出現(xiàn)的新挑戰(zhàn)在評(píng)估方面都應(yīng)該考慮。比如二聚體、三聚體、四聚體等計(jì)量學(xué)問(wèn)題不僅可以搜模板，還可能從 MSA 中分析得到接口指紋，然后通過(guò)指紋判斷保守性的方式去解決。如果考慮到模板和 MSA 的話，實(shí)際上又歸到序列層面相互作用的問(wèn)題，目前，我們也在針對(duì)基于序列的蛋白質(zhì)相互作用方面開(kāi)展工作。

另外一個(gè)需要關(guān)注的挑戰(zhàn)是多構(gòu)象的問(wèn)題。我一直想跟大家討論 MSA 在建模和評(píng)估方面的雙刃劍問(wèn)題。CASP 多構(gòu)象建模實(shí)踐表明，在 AlphaFold 中使用不同的 MSA 配對(duì)確實(shí)可以產(chǎn)生不同的構(gòu)象，而且已經(jīng)有成功的案例，是目前多構(gòu)象預(yù)測(cè)的基本流程。但是，從第一性原理的角度來(lái)看，多構(gòu)象信息應(yīng)該包含在其序列之中。我覺(jué)得多構(gòu)象預(yù)測(cè)之后應(yīng)該可以從以下幾個(gè)考慮，通過(guò)蛋白質(zhì)序列語(yǔ)言模型（也就是 AI）的方式，直接從單序列出發(fā)捕獲構(gòu)象變換的語(yǔ)義關(guān)系；第二個(gè)方面直接在第一性原理上基礎(chǔ)上，考慮氨基酸的物理化學(xué)性質(zhì)去預(yù)測(cè)動(dòng)態(tài)構(gòu)象。多構(gòu)象模型精度評(píng)估同樣需要考慮以上問(wèn)題，從序列語(yǔ)義、物理化學(xué)的第一性原理考慮去研究。最后我想談?wù)?EMA 評(píng)估的指標(biāo)體系，除了目前考慮的全局、局部、殘基之外，化學(xué)計(jì)量學(xué)的評(píng)估指標(biāo)體系建立也很必要，在算法排序中，選擇 5 個(gè)模型中的 Best 模型可能更加合適，因?yàn)槎鄻?gòu)象、實(shí)驗(yàn)測(cè)定誤差以及特定生物學(xué)場(chǎng)景需求，使得 TOP1 模型的并不是最理想的選擇。

還有一個(gè)問(wèn)題我也想和各位老師探討，從我們現(xiàn)在的 EMA 角度來(lái)看，接口殘基的辨識(shí)率和精度兩個(gè)指標(biāo)在 CASP 16 里存在沖突。本屆 CASP 16 給出了這兩個(gè)指標(biāo)，但填寫(xiě)精度數(shù)據(jù)時(shí)只給了一個(gè)地方填寫(xiě)，現(xiàn)有的 PatchQA 和 PatchDockQ 是否有足夠的懲罰使得兩個(gè)指標(biāo)一致？其 Rank 權(quán)重能否真正體現(xiàn)精度就是接口的可能性。最近我們重現(xiàn)了一下，如果不太考慮精度的話，接口辨識(shí)成功率是可以提升很多的但精度會(huì)下降很多。

在蛋白質(zhì)復(fù)合物預(yù)測(cè)方面，我們專門(mén)從 MSA 改進(jìn)方面開(kāi)發(fā)了一個(gè) Guijunlab-Complex 服務(wù)器，從模板改進(jìn)方面，開(kāi)發(fā)了一個(gè) Guijunlab-DeepAssembly 服務(wù)器進(jìn)行測(cè)試，此外考慮到遠(yuǎn)程模板的重要性，開(kāi)發(fā)了一個(gè)主要用于單體預(yù)測(cè)的 Guijunlab-Pathreader 服務(wù)器。從盲測(cè)測(cè)試效果上來(lái)看，基于 MSA 該進(jìn)的性能優(yōu)勢(shì)還是明顯的，這表明目前 AlphaFold2 和 AlphaFold3 在這個(gè)領(lǐng)域的成功應(yīng)用，MSA 的改進(jìn)仍然是目前的主流方式。

目前需要努力的方向在于化學(xué)計(jì)量學(xué)的預(yù)測(cè)，這部分工作的開(kāi)展需要綜合考慮 MSA、模板的因素；另外，弱的交互作用的復(fù)合物預(yù)測(cè)也是 AI 方法的挑戰(zhàn)性問(wèn)題，之前我們一直認(rèn)為纏繞蛋白很難預(yù)測(cè)，但 AI 出現(xiàn)后已經(jīng)有了一些成功案例（由于存在較大的接觸面積），與此相反，接觸面比較小的蛋白如果采用傳統(tǒng)組裝方法是相對(duì)容易實(shí)現(xiàn)，傳統(tǒng)方法和 AI 的整合，可能是應(yīng)該此類問(wèn)題的一種有效方式。

我也想請(qǐng)教程老師，多構(gòu)象預(yù)測(cè)方法目前都是以不同的 MSA 配對(duì)、選用不用模板、調(diào)參生成大量模型，更為理想方法的應(yīng)該是直接基于單序列。如果是基于 MSA 方式話，在不同的化學(xué)計(jì)量學(xué)下，可能存在的不同聚合關(guān)系，這種聚合關(guān)系使我們很難去完整預(yù)測(cè)所有靈活構(gòu)象。

除了剛才說(shuō)的這些問(wèn)題之外，還需要注意的是，設(shè)計(jì)的算法應(yīng)該是一個(gè)明確的、有界的步驟。目前廣泛采用 AlphaFold2、AlphaFold3，雖然考慮了精度，但并沒(méi)有充分地考慮時(shí)間復(fù)雜度和空間復(fù)雜度這兩個(gè)算法指標(biāo)。之后 CASP 比賽中應(yīng)該會(huì)考慮算法的效率問(wèn)題。另外我覺(jué)得目前多構(gòu)象預(yù)測(cè)領(lǐng)域存在的挑戰(zhàn)還是數(shù)據(jù)問(wèn)題，現(xiàn)有的 MSA、模板數(shù)據(jù)是否能支撐推斷出動(dòng)態(tài)信息，或者是否有良好整理的分子動(dòng)力學(xué)模擬的數(shù)據(jù)?，F(xiàn)在 AI 生成模型存在幻覺(jué)，但蛋白質(zhì)是不允許存在幻覺(jué)的，PDB 庫(kù)中的動(dòng)態(tài)結(jié)構(gòu)、良好的 MD 數(shù)據(jù)將會(huì)有效地克服這一問(wèn)題。

程建林：多構(gòu)象預(yù)測(cè)現(xiàn)在有很多人開(kāi)始做，最近微軟也開(kāi)發(fā)了一個(gè)軟件預(yù)測(cè)分子動(dòng)力學(xué)的模擬結(jié)果，這個(gè)領(lǐng)域非常重要，但問(wèn)題在于沒(méi)有足夠的真實(shí)實(shí)驗(yàn)數(shù)據(jù)來(lái)訓(xùn)練模型。

理論上來(lái)說(shuō)可以用多構(gòu)象的實(shí)驗(yàn)數(shù)據(jù)來(lái)微調(diào)現(xiàn)有的模型，比如微調(diào) AlphaFold2、AlphaFold3，讓其產(chǎn)生多構(gòu)象，甚至從單序列能夠產(chǎn)生多構(gòu)象的結(jié)構(gòu)，但做實(shí)驗(yàn)?zāi)玫蕉鄻?gòu)象的真實(shí)數(shù)據(jù)比較困難，我不知道現(xiàn)在蛋白質(zhì)結(jié)構(gòu) PDB 數(shù)據(jù)庫(kù)中有多少這樣的數(shù)據(jù)能支撐我們的訓(xùn)練，這是制約領(lǐng)域發(fā)展的重要問(wèn)題。

質(zhì)量評(píng)估和結(jié)構(gòu)預(yù)測(cè)放在一起還是分開(kāi)這個(gè)問(wèn)題也很重要。自我的質(zhì)量評(píng)估是有必要的，但同時(shí)從用戶角度來(lái)說(shuō)，用戶需要用不同的軟件來(lái)產(chǎn)生模型，然后得到質(zhì)量的評(píng)估，他們更需要的是獨(dú)立的、甚至是單模型的評(píng)估方法幫助他們選擇模型。另外是共識(shí)和單模型的質(zhì)量評(píng)估方法，共識(shí)方法其實(shí)是很簡(jiǎn)單的，就是看模型之間的相似性，然后進(jìn)行排序，問(wèn)題在于單模型方法還沒(méi)有突破共識(shí)方法，這是我們需要做的工作。

張貴軍：所以應(yīng)該鼓勵(lì)單模型方法，而不是共識(shí)基線方法，這樣可能會(huì)壓制單模型方法的開(kāi)發(fā)。

程建林：是的，我們也試了幾種方法，共識(shí)方法、單模型方法和共識(shí)、單模型的組合方法，最后在 CASP 的比賽中共識(shí)方法還是超過(guò)了其他方法，雖然單模型和共識(shí)結(jié)合的方法在我們自己的實(shí)驗(yàn)中比共識(shí)方法好。共識(shí)方法目前沒(méi)有什么大的突破，但是設(shè)了一個(gè)很高的界限，其他的方法還沒(méi)有系統(tǒng)地超過(guò)它，如果有一天單模型或少模型的方法能超過(guò)共識(shí)方法的話，這個(gè)領(lǐng)域才算取得了重要突破。

張貴軍：那現(xiàn)在自評(píng)估 AlphaFold2 里對(duì)一些無(wú)序片段的評(píng)估質(zhì)量并不是太高，是不是意味著存在獨(dú)立于 AF 的第三方的預(yù)測(cè)和評(píng)估方法是非常有的必要的。

程建林：我覺(jué)得完全有必要，現(xiàn)在自評(píng)估其實(shí)也不錯(cuò)，但有時(shí)高估一些模型的質(zhì)量，所以需要獨(dú)立的質(zhì)量評(píng)估。預(yù)測(cè)問(wèn)題是產(chǎn)生結(jié)構(gòu)模型，而評(píng)估是選擇最優(yōu)模型，這是兩個(gè)不一樣的問(wèn)題，都非常難，甚至難度可能是一樣的，只不過(guò)現(xiàn)在在結(jié)構(gòu)產(chǎn)生上取得了很大的進(jìn)展，而評(píng)估還需突破，但突破是可能發(fā)生的，目前評(píng)估的重要性已經(jīng)被 CASP 提到了一個(gè)高度。

RNA 結(jié)構(gòu)預(yù)測(cè)新進(jìn)展

常珊：我們進(jìn)入下一個(gè)議題，在 RNA 結(jié)構(gòu)預(yù)測(cè)、核酸復(fù)合物結(jié)構(gòu)預(yù)測(cè)方面，預(yù)測(cè)的數(shù)量和難度是不是都在提升？AlphaFold3 是否有明顯優(yōu)勢(shì)？請(qǐng)鄭偉老師和楊建益老師來(lái)介紹一下進(jìn)展。

鄭偉：我們今年是第一次做 RNA 賽道，今年 CASP 拔高了 RNA，上一屆 RNA 只有十幾個(gè) target，大部分集中在 RNA 單體上，復(fù)雜度也不高，可能一兩百個(gè)堿基已經(jīng)算比較多，但這屆 RNA 或 DNA 相關(guān)共有 60 多個(gè)。

RNA 和蛋白質(zhì)復(fù)合物結(jié)構(gòu)預(yù)測(cè)有點(diǎn)像，也分為 phase0 和 phase1，phase0 不告知幾聚體，phase1 再告知，今年我們猜 phase0 不會(huì)太大，但意外的是大的 RNA 復(fù)合物比比皆是，14 個(gè)或 8 個(gè) RNA 形成的復(fù)雜聚體非常多。

RNA 整個(gè)體系也很大，有好幾個(gè) target 都超過(guò)了 5000 個(gè)氨基酸，無(wú)論是通過(guò)我們自己的方法還是 AlphaFold3，都比較難預(yù)測(cè)。因?yàn)楫?dāng)時(shí) AlphaFold3 的 Server 的最大提交長(zhǎng)度閾值大概設(shè)在 5000，很多 target 超過(guò) 5000，參賽者不太好預(yù)測(cè)。今年 RNA 細(xì)分賽道也很多，去年只有 RNA 單體，復(fù)合物很少，而且去年只有兩個(gè)蛋白質(zhì)-核酸復(fù)合物target，今年大概十幾個(gè) target。

核酸小分子上次也完全沒(méi)有 target，今年也設(shè)了幾個(gè)，整體看 RNA 賽道無(wú)論是難度、數(shù)量還是細(xì)化上變化都很明顯。也可以看出整個(gè)領(lǐng)域在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)發(fā)展得相對(duì)比較成熟的情況下，大家的關(guān)注點(diǎn)漸漸要往 RNA 結(jié)構(gòu)預(yù)測(cè)上產(chǎn)生傾斜了。

另外 AlphaFold3 在這個(gè)賽道上沒(méi)有優(yōu)勢(shì)，不光這個(gè)賽道，AlphaFold3 在各個(gè)賽道上整體排名在 6 ~ 10 名之間，整體精度沒(méi)那么理想，所以在結(jié)構(gòu)預(yù)測(cè)這個(gè)領(lǐng)域，即使大家拿到了相同的 AlphaFold3 的 Server，用的過(guò)程中經(jīng)驗(yàn)也很重要，這也是大家排名不一樣的原因。

蛋白質(zhì)核酸復(fù)合物結(jié)構(gòu)預(yù)測(cè)是我們今年比較感興趣的方向，往屆受限于方法，很少有做蛋白核酸復(fù)合物的方法，發(fā)展主要在近兩年，之前也有一些基于 Docking 或其他的方法，但純 AI 完全從頭預(yù)測(cè)是從 David Baker的 RosettaFoldNA 提出來(lái)之后開(kāi)始的，然后 AlphaFold3 把這個(gè)體系發(fā)展得相對(duì)來(lái)說(shuō)比較好，但整體看這個(gè)領(lǐng)域還較難，主要原因在于有效的、能夠用來(lái)訓(xùn)練的蛋白質(zhì)核酸復(fù)合物數(shù)量不太多，大概 3 ~ 5 千個(gè)，這是制約蛋白質(zhì)核酸復(fù)合物結(jié)構(gòu)預(yù)測(cè)精度的原因之一。

今年其實(shí)還有幾個(gè) target 是抗體蛋白加核酸的復(fù)合物，整體來(lái)看，大家預(yù)測(cè)出的結(jié)果比蛋白質(zhì)抗體-抗原復(fù)合物精度差很多，尤其在核酸這部分，基本大家預(yù)測(cè)的結(jié)果相對(duì)來(lái)說(shuō)很差。

楊建益：我再補(bǔ)充一下，上一屆 CASP 才引入 RNA，但那時(shí)只有 12 個(gè) RNA，其中 8 個(gè)天然，4 個(gè)人工設(shè)計(jì)，人工設(shè)計(jì)最長(zhǎng)有 700 多個(gè)核酸，天然的RNA都比較短，大概在幾十到一百左右。

這一屆類別明顯更多，包括復(fù)合物、小分子，甚至有 RNA 跟水分子的互作，整體上預(yù)測(cè)起來(lái)非常困難，尤其是復(fù)合物類型。我們課題組做的 trRosettaRNA 主要針對(duì) RNA 單體而言，當(dāng)前可用 AlphaFold3 與 RoseTTAFold NA 預(yù)測(cè)蛋白-RNA 結(jié)構(gòu)，但其性能依然不理想。

就 RNA 單體而言，預(yù)測(cè)跟上屆比不見(jiàn)得更難，上屆難在人工設(shè)計(jì)，這部分無(wú)論 AI 還是傳統(tǒng)物理方法都做不好自動(dòng)預(yù)測(cè)，但上一屆比賽中熊鵬團(tuán)隊(duì)把人工設(shè)計(jì)的 RNA 做的很好。這屆 RNA 的精度不比上次低，我們自己方法的在 RNA 單體的平均 RMSD 大概 15 埃，上一屆是 20 埃以上，主要是人工設(shè)計(jì)的 RNA 做得不好，RMSD 都是三四十埃左右。

CASP16 的 RNA 通過(guò) AI 預(yù)測(cè)的精度還是可接受的，但還沒(méi)那么精準(zhǔn)，人工經(jīng)驗(yàn)還是比較重要，這方面和蛋白區(qū)別特別大，在蛋白結(jié)構(gòu)預(yù)測(cè)中，人工干預(yù)不一定有特別大幫助，但 RNA 中人工干預(yù)挺關(guān)鍵的，排名前三的團(tuán)隊(duì)都是人工干預(yù)做了很多修正，包括人工構(gòu)建二級(jí)結(jié)構(gòu)、模擬產(chǎn)生數(shù)據(jù)后人工篩選、基于 MSA 調(diào)整結(jié)構(gòu)等，過(guò)程非常繁瑣，AI 很難把所有方面都考慮到。

自動(dòng)預(yù)測(cè)好處在于會(huì)有許多人受益，我們提供了 trRosettaRNA 服務(wù)器，當(dāng)用戶輸入的序列在訓(xùn)練集中存在相似數(shù)據(jù)時(shí)，自動(dòng)預(yù)測(cè)的結(jié)構(gòu)大概率會(huì)比較準(zhǔn)確。自動(dòng)預(yù)測(cè)的優(yōu)點(diǎn)在于可以服務(wù)更多用戶，我們服務(wù)器每天都會(huì)收到不少新任務(wù)。

自動(dòng)預(yù)測(cè)是未來(lái)發(fā)展方向，雖然現(xiàn)在 AlphaFold3 優(yōu)勢(shì)不明顯，但后面應(yīng)該會(huì)越來(lái)越好，它精度不高的原因還是已有實(shí)驗(yàn)數(shù)據(jù)有限，剛才鄭偉提到大概有幾千個(gè)數(shù)據(jù)，但這些數(shù)據(jù)很多都來(lái)自同一類 RNA 或復(fù)合物，其中特別多 tRNA，我們服務(wù)器也經(jīng)常收到這類序列，預(yù)測(cè)結(jié)構(gòu)都挺可靠，但比較新的 RNA 做得并不好。蛋白結(jié)構(gòu)預(yù)測(cè)六七十年積累下來(lái)數(shù)據(jù)庫(kù)很大，有 20 多萬(wàn)個(gè)結(jié)構(gòu)供 AI 學(xué)習(xí)，但 RNA 數(shù)據(jù)還太少，非冗余的數(shù)據(jù)就幾百個(gè)，學(xué)不好可以理解。

上屆比賽前幾名都沒(méi)有用到 AI 預(yù)測(cè)，但這屆前幾名都用 AlphaFold3 或 trRosettaRNA 輔助篩選或模擬，AI 的價(jià)值將會(huì)越來(lái)越大。我相信 RNA 數(shù)據(jù)積累是個(gè)過(guò)程，蛋白結(jié)構(gòu)預(yù)測(cè)早期其實(shí)結(jié)構(gòu)也不準(zhǔn)確，現(xiàn)在的進(jìn)步速度應(yīng)該比之前要快，下一屆應(yīng)該會(huì)有更多的 RNA 參賽團(tuán)隊(duì)，結(jié)構(gòu)預(yù)測(cè)精度應(yīng)該會(huì)越來(lái)越高。

常珊：自動(dòng)化的 RNA 結(jié)構(gòu)預(yù)測(cè)非常重要，在 AlphaFold3 的文章里，其實(shí)在 CASP15 比較 RNA 結(jié)構(gòu)預(yù)測(cè)的時(shí)候，結(jié)果其實(shí)差距不大，人工組還更占優(yōu)一些，在小分子預(yù)測(cè)方面則顯示出有比較大的提升，就像程建林老師說(shuō)的，確實(shí)這一屆的評(píng)估也展示了配體預(yù)測(cè)中 AlphaFold3 作為 Baseline 的結(jié)果，人工組沒(méi)有超過(guò) AlphaFold3，這也是有挑戰(zhàn)的問(wèn)題，請(qǐng)孔韌老師和程建林老師簡(jiǎn)單介紹一下。

孔韌：上一屆比賽中更多是一個(gè)蛋白結(jié)合一個(gè)小分子，或者一個(gè)蛋白同時(shí)結(jié)合多個(gè)小分子，這樣的問(wèn)題更像是這個(gè)生物體系中蛋白質(zhì)跟輔因子結(jié)合的預(yù)測(cè)問(wèn)題，我們比賽結(jié)果非常好，因?yàn)橛玫氖?nbsp;template based docking的方法，那時(shí) AlphaFold 還不能預(yù)測(cè)蛋白小分子體系，在這種蛋白與輔因子結(jié)合的問(wèn)題中，有很多高度類似 template 能被找到。

這屆比賽其實(shí)引入了更加現(xiàn)實(shí)的問(wèn)題，就是一個(gè)蛋白作為一個(gè)藥物靶點(diǎn)，我們通常在藥物發(fā)現(xiàn)的過(guò)程中需要去評(píng)估它跟多個(gè)不同化學(xué)結(jié)構(gòu)小分子結(jié)合的模式問(wèn)題，以及結(jié)合的強(qiáng)度問(wèn)題。這其實(shí)更接近于我們?cè)谛》肿娱_(kāi)發(fā)中會(huì)碰到的問(wèn)題，這次 AlphaFold3 沒(méi)有作為參賽者參賽，但在評(píng)估實(shí)驗(yàn)中表現(xiàn)非常不錯(cuò)。

這次一共有 L1000 到 L4000 四個(gè) target，分別是四個(gè)藥靶對(duì)應(yīng)幾十個(gè)到上百個(gè)小分子，AlphaFold3 在 L3000 中表現(xiàn)超過(guò)所有參賽組，在 L4000 上表現(xiàn)沒(méi)那么好，在 L2000 和 L1000 這兩個(gè)同源蛋白中，它在 L2000 上的表現(xiàn)稍微好一點(diǎn)。整體來(lái)看，AlphaFold3 已經(jīng)表現(xiàn)出優(yōu)勢(shì)，在某些靶點(diǎn)上比傳統(tǒng)對(duì)接方法要強(qiáng)，將來(lái)我們真正做藥物研發(fā)時(shí)，可以把傳統(tǒng)的對(duì)接方法和 AlphaFold 的深度學(xué)習(xí)方法結(jié)合起來(lái)做綜合考慮和使用，產(chǎn)生更多有可能正確的 pose。

而這又帶來(lái)這么多正確 pose 如何挑選的新問(wèn)題，蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)中也會(huì)碰到類似問(wèn)題，通常如果用 template base 方法很簡(jiǎn)單，就是如果能夠在 PDB 庫(kù)中找到類似的小分子、化學(xué) atom type，或者類似的周圍的 residue type 的話，根據(jù)相似性打分去評(píng)估，類似度較高的 pose 正確的可能性較大。

正確結(jié)構(gòu)挑出之后，其實(shí)比賽也分了兩個(gè)階段，第一階段是預(yù)測(cè)小分子的結(jié)合模式以及結(jié)合親和力，第二階段是告知全部晶體結(jié)構(gòu)和結(jié)合模式，直接預(yù)測(cè)親和力就行。但目前還沒(méi)有特別好的方法能評(píng)估小分子，或者多個(gè)小分子對(duì)同一靶點(diǎn)的結(jié)合親和力，將來(lái)我們也想往這個(gè)方向做。

程建林：孔老師提到 AlphaFold3 現(xiàn)在可能超過(guò)了其他方法，但其實(shí)還是有很多地方可以提高，比如怎么用模板、怎么選擇模型之類的，同時(shí)也會(huì)有其他競(jìng)爭(zhēng)方法出現(xiàn)，最近有方法自稱超過(guò)了 AlphaFold3，但也還需要客觀評(píng)估，另外這些方法各有所長(zhǎng)，有沒(méi)有可能結(jié)合在一起得到更好的方法也是可以研究的問(wèn)題。

另外我的學(xué)生在評(píng)估主要的蛋白質(zhì)小分子復(fù)合體預(yù)測(cè)的方法時(shí)，發(fā)現(xiàn)了一個(gè)問(wèn)題是很多方法在訓(xùn)練之后的測(cè)試過(guò)程中，如果小分子跟以前訓(xùn)練數(shù)據(jù)中有一定相似性的話，可能效果比較好，如果不一樣，性能就不可預(yù)測(cè)，那么要怎樣提高這些人工智能方法的通用性，這是一個(gè)需要解決的問(wèn)題。

蛋白質(zhì)小分子結(jié)合親和力的預(yù)測(cè)對(duì)篩選藥物而言也非常重要，提供一個(gè)藥物靶點(diǎn)，怎樣篩選各種和蛋白可能有相互作用的小分子藥物，哪怕不能預(yù)測(cè)結(jié)構(gòu)，只要知道親和力也夠了。但這個(gè)領(lǐng)域還處于非常初級(jí)的階段，其實(shí)跟排序、質(zhì)量評(píng)估都是相關(guān)的，是個(gè)非常困難的問(wèn)題，就像在所產(chǎn)生的上萬(wàn)個(gè)模型中隨機(jī)挑選最優(yōu)，這樣概率會(huì)非常低。

結(jié)構(gòu)預(yù)測(cè)的藍(lán)海方向

孔韌：我的領(lǐng)域?qū)儆?CADD（藥物輔助設(shè)計(jì)），后來(lái)因?yàn)?CASP 有了小分子賽道，我才更多參與到 CASP 的小分子結(jié)構(gòu)預(yù)測(cè)中。CADD 領(lǐng)域也有很多傳統(tǒng) docking、binding affinity 以及結(jié)合自由計(jì)算方向的專家和團(tuán)隊(duì)，大家可以更多參與到 CASP 比賽中，因?yàn)?CASP 的數(shù)據(jù)集公布了結(jié)構(gòu)、親和力，可以用其數(shù)據(jù)集測(cè)試自己公司、課題組的 pipeline 是不是能很好地預(yù)測(cè) binding affinity，我非常想看到這個(gè)方向有沒(méi)有比較好的解決方案。

常珊：孔老師的觀點(diǎn)正好和下個(gè)問(wèn)題相關(guān)，就是 CASP 評(píng)估賽對(duì)產(chǎn)業(yè)的實(shí)際應(yīng)用，比如對(duì)合成生物產(chǎn)業(yè)或生物醫(yī)藥的產(chǎn)業(yè)影響是什么？可以請(qǐng)張貴軍老師和孔老師再給我們分享一下。

張貴軍：只要跟生物有關(guān)的都和結(jié)構(gòu)密不可分，這幾年來(lái)醫(yī)學(xué)、藥學(xué)、農(nóng)學(xué)領(lǐng)域的專家對(duì)結(jié)構(gòu)都非常關(guān)注，因?yàn)樗芙沂局匾纳飳W(xué)功能機(jī)制。

對(duì)于藥學(xué)而言，藥物靶標(biāo)發(fā)現(xiàn)是比較重要的應(yīng)用，隨著目前焦點(diǎn)從的靜態(tài)構(gòu)象轉(zhuǎn)向多構(gòu)象研究，那么多構(gòu)象之中的某一個(gè)可能是潛在的靶點(diǎn)。醫(yī)學(xué)上抗體的進(jìn)展也非常迅猛，這意味著在疫苗的設(shè)計(jì)中，包括檢測(cè)、診斷、抗體治療上，都有很多東西能探索。

合成生物學(xué)方面，結(jié)構(gòu)的研究直接引起了產(chǎn)業(yè)的飛速發(fā)展，包括在可降解材料、綠色制造等領(lǐng)域，將成為有效應(yīng)對(duì)全球變暖問(wèn)題的有效手段。今年都快放寒假了，但是杭州天氣還沒(méi)有去年那么冷，環(huán)保問(wèn)題是事關(guān)人類生存的重大挑戰(zhàn)性問(wèn)題。

孔韌：結(jié)構(gòu)對(duì)生命科學(xué)相關(guān)產(chǎn)業(yè)都會(huì)帶來(lái)一定影響，現(xiàn)在只是開(kāi)始，隨著工具應(yīng)用變廣，應(yīng)用在具體問(wèn)題上變多，影響會(huì)更深刻。

我們之前跟做基礎(chǔ)醫(yī)學(xué)的老師有合作交流，他們?cè)诮忉尯芏嗟鞍坠δ苤匾詥?wèn)題時(shí)，通常會(huì)用 coIP 或者 WB 來(lái)做，看兩個(gè)蛋白是否結(jié)合、誰(shuí)跟誰(shuí)結(jié)合，我們建議可以用結(jié)構(gòu)預(yù)測(cè)的方法從三維蛋白質(zhì)結(jié)構(gòu)的角度，看蛋白質(zhì)結(jié)構(gòu)跟功能間的關(guān)系、結(jié)構(gòu)，以及如何結(jié)合另一個(gè)蛋白，哪個(gè)結(jié)構(gòu)發(fā)揮了作用，哪個(gè)界面殘基重要，用這些信息幫助他們做下一步實(shí)驗(yàn)設(shè)計(jì)。如果這樣的結(jié)合對(duì)細(xì)胞表型、疾病表型有重要影響的話，還可以涉及多肽、蛋白、抗體、小分子去影響這個(gè)過(guò)程，最終關(guān)聯(lián)到藥物研發(fā)上。

合成生物學(xué)領(lǐng)域現(xiàn)在也非常熱，當(dāng)中就是用細(xì)胞工廠來(lái)合成想要的東西，細(xì)胞工廠里具體的執(zhí)行者是蛋白質(zhì)、代謝網(wǎng)絡(luò)、代謝酶，其中限速酶是誰(shuí)？限速酶是如何限速的？怎樣改進(jìn)限速酶的催化效率？限速酶跟它的產(chǎn)物如何結(jié)合？如果能知道底物結(jié)合與產(chǎn)物釋放的動(dòng)態(tài)過(guò)程，就可以找出其中的關(guān)鍵殘基，對(duì)酶改造進(jìn)行合理設(shè)計(jì)，這也是可以想象的方向。

常珊：我最近看到 Baker 在采訪中指出了大概十幾個(gè)有可能使用結(jié)構(gòu)預(yù)測(cè)或者蛋白質(zhì)設(shè)計(jì)的藍(lán)海領(lǐng)域，是大家可以去關(guān)注的方向。還有哪些方向是諾獎(jiǎng)之后，結(jié)構(gòu)預(yù)測(cè)更好的發(fā)展方向，請(qǐng)程建林老師和楊建益老師分享一下。

楊建益：我覺(jué)得單序列預(yù)測(cè)如果把蛋白質(zhì)折疊問(wèn)題解決了，將是諾獎(jiǎng)級(jí)的工作。要從單序列去預(yù)測(cè)結(jié)構(gòu)，深入探索蛋白質(zhì)折疊機(jī)理和問(wèn)題還有很長(zhǎng)的路要走。以后肯定會(huì)是 AI 主導(dǎo)的，通過(guò) AI 不斷迭代、更新，精度提高的同時(shí)，不斷加深對(duì)折疊機(jī)理的理解。

此外，現(xiàn)在 AlphaFold 解決的是靜態(tài)結(jié)構(gòu)預(yù)測(cè)問(wèn)題，現(xiàn)在大家關(guān)注的重點(diǎn)逐步從靜態(tài)轉(zhuǎn)為動(dòng)態(tài)。因?yàn)榈鞍踪|(zhì)要執(zhí)行生物學(xué)功能，主要是因?yàn)樗趧?dòng)，雖然我一直覺(jué)得只研究一條蛋白質(zhì)的動(dòng)態(tài)沒(méi)有太大的意義，重點(diǎn)還是在復(fù)合物，因?yàn)閯?dòng)是有原因的，比如說(shuō)跟小分子、蛋白、核酸互作。所以在復(fù)合物背景下研究動(dòng)態(tài)構(gòu)項(xiàng)變化是重要方向，但對(duì)于預(yù)測(cè)者、評(píng)估者來(lái)講都很困難。

程建林：獲得諾獎(jiǎng)是對(duì)我們整個(gè)領(lǐng)域的承認(rèn)，會(huì)產(chǎn)生很大影響，吸引很多人來(lái)學(xué)習(xí)結(jié)構(gòu)預(yù)測(cè)。我覺(jué)得還有幾個(gè)可能達(dá)到諾獎(jiǎng)級(jí)別的工作，比如單序列結(jié)構(gòu)預(yù)測(cè)，然后 RNA 如果能做到 AlphaFold2 當(dāng)年對(duì)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的水平就已經(jīng)達(dá)到很高的精度了，這也是諾獎(jiǎng)級(jí)別的工作。

蛋白小分子復(fù)合體結(jié)構(gòu)預(yù)測(cè)，雖然現(xiàn)在 AlphaFold3 屬于領(lǐng)先狀態(tài)，但它的精度還遠(yuǎn)遠(yuǎn)沒(méi)有達(dá)到解決大部分問(wèn)題，不像它 90% 解決了蛋白單鏈的結(jié)構(gòu)預(yù)測(cè)問(wèn)題。蛋白質(zhì)小分子其實(shí)還有很多工作要做，這個(gè)問(wèn)題非常重要，因?yàn)楝F(xiàn)實(shí)意義是巨大的，對(duì)制藥、疾病的理解是非常重要的，如果能夠取得突破性的進(jìn)展，也是達(dá)到諾獎(jiǎng)級(jí)別的。

得到諾貝獎(jiǎng)最重要的因素在于要有巨大的、突然性的，顛覆性的突破，還有其實(shí)這是人工智能在科學(xué)領(lǐng)域里獲得的迄今為止第一個(gè)最重要的突破，AlphaGo、ChatGPT 都是新的代表性時(shí)刻，而在科學(xué)領(lǐng)域里的時(shí)刻其實(shí)就是蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)，已經(jīng)成為科學(xué)中的樣板。

很多人以前都不關(guān)心蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)，現(xiàn)在他們都要在自己研究的疾病或生物系統(tǒng)里預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)，比如農(nóng)業(yè)里設(shè)計(jì)育種，使其更有抗旱性，能源領(lǐng)域設(shè)計(jì)酶，把生物廢料轉(zhuǎn)成能量。另外，很多生物科技公司甚至大公司也在投入其中，他們會(huì)使用、繼續(xù)開(kāi)發(fā)這些工具，或者應(yīng)用到各個(gè)不同的領(lǐng)域里，所以它已經(jīng)成為非常有潛力的領(lǐng)域，但從學(xué)術(shù)界的角度來(lái)講還存在許多有挑戰(zhàn)性的研究問(wèn)題待解。

常珊：諾獎(jiǎng)確實(shí)是對(duì)我們結(jié)構(gòu)預(yù)測(cè)領(lǐng)域的一個(gè)很重要的肯定，之前很少人會(huì)關(guān)注這個(gè)領(lǐng)域，或者大家不是特別了解，這也是我們舉辦這次圓桌會(huì)議的重要原因，結(jié)構(gòu)預(yù)測(cè)獲得諾獎(jiǎng)肯定以后，我們需要讓大家知道諾獎(jiǎng)到底為什么頒給結(jié)構(gòu)預(yù)測(cè)，結(jié)構(gòu)預(yù)測(cè)可以幫助學(xué)術(shù)研究、產(chǎn)業(yè)界做什么事。

目前中國(guó)團(tuán)隊(duì)參加 CASP 的熱情也很高，所以我們也在討論有沒(méi)有可能讓中國(guó)來(lái)承辦一次，在中國(guó)承辦的話，會(huì)更大地?cái)U(kuò)大結(jié)構(gòu)預(yù)測(cè)的影響力，這方面想請(qǐng)楊建益老師和鄭偉老師來(lái)談一下建議。

楊建益：CASP 發(fā)邀請(qǐng)信的時(shí)候我就問(wèn)過(guò)下一屆能不能在中國(guó)辦，他們回復(fù)很感興趣，這次會(huì)議最后一天的預(yù)測(cè)會(huì)議中，也有人建議在亞洲舉辦 CASP17。Joun Moult 回復(fù)郵件說(shuō)這一屆比賽的中國(guó)參賽者僅次于美國(guó)，日韓團(tuán)隊(duì)也很多，他很感興趣，不過(guò)還需要進(jìn)一步討論。

鄭偉：下一屆感覺(jué)因?yàn)闀?huì)議組織受國(guó)際政治的因素影響比較大，會(huì)不會(huì)選在中國(guó)其實(shí)不太好說(shuō)，估計(jì)日韓概率會(huì)比較大，但是也不是說(shuō)沒(méi)希望，要集體跟組委會(huì)反映，最大努力爭(zhēng)取。

常珊：評(píng)論區(qū)也還有一些問(wèn)題需要討論一下，大家比較關(guān)心結(jié)構(gòu)預(yù)測(cè)對(duì)于突變后蛋白質(zhì)的預(yù)測(cè)效果如何？或者對(duì)于蛋白質(zhì)突變中比較小的細(xì)微的序列變化，會(huì)不會(huì)有比較好的預(yù)測(cè)結(jié)果嗎？還有對(duì)于 Loop 區(qū)的預(yù)測(cè)有沒(méi)有一些比較好的建議？有沒(méi)有老師可以解答一下。

程建林：我回答第一個(gè)問(wèn)題。目前對(duì)突變的結(jié)構(gòu)預(yù)測(cè)還不是特別成功，因?yàn)?AlphaFold2、AlphaFold3 主要是用對(duì)齊的多序列作為輸入，所以如果只有幾個(gè)氨基酸發(fā)生變異之后，其實(shí)它不能敏感察覺(jué)變化，產(chǎn)生的結(jié)果和用原始序列是差不多的，我們今天沒(méi)有討論到，但這是之后結(jié)構(gòu)預(yù)測(cè)要解決的重要問(wèn)題。

鄭偉：我覺(jué)得點(diǎn)突變分兩個(gè)方向，一是點(diǎn)突變對(duì)結(jié)構(gòu)影響比較大的，二是點(diǎn)突變對(duì)結(jié)構(gòu)影響并不那么大的。點(diǎn)突變對(duì)結(jié)構(gòu)改變比較大的方向，我們是有一些 case 能做的，CASP15 也有一個(gè)點(diǎn)突變復(fù)合物，很多團(tuán)隊(duì)都預(yù)測(cè)得還不錯(cuò)，但點(diǎn)突變對(duì)結(jié)構(gòu)改變比較大的 case 現(xiàn)在不是太多。而點(diǎn)突變對(duì)小構(gòu)項(xiàng)的影響，如果從結(jié)構(gòu)預(yù)測(cè)看的話，其實(shí)在側(cè)鏈?zhǔn)悄芊从吵鰜?lái)的，但這種變化能有多少被真實(shí)反應(yīng)很難說(shuō)，點(diǎn)突變問(wèn)題需要以結(jié)構(gòu)預(yù)測(cè)加生物學(xué)驗(yàn)證的結(jié)合手段為主，這是比較正確的方向，現(xiàn)階段想依賴 AI 去解決比較難。

Loop 區(qū)我覺(jué)得本來(lái)就是比較靈活的區(qū)域，相對(duì)來(lái)說(shuō)比較難預(yù)測(cè)，建議可以多預(yù)測(cè)一些模型，然后把 Loop 區(qū)整體對(duì)齊再看一下，然后還是需要結(jié)合生物學(xué)的驗(yàn)證經(jīng)驗(yàn)篩選模型，完全依賴于 AI 去預(yù)測(cè)也是很難的。

常珊：Loop 區(qū)的構(gòu)項(xiàng)本身也很多，有點(diǎn)類似于蛋白質(zhì)多構(gòu)象的預(yù)測(cè)問(wèn)題，所以很難說(shuō)有哪個(gè)構(gòu)項(xiàng)是占優(yōu)的，本身還是有一定不確定性的。

楊建益：同意。Loop 的話跟執(zhí)行功能是有關(guān)的，單純考慮一個(gè)蛋白說(shuō)Loop 準(zhǔn)不準(zhǔn)意義不太大，這些區(qū)域預(yù)測(cè)精度低非常正常，即使做實(shí)驗(yàn)也無(wú)法獲取可靠的結(jié)構(gòu)。應(yīng)該要考慮它與結(jié)合對(duì)象的互作用，看通過(guò)結(jié)合其他對(duì)象能否穩(wěn)固 Loop 區(qū)的結(jié)構(gòu)。雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

朱可軒

編輯

發(fā)私信

當(dāng)月熱門(mén)文章