0
在CASP比賽創(chuàng)建者John Moult教授看來,這一比賽從來不是閉門造車,或是學(xué)術(shù)界的圈地自嗨。
2018年,在第13屆CASP比賽中,一個(gè)頂著谷歌子公司帽子的參賽選手亮相,其AlphaFold系統(tǒng)以最高的預(yù)測準(zhǔn)確率擊敗其他參賽隊(duì)伍。
2020年,在第14屆CASP比賽中,這一公司再次卷入競技場,憑借AlphaFold二代系統(tǒng)以絕對(duì)的優(yōu)勢大獲全勝,并在次年將技術(shù)成果全部發(fā)表于《Nature》和《Science》等頂級(jí)期刊。
這便是如今的AI殿堂級(jí)公司--DeepMind。
從那以后,人們首次將“人工智能”和“蛋白質(zhì)結(jié)構(gòu)預(yù)測”兩個(gè)毫不相關(guān)的領(lǐng)域聯(lián)系在一起。而DeepMind背后的谷歌,也憑借CASP大賽織造了一張夢寐以求的醫(yī)療商業(yè)藍(lán)圖。
從業(yè)內(nèi)人士的角度,這或許是意料之中。正如John Moult教授創(chuàng)立CASP比賽的初心,便是希望以此推動(dòng)計(jì)算生物學(xué)研究,加速理解細(xì)胞構(gòu)建原理和推進(jìn)藥物發(fā)現(xiàn),最終惠及全人類。
顯然,DeepMind已經(jīng)蹚出了一條可參照的發(fā)展路徑。
不久前,CASP 15落下帷幕,盡管本屆比賽中未見DeepMind身影,但諸多華人團(tuán)隊(duì)參賽熱情高漲,在蛋白質(zhì)單體/多體結(jié)構(gòu)預(yù)測、蛋白質(zhì)-蛋白質(zhì)復(fù)合體結(jié)構(gòu)預(yù)測、RNA結(jié)構(gòu)預(yù)測、蛋白質(zhì)-小分子配體復(fù)合物結(jié)構(gòu)預(yù)測等多賽道上奪得桂冠。
不少參賽選手直言,“這是‘后AlphaFold2時(shí)代’的首屆大型同臺(tái)競技,所有選手都獲得了業(yè)內(nèi)前所未有的關(guān)注?!?/p>
在AlphaFold2的沖擊之下,蛋白質(zhì)結(jié)構(gòu)預(yù)測是否還能為人們帶來新的驚喜?
本屆首次新增蛋白質(zhì)-小分子復(fù)合體預(yù)測和RNA結(jié)構(gòu)預(yù)測兩大賽道,是否意味著蛋白質(zhì)結(jié)構(gòu)預(yù)測不再穩(wěn)占“C位”?
RNA結(jié)構(gòu)預(yù)測領(lǐng)域是否會(huì)出現(xiàn)如AlphaFold2一般引發(fā)革命的技術(shù)工具?
從基礎(chǔ)研究到應(yīng)用研究,人們不斷討論著在CASP 15背后行業(yè)發(fā)展的諸多可能。
近日,由雷峰網(wǎng)GAIR Live&《醫(yī)健AI掘金志》舉辦的《生物計(jì)算“奧賽”冠軍團(tuán)隊(duì)論道:當(dāng)生命科學(xué)遇上史詩級(jí)AI,何去何從?》線上圓桌論壇落幕。
本次論壇邀請(qǐng)了多位在CASP 15中取得出色成績的參賽者,由上海智峪生科CEO王晟擔(dān)任主持,江蘇理工學(xué)院生物信息與醫(yī)藥工程研究所教授常珊、密歇根大學(xué)計(jì)算醫(yī)學(xué)和生物信息學(xué)系博士后研究員鄭偉、浙江工業(yè)大學(xué)信息工程學(xué)院教授張貴軍、上海智峪生科技CTO熊鵬參與討論。
在上篇中,幾位嘉賓共同分享了在CASP 15中的參賽經(jīng)歷,以及在AlphaFold2沖擊下,蛋白質(zhì)結(jié)構(gòu)預(yù)測賽道該何去何從。
在下篇中,將聚焦本屆兩大新增賽道:蛋白質(zhì)-小分子復(fù)合體預(yù)測和RNA結(jié)構(gòu)預(yù)測在應(yīng)用層面的潛力,探討當(dāng)下火熱的AIGC技術(shù)在AI生命科學(xué)領(lǐng)域的可能性。
“全球人工智能與機(jī)器人大會(huì)”(GAIR)始于2016年雷峰網(wǎng)與中國計(jì)算機(jī)學(xué)會(huì)(CCF)合作創(chuàng)立的CCF-GAIR大會(huì),旨在打造人工智能浪潮下,連接學(xué)術(shù)界、產(chǎn)業(yè)界、投資界的新平臺(tái),而雷峰網(wǎng)“連接三界”的全新定位也在此大會(huì)上得以確立。
經(jīng)過幾年發(fā)展,GAIR大會(huì)已成為行業(yè)標(biāo)桿,是目前為止粵港澳大灣區(qū)人工智能領(lǐng)域規(guī)模最大、規(guī)格最高、跨界最廣的學(xué)術(shù)、工業(yè)和投資領(lǐng)域盛會(huì)。
GAIR Live作為雷峰網(wǎng)旗下視頻直播品牌,旨在輸出新鮮、深度、原創(chuàng)的大咖訪談與對(duì)話內(nèi)容,打造輻射產(chǎn)、學(xué)、研、投的特色線上平臺(tái)。
以下是主題論壇的現(xiàn)場內(nèi)容,雷峰網(wǎng)《醫(yī)健AI掘金志》做了不改變?cè)獾木庉嫼驼恚?/strong>
王晟:你們對(duì)CASP 15競賽有哪些印象深刻的事情?
常珊:我剛剛看到比賽結(jié)果的時(shí)候很驚訝,雖然知道參加比賽的華人組織很多,但沒有想到前幾個(gè)名次都被華人包攬,這讓我印象深刻。
其次就是AlphaFold2在比賽中的應(yīng)用非常廣泛,往年我們參加多聚體競賽時(shí),通常會(huì)遇到一些困難的target,大家完成度不是特別好。
但這次比賽中感覺大家的完成度都非常好,一些困難的題目今年大家也能夠完整地提交,很大程度提高了大家參與比賽的積極性。
還有我們自己的賽道,ligand。我印象特別深刻的是有一個(gè)target,H1114target,剛出來的時(shí)候我也被嚇了一跳,因?yàn)樗?6個(gè)配體。
我看到這個(gè)題目的時(shí)候其實(shí)是想放棄的,覺得組委會(huì)把這個(gè)題目設(shè)計(jì)的太難了,配體這么復(fù)雜的情況下,原本的程序就沒辦法使用了,只能自己重新寫很多代碼來實(shí)現(xiàn)target的計(jì)算。
但是想到這道題目對(duì)我們來說很難,對(duì)別人來說也很難,就堅(jiān)持把題目做完了,一直到凌晨才提交完畢。
最后的評(píng)估結(jié)果有點(diǎn)遺憾,這道題目雖然有56個(gè)配體,完成的過程非常辛苦,但是和其他只有一個(gè)配體的題目所占的權(quán)重是一樣的,所以在評(píng)分的時(shí)候我們并不占優(yōu)勢。
張貴軍:對(duì)CASP 15來說,我們其實(shí)還算是新手,之前沒有參加過CASP比賽。
首先從CASP的發(fā)展史來看,AI在蛋白質(zhì)結(jié)構(gòu)預(yù)測方面有著非常大的推動(dòng)力,從CASP 12萌芽,CASP 13發(fā)展,CASP 14突破,CASP 15發(fā)展得更加成熟。
近年來在醫(yī)藥領(lǐng)域已經(jīng)有一些企業(yè)取得了比較大的成功,比如在新冠疫情的應(yīng)對(duì)上。國內(nèi)的高校、研究機(jī)構(gòu)、企業(yè)等等,都已經(jīng)開始進(jìn)入這一領(lǐng)域,速度之快、廣度之大都非常令人驚訝。
從技術(shù)的角度來看,我覺得鄭偉博士、楊建益老師會(huì)更有發(fā)言權(quán)。
就我們的感受而言,在這次的比賽中,單體、多聚體、復(fù)合物這三個(gè)賽道目前還是在AlphaFold2的基礎(chǔ)上進(jìn)行,尤其是MSA上的處理。
這些MSA信息的獲取實(shí)際上是這一屆比賽中單體復(fù)合物結(jié)構(gòu)提升的關(guān)鍵環(huán)節(jié),當(dāng)然,這也取決于現(xiàn)在的AI模型的發(fā)展。
AI模型現(xiàn)在發(fā)展的也很快,殘差網(wǎng)絡(luò)、注意力機(jī)制、自然語言模型等等,都很好地理解了序列與結(jié)構(gòu)之間的關(guān)系。
生命系統(tǒng)以及任何一個(gè)生命活動(dòng),都是通過生命的語言進(jìn)行,氨基酸、蛋白質(zhì)、單體復(fù)合物等等類似于人類語言中的字母、單詞、句子,先進(jìn)的AI技術(shù)能夠很好地捕獲到這些信息。
在CASP 12中,一些模型的精度比較低,當(dāng)時(shí)的長度基本上都在100以內(nèi),能量模型、構(gòu)象搜索過程等問題都是我們的障礙。
近年來AI技術(shù)在在蛋白質(zhì)結(jié)構(gòu)預(yù)測方面的應(yīng)用在不斷加快,尤其是MSA、AlphaFold2等等。
今年我們參加的是模型的質(zhì)量評(píng)估賽道,比賽的過程中我們的感受是,在目前的方法上增加一些獨(dú)特的特征,然后通過網(wǎng)絡(luò)模型去學(xué)習(xí)這些特征,就能夠以比較小的算力和代價(jià)取得較大幅度的性能提升。
王晟:對(duì)于來自學(xué)術(shù)界的團(tuán)隊(duì)來說,和工業(yè)界一個(gè)很大的差別就是能夠使用的資源的量,Google、Facebook等企業(yè)可以用幾千塊甚至上萬塊的GPU來訓(xùn)練模型。
但來自學(xué)術(shù)界的參賽團(tuán)隊(duì)掌握的資源遠(yuǎn)遠(yuǎn)不及那些大公司,要在同一個(gè)賽場上和他們進(jìn)行競爭,就要更好地利用小算力、小模型取得大的進(jìn)展,這是一個(gè)非常好的啟發(fā)。
鄭偉:我覺得這次CASP 15很有趣的一個(gè)現(xiàn)象是參賽的隊(duì)伍變得特別多,說明這個(gè)領(lǐng)域開始越來越多地受到學(xué)界和工業(yè)界的關(guān)注。
這次CASP 15蛋白質(zhì)單體結(jié)構(gòu)預(yù)測賽道的參賽團(tuán)隊(duì)和CASP 14基本持平,蛋白質(zhì)-蛋白質(zhì)復(fù)合體結(jié)構(gòu)預(yù)測賽道參賽團(tuán)隊(duì)增加了75%左右,上次只有不到50個(gè)隊(duì)參加,這次有90個(gè)隊(duì)伍左右。有很多隊(duì)伍開始關(guān)注蛋白質(zhì)復(fù)合體預(yù)測這一問題。
這次比賽還開設(shè)了兩個(gè)新的賽道,一個(gè)是RNA結(jié)構(gòu)預(yù)測,另一個(gè)是蛋白質(zhì)-小分子配體復(fù)合物結(jié)構(gòu)預(yù)測。這兩個(gè)賽道雖然是第一次開設(shè),每個(gè)賽道也有超過30個(gè)團(tuán)隊(duì)參加。
今年的CASP競賽整體看起來變得越來越繁榮了,同時(shí)競爭也變得越來越激烈。
另外,我認(rèn)為今年CASP競賽中放出的target的難度以及fold的結(jié)構(gòu)種類,相比往屆有了很大的提高。
比如target H1137,是由9個(gè)不同的蛋白組成的一個(gè)超級(jí)復(fù)雜的復(fù)合體,這樣復(fù)雜的復(fù)合體在CASP競賽中應(yīng)該是首次出現(xiàn)。
在以往的競賽中,受實(shí)驗(yàn)手段限制,這樣的復(fù)雜結(jié)構(gòu)很難解析出來。但在AlphaFold2等深度學(xué)習(xí)的預(yù)測模型幫助下,這次的比賽中能夠完成一些比較復(fù)雜的復(fù)合體。
而RNA和小分子賽道的加入,使CASP比賽能夠越來越全面地展示計(jì)算生物學(xué)的發(fā)展水平。整體來看,CASP比賽變得越來越有趣了。
熊鵬:這次比賽中印象最深的事情是竟然有RNA賽道。RNA結(jié)構(gòu)預(yù)測在以前相對(duì)小眾,關(guān)注度遠(yuǎn)遠(yuǎn)弱于蛋白質(zhì)結(jié)構(gòu)預(yù)測。
RNA結(jié)構(gòu)預(yù)測并不是從今年才開始比賽,早在2010年左右歐洲就組織了“RNA-Puzzles”的比賽,已經(jīng)舉辦了六七屆,十二年的時(shí)間里才積累了39個(gè)target。
對(duì)于RNA來說,每年新解析的RNA只有幾百個(gè),其中大部分都是核糖體RNA或是附庸于蛋白質(zhì)的小RNA片段,不適合做一個(gè)獨(dú)立的fold,因此在CASP這種集中的競賽上,可以作為題目來呈現(xiàn)的新增RNA非常少。
競賽的組織者也非常有誠意,一共收集了12個(gè)target,這是非常不容易的,我們直到比賽之前都不確定會(huì)不會(huì)有RNA題目,看到組織方給出的12個(gè)題目非常欣慰,RNA結(jié)構(gòu)預(yù)測的問題會(huì)通過這個(gè)平臺(tái)被越來越多的人知道,吸引越來越多的人參與進(jìn)來,這對(duì)RNA學(xué)科的發(fā)展也非常有幫助。
王晟:今年,你們?cè)诖筚惿隙既〉昧吮容^理想的成績,能否總結(jié)一下在各個(gè)參賽項(xiàng)目上的優(yōu)劣得失?
常珊:我們今年參加了兩個(gè)賽道,一個(gè)是多聚體的賽道;另一個(gè)是ligand的賽道。這兩個(gè)賽道一起參加確實(shí)特別吃力,往年比賽的時(shí)候我只參加多聚體就已經(jīng)很吃力了,今年又增加了一個(gè)賽道,覺得更吃力。
在比賽成果上,我們?cè)趌igand賽道的成績比較好,是第一名。當(dāng)時(shí)我們對(duì)每個(gè)target都進(jìn)行了預(yù)測,每個(gè)target的配體數(shù)量不同,我們幾乎都能夠準(zhǔn)確預(yù)測到結(jié)合部位,即RMSD小于5埃。并且,有很多target我們團(tuán)隊(duì)預(yù)測的準(zhǔn)確度都達(dá)到RMSD小于2埃。
有一些target特別難,我們只有部分ligand預(yù)測的比較準(zhǔn),但每一個(gè)target都能取的比較好的結(jié)果。這是我比較欣慰的地方。
在賽后的總結(jié)中,我發(fā)現(xiàn)有很多做得不夠好的地方,比如比賽過程中在時(shí)間分配上發(fā)生了很大的失誤,我們團(tuán)隊(duì)人比較少,只有兩個(gè)老師和一個(gè)碩士生,三個(gè)人同時(shí)參加兩個(gè)賽道很難兼顧。
按照組委會(huì)的評(píng)分方式來看,比較容易的target一定要做的精度特別好才能拿到分?jǐn)?shù)。
很遺憾,為了完成比較難的target,這部分容易的target我們認(rèn)為結(jié)果是對(duì)的就提交了,沒有去精雕細(xì)琢,導(dǎo)致沒有拿到分?jǐn)?shù),這也是我們最終排名比較落后的原因。
參加比賽的人數(shù)少既是我們的缺點(diǎn),同時(shí)也是優(yōu)點(diǎn),我們的溝通效率會(huì)更高,在討論問題的時(shí)候三個(gè)人碰個(gè)頭就能定下來要怎么做。
下次再參加比賽,我覺得要么把任務(wù)分解一下,多讓幾個(gè)學(xué)生參與進(jìn)來,要么就選擇一個(gè)更側(cè)重的賽道參加,避免精力不足。
王晟:在這種評(píng)分體制下,簡單題目上大家的差距不會(huì)太大,但是難題一旦搞定,一道題的差距差不多抵得上5到10個(gè)簡單題目。
所以我的打法是簡單題目不要丟太多分,和大家差不多就行,重點(diǎn)去搞定難題。
張貴軍:剛剛常珊老師提到的問題我們組也同樣存在,今年是我們課題組第一次參加CASP比賽,還是新手,為了準(zhǔn)備CASP 15提前半年在CAMEO上做了很多測試,我們參賽成員包括幾個(gè)博士、碩士研究生。
通過本屆參賽經(jīng)驗(yàn),從下一屆開始我們需要更好的組織。
在CASP 15競賽中,我們參加的賽道比較多,除了RNA和配體之外,其他的賽道基本上都參加了。
準(zhǔn)確性評(píng)估的EMA實(shí)際上也是一個(gè)新的賽道,只是不像RNA、配體一樣顯著,這個(gè)賽道的評(píng)測主要是用三個(gè)詞表,一個(gè)是QScore,一個(gè)是Score,一個(gè)是pLDDT。
QScore來自于Complex,也就是復(fù)合物領(lǐng)域中的一個(gè)評(píng)測指標(biāo),側(cè)重于衡量interface的docking的分?jǐn)?shù)。而Score主要衡量整個(gè)蛋白質(zhì)復(fù)合物結(jié)構(gòu)的精度。
pLDDT側(cè)重的是殘基級(jí)的精度。在CASP15中,我們組在pLDDT指標(biāo)上領(lǐng)先幅度很大,這主要是得益于新的超快形狀設(shè)別(USA)特征,采用了CASP 14以來的最新網(wǎng)絡(luò),自己也生成了一批訓(xùn)練數(shù)據(jù),從而捕獲殘基集的誤差。
殘基級(jí)誤差在藥物研發(fā)中非常重要,因?yàn)樗梢杂脕韺?shí)現(xiàn)refinement過程,從而獲得高精度的結(jié)構(gòu)模型。
在Score方面,我們的指標(biāo)沒有排在前面,這也是剛剛提到的問題,算力。在CASP15競賽期間,信息工程學(xué)院、學(xué)科給了我們很多算力支持,學(xué)院計(jì)算中心三分之二的算力都是我們?cè)谑褂谩?/p>
即使是這樣,我們完整的AI模型也是在CASP 15結(jié)束之后才真正訓(xùn)練完成。我們現(xiàn)在也在積極復(fù)盤,查漏補(bǔ)缺。
pLDDT,包括 QScore我們也進(jìn)行了分析,如果要提升精度,就要考慮接口處殘基的數(shù)量、殘基的互作,結(jié)合pLDDT指標(biāo),以及我們單序列平均pLDDT,復(fù)合物平均pLDDT這些特征都要考慮。
在單域、多域和復(fù)合物上面,我們的表現(xiàn)一般,在這里也恭喜鄭偉博士和楊建益老師,做的非常棒。
一個(gè)最主要的原因就是AlphaFold2,MSA非常關(guān)鍵,而且需要大量的算力來做預(yù)訓(xùn)練模型,我們沒有關(guān)注這方面。我們考慮的是設(shè)計(jì)蛋白質(zhì)結(jié)構(gòu)模式的辨識(shí)方法,通過盲測去驗(yàn)證想法的性能,確認(rèn)它到是不是源于現(xiàn)有的PDB數(shù)據(jù)庫的設(shè)想。
這也是一個(gè)非常久遠(yuǎn)的命題,但我認(rèn)為隨著共進(jìn)化技術(shù)的發(fā)展,模板建模方法還會(huì)峰回路轉(zhuǎn),受到更多關(guān)注。考慮到現(xiàn)有算力、算法設(shè)想,我們對(duì)MSA沒有做任何改動(dòng)。從CASP 15來看,這兩點(diǎn)非常重要,也是我們未來努力的方向。
王晟:張貴軍老師提到一個(gè)非常重要的點(diǎn):MSA的quality。
我在2020年CASP 14的比賽上的一次國際報(bào)告中,介紹當(dāng)年我們TFold方法的Pros and cons時(shí),我也講了和張貴軍老師類似的觀點(diǎn),就是MSA對(duì)于整個(gè)大分子,包括蛋白和RNA等的結(jié)構(gòu)預(yù)測的重要性非常關(guān)鍵。
我們當(dāng)時(shí)還做了很多的實(shí)驗(yàn),用一個(gè)非常淺的MSA或是用包含了更多進(jìn)化的序列跑相同的算法,其質(zhì)量是完全不同的。
不僅如此,如果用一個(gè)相同的算法搜相同的數(shù)據(jù)庫,但是使用不同的參數(shù)、不同的迭代次數(shù)、不同的e-value、不同的Z-score搜索MSA,它的質(zhì)量都會(huì)很不一樣。
這是一個(gè)非常有意思的問題,我們還要對(duì)它進(jìn)行本質(zhì)上的探索。
鄭偉:剛才王晟師兄和張貴軍老師都提到了MSA的重要性。就我們課題組而言,在MSA領(lǐng)域也做了幾年的工作,總結(jié)了一些數(shù)據(jù)和算法,也開發(fā)了一些工具專門做MSA。
比如我們的DeepMSA算法以及最新的DeepMSA 2,這些算法采用了常規(guī)的基因組和宏基因組,用不同的工具來組合構(gòu)建MSA。
我們認(rèn)為MSA確實(shí)很重要,它不僅對(duì)結(jié)構(gòu)預(yù)測這個(gè)問題很重要,放眼整個(gè)生物信息學(xué)領(lǐng)域,很多基礎(chǔ)的預(yù)測問題,比如早些年的功能預(yù)測、位點(diǎn)預(yù)測等,很多的時(shí)候都要依賴PSSM,而PSSM則依賴于MSA的效果。
我個(gè)人認(rèn)為MSA是整個(gè)生物信息學(xué)的基礎(chǔ),只要MSA做好了,無論是對(duì)結(jié)構(gòu)預(yù)測,還是對(duì)生物信息學(xué)里的其他基礎(chǔ)問題,都有很大幫助。
對(duì)于單體預(yù)測上一些較困難的蛋白,其同源序列的數(shù)目不夠多導(dǎo)致了預(yù)測難度比較大。如果給 AlphaFold2兩個(gè)target,其中一個(gè)MSA序列較少,另一個(gè)MSA序列較多,一般來說MSA序列較少的target結(jié)果會(huì)更差,MSA的質(zhì)量很大程度上會(huì)影響target的難度。
今年CASP 15的assessor還專門提供了一張清單,上面整理了一些Top group成功的標(biāo)簽,其中MSA在Top5的group中都出現(xiàn)了,我覺得在未來MSA也會(huì)越來越引起大家的重視。
今年我們課題組算是第一次參加蛋白質(zhì)復(fù)合體的賽道,得益于此前在單體上的算法積累和MSA的積累,雖然是第一次參加但是也取得了比較理想的成績,MSA可以說是我們今年在比賽中獲得成功的重要因素之一。
CASP比賽對(duì)我而不僅僅是一個(gè)比賽,同時(shí)也是一個(gè)比較好的學(xué)習(xí)機(jī)會(huì)。因?yàn)镃ASP比賽的時(shí)間比較集中,有三四個(gè)月的時(shí)間可以全身心地投入到比賽中。
平時(shí)做蛋白質(zhì)預(yù)測、做的都是針對(duì)general蛋白的算法,可能關(guān)注不到某個(gè)蛋白的特性或生物學(xué)背景,但是在比賽中每做一個(gè) target都會(huì)去研究這些,在比賽中能學(xué)到很多不同target蛋白生物學(xué)方面的新知識(shí)。
剛才很多老師提到課題組參賽的人數(shù)比較少,我今年的體會(huì)也比較深,因?yàn)閷?shí)驗(yàn)室調(diào)整,我們今年不是以實(shí)驗(yàn)室整體去參賽,而是以個(gè)人的名義代表實(shí)驗(yàn)室參賽。
整個(gè)CASP 15期間,無論是前期的算法開發(fā),還是比賽期間服務(wù)器、算法運(yùn)行,都是我一個(gè)人在負(fù)責(zé),服務(wù)器出現(xiàn)各種問題都需要我去和管理員溝通。
我在比賽期間睡覺時(shí)間非常少,一天最多只有六個(gè)小時(shí)的睡眠,每工作四小時(shí)就睡兩小時(shí)這樣輪轉(zhuǎn)。如果人力有限的話,一個(gè)人參加多個(gè)賽道是非常耗費(fèi)時(shí)間和精力的事情,對(duì)體力的要求也比較高。
另一個(gè)體會(huì)比較深的是,大家一直在提的算力局限性,學(xué)界的算力肯定不比工業(yè)界,這對(duì)比賽的影響還是很大的。
我們今年顯卡個(gè)數(shù)也是比較有限,只有二三十張,所以參賽之前的很多想法,由于算力的局限都沒有來得及去實(shí)現(xiàn),比賽過程中很多工作都是一邊摸索著一邊做的,這是很大的遺憾。
將來如果有機(jī)會(huì)得到更多的算力,我想不僅是我,還有各位老師也會(huì)去嘗試更多優(yōu)秀的想法。
王晟:關(guān)于算力的問題,我們也在公司內(nèi)部進(jìn)行過一些探索的,考慮是不是所有的target都要堆算力去做,如果遇到某些搜不出同源模板的,或者根本就不存在相似fold的結(jié)構(gòu),這個(gè)結(jié)構(gòu)或許是蛋白,或許是RNA,是不是堆更多的算力,或者訓(xùn)練一個(gè)更復(fù)雜的AI模型就能搞定?或者有沒有別的方法來搞定這些target?
熊鵬:這次RNA比賽一共12個(gè)題目,分成三組,一組是天然的RNA序列,一組是人工設(shè)計(jì)的RNA序列,一組是蛋白質(zhì)和RNA的復(fù)合物。我們最大的收獲來自于人工設(shè)計(jì)的那一組RNA,一共有4個(gè)題目。
首先,相比其他的小組,我們?cè)谶@四個(gè)題目上積累了很大的優(yōu)勢,使用我們自己的方法來預(yù)測這種人工設(shè)計(jì)的RNA,精度會(huì)遠(yuǎn)遠(yuǎn)高于其他的組。
以前的RNA設(shè)計(jì)并沒有進(jìn)入公眾的視野,大家聽得比較多的是蛋白質(zhì)設(shè)計(jì),比如David Baker組,他們開發(fā)了Rosetta工具,得到了很多蛋白質(zhì)設(shè)計(jì)的成功案例。這次比賽中,來自斯坦福的實(shí)驗(yàn)室通過自己的方法人工設(shè)計(jì)出了一些RNA。
我們也是通過這次比賽來解開這些題目,研究這些RNA的來源,怎么被設(shè)計(jì)出來,從而摸索出了一套R(shí)NA設(shè)計(jì)的策略。對(duì)我自己來說打開了一扇新的大門,學(xué)到了很多新的東西。
比較遺憾的是第三組題目,蛋白質(zhì)和RNA的復(fù)合物。這個(gè)方向一直都是我過去非常感興趣的方向,我也一直想將蛋白質(zhì)和RNA這兩個(gè)領(lǐng)域統(tǒng)一起來,做統(tǒng)一的結(jié)構(gòu)預(yù)測,以及統(tǒng)一復(fù)合物設(shè)計(jì)。
但很遺憾的是,這項(xiàng)工作的工作量比較大,構(gòu)想也太過龐大,目前為止還沒有完成。
我們?cè)敬蛩阍诒荣愔醒杆匍_發(fā)出一個(gè)簡易的版本,去實(shí)現(xiàn)那兩個(gè)target的預(yù)測,但是發(fā)現(xiàn)沒那么容易,匆忙的一兩個(gè)、一兩周或者一個(gè)月的時(shí)間,確實(shí)不足以開發(fā)出一套可行的程序,最終那兩個(gè)target做得也比較差。
這個(gè)問題也并不是我們一個(gè)組的問題,對(duì)所有的組來說,蛋白質(zhì)和RNA的復(fù)合物預(yù)測的都不是很好,這也是整個(gè)領(lǐng)域目前面臨的難題。
但這個(gè)方向特別重要,因?yàn)樯矬w內(nèi)很多功能的RNA分子或者蛋白質(zhì)分子都是通過蛋白和核酸的相互作用來實(shí)現(xiàn)功能的。
比如基因編輯或者基因調(diào)控,涉及到的核心問題就是RNA和蛋白質(zhì)的相互作用,這些問題目前都還沒有解決。
未來還需要各位做蛋白質(zhì)研究和做RNA研究的人一起協(xié)作,共同解決這些問題。
另外,前面幾位老師都提到MSA,它對(duì)于蛋白質(zhì)的結(jié)構(gòu)預(yù)測至關(guān)重要,也是我們實(shí)現(xiàn)從過去的基于同源建模的方法到基于evolutionary coupling共進(jìn)化的方法這一突破的核心角色。
MSA在RNA的結(jié)構(gòu)預(yù)測中也受到了廣泛的關(guān)注,但它究竟能起多大作用目前在學(xué)術(shù)圈內(nèi)還有著較大的爭議。
有人認(rèn)為MSA對(duì)RNA結(jié)構(gòu)預(yù)測的影響像在蛋白質(zhì)結(jié)構(gòu)預(yù)測中一樣大,我們現(xiàn)在做得不好是因?yàn)镸SA構(gòu)建的還不夠好,只要我們構(gòu)建出更加優(yōu)質(zhì)的MSA,就能夠提供更多的contact information或是orientation的information。
另外一派認(rèn)為在RNA結(jié)構(gòu)預(yù)測中的的MSA,可能只對(duì)二級(jí)結(jié)構(gòu)預(yù)測或base pair的預(yù)測有幫助。對(duì)于其他的相互作用,MSA提供不了任何信息。
現(xiàn)在學(xué)術(shù)圈還沒有達(dá)成共識(shí),不同人的看法也不一樣,大家在各自的想法上進(jìn)行了嘗試,目前還沒有定論。
RNA結(jié)構(gòu)預(yù)測問題跟蛋白質(zhì)還是不一樣的,很多未知的東西還需要大家以后去解決。
王晟:CASP15比賽新增了兩個(gè)重要賽道,蛋白質(zhì)-小分子的復(fù)合物預(yù)測以及RNA結(jié)構(gòu)預(yù)測。在RNA結(jié)構(gòu)預(yù)測方面,哪些方向能因此受益而加速突破?RNA結(jié)構(gòu)預(yù)測的研究能夠怎樣推動(dòng)RNA相關(guān)療法、合成生物學(xué)的發(fā)展?類似AlphaFold2引爆蛋白質(zhì)單體結(jié)構(gòu)預(yù)測的革命,能否燃燒到RNA領(lǐng)域?
常珊:雖然我沒有參加,但是我原來在密蘇里大學(xué)時(shí),我的博士后導(dǎo)師鄒曉琴和陳世杰老師是夫妻,他們兩人的學(xué)生之間經(jīng)常交流,所以我也了解了一些相關(guān)技術(shù)。
我們?cè)诮K理工學(xué)院生物信息與醫(yī)藥工程研究所的團(tuán)隊(duì)里,剛好有一個(gè)成員是陳世杰老師的博士后,他的博士、博士后期間都是在陳老師的實(shí)驗(yàn)室,加入我們團(tuán)隊(duì)后主要負(fù)責(zé)RNA的結(jié)構(gòu)預(yù)測。
他是物理學(xué)的背景,跟熊博士是一樣的,所以他采用的也是物理模型--先構(gòu)建二級(jí)結(jié)構(gòu),再考慮怎么把三級(jí)結(jié)構(gòu)預(yù)測得更準(zhǔn)確一些。
我認(rèn)為AI在RNA結(jié)構(gòu)領(lǐng)域的能力,還沒有比肩AlphaFold2,在這個(gè)領(lǐng)域內(nèi),物理模型還是一個(gè)主流模型。
從這次比賽的情況來看,RNA結(jié)構(gòu)預(yù)測的精度和蛋白質(zhì)結(jié)構(gòu)預(yù)測的精度相比,差距還比較大。為什么?
首先,RNA結(jié)構(gòu)預(yù)測精度太低,拉低RNA-ligand預(yù)測結(jié)果。
我們參加ligand的賽道時(shí),有幾個(gè)受體不是蛋白質(zhì)而是RNA結(jié)構(gòu),我們當(dāng)時(shí)并不預(yù)測RNA的結(jié)構(gòu),就用組委會(huì)公開的其他小組預(yù)測的結(jié)構(gòu)做了ligand相互作用的預(yù)測。
從最終看公布的結(jié)果來看,RNA的結(jié)構(gòu)預(yù)測偏差實(shí)在太大了,這也導(dǎo)致了我們ligand預(yù)測的失敗。
我們是受到了RNA結(jié)構(gòu)預(yù)測不準(zhǔn)確的牽連,受體都不準(zhǔn)確的話,配體怎么可能會(huì)準(zhǔn)確?
我認(rèn)為,未來做RNA結(jié)構(gòu)預(yù)測的人要和做蛋白質(zhì)結(jié)構(gòu)預(yù)測的人密切合作,才能把ligand做得更好。
不論是蛋白質(zhì)還是RNA的結(jié)構(gòu)預(yù)測做的不好,都會(huì)影響ligand相互作用的預(yù)測。
其次,我們也做了蛋白質(zhì)和RNA相互作用的預(yù)測,在比賽結(jié)果中,其中一個(gè)target我們組排在前面,我非常意外,因?yàn)楫?dāng)時(shí)我們自己沒有做RNA結(jié)構(gòu)預(yù)測,直接將其他組的RNA結(jié)構(gòu)預(yù)測的結(jié)果和蛋白做了相互作用。
雖然排名靠前,但誤差也20埃左右,屬于五十步笑百步。只是大家在這一項(xiàng)上的誤差都非常大,我們錯(cuò)的稍微少一點(diǎn)點(diǎn),就被排到了前面。
RNA結(jié)構(gòu)預(yù)測的領(lǐng)域迫切地需要引入其他技術(shù),否則其精度暫時(shí)會(huì)落后于蛋白質(zhì)結(jié)構(gòu)預(yù)測。
王晟:CASP15之所以推出了RNA結(jié)構(gòu)預(yù)測賽道,也就是借比賽,進(jìn)一步提高大家對(duì)RNA結(jié)構(gòu)預(yù)測的關(guān)注,提高RNA預(yù)測精度,推動(dòng)整個(gè)領(lǐng)域的落地,即RNA療法以及合成生物學(xué)。
常珊教授講的這兩點(diǎn)非常有意思。
第一點(diǎn)是RNA和小分子。目前常見的RNA藥物,小RNA、寡RNA、RNA疫苗等等,基本都是利用其線性作用的特性,而不是利用其空間結(jié)構(gòu)。
但真實(shí)場景下的RNA,都是通過其復(fù)雜、動(dòng)態(tài)的結(jié)構(gòu)發(fā)揮重要功能的,如果我們能夠準(zhǔn)確地捕獲它的復(fù)雜動(dòng)態(tài)結(jié)構(gòu),理論上就可以像蛋白質(zhì)-小分子藥物一樣,設(shè)計(jì)出專門針對(duì)RNA小分子的藥物,從而target巨頭調(diào)控作用的RNA,不論是在疾病治療還是其他領(lǐng)域,都有著非常重要的作用。
第二點(diǎn),RNA-蛋白質(zhì)的相互作用預(yù)測,對(duì)于合成生物學(xué)至關(guān)重要。
比如如何構(gòu)造調(diào)控網(wǎng)絡(luò)、如何理解RNA和蛋白之間的作用機(jī)制、能否設(shè)計(jì)更好的結(jié)構(gòu),讓蛋白質(zhì)表達(dá)得更多、如何調(diào)控transfer factor,設(shè)計(jì)出能夠與RNA特異序列結(jié)合的蛋白質(zhì)(RNA-binding proteins),以及構(gòu)建出優(yōu)越的底盤細(xì)胞(底盤細(xì)胞的選擇和優(yōu)化,是合成生物學(xué)鏈條上的核心步驟)。
張貴軍:剛才熊鵬博士的發(fā)言我非常認(rèn)同。
雖然蛋白質(zhì)結(jié)構(gòu)預(yù)測目前已經(jīng)達(dá)到比較可觀的精度,但我們還要考慮其動(dòng)態(tài)性。
在生物體內(nèi),蛋白并非靜止?fàn)顟B(tài),而是時(shí)刻通過PPI相互作用,通過一致的原動(dòng)力:電磁力導(dǎo)致最終形態(tài)發(fā)生變化,最終實(shí)現(xiàn)信號(hào)傳導(dǎo)。
多態(tài)性是RNA和蛋白質(zhì)同樣面臨的問題,蛋白在多態(tài)性方面的研究可能有助于提高RNA結(jié)構(gòu)預(yù)測精度。
此外,目前RNA的數(shù)據(jù)不及蛋白質(zhì)的數(shù)據(jù)全面。在蛋白質(zhì)結(jié)構(gòu)預(yù)測的數(shù)據(jù)庫中,如今已經(jīng)存在大量結(jié)構(gòu),且許多結(jié)構(gòu)已經(jīng)被證實(shí)是完備的。
在這種情況下,通過物理化學(xué)建模方法超越AI是有可能的。將來隨著數(shù)據(jù)的增加或是新技術(shù)的突破,RNA結(jié)構(gòu)預(yù)測也將會(huì)有所提升。
如同蛋白質(zhì)結(jié)構(gòu)預(yù)測的發(fā)展歷程一樣,在最初的CASP競賽中,大家也曾質(zhì)疑過是否能通過計(jì)算機(jī)來模擬蛋白質(zhì)結(jié)構(gòu),這一點(diǎn)近年來已經(jīng)得到證實(shí),我相信未來RNA也可以達(dá)到這個(gè)水平。
我個(gè)人感覺RNA和蛋白質(zhì)的相互作用非常重要,長期以來大家很關(guān)注基因組研究,一直被忽略的RNA為什么突然受到這么多關(guān)注?之前在技術(shù)上當(dāng)然有一定難度。
然而,從藥物研發(fā)的角度來講,RNA起到的是橋梁的作用,同時(shí)又具有多態(tài)性,目前的藥物靶標(biāo)大部分還是蛋白靶標(biāo),未來RNA藥物會(huì)是一片藍(lán)海,有著廣闊的落地場景。
鄭偉:我沒有參加RNA的賽道,對(duì)RNA研究也不是特別多,在這方面肯定沒有熊鵬師兄這么有權(quán)威性,我談一些簡單的看法。
張貴軍老師剛才談到的蛋白質(zhì)結(jié)構(gòu)或者RNA結(jié)構(gòu)所具備的多態(tài)性,或者我們可以叫變構(gòu),在CASP 15之前,組委會(huì)準(zhǔn)備設(shè)置一個(gè)蛋白質(zhì)變構(gòu)賽道,但是比賽中并沒有出現(xiàn)target,相當(dāng)于這個(gè)賽道被取消了。
在CASP 15結(jié)束后,組委會(huì)成立了一個(gè)單獨(dú)的蛋白質(zhì)變構(gòu)討論組,對(duì)這個(gè)方向的討論更多了,不知明年是否會(huì)單獨(dú)設(shè)置相關(guān)賽道。
這也意味著,無論是蛋白質(zhì)變構(gòu)還是更遙遠(yuǎn)RNA變構(gòu),都是未來潛在的研究方向。
我記得貴軍老師和西湖大學(xué)李子清老師,最近發(fā)了一篇蛋白質(zhì)變構(gòu)文章(Multiple conformational states assembly of multidomain proteins using evolutionary algorithm based on structural analogues and sequential homologues)。
總體而言,變構(gòu)方面的研究太少,希望CASP16之后會(huì)有很大的變化。
此外,張貴軍老師提到的RNA對(duì)制藥領(lǐng)域或相關(guān)療法的影響,我個(gè)人認(rèn)為都非常對(duì)。以往的藥物靶點(diǎn)大部分都是蛋白質(zhì)靶點(diǎn),但實(shí)際上RNA會(huì)成為一個(gè)比較好的潛在靶點(diǎn),通過阻斷RNA表達(dá)或阻斷RNA與蛋白質(zhì)形成復(fù)合物,從而阻斷蛋白質(zhì)形成功能,其療效或許會(huì)更好。
未來研究RNA成為小分子靶點(diǎn),在醫(yī)藥領(lǐng)域的落地也許會(huì)有比較好的發(fā)展。
剛才王晟博士提到一個(gè)問題,AlphaFold2預(yù)測蛋白精度比較高,RNA領(lǐng)域是否也會(huì)出現(xiàn)類似的機(jī)器學(xué)習(xí)算法,在未來引發(fā)RNA結(jié)構(gòu)預(yù)測的革命?
我認(rèn)為短時(shí)間內(nèi)可能不太容易出現(xiàn)一個(gè)純深度學(xué)習(xí)、全自動(dòng)、不依賴任何人工參與,同時(shí)能夠達(dá)到AlphaFold2相同精度的算法。
AlphaFold2能夠成為一個(gè)很成功的深度學(xué)習(xí)框架,其中一個(gè)關(guān)鍵因素是具備大量的實(shí)驗(yàn)結(jié)構(gòu)支撐其深度學(xué)習(xí)的訓(xùn)練。
AlphaFold2使用的PDB數(shù)據(jù)庫已經(jīng)建立了50多年,其中積累了數(shù)十萬個(gè)實(shí)驗(yàn)解析的蛋白質(zhì)結(jié)構(gòu),這樣大規(guī)模的蛋白質(zhì)數(shù)據(jù)能夠?yàn)樯疃葘W(xué)習(xí)提供比較好的訓(xùn)練基礎(chǔ)。
但PDB數(shù)據(jù)庫中已經(jīng)解析出來的非冗余的RNA結(jié)構(gòu)只有數(shù)千規(guī)模,在沒有大規(guī)模數(shù)據(jù)支撐的前提下,想要開發(fā)一個(gè)全依賴于深度學(xué)習(xí)框架的RNA結(jié)構(gòu)預(yù)測算法,短時(shí)間內(nèi)很難達(dá)到AlphaFold2的水平。
當(dāng)然,這并不影響大家對(duì)深度學(xué)習(xí)框架的探索,比如一些課題組開發(fā)了基于距離約束的算法,還有課題組在嘗試RNA的端到端的學(xué)習(xí)。
王晟:我補(bǔ)充一點(diǎn)。鄭偉博士剛才講到的幾點(diǎn),都是參考AlphaFold2框架做RNA結(jié)構(gòu)預(yù)測。
智峪生科這次有一支參賽隊(duì)伍就是采用了AlphaFold2的框架來做RNA三維結(jié)構(gòu)的預(yù)測,叫做AIchemy-RNA。
從結(jié)果來看,雖然取得了AI方法中的第一名,但和物理的方法相比確實(shí)還是要差一些,原因正如剛剛鄭博士所講,主要在于數(shù)據(jù)量的問題,這是一個(gè)很大的約束條件。
其次,之前熊博士也講到,對(duì)RNA的結(jié)構(gòu)預(yù)測來說,MSA的影響是否像在蛋白質(zhì)結(jié)構(gòu)預(yù)測中一樣強(qiáng)還是未知數(shù)。
第三,AlphaFold2的成功不僅僅在于其端對(duì)端的架構(gòu),而是將所有人類已知的序列信息利用起來了,使用了類似半監(jiān)督學(xué)習(xí)的框架。
在這次比賽中,我們也把RNA的序列以及通過實(shí)驗(yàn)測得的二級(jí)結(jié)構(gòu)等信息加入到模型之中。
從結(jié)果來看,雖然比不上物理的方法,但是在這次采取AI方法的參賽隊(duì)伍中表現(xiàn)還是非常不錯(cuò)的。我們做的更好的是熊鵬老師的物理方法。
未來我們非常期待把AI的方法和物理的方法結(jié)合起來,取得更好的成績。
熊鵬:首先說明一點(diǎn),雖然我們這一組的方法在CASP 15的RNA組中獲得了第一名,但是它的絕對(duì)精度并不高。
比如前面我們提到的兩個(gè)RNA和蛋白質(zhì)的復(fù)合物的結(jié)構(gòu),我們的誤差在20埃左右,拓?fù)涠际清e(cuò)的。
我們預(yù)測得比較好的target,比如人工設(shè)計(jì)的RNA,或者是幾個(gè)天然的risen,精度在5埃、6埃左右,相對(duì)于蛋白質(zhì)的結(jié)構(gòu)預(yù)測精度還有很大的一段距離,而距離應(yīng)用就更遠(yuǎn)了。
如果要實(shí)現(xiàn)RNA結(jié)構(gòu)計(jì)算相關(guān)的應(yīng)用,精度最好控制在兩三埃左右,不論是對(duì)小分子設(shè)計(jì)還是對(duì)RNA的功能設(shè)計(jì),都會(huì)有比較大的幫助。
所以,現(xiàn)階段的水平離具體的應(yīng)用依然有一定差距。
如果要從根本上去解決RNA預(yù)測精度的問題,還是需要神經(jīng)網(wǎng)絡(luò)直接學(xué)習(xí)RNA折疊的驅(qū)動(dòng)力,也就是使用神經(jīng)網(wǎng)絡(luò)方法去訓(xùn)練一個(gè)精度更高的立場,但我自己并沒有做太多的嘗試,各位做神經(jīng)網(wǎng)絡(luò)的專家可以往這個(gè)方面嘗試一下。
如果RNA的精度能夠達(dá)到跟蛋白質(zhì)預(yù)測差不多的水平,它應(yīng)用方向到底哪里?在生物醫(yī)藥方面的應(yīng)用主要在三個(gè)領(lǐng)域。
首先是大家關(guān)心最多的就是mRNA的優(yōu)化或設(shè)計(jì),這涉及到蛋白質(zhì)的密碼子優(yōu)化的問題,以及mRNA穩(wěn)定性的問題,這與RNA的結(jié)構(gòu)在溶液中的狀態(tài)也有很大關(guān)系。
當(dāng)然,這個(gè)問題通過非結(jié)構(gòu)的方法也許能夠獲得一些信息,但是有結(jié)構(gòu)之后,能夠?qū)NA的折疊判斷更加準(zhǔn)確,這對(duì)于mRNA的優(yōu)化將會(huì)有非常大幫助。
第二個(gè)方向是針對(duì)RNA的target,或是針對(duì)RNA的小分子藥物設(shè)計(jì)。在做藥物的過程中,部分靶點(diǎn)很難找到小分子結(jié)合口袋,即不可成藥靶點(diǎn)。
對(duì)于這些靶點(diǎn)來說,如果不直接抑制其蛋白質(zhì),而是去抑制控制蛋白質(zhì)表達(dá)的Non-coding區(qū),則為藥物開發(fā)提供了新的思路。
這個(gè)方向依賴于兩件事,第一是控制蛋白質(zhì)基因表達(dá),預(yù)測其準(zhǔn)確的三級(jí)結(jié)構(gòu),第二是解決RNA和小分子的相互作用問題,針對(duì)特定的Non-coding區(qū)設(shè)計(jì)特定的小分子。這個(gè)方向國內(nèi)有很多老師都在做嘗試。
第三個(gè)方向是以RNA本身作為藥物進(jìn)入人體內(nèi)發(fā)揮功能。目前的置放藥物主要還是通過基因匹配抑制相關(guān)的基因表達(dá)?;蚴荝NA本身作為功能分子實(shí)現(xiàn)基因調(diào)控、基因剪切等。比如設(shè)計(jì)特定的RNA切割特定位點(diǎn),作為基因治療的藥物使用。
據(jù)我了解,有些組在嘗試開發(fā)純RNA的分子做基因編輯。目前基因編輯主要還是通過CAS蛋白體系,即蛋白質(zhì)復(fù)合物+guide RNA,編輯特定的序列。如果我們直接設(shè)計(jì)一個(gè)純RNA的分子,識(shí)別特定的位點(diǎn),執(zhí)行精編輯的功能,在理論上也是可行的。
總結(jié)一下這三個(gè)方向,第一是通過計(jì)算的方法優(yōu)化mRNA的蛋白表達(dá),優(yōu)化其穩(wěn)定性;第二是針對(duì)RNA target的藥物設(shè)計(jì);第三是將RNA本身作為新型藥物。
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))《醫(yī)健AI掘金志》將于近日推出《GAIR Live | CASP 15冠軍大論道:結(jié)構(gòu)預(yù)測的下一個(gè)里程碑,將在何處?|(下篇)》,聚焦本屆兩大新增賽道:蛋白質(zhì)-小分子復(fù)合體預(yù)測和RNA結(jié)構(gòu)預(yù)測在應(yīng)用層面的潛力,探討當(dāng)下火熱的AIGC技術(shù)在AI生命科學(xué)領(lǐng)域的可能性,歡迎各位讀者朋友關(guān)注。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。