0
在CASP比賽創(chuàng)建者John Moult教授看來(lái),這一比賽從來(lái)不是閉門(mén)造車(chē),或是學(xué)術(shù)界的圈地自嗨。
2018年,在第13屆CASP比賽中,一個(gè)頂著谷歌子公司帽子的參賽選手亮相,其AlphaFold系統(tǒng)以最高的預(yù)測(cè)準(zhǔn)確率擊敗其他參賽隊(duì)伍。
2020年,在第14屆CASP比賽中,這一公司再次卷入競(jìng)技場(chǎng),憑借AlphaFold二代系統(tǒng)以絕對(duì)的優(yōu)勢(shì)大獲全勝,并在次年將技術(shù)成果全部發(fā)表于《Nature》和《Science》等頂級(jí)期刊。
這便是如今的AI殿堂級(jí)公司--DeepMind。
從那以后,人們首次將“人工智能”和“蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)”兩個(gè)毫不相關(guān)的領(lǐng)域聯(lián)系在一起。而DeepMind背后的谷歌,也憑借CASP大賽織造了一張夢(mèng)寐以求的醫(yī)療商業(yè)藍(lán)圖。
從業(yè)內(nèi)人士的角度,這或許是意料之中。正如John Moult教授創(chuàng)立CASP比賽的初心,便是希望以此推動(dòng)計(jì)算生物學(xué)研究,加速理解細(xì)胞構(gòu)建原理和推進(jìn)藥物發(fā)現(xiàn),最終惠及全人類(lèi)。
顯然,DeepMind已經(jīng)蹚出了一條可參照的發(fā)展路徑。
不久前,CASP 15落下帷幕,盡管本屆比賽中未見(jiàn)DeepMind身影,但諸多華人團(tuán)隊(duì)參賽熱情高漲,在蛋白質(zhì)單體/多體結(jié)構(gòu)預(yù)測(cè)、蛋白質(zhì)-蛋白質(zhì)復(fù)合體結(jié)構(gòu)預(yù)測(cè)、RNA結(jié)構(gòu)預(yù)測(cè)、蛋白質(zhì)-小分子配體復(fù)合物結(jié)構(gòu)預(yù)測(cè)等多賽道上奪得桂冠。
不少參賽選手直言,“這是‘后AlphaFold2時(shí)代’的首屆大型同臺(tái)競(jìng)技,所有選手都獲得了業(yè)內(nèi)前所未有的關(guān)注?!?/p>
在AlphaFold2的沖擊之下,蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)是否還能為人們帶來(lái)新的驚喜?
本屆首次新增蛋白質(zhì)-小分子復(fù)合體預(yù)測(cè)和RNA結(jié)構(gòu)預(yù)測(cè)兩大賽道,是否意味著蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)不再穩(wěn)占“C位”?
RNA結(jié)構(gòu)預(yù)測(cè)領(lǐng)域是否會(huì)出現(xiàn)如AlphaFold2一般引發(fā)革命的技術(shù)工具?
從基礎(chǔ)研究到應(yīng)用研究,人們不斷討論著在CASP 15背后行業(yè)發(fā)展的諸多可能。
近日,由雷峰網(wǎng)GAIR Live&《醫(yī)健AI掘金志》舉辦的《生物計(jì)算“奧賽”冠軍團(tuán)隊(duì)論道:當(dāng)生命科學(xué)遇上史詩(shī)級(jí)AI,何去何從?》線(xiàn)上圓桌論壇落幕。
本次論壇邀請(qǐng)了多位在CASP 15中取得出色成績(jī)的參賽者,由上海智峪生科CEO王晟擔(dān)任主持,江蘇理工學(xué)院生物信息與醫(yī)藥工程研究所教授常珊、密歇根大學(xué)計(jì)算醫(yī)學(xué)和生物信息學(xué)系博士后研究員鄭偉、浙江工業(yè)大學(xué)信息工程學(xué)院教授張貴軍、上海智峪生科技CTO熊鵬參與討論。
在上篇中,幾位嘉賓共同分享了在CASP 15中的參賽經(jīng)歷,以及在AlphaFold2沖擊下,蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)賽道該何去何從。
在下篇中,將聚焦本屆兩大新增賽道:蛋白質(zhì)-小分子復(fù)合體預(yù)測(cè)和RNA結(jié)構(gòu)預(yù)測(cè)在應(yīng)用層面的潛力,探討當(dāng)下火熱的AIGC技術(shù)在AI生命科學(xué)領(lǐng)域的可能性。
“全球人工智能與機(jī)器人大會(huì)”(GAIR)始于2016年雷峰網(wǎng)與中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)合作創(chuàng)立的CCF-GAIR大會(huì),旨在打造人工智能浪潮下,連接學(xué)術(shù)界、產(chǎn)業(yè)界、投資界的新平臺(tái),而雷峰網(wǎng)“連接三界”的全新定位也在此大會(huì)上得以確立。
經(jīng)過(guò)幾年發(fā)展,GAIR大會(huì)已成為行業(yè)標(biāo)桿,是目前為止粵港澳大灣區(qū)人工智能領(lǐng)域規(guī)模最大、規(guī)格最高、跨界最廣的學(xué)術(shù)、工業(yè)和投資領(lǐng)域盛會(huì)。
GAIR Live作為雷峰網(wǎng)旗下視頻直播品牌,旨在輸出新鮮、深度、原創(chuàng)的大咖訪(fǎng)談與對(duì)話(huà)內(nèi)容,打造輻射產(chǎn)、學(xué)、研、投的特色線(xiàn)上平臺(tái)。
以下是主題論壇的現(xiàn)場(chǎng)內(nèi)容,雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))《醫(yī)健AI掘金志》做了不改變?cè)獾木庉嫼驼恚?/strong>
王晟:你們對(duì)CASP 15競(jìng)賽有哪些印象深刻的事情?
常珊:我剛剛看到比賽結(jié)果的時(shí)候很驚訝,雖然知道參加比賽的華人組織很多,但沒(méi)有想到前幾個(gè)名次都被華人包攬,這讓我印象深刻。
其次就是AlphaFold2在比賽中的應(yīng)用非常廣泛,往年我們參加多聚體競(jìng)賽時(shí),通常會(huì)遇到一些困難的target,大家完成度不是特別好。
但這次比賽中感覺(jué)大家的完成度都非常好,一些困難的題目今年大家也能夠完整地提交,很大程度提高了大家參與比賽的積極性。
還有我們自己的賽道,ligand。我印象特別深刻的是有一個(gè)target,H1114target,剛出來(lái)的時(shí)候我也被嚇了一跳,因?yàn)樗?6個(gè)配體。
我看到這個(gè)題目的時(shí)候其實(shí)是想放棄的,覺(jué)得組委會(huì)把這個(gè)題目設(shè)計(jì)的太難了,配體這么復(fù)雜的情況下,原本的程序就沒(méi)辦法使用了,只能自己重新寫(xiě)很多代碼來(lái)實(shí)現(xiàn)target的計(jì)算。
但是想到這道題目對(duì)我們來(lái)說(shuō)很難,對(duì)別人來(lái)說(shuō)也很難,就堅(jiān)持把題目做完了,一直到凌晨才提交完畢。
最后的評(píng)估結(jié)果有點(diǎn)遺憾,這道題目雖然有56個(gè)配體,完成的過(guò)程非常辛苦,但是和其他只有一個(gè)配體的題目所占的權(quán)重是一樣的,所以在評(píng)分的時(shí)候我們并不占優(yōu)勢(shì)。
張貴軍:對(duì)CASP 15來(lái)說(shuō),我們其實(shí)還算是新手,之前沒(méi)有參加過(guò)CASP比賽。
首先從CASP的發(fā)展史來(lái)看,AI在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方面有著非常大的推動(dòng)力,從CASP 12萌芽,CASP 13發(fā)展,CASP 14突破,CASP 15發(fā)展得更加成熟。
近年來(lái)在醫(yī)藥領(lǐng)域已經(jīng)有一些企業(yè)取得了比較大的成功,比如在新冠疫情的應(yīng)對(duì)上。國(guó)內(nèi)的高校、研究機(jī)構(gòu)、企業(yè)等等,都已經(jīng)開(kāi)始進(jìn)入這一領(lǐng)域,速度之快、廣度之大都非常令人驚訝。
從技術(shù)的角度來(lái)看,我覺(jué)得鄭偉博士、楊建益老師會(huì)更有發(fā)言權(quán)。
就我們的感受而言,在這次的比賽中,單體、多聚體、復(fù)合物這三個(gè)賽道目前還是在AlphaFold2的基礎(chǔ)上進(jìn)行,尤其是MSA上的處理。
這些MSA信息的獲取實(shí)際上是這一屆比賽中單體復(fù)合物結(jié)構(gòu)提升的關(guān)鍵環(huán)節(jié),當(dāng)然,這也取決于現(xiàn)在的AI模型的發(fā)展。
AI模型現(xiàn)在發(fā)展的也很快,殘差網(wǎng)絡(luò)、注意力機(jī)制、自然語(yǔ)言模型等等,都很好地理解了序列與結(jié)構(gòu)之間的關(guān)系。
生命系統(tǒng)以及任何一個(gè)生命活動(dòng),都是通過(guò)生命的語(yǔ)言進(jìn)行,氨基酸、蛋白質(zhì)、單體復(fù)合物等等類(lèi)似于人類(lèi)語(yǔ)言中的字母、單詞、句子,先進(jìn)的AI技術(shù)能夠很好地捕獲到這些信息。
在CASP 12中,一些模型的精度比較低,當(dāng)時(shí)的長(zhǎng)度基本上都在100以?xún)?nèi),能量模型、構(gòu)象搜索過(guò)程等問(wèn)題都是我們的障礙。
近年來(lái)AI技術(shù)在在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方面的應(yīng)用在不斷加快,尤其是MSA、AlphaFold2等等。
今年我們參加的是模型的質(zhì)量評(píng)估賽道,比賽的過(guò)程中我們的感受是,在目前的方法上增加一些獨(dú)特的特征,然后通過(guò)網(wǎng)絡(luò)模型去學(xué)習(xí)這些特征,就能夠以比較小的算力和代價(jià)取得較大幅度的性能提升。
王晟:對(duì)于來(lái)自學(xué)術(shù)界的團(tuán)隊(duì)來(lái)說(shuō),和工業(yè)界一個(gè)很大的差別就是能夠使用的資源的量,Google、Facebook等企業(yè)可以用幾千塊甚至上萬(wàn)塊的GPU來(lái)訓(xùn)練模型。
但來(lái)自學(xué)術(shù)界的參賽團(tuán)隊(duì)掌握的資源遠(yuǎn)遠(yuǎn)不及那些大公司,要在同一個(gè)賽場(chǎng)上和他們進(jìn)行競(jìng)爭(zhēng),就要更好地利用小算力、小模型取得大的進(jìn)展,這是一個(gè)非常好的啟發(fā)。
鄭偉:我覺(jué)得這次CASP 15很有趣的一個(gè)現(xiàn)象是參賽的隊(duì)伍變得特別多,說(shuō)明這個(gè)領(lǐng)域開(kāi)始越來(lái)越多地受到學(xué)界和工業(yè)界的關(guān)注。
這次CASP 15蛋白質(zhì)單體結(jié)構(gòu)預(yù)測(cè)賽道的參賽團(tuán)隊(duì)和CASP 14基本持平,蛋白質(zhì)-蛋白質(zhì)復(fù)合體結(jié)構(gòu)預(yù)測(cè)賽道參賽團(tuán)隊(duì)增加了75%左右,上次只有不到50個(gè)隊(duì)參加,這次有90個(gè)隊(duì)伍左右。有很多隊(duì)伍開(kāi)始關(guān)注蛋白質(zhì)復(fù)合體預(yù)測(cè)這一問(wèn)題。
這次比賽還開(kāi)設(shè)了兩個(gè)新的賽道,一個(gè)是RNA結(jié)構(gòu)預(yù)測(cè),另一個(gè)是蛋白質(zhì)-小分子配體復(fù)合物結(jié)構(gòu)預(yù)測(cè)。這兩個(gè)賽道雖然是第一次開(kāi)設(shè),每個(gè)賽道也有超過(guò)30個(gè)團(tuán)隊(duì)參加。
今年的CASP競(jìng)賽整體看起來(lái)變得越來(lái)越繁榮了,同時(shí)競(jìng)爭(zhēng)也變得越來(lái)越激烈。
另外,我認(rèn)為今年CASP競(jìng)賽中放出的target的難度以及fold的結(jié)構(gòu)種類(lèi),相比往屆有了很大的提高。
比如target H1137,是由9個(gè)不同的蛋白組成的一個(gè)超級(jí)復(fù)雜的復(fù)合體,這樣復(fù)雜的復(fù)合體在CASP競(jìng)賽中應(yīng)該是首次出現(xiàn)。
在以往的競(jìng)賽中,受實(shí)驗(yàn)手段限制,這樣的復(fù)雜結(jié)構(gòu)很難解析出來(lái)。但在AlphaFold2等深度學(xué)習(xí)的預(yù)測(cè)模型幫助下,這次的比賽中能夠完成一些比較復(fù)雜的復(fù)合體。
而RNA和小分子賽道的加入,使CASP比賽能夠越來(lái)越全面地展示計(jì)算生物學(xué)的發(fā)展水平。整體來(lái)看,CASP比賽變得越來(lái)越有趣了。
熊鵬:這次比賽中印象最深的事情是竟然有RNA賽道。RNA結(jié)構(gòu)預(yù)測(cè)在以前相對(duì)小眾,關(guān)注度遠(yuǎn)遠(yuǎn)弱于蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)。
RNA結(jié)構(gòu)預(yù)測(cè)并不是從今年才開(kāi)始比賽,早在2010年左右歐洲就組織了“RNA-Puzzles”的比賽,已經(jīng)舉辦了六七屆,十二年的時(shí)間里才積累了39個(gè)target。
對(duì)于RNA來(lái)說(shuō),每年新解析的RNA只有幾百個(gè),其中大部分都是核糖體RNA或是附庸于蛋白質(zhì)的小RNA片段,不適合做一個(gè)獨(dú)立的fold,因此在CASP這種集中的競(jìng)賽上,可以作為題目來(lái)呈現(xiàn)的新增RNA非常少。
競(jìng)賽的組織者也非常有誠(chéng)意,一共收集了12個(gè)target,這是非常不容易的,我們直到比賽之前都不確定會(huì)不會(huì)有RNA題目,看到組織方給出的12個(gè)題目非常欣慰,RNA結(jié)構(gòu)預(yù)測(cè)的問(wèn)題會(huì)通過(guò)這個(gè)平臺(tái)被越來(lái)越多的人知道,吸引越來(lái)越多的人參與進(jìn)來(lái),這對(duì)RNA學(xué)科的發(fā)展也非常有幫助。
王晟:今年,你們?cè)诖筚惿隙既〉昧吮容^理想的成績(jī),能否總結(jié)一下在各個(gè)參賽項(xiàng)目上的優(yōu)劣得失?
常珊:我們今年參加了兩個(gè)賽道,一個(gè)是多聚體的賽道;另一個(gè)是ligand的賽道。這兩個(gè)賽道一起參加確實(shí)特別吃力,往年比賽的時(shí)候我只參加多聚體就已經(jīng)很吃力了,今年又增加了一個(gè)賽道,覺(jué)得更吃力。
在比賽成果上,我們?cè)趌igand賽道的成績(jī)比較好,是第一名。當(dāng)時(shí)我們對(duì)每個(gè)target都進(jìn)行了預(yù)測(cè),每個(gè)target的配體數(shù)量不同,我們幾乎都能夠準(zhǔn)確預(yù)測(cè)到結(jié)合部位,即RMSD小于5埃。并且,有很多target我們團(tuán)隊(duì)預(yù)測(cè)的準(zhǔn)確度都達(dá)到RMSD小于2埃。
有一些target特別難,我們只有部分ligand預(yù)測(cè)的比較準(zhǔn),但每一個(gè)target都能取的比較好的結(jié)果。這是我比較欣慰的地方。
在賽后的總結(jié)中,我發(fā)現(xiàn)有很多做得不夠好的地方,比如比賽過(guò)程中在時(shí)間分配上發(fā)生了很大的失誤,我們團(tuán)隊(duì)人比較少,只有兩個(gè)老師和一個(gè)碩士生,三個(gè)人同時(shí)參加兩個(gè)賽道很難兼顧。
按照組委會(huì)的評(píng)分方式來(lái)看,比較容易的target一定要做的精度特別好才能拿到分?jǐn)?shù)。
很遺憾,為了完成比較難的target,這部分容易的target我們認(rèn)為結(jié)果是對(duì)的就提交了,沒(méi)有去精雕細(xì)琢,導(dǎo)致沒(méi)有拿到分?jǐn)?shù),這也是我們最終排名比較落后的原因。
參加比賽的人數(shù)少既是我們的缺點(diǎn),同時(shí)也是優(yōu)點(diǎn),我們的溝通效率會(huì)更高,在討論問(wèn)題的時(shí)候三個(gè)人碰個(gè)頭就能定下來(lái)要怎么做。
下次再參加比賽,我覺(jué)得要么把任務(wù)分解一下,多讓幾個(gè)學(xué)生參與進(jìn)來(lái),要么就選擇一個(gè)更側(cè)重的賽道參加,避免精力不足。
王晟:在這種評(píng)分體制下,簡(jiǎn)單題目上大家的差距不會(huì)太大,但是難題一旦搞定,一道題的差距差不多抵得上5到10個(gè)簡(jiǎn)單題目。
所以我的打法是簡(jiǎn)單題目不要丟太多分,和大家差不多就行,重點(diǎn)去搞定難題。
張貴軍:剛剛常珊老師提到的問(wèn)題我們組也同樣存在,今年是我們課題組第一次參加CASP比賽,還是新手,為了準(zhǔn)備CASP 15提前半年在CAMEO上做了很多測(cè)試,我們參賽成員包括幾個(gè)博士、碩士研究生。
通過(guò)本屆參賽經(jīng)驗(yàn),從下一屆開(kāi)始我們需要更好的組織。
在CASP 15競(jìng)賽中,我們參加的賽道比較多,除了RNA和配體之外,其他的賽道基本上都參加了。
準(zhǔn)確性評(píng)估的EMA實(shí)際上也是一個(gè)新的賽道,只是不像RNA、配體一樣顯著,這個(gè)賽道的評(píng)測(cè)主要是用三個(gè)詞表,一個(gè)是QScore,一個(gè)是Score,一個(gè)是pLDDT。
QScore來(lái)自于Complex,也就是復(fù)合物領(lǐng)域中的一個(gè)評(píng)測(cè)指標(biāo),側(cè)重于衡量interface的docking的分?jǐn)?shù)。而Score主要衡量整個(gè)蛋白質(zhì)復(fù)合物結(jié)構(gòu)的精度。
pLDDT側(cè)重的是殘基級(jí)的精度。在CASP15中,我們組在pLDDT指標(biāo)上領(lǐng)先幅度很大,這主要是得益于新的超快形狀設(shè)別(USA)特征,采用了CASP 14以來(lái)的最新網(wǎng)絡(luò),自己也生成了一批訓(xùn)練數(shù)據(jù),從而捕獲殘基集的誤差。
殘基級(jí)誤差在藥物研發(fā)中非常重要,因?yàn)樗梢杂脕?lái)實(shí)現(xiàn)refinement過(guò)程,從而獲得高精度的結(jié)構(gòu)模型。
在Score方面,我們的指標(biāo)沒(méi)有排在前面,這也是剛剛提到的問(wèn)題,算力。在CASP15競(jìng)賽期間,信息工程學(xué)院、學(xué)科給了我們很多算力支持,學(xué)院計(jì)算中心三分之二的算力都是我們?cè)谑褂谩?/p>
即使是這樣,我們完整的AI模型也是在CASP 15結(jié)束之后才真正訓(xùn)練完成。我們現(xiàn)在也在積極復(fù)盤(pán),查漏補(bǔ)缺。
pLDDT,包括 QScore我們也進(jìn)行了分析,如果要提升精度,就要考慮接口處殘基的數(shù)量、殘基的互作,結(jié)合pLDDT指標(biāo),以及我們單序列平均pLDDT,復(fù)合物平均pLDDT這些特征都要考慮。
在單域、多域和復(fù)合物上面,我們的表現(xiàn)一般,在這里也恭喜鄭偉博士和楊建益老師,做的非常棒。
一個(gè)最主要的原因就是AlphaFold2,MSA非常關(guān)鍵,而且需要大量的算力來(lái)做預(yù)訓(xùn)練模型,我們沒(méi)有關(guān)注這方面。我們考慮的是設(shè)計(jì)蛋白質(zhì)結(jié)構(gòu)模式的辨識(shí)方法,通過(guò)盲測(cè)去驗(yàn)證想法的性能,確認(rèn)它到是不是源于現(xiàn)有的PDB數(shù)據(jù)庫(kù)的設(shè)想。
這也是一個(gè)非常久遠(yuǎn)的命題,但我認(rèn)為隨著共進(jìn)化技術(shù)的發(fā)展,模板建模方法還會(huì)峰回路轉(zhuǎn),受到更多關(guān)注??紤]到現(xiàn)有算力、算法設(shè)想,我們對(duì)MSA沒(méi)有做任何改動(dòng)。從CASP 15來(lái)看,這兩點(diǎn)非常重要,也是我們未來(lái)努力的方向。
王晟:張貴軍老師提到一個(gè)非常重要的點(diǎn):MSA的quality。
我在2020年CASP 14的比賽上的一次國(guó)際報(bào)告中,介紹當(dāng)年我們TFold方法的Pros and cons時(shí),我也講了和張貴軍老師類(lèi)似的觀(guān)點(diǎn),就是MSA對(duì)于整個(gè)大分子,包括蛋白和RNA等的結(jié)構(gòu)預(yù)測(cè)的重要性非常關(guān)鍵。
我們當(dāng)時(shí)還做了很多的實(shí)驗(yàn),用一個(gè)非常淺的MSA或是用包含了更多進(jìn)化的序列跑相同的算法,其質(zhì)量是完全不同的。
不僅如此,如果用一個(gè)相同的算法搜相同的數(shù)據(jù)庫(kù),但是使用不同的參數(shù)、不同的迭代次數(shù)、不同的e-value、不同的Z-score搜索MSA,它的質(zhì)量都會(huì)很不一樣。
這是一個(gè)非常有意思的問(wèn)題,我們還要對(duì)它進(jìn)行本質(zhì)上的探索。
鄭偉:剛才王晟師兄和張貴軍老師都提到了MSA的重要性。就我們課題組而言,在MSA領(lǐng)域也做了幾年的工作,總結(jié)了一些數(shù)據(jù)和算法,也開(kāi)發(fā)了一些工具專(zhuān)門(mén)做MSA。
比如我們的DeepMSA算法以及最新的DeepMSA 2,這些算法采用了常規(guī)的基因組和宏基因組,用不同的工具來(lái)組合構(gòu)建MSA。
我們認(rèn)為MSA確實(shí)很重要,它不僅對(duì)結(jié)構(gòu)預(yù)測(cè)這個(gè)問(wèn)題很重要,放眼整個(gè)生物信息學(xué)領(lǐng)域,很多基礎(chǔ)的預(yù)測(cè)問(wèn)題,比如早些年的功能預(yù)測(cè)、位點(diǎn)預(yù)測(cè)等,很多的時(shí)候都要依賴(lài)PSSM,而PSSM則依賴(lài)于MSA的效果。
我個(gè)人認(rèn)為MSA是整個(gè)生物信息學(xué)的基礎(chǔ),只要MSA做好了,無(wú)論是對(duì)結(jié)構(gòu)預(yù)測(cè),還是對(duì)生物信息學(xué)里的其他基礎(chǔ)問(wèn)題,都有很大幫助。
對(duì)于單體預(yù)測(cè)上一些較困難的蛋白,其同源序列的數(shù)目不夠多導(dǎo)致了預(yù)測(cè)難度比較大。如果給 AlphaFold2兩個(gè)target,其中一個(gè)MSA序列較少,另一個(gè)MSA序列較多,一般來(lái)說(shuō)MSA序列較少的target結(jié)果會(huì)更差,MSA的質(zhì)量很大程度上會(huì)影響target的難度。
今年CASP 15的assessor還專(zhuān)門(mén)提供了一張清單,上面整理了一些Top group成功的標(biāo)簽,其中MSA在Top5的group中都出現(xiàn)了,我覺(jué)得在未來(lái)MSA也會(huì)越來(lái)越引起大家的重視。
今年我們課題組算是第一次參加蛋白質(zhì)復(fù)合體的賽道,得益于此前在單體上的算法積累和MSA的積累,雖然是第一次參加但是也取得了比較理想的成績(jī),MSA可以說(shuō)是我們今年在比賽中獲得成功的重要因素之一。
CASP比賽對(duì)我而不僅僅是一個(gè)比賽,同時(shí)也是一個(gè)比較好的學(xué)習(xí)機(jī)會(huì)。因?yàn)镃ASP比賽的時(shí)間比較集中,有三四個(gè)月的時(shí)間可以全身心地投入到比賽中。
平時(shí)做蛋白質(zhì)預(yù)測(cè)、做的都是針對(duì)general蛋白的算法,可能關(guān)注不到某個(gè)蛋白的特性或生物學(xué)背景,但是在比賽中每做一個(gè) target都會(huì)去研究這些,在比賽中能學(xué)到很多不同target蛋白生物學(xué)方面的新知識(shí)。
剛才很多老師提到課題組參賽的人數(shù)比較少,我今年的體會(huì)也比較深,因?yàn)閷?shí)驗(yàn)室調(diào)整,我們今年不是以實(shí)驗(yàn)室整體去參賽,而是以個(gè)人的名義代表實(shí)驗(yàn)室參賽。
整個(gè)CASP 15期間,無(wú)論是前期的算法開(kāi)發(fā),還是比賽期間服務(wù)器、算法運(yùn)行,都是我一個(gè)人在負(fù)責(zé),服務(wù)器出現(xiàn)各種問(wèn)題都需要我去和管理員溝通。
我在比賽期間睡覺(jué)時(shí)間非常少,一天最多只有六個(gè)小時(shí)的睡眠,每工作四小時(shí)就睡兩小時(shí)這樣輪轉(zhuǎn)。如果人力有限的話(huà),一個(gè)人參加多個(gè)賽道是非常耗費(fèi)時(shí)間和精力的事情,對(duì)體力的要求也比較高。
另一個(gè)體會(huì)比較深的是,大家一直在提的算力局限性,學(xué)界的算力肯定不比工業(yè)界,這對(duì)比賽的影響還是很大的。
我們今年顯卡個(gè)數(shù)也是比較有限,只有二三十張,所以參賽之前的很多想法,由于算力的局限都沒(méi)有來(lái)得及去實(shí)現(xiàn),比賽過(guò)程中很多工作都是一邊摸索著一邊做的,這是很大的遺憾。
將來(lái)如果有機(jī)會(huì)得到更多的算力,我想不僅是我,還有各位老師也會(huì)去嘗試更多優(yōu)秀的想法。
王晟:關(guān)于算力的問(wèn)題,我們也在公司內(nèi)部進(jìn)行過(guò)一些探索的,考慮是不是所有的target都要堆算力去做,如果遇到某些搜不出同源模板的,或者根本就不存在相似fold的結(jié)構(gòu),這個(gè)結(jié)構(gòu)或許是蛋白,或許是RNA,是不是堆更多的算力,或者訓(xùn)練一個(gè)更復(fù)雜的AI模型就能搞定?或者有沒(méi)有別的方法來(lái)搞定這些target?
熊鵬:這次RNA比賽一共12個(gè)題目,分成三組,一組是天然的RNA序列,一組是人工設(shè)計(jì)的RNA序列,一組是蛋白質(zhì)和RNA的復(fù)合物。我們最大的收獲來(lái)自于人工設(shè)計(jì)的那一組RNA,一共有4個(gè)題目。
首先,相比其他的小組,我們?cè)谶@四個(gè)題目上積累了很大的優(yōu)勢(shì),使用我們自己的方法來(lái)預(yù)測(cè)這種人工設(shè)計(jì)的RNA,精度會(huì)遠(yuǎn)遠(yuǎn)高于其他的組。
以前的RNA設(shè)計(jì)并沒(méi)有進(jìn)入公眾的視野,大家聽(tīng)得比較多的是蛋白質(zhì)設(shè)計(jì),比如David Baker組,他們開(kāi)發(fā)了Rosetta工具,得到了很多蛋白質(zhì)設(shè)計(jì)的成功案例。這次比賽中,來(lái)自斯坦福的實(shí)驗(yàn)室通過(guò)自己的方法人工設(shè)計(jì)出了一些RNA。
我們也是通過(guò)這次比賽來(lái)解開(kāi)這些題目,研究這些RNA的來(lái)源,怎么被設(shè)計(jì)出來(lái),從而摸索出了一套R(shí)NA設(shè)計(jì)的策略。對(duì)我自己來(lái)說(shuō)打開(kāi)了一扇新的大門(mén),學(xué)到了很多新的東西。
比較遺憾的是第三組題目,蛋白質(zhì)和RNA的復(fù)合物。這個(gè)方向一直都是我過(guò)去非常感興趣的方向,我也一直想將蛋白質(zhì)和RNA這兩個(gè)領(lǐng)域統(tǒng)一起來(lái),做統(tǒng)一的結(jié)構(gòu)預(yù)測(cè),以及統(tǒng)一復(fù)合物設(shè)計(jì)。
但很遺憾的是,這項(xiàng)工作的工作量比較大,構(gòu)想也太過(guò)龐大,目前為止還沒(méi)有完成。
我們?cè)敬蛩阍诒荣愔醒杆匍_(kāi)發(fā)出一個(gè)簡(jiǎn)易的版本,去實(shí)現(xiàn)那兩個(gè)target的預(yù)測(cè),但是發(fā)現(xiàn)沒(méi)那么容易,匆忙的一兩個(gè)、一兩周或者一個(gè)月的時(shí)間,確實(shí)不足以開(kāi)發(fā)出一套可行的程序,最終那兩個(gè)target做得也比較差。
這個(gè)問(wèn)題也并不是我們一個(gè)組的問(wèn)題,對(duì)所有的組來(lái)說(shuō),蛋白質(zhì)和RNA的復(fù)合物預(yù)測(cè)的都不是很好,這也是整個(gè)領(lǐng)域目前面臨的難題。
但這個(gè)方向特別重要,因?yàn)樯矬w內(nèi)很多功能的RNA分子或者蛋白質(zhì)分子都是通過(guò)蛋白和核酸的相互作用來(lái)實(shí)現(xiàn)功能的。
比如基因編輯或者基因調(diào)控,涉及到的核心問(wèn)題就是RNA和蛋白質(zhì)的相互作用,這些問(wèn)題目前都還沒(méi)有解決。
未來(lái)還需要各位做蛋白質(zhì)研究和做RNA研究的人一起協(xié)作,共同解決這些問(wèn)題。
另外,前面幾位老師都提到MSA,它對(duì)于蛋白質(zhì)的結(jié)構(gòu)預(yù)測(cè)至關(guān)重要,也是我們實(shí)現(xiàn)從過(guò)去的基于同源建模的方法到基于evolutionary coupling共進(jìn)化的方法這一突破的核心角色。
MSA在RNA的結(jié)構(gòu)預(yù)測(cè)中也受到了廣泛的關(guān)注,但它究竟能起多大作用目前在學(xué)術(shù)圈內(nèi)還有著較大的爭(zhēng)議。
有人認(rèn)為MSA對(duì)RNA結(jié)構(gòu)預(yù)測(cè)的影響像在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)中一樣大,我們現(xiàn)在做得不好是因?yàn)镸SA構(gòu)建的還不夠好,只要我們構(gòu)建出更加優(yōu)質(zhì)的MSA,就能夠提供更多的contact information或是orientation的information。
另外一派認(rèn)為在RNA結(jié)構(gòu)預(yù)測(cè)中的的MSA,可能只對(duì)二級(jí)結(jié)構(gòu)預(yù)測(cè)或base pair的預(yù)測(cè)有幫助。對(duì)于其他的相互作用,MSA提供不了任何信息。
現(xiàn)在學(xué)術(shù)圈還沒(méi)有達(dá)成共識(shí),不同人的看法也不一樣,大家在各自的想法上進(jìn)行了嘗試,目前還沒(méi)有定論。
RNA結(jié)構(gòu)預(yù)測(cè)問(wèn)題跟蛋白質(zhì)還是不一樣的,很多未知的東西還需要大家以后去解決。
王晟:CASP15比賽新增了兩個(gè)重要賽道,蛋白質(zhì)-小分子的復(fù)合物預(yù)測(cè)以及RNA結(jié)構(gòu)預(yù)測(cè)。在RNA結(jié)構(gòu)預(yù)測(cè)方面,哪些方向能因此受益而加速突破?RNA結(jié)構(gòu)預(yù)測(cè)的研究能夠怎樣推動(dòng)RNA相關(guān)療法、合成生物學(xué)的發(fā)展?類(lèi)似AlphaFold2引爆蛋白質(zhì)單體結(jié)構(gòu)預(yù)測(cè)的革命,能否燃燒到RNA領(lǐng)域?
常珊:雖然我沒(méi)有參加,但是我原來(lái)在密蘇里大學(xué)時(shí),我的博士后導(dǎo)師鄒曉琴和陳世杰老師是夫妻,他們兩人的學(xué)生之間經(jīng)常交流,所以我也了解了一些相關(guān)技術(shù)。
我們?cè)诮K理工學(xué)院生物信息與醫(yī)藥工程研究所的團(tuán)隊(duì)里,剛好有一個(gè)成員是陳世杰老師的博士后,他的博士、博士后期間都是在陳老師的實(shí)驗(yàn)室,加入我們團(tuán)隊(duì)后主要負(fù)責(zé)RNA的結(jié)構(gòu)預(yù)測(cè)。
他是物理學(xué)的背景,跟熊博士是一樣的,所以他采用的也是物理模型--先構(gòu)建二級(jí)結(jié)構(gòu),再考慮怎么把三級(jí)結(jié)構(gòu)預(yù)測(cè)得更準(zhǔn)確一些。
我認(rèn)為AI在RNA結(jié)構(gòu)領(lǐng)域的能力,還沒(méi)有比肩AlphaFold2,在這個(gè)領(lǐng)域內(nèi),物理模型還是一個(gè)主流模型。
從這次比賽的情況來(lái)看,RNA結(jié)構(gòu)預(yù)測(cè)的精度和蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的精度相比,差距還比較大。為什么?
首先,RNA結(jié)構(gòu)預(yù)測(cè)精度太低,拉低RNA-ligand預(yù)測(cè)結(jié)果。
我們參加ligand的賽道時(shí),有幾個(gè)受體不是蛋白質(zhì)而是RNA結(jié)構(gòu),我們當(dāng)時(shí)并不預(yù)測(cè)RNA的結(jié)構(gòu),就用組委會(huì)公開(kāi)的其他小組預(yù)測(cè)的結(jié)構(gòu)做了ligand相互作用的預(yù)測(cè)。
從最終看公布的結(jié)果來(lái)看,RNA的結(jié)構(gòu)預(yù)測(cè)偏差實(shí)在太大了,這也導(dǎo)致了我們ligand預(yù)測(cè)的失敗。
我們是受到了RNA結(jié)構(gòu)預(yù)測(cè)不準(zhǔn)確的牽連,受體都不準(zhǔn)確的話(huà),配體怎么可能會(huì)準(zhǔn)確?
我認(rèn)為,未來(lái)做RNA結(jié)構(gòu)預(yù)測(cè)的人要和做蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的人密切合作,才能把ligand做得更好。
不論是蛋白質(zhì)還是RNA的結(jié)構(gòu)預(yù)測(cè)做的不好,都會(huì)影響ligand相互作用的預(yù)測(cè)。
其次,我們也做了蛋白質(zhì)和RNA相互作用的預(yù)測(cè),在比賽結(jié)果中,其中一個(gè)target我們組排在前面,我非常意外,因?yàn)楫?dāng)時(shí)我們自己沒(méi)有做RNA結(jié)構(gòu)預(yù)測(cè),直接將其他組的RNA結(jié)構(gòu)預(yù)測(cè)的結(jié)果和蛋白做了相互作用。
雖然排名靠前,但誤差也20埃左右,屬于五十步笑百步。只是大家在這一項(xiàng)上的誤差都非常大,我們錯(cuò)的稍微少一點(diǎn)點(diǎn),就被排到了前面。
RNA結(jié)構(gòu)預(yù)測(cè)的領(lǐng)域迫切地需要引入其他技術(shù),否則其精度暫時(shí)會(huì)落后于蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)。
王晟:CASP15之所以推出了RNA結(jié)構(gòu)預(yù)測(cè)賽道,也就是借比賽,進(jìn)一步提高大家對(duì)RNA結(jié)構(gòu)預(yù)測(cè)的關(guān)注,提高RNA預(yù)測(cè)精度,推動(dòng)整個(gè)領(lǐng)域的落地,即RNA療法以及合成生物學(xué)。
常珊教授講的這兩點(diǎn)非常有意思。
第一點(diǎn)是RNA和小分子。目前常見(jiàn)的RNA藥物,小RNA、寡RNA、RNA疫苗等等,基本都是利用其線(xiàn)性作用的特性,而不是利用其空間結(jié)構(gòu)。
但真實(shí)場(chǎng)景下的RNA,都是通過(guò)其復(fù)雜、動(dòng)態(tài)的結(jié)構(gòu)發(fā)揮重要功能的,如果我們能夠準(zhǔn)確地捕獲它的復(fù)雜動(dòng)態(tài)結(jié)構(gòu),理論上就可以像蛋白質(zhì)-小分子藥物一樣,設(shè)計(jì)出專(zhuān)門(mén)針對(duì)RNA小分子的藥物,從而target巨頭調(diào)控作用的RNA,不論是在疾病治療還是其他領(lǐng)域,都有著非常重要的作用。
第二點(diǎn),RNA-蛋白質(zhì)的相互作用預(yù)測(cè),對(duì)于合成生物學(xué)至關(guān)重要。
比如如何構(gòu)造調(diào)控網(wǎng)絡(luò)、如何理解RNA和蛋白之間的作用機(jī)制、能否設(shè)計(jì)更好的結(jié)構(gòu),讓蛋白質(zhì)表達(dá)得更多、如何調(diào)控transfer factor,設(shè)計(jì)出能夠與RNA特異序列結(jié)合的蛋白質(zhì)(RNA-binding proteins),以及構(gòu)建出優(yōu)越的底盤(pán)細(xì)胞(底盤(pán)細(xì)胞的選擇和優(yōu)化,是合成生物學(xué)鏈條上的核心步驟)。
張貴軍:剛才熊鵬博士的發(fā)言我非常認(rèn)同。
雖然蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)目前已經(jīng)達(dá)到比較可觀(guān)的精度,但我們還要考慮其動(dòng)態(tài)性。
在生物體內(nèi),蛋白并非靜止?fàn)顟B(tài),而是時(shí)刻通過(guò)PPI相互作用,通過(guò)一致的原動(dòng)力:電磁力導(dǎo)致最終形態(tài)發(fā)生變化,最終實(shí)現(xiàn)信號(hào)傳導(dǎo)。
多態(tài)性是RNA和蛋白質(zhì)同樣面臨的問(wèn)題,蛋白在多態(tài)性方面的研究可能有助于提高RNA結(jié)構(gòu)預(yù)測(cè)精度。
此外,目前RNA的數(shù)據(jù)不及蛋白質(zhì)的數(shù)據(jù)全面。在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的數(shù)據(jù)庫(kù)中,如今已經(jīng)存在大量結(jié)構(gòu),且許多結(jié)構(gòu)已經(jīng)被證實(shí)是完備的。
在這種情況下,通過(guò)物理化學(xué)建模方法超越AI是有可能的。將來(lái)隨著數(shù)據(jù)的增加或是新技術(shù)的突破,RNA結(jié)構(gòu)預(yù)測(cè)也將會(huì)有所提升。
如同蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的發(fā)展歷程一樣,在最初的CASP競(jìng)賽中,大家也曾質(zhì)疑過(guò)是否能通過(guò)計(jì)算機(jī)來(lái)模擬蛋白質(zhì)結(jié)構(gòu),這一點(diǎn)近年來(lái)已經(jīng)得到證實(shí),我相信未來(lái)RNA也可以達(dá)到這個(gè)水平。
我個(gè)人感覺(jué)RNA和蛋白質(zhì)的相互作用非常重要,長(zhǎng)期以來(lái)大家很關(guān)注基因組研究,一直被忽略的RNA為什么突然受到這么多關(guān)注?之前在技術(shù)上當(dāng)然有一定難度。
然而,從藥物研發(fā)的角度來(lái)講,RNA起到的是橋梁的作用,同時(shí)又具有多態(tài)性,目前的藥物靶標(biāo)大部分還是蛋白靶標(biāo),未來(lái)RNA藥物會(huì)是一片藍(lán)海,有著廣闊的落地場(chǎng)景。
鄭偉:我沒(méi)有參加RNA的賽道,對(duì)RNA研究也不是特別多,在這方面肯定沒(méi)有熊鵬師兄這么有權(quán)威性,我談一些簡(jiǎn)單的看法。
張貴軍老師剛才談到的蛋白質(zhì)結(jié)構(gòu)或者RNA結(jié)構(gòu)所具備的多態(tài)性,或者我們可以叫變構(gòu),在CASP 15之前,組委會(huì)準(zhǔn)備設(shè)置一個(gè)蛋白質(zhì)變構(gòu)賽道,但是比賽中并沒(méi)有出現(xiàn)target,相當(dāng)于這個(gè)賽道被取消了。
在CASP 15結(jié)束后,組委會(huì)成立了一個(gè)單獨(dú)的蛋白質(zhì)變構(gòu)討論組,對(duì)這個(gè)方向的討論更多了,不知明年是否會(huì)單獨(dú)設(shè)置相關(guān)賽道。
這也意味著,無(wú)論是蛋白質(zhì)變構(gòu)還是更遙遠(yuǎn)RNA變構(gòu),都是未來(lái)潛在的研究方向。
我記得貴軍老師和西湖大學(xué)李子清老師,最近發(fā)了一篇蛋白質(zhì)變構(gòu)文章(Multiple conformational states assembly of multidomain proteins using evolutionary algorithm based on structural analogues and sequential homologues)。
總體而言,變構(gòu)方面的研究太少,希望CASP16之后會(huì)有很大的變化。
此外,張貴軍老師提到的RNA對(duì)制藥領(lǐng)域或相關(guān)療法的影響,我個(gè)人認(rèn)為都非常對(duì)。以往的藥物靶點(diǎn)大部分都是蛋白質(zhì)靶點(diǎn),但實(shí)際上RNA會(huì)成為一個(gè)比較好的潛在靶點(diǎn),通過(guò)阻斷RNA表達(dá)或阻斷RNA與蛋白質(zhì)形成復(fù)合物,從而阻斷蛋白質(zhì)形成功能,其療效或許會(huì)更好。
未來(lái)研究RNA成為小分子靶點(diǎn),在醫(yī)藥領(lǐng)域的落地也許會(huì)有比較好的發(fā)展。
剛才王晟博士提到一個(gè)問(wèn)題,AlphaFold2預(yù)測(cè)蛋白精度比較高,RNA領(lǐng)域是否也會(huì)出現(xiàn)類(lèi)似的機(jī)器學(xué)習(xí)算法,在未來(lái)引發(fā)RNA結(jié)構(gòu)預(yù)測(cè)的革命?
我認(rèn)為短時(shí)間內(nèi)可能不太容易出現(xiàn)一個(gè)純深度學(xué)習(xí)、全自動(dòng)、不依賴(lài)任何人工參與,同時(shí)能夠達(dá)到AlphaFold2相同精度的算法。
AlphaFold2能夠成為一個(gè)很成功的深度學(xué)習(xí)框架,其中一個(gè)關(guān)鍵因素是具備大量的實(shí)驗(yàn)結(jié)構(gòu)支撐其深度學(xué)習(xí)的訓(xùn)練。
AlphaFold2使用的PDB數(shù)據(jù)庫(kù)已經(jīng)建立了50多年,其中積累了數(shù)十萬(wàn)個(gè)實(shí)驗(yàn)解析的蛋白質(zhì)結(jié)構(gòu),這樣大規(guī)模的蛋白質(zhì)數(shù)據(jù)能夠?yàn)樯疃葘W(xué)習(xí)提供比較好的訓(xùn)練基礎(chǔ)。
但PDB數(shù)據(jù)庫(kù)中已經(jīng)解析出來(lái)的非冗余的RNA結(jié)構(gòu)只有數(shù)千規(guī)模,在沒(méi)有大規(guī)模數(shù)據(jù)支撐的前提下,想要開(kāi)發(fā)一個(gè)全依賴(lài)于深度學(xué)習(xí)框架的RNA結(jié)構(gòu)預(yù)測(cè)算法,短時(shí)間內(nèi)很難達(dá)到AlphaFold2的水平。
當(dāng)然,這并不影響大家對(duì)深度學(xué)習(xí)框架的探索,比如一些課題組開(kāi)發(fā)了基于距離約束的算法,還有課題組在嘗試RNA的端到端的學(xué)習(xí)。
王晟:我補(bǔ)充一點(diǎn)。鄭偉博士剛才講到的幾點(diǎn),都是參考AlphaFold2框架做RNA結(jié)構(gòu)預(yù)測(cè)。
智峪生科這次有一支參賽隊(duì)伍就是采用了AlphaFold2的框架來(lái)做RNA三維結(jié)構(gòu)的預(yù)測(cè),叫做AIchemy-RNA。
從結(jié)果來(lái)看,雖然取得了AI方法中的第一名,但和物理的方法相比確實(shí)還是要差一些,原因正如剛剛鄭博士所講,主要在于數(shù)據(jù)量的問(wèn)題,這是一個(gè)很大的約束條件。
其次,之前熊博士也講到,對(duì)RNA的結(jié)構(gòu)預(yù)測(cè)來(lái)說(shuō),MSA的影響是否像在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)中一樣強(qiáng)還是未知數(shù)。
第三,AlphaFold2的成功不僅僅在于其端對(duì)端的架構(gòu),而是將所有人類(lèi)已知的序列信息利用起來(lái)了,使用了類(lèi)似半監(jiān)督學(xué)習(xí)的框架。
在這次比賽中,我們也把RNA的序列以及通過(guò)實(shí)驗(yàn)測(cè)得的二級(jí)結(jié)構(gòu)等信息加入到模型之中。
從結(jié)果來(lái)看,雖然比不上物理的方法,但是在這次采取AI方法的參賽隊(duì)伍中表現(xiàn)還是非常不錯(cuò)的。我們做的更好的是熊鵬老師的物理方法。
未來(lái)我們非常期待把AI的方法和物理的方法結(jié)合起來(lái),取得更好的成績(jī)。
熊鵬:首先說(shuō)明一點(diǎn),雖然我們這一組的方法在CASP 15的RNA組中獲得了第一名,但是它的絕對(duì)精度并不高。
比如前面我們提到的兩個(gè)RNA和蛋白質(zhì)的復(fù)合物的結(jié)構(gòu),我們的誤差在20埃左右,拓?fù)涠际清e(cuò)的。
我們預(yù)測(cè)得比較好的target,比如人工設(shè)計(jì)的RNA,或者是幾個(gè)天然的risen,精度在5埃、6埃左右,相對(duì)于蛋白質(zhì)的結(jié)構(gòu)預(yù)測(cè)精度還有很大的一段距離,而距離應(yīng)用就更遠(yuǎn)了。
如果要實(shí)現(xiàn)RNA結(jié)構(gòu)計(jì)算相關(guān)的應(yīng)用,精度最好控制在兩三埃左右,不論是對(duì)小分子設(shè)計(jì)還是對(duì)RNA的功能設(shè)計(jì),都會(huì)有比較大的幫助。
所以,現(xiàn)階段的水平離具體的應(yīng)用依然有一定差距。
如果要從根本上去解決RNA預(yù)測(cè)精度的問(wèn)題,還是需要神經(jīng)網(wǎng)絡(luò)直接學(xué)習(xí)RNA折疊的驅(qū)動(dòng)力,也就是使用神經(jīng)網(wǎng)絡(luò)方法去訓(xùn)練一個(gè)精度更高的立場(chǎng),但我自己并沒(méi)有做太多的嘗試,各位做神經(jīng)網(wǎng)絡(luò)的專(zhuān)家可以往這個(gè)方面嘗試一下。
如果RNA的精度能夠達(dá)到跟蛋白質(zhì)預(yù)測(cè)差不多的水平,它應(yīng)用方向到底哪里?在生物醫(yī)藥方面的應(yīng)用主要在三個(gè)領(lǐng)域。
首先是大家關(guān)心最多的就是mRNA的優(yōu)化或設(shè)計(jì),這涉及到蛋白質(zhì)的密碼子優(yōu)化的問(wèn)題,以及mRNA穩(wěn)定性的問(wèn)題,這與RNA的結(jié)構(gòu)在溶液中的狀態(tài)也有很大關(guān)系。
當(dāng)然,這個(gè)問(wèn)題通過(guò)非結(jié)構(gòu)的方法也許能夠獲得一些信息,但是有結(jié)構(gòu)之后,能夠?qū)NA的折疊判斷更加準(zhǔn)確,這對(duì)于mRNA的優(yōu)化將會(huì)有非常大幫助。
第二個(gè)方向是針對(duì)RNA的target,或是針對(duì)RNA的小分子藥物設(shè)計(jì)。在做藥物的過(guò)程中,部分靶點(diǎn)很難找到小分子結(jié)合口袋,即不可成藥靶點(diǎn)。
對(duì)于這些靶點(diǎn)來(lái)說(shuō),如果不直接抑制其蛋白質(zhì),而是去抑制控制蛋白質(zhì)表達(dá)的Non-coding區(qū),則為藥物開(kāi)發(fā)提供了新的思路。
這個(gè)方向依賴(lài)于兩件事,第一是控制蛋白質(zhì)基因表達(dá),預(yù)測(cè)其準(zhǔn)確的三級(jí)結(jié)構(gòu),第二是解決RNA和小分子的相互作用問(wèn)題,針對(duì)特定的Non-coding區(qū)設(shè)計(jì)特定的小分子。這個(gè)方向國(guó)內(nèi)有很多老師都在做嘗試。
第三個(gè)方向是以RNA本身作為藥物進(jìn)入人體內(nèi)發(fā)揮功能。目前的置放藥物主要還是通過(guò)基因匹配抑制相關(guān)的基因表達(dá)?;蚴荝NA本身作為功能分子實(shí)現(xiàn)基因調(diào)控、基因剪切等。比如設(shè)計(jì)特定的RNA切割特定位點(diǎn),作為基因治療的藥物使用。
據(jù)我了解,有些組在嘗試開(kāi)發(fā)純RNA的分子做基因編輯。目前基因編輯主要還是通過(guò)CAS蛋白體系,即蛋白質(zhì)復(fù)合物+guide RNA,編輯特定的序列。如果我們直接設(shè)計(jì)一個(gè)純RNA的分子,識(shí)別特定的位點(diǎn),執(zhí)行精編輯的功能,在理論上也是可行的。
總結(jié)一下這三個(gè)方向,第一是通過(guò)計(jì)算的方法優(yōu)化mRNA的蛋白表達(dá),優(yōu)化其穩(wěn)定性;第二是針對(duì)RNA target的藥物設(shè)計(jì);第三是將RNA本身作為新型藥物。
雷峰網(wǎng)《醫(yī)健AI掘金志》將于近日推出《GAIR Live | CASP 15冠軍大論道:結(jié)構(gòu)預(yù)測(cè)的下一個(gè)里程碑,將在何處?|(下篇)》,聚焦本屆兩大新增賽道:蛋白質(zhì)-小分子復(fù)合體預(yù)測(cè)和RNA結(jié)構(gòu)預(yù)測(cè)在應(yīng)用層面的潛力,探討當(dāng)下火熱的AIGC技術(shù)在AI生命科學(xué)領(lǐng)域的可能性,歡迎各位讀者朋友關(guān)注。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。