丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
醫(yī)療AI 正文
發(fā)私信給任平
發(fā)送

0

華人團隊大豐收!CASP 15參賽隊伍迎來歷史之最,「后AlphaFold2時代」RNA結構預測率先出圈

本文作者: 任平 2022-12-20 13:53
導語:今年的蛋白質(zhì)結構預測卷不動了。

近日,第15屆蛋白質(zhì)結構預測比賽(CASP 15)正式落下帷幕。

從CASP網(wǎng)站上已公布的六個賽道排名上看,華人團隊表現(xiàn)亮眼,在蛋白質(zhì)單體/多體結構預測、蛋白質(zhì)-蛋白質(zhì)復合體結構預測、RNA結構預測、蛋白質(zhì)-小分子配體復合物結構預測(得分有異議,最終結果尚未公示)等4個賽道上名列前二。其中成立于2021年4月的智峪生科,更是在后兩大賽道中分別取得冠亞軍兩項榮譽。

值得注意的是,不同于往屆將蛋白質(zhì)結構預測作為主要賽道,CASP 15更側(cè)重預測蛋白質(zhì)復合體結構(原來CAPRI比賽的內(nèi)容)和RNA結構(原來RNA-Puzzles比賽的內(nèi)容)。

與此同時,由于前一屆AlphaFold2和RossetaFold在蛋白質(zhì)三級結構預測中取得重大突破,與之相關的細化(Refinement)、接觸預測(Contact and Distance prediction,二級結構預測相關)、模型準確性估計(Domain-level estimates of model accuracy)均被刪除。

據(jù)悉,今年5月CASP 15賽程伊始,CASP比賽發(fā)起人John Moult教授曾對外表示,“蛋白質(zhì)預測上的成就,以及開源工具的不斷豐富,都為解決RNA折疊問題提供了不少幫助。此外,蛋白質(zhì)通過與其他蛋白質(zhì)和分子相互作用而變得獨特,因此我認為這(預測蛋白質(zhì)復合物結構)比預測單個蛋白質(zhì)結構更重要。這是在各種行業(yè)應用,尤其在藥物設計中需要解決的基礎性問題?!?/p>

今年的參賽隊伍多于往屆,并且有較多的國內(nèi)組織參與。據(jù)CASP 15會議官方統(tǒng)計,全球共計163個計算生物學家小組參加了比賽。

其中,來自中國的參賽隊伍數(shù)量基本與美國持平,包含華深智藥的Omegafold、清華產(chǎn)業(yè)研究院AIRfold、百度飛槳的HelixFold、深勢科技的Uni-Fold、上海天壤的TRFold、分子之心的許錦波教授團隊、以及清華、北大、人大、山大、浙工大、江蘇理工、上??拼蟆⑽骱髮W、中科院計算所等諸多業(yè)界和高校團隊。

因此,隨著CASP 15在2022年寒冬打響賽道變革第一槍,生命科學的春天已經(jīng)悄然來臨。

CASP 15轉(zhuǎn)變之年

本屆賽程從2022年5月初持續(xù)到8月中旬,包含蛋白質(zhì)單體/多體結構預測、蛋白質(zhì)復合體結構預測、RNA結構預測、蛋白質(zhì)-小分子配體復合物結構預測、蛋白質(zhì)構象集合、準確性估計等六個賽道。

對此,雷峰網(wǎng)&《醫(yī)健AI掘金志》主要對蛋白質(zhì)單體結構預測、RNA結構預測兩大賽道展開論述。

華人團隊大豐收!CASP 15參賽隊伍迎來歷史之最,「后AlphaFold2時代」RNA結構預測率先出圈

CASP15中的靶標體系和不同賽道參賽情況。注意:數(shù)據(jù)有重合,會出現(xiàn)一個小組參加多條賽道的情況

在蛋白質(zhì)單體結構預測方面,多方法組合優(yōu)化仍是“必殺技”。

在本屆競賽中,蛋白質(zhì)單體結構預測賽道共有135個小組參加,共預測了94個蛋白單體靶標體系。以CASP網(wǎng)站的排名來看,山東大學楊建益為首的Yang-Server服務器、鄭偉博士開發(fā)的UM-TBM服務器(基于D-I-TASSER算法)、日本Infinite Curation公司小田賢幸的人工組PEZYFoldings分列前三,并與后續(xù)算法梯隊拉開距離。

華人團隊大豐收!CASP 15參賽隊伍迎來歷史之最,「后AlphaFold2時代」RNA結構預測率先出圈

據(jù)悉,奪得榜首的楊建益教授,曾就職于南開大學等高校,2021年7月加入山東大學數(shù)學與交叉科學研究中心,研究方向包括蛋白質(zhì)結構與功能預測、RNA結構預測等,此前曾與張陽、David Baker等學者合作,成功開發(fā)了I-TASSER和trRosetta等著名結構預測算法。

此次楊建益團隊帶來的Yang-Server方法,是在以前trRosettaX的基礎上,改進了氨基酸距離和角度的預測,并用trRosetta 的能量函數(shù)進行折疊。而對于trRosetta預測不好的結構,則直接使用了AlphaFold2的預測結果。

華人團隊大豐收!CASP 15參賽隊伍迎來歷史之最,「后AlphaFold2時代」RNA結構預測率先出圈

楊建益

實際上,通過組合使用AlphaFold2或其他方法而取勝并非個例。排名前三的UM-TBM服務器,以及人工組PEZYFoldings,在方法設計或工藝優(yōu)化上均看到了AlphaFold 2的影子。

其中,UM-TBM是對密歇根大學張陽課題組以前所建立的多個工具的使用和改進,再通過AlphaFold 2以及其他深度學習方法產(chǎn)生的結構約束,和AlphaFold 2產(chǎn)生的多個結構一起進行重新折疊和優(yōu)化。

PEZYFoldings則是AlphaFold2的變體。首先它通過利用不同搜索工具以及不同蛋白質(zhì)序列數(shù)據(jù)庫來產(chǎn)生不同的同源序列組合,其次將這些不同的同源序列組合分別輸入AlphaFold2進行預測,再根據(jù)AlphaFold2內(nèi)部的PLDDT將預測出來的多個結構進行排名以及結構比對,從而得出最后的人為挑選。

遺憾的是,今年沒能夠看到“Alphafold3”的參賽,不過Deepmind一向已挑戰(zhàn)科學難題為己任,難道它們認為蛋白質(zhì)單體結構預測問題已經(jīng)解決?

對此,深圳灣實驗室周耀旗教授表示,“雖然AlphaFold 2沒有直接參加比賽,但從上面三個最佳預測方法的分析可以看出, CASP15還是由AlphaFold2隱形取勝?!?br/>

華人團隊大豐收!CASP 15參賽隊伍迎來歷史之最,「后AlphaFold2時代」RNA結構預測率先出圈

 周耀旗教授

值得注意的是,在近日CASP 15總結會議上,領導AlphaFold團隊的John Jumper博士也線上現(xiàn)身,并透露出一個重要信號:DeepMind 即將發(fā)布利用更大數(shù)據(jù)庫訓練的AlphaFold3?!?/p>

周耀旗教授表示,“從技術層面考慮,或許AlphaFold3會再一次拋開其他方法,但也不會拋得太遠,因為方法本質(zhì)不會變化太多?!?/p>

密蘇里大學許東教授補充道,“但至少證明,谷歌后續(xù)將加快商業(yè)化進程。因為現(xiàn)在很多人關心的不光是結構預測,還有結構預測到底能干什么。近日注意到,Isomorphic(谷歌母公司Alphabet下的AI制藥公司)聘請了多位有制藥背景以及機器學習的高管和員工,還將公司總部從倫敦擴展到瑞士洛桑,此前這里有多家大型制藥公司,比如羅氏、諾華和拜耳。”

華人團隊大豐收!CASP 15參賽隊伍迎來歷史之最,「后AlphaFold2時代」RNA結構預測率先出圈


許東教授

實際上,自2021年7月AlphaFold蛋白質(zhì)結構數(shù)據(jù)庫開源以來,其中的蛋白質(zhì)組數(shù)據(jù)已達48種,包含人類,老鼠,果蠅,玉米、亞洲稻種、大豆及酵母等重要作物,大腸桿菌與白色念珠菌等病原體,以及多種罕見熱帶疾病的生物蛋白質(zhì)組等。2022年1月28日,DeepMind團隊宣布“希望此舉可以加快疾病研究進程”。弦外之音直指Isomorphic Laboratories。

此外,在12月13日CASP 15落幕當天,《Nature》發(fā)文“After AlphaFold: protein-folding contest seeks next big breakthrough”,提到了Deepmind缺席原因或要“憋大招”---目前Deepmind正在開發(fā)用”語言模型”預測蛋白質(zhì)結構的方法(其中包含一個由社交網(wǎng)絡巨頭Meta開發(fā)的方法),可能有助于預測突變?nèi)绾胃淖兊鞍踪|(zhì)的結構。如今看來,站在計算生物學和藥物設計的風口,谷歌或?qū)⒃俅巍按笳谷_”。

RNA結構預測首次加入賽道,然而AI的光輝還沒有照亮RNA結構預測。

RNA結構預測引起了研究小組的廣泛興趣。其中,共有42個小組參加了RNA三維結構預測,共預測了12個靶標體系。

實際上,長期以來,由于新的、即將解析的RNA結構太少、導致RNA結構研究一直間歇性開展。周耀旗教授表示,“以前RNA-Puzzles是有一個RNA就讓大家預測一個,這次CASP 15一下子放出來12個RNA序列(從結構上可以分成三類:天然的RNA、人工設計的RNA、蛋白質(zhì)和RNA相互作用的復合結構),充分體現(xiàn)了CASP組織者的能力和AlphaFold2給CASP帶來的品牌效應。”

不過,周教授也提到,“這一打的RNA序列和有100多個蛋白結構域的預測比賽相比,還是差得很遠。”

從目前CASP網(wǎng)站公布排名來看,前兩名都為華人團隊,分別為智峪生科的Alchemy RNA2、密蘇里大學陳世杰組的Chen(綜合他們組過去所開發(fā)的Vfold3D,IsRNA,RNAJP三個方法)。

值得注意的是,此次排名靠前的團隊,采用的都是基于能量函數(shù)的傳統(tǒng)方法,而使用AI深度學習進行端到端的預測,或者先進行AI結構約束的預測再進行能量優(yōu)化的團隊,反而因為RNA已知結構數(shù)據(jù)過少導致訓練過度,在RNA結構預測上并沒有體現(xiàn)出AI的優(yōu)越性。

對此,周耀旗教授做了一個形象的描述:“AI的光輝還沒有照亮RNA結構預測。”

華人團隊大豐收!CASP 15參賽隊伍迎來歷史之最,「后AlphaFold2時代」RNA結構預測率先出圈

RNA結構預測方法的排名

作為RNA三維結構預測的新手,智峪生科為何能夠一舉奪冠?

據(jù)智峪生科介紹,Alchemy_RNA2是由CTO熊鵬博士所帶領打造,并由智峪生科CEO王晟博士擔任“幕后參謀”。王晟是CASP的老選手,從2008年的CASP 8作為觀察員參賽以來,至今已參加8屆,并在CASP 12/14中兩獲蛋白接觸圖預測第一名。

熊鵬曾在澳大利亞格里菲斯大學從事博士后和研究員工作,師從周耀旗教授,2020年4月回國,后以訪問學者身份進入深圳灣實驗室周耀旗課題組,繼續(xù)從事蛋白質(zhì)/RNA的序列、結構與功能關系方面的基礎研究。作為智峪生科的聯(lián)合創(chuàng)始人之一,此次奪冠的AIchemy_RNA2方法的核心,正是基于熊鵬在周耀旗課題組工作時所主導開發(fā)的RNA-BRiQ統(tǒng)計能量函數(shù)。

華人團隊大豐收!CASP 15參賽隊伍迎來歷史之最,「后AlphaFold2時代」RNA結構預測率先出圈熊鵬、王晟

王晟博士對雷峰網(wǎng)(公眾號:雷峰網(wǎng))&《醫(yī)健AI掘金志》說到,“RNA-BRiQ相互作用不再由簡單的距離和角度來表示,而是考慮了RNA的相關原子在三維結構上的電子云分布,通過6個緯度的統(tǒng)計來刻畫,在每個維度上將空間進行離散化進行精確的統(tǒng)計和量化計算。該能量函數(shù)在RNA結構預測上對極性相互作用有著很好的表征能力,因為穩(wěn)定RNA結構的主體能量是極性相互作用、有著強烈的空間方向分布。RNA-BriQ這種統(tǒng)計能量函數(shù)方法,對于人工合成的RNA,或從未出現(xiàn)在PDB數(shù)據(jù)庫中的天然RNA結構的建模,有著非常優(yōu)異的效果?!?/p>

但僅僅是沿用傳統(tǒng)方法還不夠,AI能否用于RNA結構預測?

王晟博士進一步說到,“本屆比賽智峪生科共有兩支隊伍參加RNA結構預測,一支是熊鵬博士帶隊的Alchemy_RNA2,關注統(tǒng)計能量函數(shù);一支是沈濤所帶隊的Alchemy RNA,聯(lián)合港中文李煜教授和復旦大學孫思琪教授團隊,共同研發(fā)了AI預測方法。該方法是全球第一款端到端RNA三維結構預測的深度學習模型?!?/p>

相比于其他團隊(例如David Baker組,張陽組,和楊建益組)的AI結構預測模型,智峪生科團隊搭建的Alchemy RNA有如下一些特點:

首先,和蛋白質(zhì)預測不同,RNA領域里的結構數(shù)據(jù)非常稀少。去除冗余之后,我們只有1000個左右的RNA結構數(shù)據(jù)。Alchemy RNA利用了一個預訓練的語言模型,RNA foundation model (RNA-FM),它在2300萬個非冗余RNA序列上用自監(jiān)督的方式進行訓練,學習到了豐富的RNA序列信息。Alchemy RNA利用RNA-FM得到的RNA序列表征來送入模型,其中在大量數(shù)據(jù)庫中學習到的RNA序列表征能夠幫助模型快速收斂。

其次,Alchemy RNA通過引入多任務訓練來運用更多的先驗知識來幫助模型學習到更多的生物學語義。它將RNA中特有的二級結構堿基互補配對信息以損失函數(shù)的方式加入進來使模型在優(yōu)化時學到堿基配對的約束信息。

最后,Alchemy RNA通過自蒸餾的訓練方式提前在真實結構數(shù)據(jù)上訓練好一個教師模型用來生成自蒸餾數(shù)據(jù)的偽標簽,Alchemy RNA額外從RNAStralign和bp-RNA-1m數(shù)據(jù)庫中構建了一個自蒸餾數(shù)據(jù)。這些創(chuàng)新使得Alchemy RNA在有限的RNA結構數(shù)據(jù)上訓練出了一個高效準確的深度學習模型,它能夠端到端的預測RNA 3D結構。

在CASP15比賽中,Alchemy RNA作為全自動的端到端預測方法,在所有的AI預測方法中名列第一位。更重要的是,Alchemy RNA還可以全自動地判斷輸出結構的預測置信度。也就是說,它可以自動判斷它輸出的結構是否是合理的,是不是還需要人工檢查。

這個功能非常實用,可以幫助我們高效地融合專家知識。目前智峪生科在CASP中所展示出來的AI方法,由于主要采取的是多序列匹配MSA作為輸入,因此對于這12個測試結構中的天然RNA,是可以搜索到同源序列并產(chǎn)生多序列匹配的,進而可以使用我們的AI方法進行預測。

而對于那些人工合成的RNA,或從未出現(xiàn)在PDB數(shù)據(jù)庫中的天然RNA結構,雖然目前無法產(chǎn)生多序列聯(lián)配,但是Alchemy RNA就會基于預測置信度來提示--對于這些RNA則需要進一步處理。這樣研究人員便可以借助統(tǒng)計能量函數(shù)方法或其它人工介入的手段進行操作。

王晟博士表示,“上述的這種基于預測置信度的做法是一種簡單的融合AI與統(tǒng)計能量函數(shù)的手段。值得一提的是,目前由于RNA的結構數(shù)量過少以及MSA信息的依賴,純AI方法還沒有能夠?qū)崿F(xiàn)針對任意序列的RNA結構的精確預測,還處于一個前AlphaFold2時代。但在未來,隨著我們積累越來越多的RNA結構數(shù)據(jù)、訓練更強大的RNA序列基礎模型、以及更深入的進行AI方法與統(tǒng)計能量函數(shù)的融合,我相信一定會讓整個RNA結構預測領域,進入真正的AlphaFold2時代。”

生命科學領域或合成生物學領域,將迎來哪些變化?

CASP比賽已近30年,一直以與時俱進著稱,因此本屆比賽被諸多圈內(nèi)人視為“后AlphaFold2時代”首屆比賽。

換言之,蛋白結構預測取得突破性進展后,單體結構預測將進入一個新的漸進發(fā)展階段,但計算結構生物學領域中RNA結構的預測問題,以及復合體建模的問題(包括了蛋白質(zhì)和其他生物分子,如蛋白質(zhì),核酸以及小分子,多糖等等),即將進入到一個廣受關注的時代。

王晟博士表示,“過去蛋白質(zhì)結構預測的很多老牌強隊,也會逐漸參與到這些新興賽道中,比如這一屆的RNA結構預測中,就看到了David Baker組、密歇根大學張陽組,山東大學楊建益組等熟悉面孔的加入?!?/p>

新老團隊的流向再次說明:RNA結構預測水平的進步,因為其在藥物設計和合成生物學方向的落地應用而率先脫穎而出。

那么,RNA結構預測水平的進步,生命科學領域或合成生物學領域而言有何意義?

具體來看,本次比賽一共有12個RNA靶標體系,在功能上可以分為四類:功能RNA分子(ribozyme,riboswitch)、病毒基因組RNA片段、人工設計的RNA分子,以及蛋白RNA復合物。

功能RNA分子在基因表達調(diào)控方面起重要作用;病毒基因組RNA對于我們理解病毒復制傳播機理、開發(fā)抗病毒藥物重要幫助;人工設計RNA分子有助于合成生物學應用;蛋白RNA復合物的應用方向是藥物開發(fā)。

那么無論是此次在RNA結構預測領域奪冠的智峪生科,還是其他團隊的加入,都證明實現(xiàn)高精度RNA結構預測,必將為非編碼RNA功能的發(fā)現(xiàn)及解釋,RNA藥物的設計與開發(fā)帶來深遠的影響。

針對這個問題,王晟博士做了詳細介紹,認為目前在RNA結構預測領域的研究,有利于解析更多的RNA結構、設計出結構更穩(wěn)定的RNA序列、成為關鍵藥物靶點、以及賦能合成生物學領域。

首先,它將有助于研究人員解析更多的RNA結構。盡管Alchemy RNA在大多數(shù)天然RNA家族和RNA類型上的預測精度令人印象深刻、以及Alchemy RNA2在人工設計的RNA結構上的驚人表現(xiàn),但考慮到RNA的多樣性及其靈活的結構,人們還是應該用實驗的方法去解析更多的RNA結構,從而極大的擴充PDB種的RNA結構數(shù)量。因此,智峪生科開發(fā)RNA預測方法,有可能成為指導實驗設計和數(shù)據(jù)處理的初始模型。

其次,針對藥物設計領域,例如在mRNA疫苗的設計上,需要關注設計的RNA序列的結構穩(wěn)定性,這樣就可以提高疫苗設計的成功率。此外,基于RNA的小分子藥物設計方向,RNA分子也逐漸可能成為將來可以成藥的靶點,也依賴于高精度的RNA 3D結構預測,和高精度的RNA-小分子復合體力場。同時,RNA和蛋白質(zhì)復合體也可能成為關鍵的藥物靶點,針對復合體界面的藥物設計可以極大拓展藥物設計的空間。

除了藥物設計領域,高精度RNA預測也可以賦能合成生物學領域。例如,如何構建高精度的密碼子優(yōu)化算法,非常依賴于高精度的RNA結構預測,尤其是從RNA binding site到蛋白質(zhì)前面一些氨基酸對應的mRNA的結構,會影響到到蛋白質(zhì)的高效可溶表達。另外,RNA分子也可能成為非常有潛力的生物傳感器,對小分子的檢測可能做到非常高的靈敏度,這個方面的應用也是非常依賴于高精度的RNA結構預測。

據(jù)王晟博士介紹,智峪生科已自主打造了完整蛋白質(zhì)結構預測、設計、生產(chǎn)體系,以此開展藥物輔助研發(fā)及合成生物學業(yè)務。那么基于蛋白質(zhì)/RNA結構預測,已經(jīng)有了落地打算,“接下來將主要應用在合成生物學的關鍵元件的發(fā)現(xiàn)和設計中,包括一些關鍵的生物傳感器的設計,用于檢測酶催化的產(chǎn)物或者底物等,也可以用于密碼子的優(yōu)化以幫助蛋白質(zhì)高效可溶表達?!?/p>

CASP比賽將走向何處?

實際上,此次比賽中也有不少圈內(nèi)人格外關注復合物結構預測問題。也就是各種生物大分子之間,例如蛋白質(zhì),核酸,多糖,脂類等等,生物大分子-小分子之間的相互作用模式問題。

諸多圈內(nèi)人對雷峰網(wǎng)&《醫(yī)健AI掘金志》表示,“這一定會成為下一屆,或者以后CASP比賽的主流方向。”

江蘇理工學院生物信息與醫(yī)藥工程研究所所長,普美瑞生物首席科學顧問常珊博士,作為受邀CASP 15總結會議的團隊負責人表示:從技術落地的角度來說,今年新開賽道都非常有必要取得突破。RNA結構預測與最近的RNA療法等密切相關、蛋白-ligand相互作用預測是藥物設計和篩選的基礎、復合物組裝對抗體開發(fā)和蛋白質(zhì)降解(PROTAC)等均有重要作用。尤其是蛋白質(zhì)或核酸分子在折疊形成三維結構之后,通常需要裝配成各種復合物形式在生命活動中發(fā)揮其功能,因此復合物結構的預測是生命科學領域的又一重大挑戰(zhàn)。

王晟博士補充道,生物學方向可能更關注復合體問題。了解這些相互作用,可以進一步明確分子的功能,從而為人工干預和藥物設計提供思路和基礎。此外,在合成生物學領域,精確的復合體建模,也為關鍵的元件發(fā)現(xiàn)和設計提供了基礎。

比如,在蛋白質(zhì)-小分子相互作用的預測上,可以輔助我們在酶發(fā)現(xiàn)上進一步提高精度和效率,實現(xiàn)在海量序列中發(fā)現(xiàn)有功能的酶。了解蛋白質(zhì)和多糖的相互作用,可以幫助我們設計參與多糖合成的酶,這也是非常受工業(yè)界和科學家關注的方向。

在他看來,對蛋白質(zhì)進行系統(tǒng)深入的研究,能讓我們從更深層次詮釋生命體的構成和運作變化規(guī)律,進而全面揭示生命運行、發(fā)展的機制,激發(fā)生物科學、藥物研發(fā)、合成生物學方面的發(fā)展。因此蛋白質(zhì)研究、預測蛋白質(zhì)結構等,是學術與產(chǎn)業(yè)界深度參與的領域。

“在AI時代,得益于算力和算法模型的極大提升,我們終將迎來一個生命科學大爆發(fā)時代?!蓖蹶刹┦勘硎?。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

分享:
相關文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說