丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
生物醫(yī)藥 正文
發(fā)私信給李雨晨
發(fā)送

0

四大頂級(jí)專家談AlphaFold2:記錄、風(fēng)向與學(xué)術(shù)思考(上篇)

本文作者: 李雨晨 2020-12-16 10:28
導(dǎo)語(yǔ):AlphaFold2的勝利就像是一場(chǎng)接力賽,往往是跑到最后一棒的人會(huì)有更多的高光時(shí)刻。

四大頂級(jí)專家談AlphaFold2:記錄、風(fēng)向與學(xué)術(shù)思考(上篇)

盡管,距離Deepmind公司AlphaFold2的橫空出世,已經(jīng)過(guò)去了兩周的時(shí)間,但是圍繞AlphaFold2的討論熱度依然不減。

AlphaFold2是否是完美無(wú)缺,如果不是,它的“勝利”具體體現(xiàn)在哪些項(xiàng)目上?AlphaFold2對(duì)結(jié)構(gòu)生物學(xué)的影響有哪些,哪些方向能受益而加速突破?哪些方向會(huì)受到影響而淡出?學(xué)術(shù)研究者與企業(yè)工程人員該如何分工,進(jìn)一步實(shí)現(xiàn)“產(chǎn)學(xué)融合”的高效轉(zhuǎn)化?

關(guān)于AlphaFold2,太多的問(wèn)題需要解答。

近日,主題為“權(quán)威專家談AlphaFold:DeepMind到底突破了什么?”的圓桌論壇正式舉行。本次主題論壇由圖像計(jì)算與數(shù)字醫(yī)學(xué)國(guó)際研討會(huì)(ISICDM)主辦,雷鋒網(wǎng)、醫(yī)健AI掘金志協(xié)辦。

印第安納大學(xué)醫(yī)學(xué)院副院長(zhǎng)、AIMBE Fellow黃昆教授擔(dān)任主持,密蘇里大學(xué)教授、AAAS/AIMBE Fellow許東教授、密歇根大學(xué)教授、DeLano獎(jiǎng)得主和I-TASSER算法發(fā)明人張陽(yáng)教授、芝加哥豐田計(jì)算技術(shù)研究所、斯隆獎(jiǎng)得主許錦波教授共同參與討論。

在上篇中,幾位嘉賓共同回顧C(jī)ASP競(jìng)賽的歷史、AlphaFold2的技術(shù)細(xì)節(jié)、局限與意義;在下篇中,將著重分析AlphaFold2的產(chǎn)業(yè)應(yīng)用前景、學(xué)術(shù)研究風(fēng)向、藥物研發(fā)等“未來(lái)”話題。

圖像計(jì)算與數(shù)字醫(yī)學(xué)國(guó)際研討會(huì)(ISICDM)自2017年創(chuàng)辦以來(lái),一直是醫(yī)工交叉的前沿陣地,圍繞圖像計(jì)算和數(shù)字醫(yī)學(xué)中的一些重要的理論、算法與應(yīng)用問(wèn)題進(jìn)行學(xué)術(shù)討論,旨在促進(jìn)電子信息(包括計(jì)算機(jī)、自動(dòng)化與生物醫(yī)學(xué)工程)、數(shù)學(xué)和醫(yī)學(xué)等領(lǐng)域?qū)W者的交流與合作,截止至今,ISICDM共邀請(qǐng)到400余位大會(huì)報(bào)告及專題報(bào)告嘉賓。

在今年的ISICDM 2020上, “計(jì)算解剖學(xué)”創(chuàng)始人的Michael I.Miller教授,新加坡國(guó)家科學(xué)院院士、發(fā)展中國(guó)家科學(xué)院院士沈佐偉教授、瑞士工程科學(xué)院院士Michael Unser教授、美國(guó)國(guó)家發(fā)明家科學(xué)院院士王革教授等數(shù)十位嘉賓分別進(jìn)行了主題演講。

以下是主題論壇的現(xiàn)場(chǎng)內(nèi)容,雷鋒網(wǎng)做了不改變?cè)獾木庉嫼驼?/h3>

黃昆:請(qǐng)大家先談?wù)勛约簩?duì)CASP競(jìng)賽的了解,包括其目的、歷史。

張陽(yáng):CASP全稱是Critical Assessment of protein Structure Prediction,它是一個(gè)關(guān)于蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的競(jìng)賽。在CASP舉辦之前,蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)一直是生命科學(xué)里的一個(gè)重要問(wèn)題。每年都會(huì)有人發(fā)表大量的論文,有些論文甚至宣稱解決了這個(gè)問(wèn)題。

但是,蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)是一個(gè)基于計(jì)算機(jī)程序預(yù)測(cè)的問(wèn)題,如果沒(méi)有實(shí)驗(yàn)的介入,沒(méi)法斷定這些宣稱是否真的正確。

所以,在1994年,馬里蘭大學(xué)的John Moult教授和同事就發(fā)起并組織了這么一個(gè)比賽。每年的夏天,由組織者收集大約一百個(gè)左右蛋白質(zhì)的序列,沒(méi)有任何人知道他們的三級(jí)結(jié)構(gòu)。然后讓做蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的人來(lái)利用計(jì)算機(jī)程序來(lái)預(yù)測(cè)他們的結(jié)構(gòu),同時(shí)讓實(shí)驗(yàn)結(jié)構(gòu)生物學(xué)家的人利用X-光衍射,核磁共振,或者冷凍電鏡的方法,把這些蛋白質(zhì)的結(jié)構(gòu)解析出來(lái)。

最后,由獨(dú)立的科學(xué)家團(tuán)隊(duì)把計(jì)算機(jī)預(yù)測(cè)的模型和實(shí)驗(yàn)的結(jié)構(gòu)對(duì)照,分析不同計(jì)算機(jī)算法的預(yù)測(cè)結(jié)果。因?yàn)槭请p盲的預(yù)測(cè),這些結(jié)果可以客觀真實(shí)的反映結(jié)構(gòu)預(yù)測(cè)的精度。

CASP組織者一直是在淡化競(jìng)賽的概念,他們一直把它稱作CASP實(shí)驗(yàn)。其目的是評(píng)價(jià)目前最領(lǐng)先的技術(shù),找出現(xiàn)存的問(wèn)題,規(guī)范和指導(dǎo)領(lǐng)域的發(fā)展。

但是,每個(gè)參賽者都很認(rèn)真對(duì)待。這個(gè)比賽一般是5月份開(kāi)始,八月份結(jié)束,很多實(shí)驗(yàn)室在比賽期間,停下一切事務(wù),全力參賽。這應(yīng)該是生物學(xué)領(lǐng)域第一次舉辦這樣的比賽,也是最重要和名氣最大的科學(xué)競(jìng)賽。后來(lái)很多學(xué)科和專業(yè)都模仿這種方式,舉辦各種科學(xué)競(jìng)賽。

黃昆:這次CASP中AlphaFold的勝利體現(xiàn)在哪些項(xiàng)目上?除了AlphaFold2之外,這次CASP競(jìng)賽還有哪些亮點(diǎn)?

張陽(yáng):過(guò)去二十多年來(lái),蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)這個(gè)領(lǐng)域一直在不斷進(jìn)步。特別是最近五,六年,因?yàn)楣餐莼?,接觸圖預(yù)測(cè),以及深度機(jī)器學(xué)習(xí)技術(shù)的引進(jìn),很多實(shí)驗(yàn)室的算法精度都有很大的提升。這些提升是學(xué)術(shù)界內(nèi)部的提升,和谷歌的AlphaFold沒(méi)有關(guān)系。

就拿我們實(shí)驗(yàn)室的I-TASSER自動(dòng)服務(wù)器來(lái)講,在兩年前CASP13的時(shí)候,它預(yù)測(cè)非同源蛋白結(jié)構(gòu)的數(shù)目比六年前CASP11的時(shí)候增長(zhǎng)了五倍。在這次CASP14中,它的預(yù)測(cè)精度和CASP13相比,也有很大增加。

但是這次AlphaFold2比上次的AlphaFold增加的幅度更大。他們大約有一半的蛋白質(zhì),其單結(jié)構(gòu)域結(jié)構(gòu)的GDT-TS score都大于0.9,也就是說(shuō)接近實(shí)驗(yàn)測(cè)量的精度。

我在另外一個(gè)場(chǎng)合引用谷歌的宣傳材料稱,他們有2/3的蛋白達(dá)到了這個(gè)精度,但是后來(lái)我自己做了結(jié)構(gòu)比對(duì)和檢查,發(fā)現(xiàn)除掉水分之后,這個(gè)數(shù)字應(yīng)該是51%(如果考慮第一個(gè)模型);如果考慮五個(gè)模型中最好的模型,有58%的結(jié)構(gòu)域達(dá)到這個(gè)精度。但是這個(gè)結(jié)果依然非常驚艷!

為什么如此驚艷?蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)一般分成基于模板從頭預(yù)測(cè)兩種算法。如果數(shù)據(jù)庫(kù)中有同源的結(jié)構(gòu)存在,大家利用基于模板的算法,都可以做的很好。

但是如果結(jié)構(gòu)數(shù)據(jù)庫(kù)中沒(méi)有同源蛋白存在,純粹基于序列從頭預(yù)測(cè),精度會(huì)大幅度下降。但是AlphaFold2,它就用一種算法---深度機(jī)器學(xué)習(xí),對(duì)于從頭預(yù)測(cè)的蛋白質(zhì)做的幾乎和基于模板的蛋白質(zhì)一樣好,這就是它讓人震驚的地方。

和傳統(tǒng)的結(jié)構(gòu)預(yù)測(cè)方法相比,這個(gè)增加幅度簡(jiǎn)直難以置信。因?yàn)檫@是CASP雙盲測(cè)試的檢測(cè)結(jié)果,我們沒(méi)有選擇,只有相信它。

現(xiàn)在我講一個(gè)小故事。這次CASP比賽,我們實(shí)驗(yàn)室也有幸被邀請(qǐng)?jiān)贑ASP會(huì)議上做報(bào)告(包括谷歌和Baker實(shí)驗(yàn)室,一共有三個(gè)團(tuán)隊(duì)被邀請(qǐng)做結(jié)構(gòu)預(yù)測(cè)報(bào)告),所以我們大概在CASP會(huì)議之前的三個(gè)星期,拿到了各團(tuán)隊(duì)參賽的數(shù)據(jù)。

當(dāng)然為了新聞的要求,CASP要求在12/1號(hào)開(kāi)會(huì)之前,不得向外界泄露。我當(dāng)時(shí)看了結(jié)果之后,雖然有一些心理準(zhǔn)備,但是仍然驚訝的目瞪口呆。我給Moult回信,表示對(duì)結(jié)果非常震驚。

他回信說(shuō),自從六月份他們開(kāi)始看到并評(píng)估第一個(gè)目標(biāo)蛋白以來(lái),整個(gè)CASP組織團(tuán)隊(duì)就開(kāi)始對(duì)結(jié)果完全無(wú)語(yǔ)了,他用的一個(gè)詞是“speechless”。你可以想象整個(gè)領(lǐng)域?qū)@個(gè)結(jié)果的驚訝程度。

黃昆:我想請(qǐng)教一下,蛋白質(zhì)折疊從計(jì)算的角度來(lái)講,具體的難點(diǎn)是什么?它的意義在哪里?另外AlphaFold2的算法,取得了哪些技術(shù)上的突破?到底都利用了哪些前人的工作?

許東:蛋白質(zhì)折疊對(duì)于理解基因的功能、疾病的原理、制藥都是非常重要的。

幾十年前,大家就在探討這個(gè)領(lǐng)域里被稱作Levinthal的悖論。

第一,一般蛋白的平均長(zhǎng)度大概在300個(gè)氨基酸,假設(shè)每個(gè)氨基酸的可能構(gòu)象有10個(gè),所有的可能性就是10的300次方,數(shù)據(jù)量非常巨大。即使是全球最好的計(jì)算資源價(jià)值,也不能處理這么多的可能性。

第二,蛋白質(zhì)折疊靠的是能量,能量實(shí)際上非常復(fù)雜。從底層來(lái)講,它是基于量子力學(xué)的過(guò)程,即使走到經(jīng)典力學(xué)的過(guò)程,把它變成一個(gè)函數(shù),這個(gè)函數(shù)非常復(fù)雜。要優(yōu)化這個(gè)函數(shù),沒(méi)有什么可能。

第三,這幾十年,我們確實(shí)積累了大量的實(shí)驗(yàn)結(jié)構(gòu)?,F(xiàn)在數(shù)據(jù)庫(kù)里大概有17萬(wàn)個(gè)已知結(jié)構(gòu),聽(tīng)起來(lái)數(shù)量龐大,但實(shí)際上很多蛋白的序列與結(jié)構(gòu)是類似的,沒(méi)有那么多獨(dú)特的結(jié)構(gòu)、序列。

深度學(xué)習(xí)是屬于“數(shù)據(jù)饑餓”的方法,喂它多少數(shù)據(jù)都不一定夠。過(guò)去通過(guò)這個(gè)方法,也不能很系統(tǒng)地得出準(zhǔn)確的結(jié)果。即使在某一個(gè)蛋白質(zhì)預(yù)測(cè)上做得非常好,但是不能保證全都做得很好。

這次的AlphaFold2,我認(rèn)為最主要的是實(shí)現(xiàn)了魯棒性,能夠得到很穩(wěn)定、很好的結(jié)果。過(guò)去從來(lái)沒(méi)有團(tuán)隊(duì)做到。從技術(shù)上講,我們有一個(gè)打分機(jī)制,基于多少個(gè)氨基酸預(yù)測(cè)到位來(lái)評(píng)分。一般蛋白質(zhì)預(yù)測(cè)需要達(dá)到90%及以上的準(zhǔn)確率,才能算預(yù)測(cè)得比較有用。

這次AlphaFold2已經(jīng)達(dá)到了平均92.4,幾乎和實(shí)驗(yàn)結(jié)果差不多。今后,AlphaFold預(yù)測(cè)出來(lái)的結(jié)果,就可以和實(shí)驗(yàn),例如MR、冷凍電鏡的方法相媲美。

這個(gè)現(xiàn)象與AI閱片一樣,雖然不能完全代替醫(yī)生的診斷方式,但是可以對(duì)人類醫(yī)生的一些漏診進(jìn)行補(bǔ)充。

當(dāng)然,AlphaFold2的成果不代表所有問(wèn)題都得到解決,但是第一次基本上系統(tǒng)地解決了蛋白結(jié)構(gòu)預(yù)測(cè)的問(wèn)題。我非常驚訝的就是它的精度,不光是蛋白質(zhì)的主鏈,在被稱作側(cè)鏈的原子層面,預(yù)測(cè)也非常到位、準(zhǔn)確,這是我們很多人想不到的。

還有哪些問(wèn)題沒(méi)解決?

其中有一些非常難的蛋白,或者數(shù)據(jù)庫(kù)里沒(méi)有這樣的結(jié)構(gòu),或者結(jié)構(gòu)跟現(xiàn)有數(shù)據(jù)庫(kù)里其他結(jié)構(gòu)很像,但是基本上沒(méi)有任何相似的序列,被稱之為孤兒基因。這種情況非常難預(yù)測(cè),分?jǐn)?shù)大概能達(dá)到87分左右。

另外一點(diǎn),AlphaFold2今后能否全自動(dòng)做蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)?AlphaFold2的贏面不是在全自動(dòng)的大類里,還需要手工進(jìn)行。能否真正實(shí)現(xiàn)全自動(dòng),或者算得足夠快,讓很多人都能用上,還需要進(jìn)一步探索。

第三,蛋白有很多種類(多聚體),例如同一種蛋白形成2-4個(gè)多聚體,或者是不一樣的蛋白形成1個(gè)多聚體。這個(gè)問(wèn)題還沒(méi)有真正的得以解決。此外,蛋白經(jīng)常被修飾,比如糖化、磷酸化?,F(xiàn)在設(shè)計(jì)的新冠疫苗,在重要的蛋白上經(jīng)常有糖化的修飾,對(duì)疫苗設(shè)計(jì)都是很大的障礙。對(duì)于那些有修飾的蛋白能否預(yù)測(cè)得很準(zhǔn)確,目前也不是很清楚。

實(shí)際上,蛋白在不同環(huán)境下的構(gòu)象并不相同,比如酸堿度的高低,含鹽的多少等因素,給蛋白質(zhì)的在生物體內(nèi)的精準(zhǔn)預(yù)測(cè)制造了非常大的難度。

話說(shuō)回來(lái),很多重大科學(xué)問(wèn)題宣布解決時(shí),并不意味著所有問(wèn)題得到解決,只是大的問(wèn)題得到解決,其它小問(wèn)題可以慢慢解決。

這次AlphaFold2的成果,很多人功不可沒(méi)。我們也很興奮,幫助這個(gè)領(lǐng)域增加了很多的曝光度。這就像是一場(chǎng)接力賽,往往是跑到最后一棒的人會(huì)有更多的高光時(shí)刻。然而,這個(gè)接力賽確實(shí)需要很多人共同參與才能完成。

在蛋白質(zhì)結(jié)構(gòu)研究的50年過(guò)程中,很多華人科學(xué)家做出了非常重要的貢獻(xiàn),徐鷹教授、周耀旗教授、李明教授、許錦波教授、張陽(yáng)教授、卜東波教授和我們系里的程建林教授等在這個(gè)領(lǐng)域里都做了非常好的工作。

其中最值得介紹的就是我們的兩位嘉賓。

首先就是張陽(yáng)教授,從2006年開(kāi)始,常年把持CASP自動(dòng)預(yù)測(cè)類的第一名,包括今年自動(dòng)類第一名仍然是他們團(tuán)隊(duì),他們的服務(wù)器被151個(gè)國(guó)家和地區(qū)使用,有14萬(wàn)個(gè)以上的用戶,預(yù)測(cè)了五十幾萬(wàn)個(gè)蛋白,張教授還有很多蛋白方面的服務(wù)器,并且他在15年前就指出,完全通過(guò)數(shù)據(jù)進(jìn)行搜索以解決蛋白結(jié)構(gòu)的理論上的可能,做了很多的數(shù)據(jù)模擬,我覺(jué)得這些工作都很具有前瞻性。

許錦波教授在氨基酸的距離預(yù)測(cè)上,真正將蛋白質(zhì)預(yù)測(cè)的問(wèn)題提升了一個(gè)臺(tái)階。

其實(shí),AlphaFold2對(duì)蛋白結(jié)構(gòu)預(yù)測(cè)中很重要的一點(diǎn),是對(duì)蛋白質(zhì)距離預(yù)測(cè)的過(guò)程。這個(gè)過(guò)程中,許錦波教授是第一個(gè)認(rèn)識(shí)到氨基酸之間的距離預(yù)測(cè),不能一對(duì)一對(duì)預(yù)測(cè),要所有對(duì)一起預(yù)測(cè)。這就是所謂的end-to-end——端到端模型。

這次,AlphaFold2所使用的也是端到端模型,根據(jù)序列的特征直接輸出了三維結(jié)構(gòu)。許錦波教授是第一個(gè)真正成功利用深度學(xué)習(xí)把這件事(距離)搞定的。CASP13的時(shí),AlphaFold1也是用許錦波教授的方法來(lái)進(jìn)行研究。

張陽(yáng):我稍微補(bǔ)充一下。AlphaFold是不是解決了蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的問(wèn)題?我覺(jué)得還有待商榷。

首先,怎么定義蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的問(wèn)題?

蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)包含三級(jí)結(jié)構(gòu)和四級(jí)結(jié)構(gòu)預(yù)測(cè)。其中三級(jí)結(jié)構(gòu)是指單鏈,四級(jí)結(jié)構(gòu)是指多鏈蛋白質(zhì)的結(jié)構(gòu)預(yù)測(cè)。這次AlphaFold參加的主要是三級(jí)結(jié)構(gòu)預(yù)測(cè)。即使是在三級(jí)結(jié)構(gòu)預(yù)測(cè),CASP評(píng)估的也只是單結(jié)構(gòu)域的預(yù)測(cè)結(jié)構(gòu)。

自然界中一個(gè)功能蛋白質(zhì)鏈往往也包含多個(gè)結(jié)構(gòu)域,這些結(jié)構(gòu)域之間有復(fù)雜的相互作用。這些結(jié)構(gòu)域之間或者蛋白質(zhì)鏈之間的相互作用都屬于蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的范疇,都具有重要的生物學(xué)意義。但是CASP對(duì)這種多結(jié)構(gòu)域的復(fù)雜構(gòu)型并沒(méi)有做評(píng)估,主要是多年以來(lái)我們沒(méi)有好的辦法預(yù)測(cè)它們。

所以,嚴(yán)格意義上講,AlphaFold2接近于解決了單結(jié)構(gòu)域的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)問(wèn)題,預(yù)測(cè)精度很高。很多媒體中提到它的中位數(shù)值是0.92,即大致有一半的模型是超過(guò)0.9,接近或者達(dá)到實(shí)驗(yàn)的精度。也就是說(shuō),還有接近一半的蛋白質(zhì)預(yù)測(cè)沒(méi)有達(dá)到這個(gè)精度。因此,要完全解決蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的問(wèn)題,仍然需要很多工作。

提到華人教授的貢獻(xiàn),許東教授是這個(gè)領(lǐng)域的前輩。在進(jìn)入這個(gè)領(lǐng)域之前,我就已經(jīng)知道許東老師和徐鷹老師他們?cè)?0年前開(kāi)發(fā)的Prospect算法,我的實(shí)驗(yàn)室現(xiàn)在還在運(yùn)用他們的程序。

另外,我們也常常用DomainParser做蛋白質(zhì)結(jié)構(gòu)域的分割,這個(gè)程序也是許東教授他們?cè)?0年前開(kāi)發(fā)的?,F(xiàn)在,許老師和徐老師的研究興趣可能轉(zhuǎn)向了其他方面,但他們?cè)谶@個(gè)領(lǐng)域里的努力是非??扇牲c(diǎn)的。

黃昆:AlphaFold2算法的成功主要得益于機(jī)器學(xué)習(xí),深度學(xué)習(xí)中的哪些重要技術(shù)和突破(例如注意力機(jī)制)?如果僅靠增加算力能否進(jìn)一步突破?AlphaFold2算法當(dāng)前的局限性在哪里?可能有哪些改進(jìn)空間?

許錦波:進(jìn)行蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)這方面的研究,我是跟徐鷹老師和許東老師學(xué)的。雖然他們不是我的導(dǎo)師,但是讀博士時(shí),我就在讀他們的prospect代碼,開(kāi)始學(xué)習(xí)這個(gè)方向。

就如許東教授說(shuō),AlphaFold2的很多算法靈感都是基于以前的工作。我先簡(jiǎn)單回顧一下經(jīng)典的算法。

最早是用蒙特卡洛采樣(Monte Carlo Simulation),隨機(jī)產(chǎn)生多種可能的形狀,然后用一個(gè)能量函數(shù)去選擇,覺(jué)得哪個(gè)形狀更有可能,就選擇能量最小的形狀。這是早期的算法。

但這個(gè)算法的問(wèn)題在于,稍微大點(diǎn)的蛋白就處理不了了,即使后來(lái)加上了片段組裝 (fragment assembly),也還是處理不了特別大的蛋白,并且需要很多計(jì)算資源才能做這件事情。

2010年之后,這個(gè)領(lǐng)域里的共進(jìn)化數(shù)據(jù)變得很有用,主要是因?yàn)闇y(cè)序變得非常容易,產(chǎn)生了大量的蛋白序列。雖然這些蛋白序列沒(méi)有結(jié)構(gòu),但是沒(méi)有關(guān)系。我們可以通過(guò)研究它們的進(jìn)化關(guān)系,把它們跟結(jié)構(gòu)的關(guān)系預(yù)測(cè)出來(lái),這叫共進(jìn)化分析方法。這種方法取得了一定成功,但是對(duì)很多沒(méi)有結(jié)構(gòu)的蛋白質(zhì)并沒(méi)有很好的效果。

其中一個(gè)原因是,很多蛋白還沒(méi)有那么多同源序列,需要有很多同源序列才能做得比較準(zhǔn)確。通常來(lái)說(shuō),共進(jìn)化分析方法需要跟蒙特卡洛采樣結(jié)合使用,效果才會(huì)比較好。

2012年,深度學(xué)習(xí)開(kāi)始慢慢進(jìn)入這個(gè)領(lǐng)域,但那個(gè)時(shí)候并沒(méi)有成功。有些研究者嘗試了一些非常簡(jiǎn)單的深度學(xué)習(xí)方法,比如說(shuō)DBN方法,但并沒(méi)有表現(xiàn)出任何好的效果。

直到2016年我們引入卷積殘差神經(jīng)網(wǎng)絡(luò)后,我們才真正發(fā)現(xiàn),深度學(xué)習(xí)可以把這個(gè)問(wèn)題做得很好。通過(guò)卷積殘差神經(jīng)網(wǎng)絡(luò),可以將共進(jìn)化信息利用得很好,還是一樣用同源信息?,F(xiàn)在所有成功的方法,都是依靠同源信息。那個(gè)時(shí)候我們就發(fā)現(xiàn)可以把氨基酸在空間中的關(guān)系(接觸圖或距離)預(yù)測(cè)得比較準(zhǔn)。

2018年之后,很多成功的組都是要么間接、要么直接地使用這種卷積神經(jīng)網(wǎng)絡(luò)跟共進(jìn)化信息結(jié)合起來(lái)的方法。

發(fā)展到這個(gè)地步,我們就發(fā)現(xiàn)完全可以拋棄蒙特卡洛采樣。當(dāng)然,用蒙特卡洛采樣可能會(huì)稍微好一點(diǎn),但差別不是很大,這樣可以大大節(jié)省計(jì)算資源。只是在做訓(xùn)練的時(shí)候還是需要那么幾塊GPU,這樣才能比較快地將模型訓(xùn)練好。

2018年,DeepMind也使用了卷積殘差神經(jīng)網(wǎng)絡(luò)的方法。他們的團(tuán)隊(duì),無(wú)論是人才資源還是計(jì)算資源都比其他組要多一些,那個(gè)時(shí)候的效果也挺好。

AlphaFold2做得比2018年要好很多。他們確實(shí)是發(fā)展了一些新的方法。例如最新的算法——注意力機(jī)制。他們引入了一個(gè)像Transformer之類的神經(jīng)網(wǎng)絡(luò)。Transformer翻譯為中文就是“變形金剛”,是自然語(yǔ)言處理里一個(gè)非?;馃岬纳窠?jīng)網(wǎng)絡(luò)模型。Transformer的主要作用還是用來(lái)預(yù)測(cè)蛋白質(zhì)里氨基酸之間的相互關(guān)系。

另外,他們這次不直接使用氨基酸之間的距離,而是利用了另一個(gè)神經(jīng)網(wǎng)絡(luò)從Transformer的輸出直接產(chǎn)生原子的三維坐標(biāo)。

要產(chǎn)生三維坐標(biāo),就要去處理蛋白質(zhì)空間的旋轉(zhuǎn)問(wèn)題。

由于蛋白質(zhì)空間可以旋轉(zhuǎn),訓(xùn)練產(chǎn)生的結(jié)構(gòu)跟正式結(jié)構(gòu)比較,就需要處理旋轉(zhuǎn)或者平移的問(wèn)題。當(dāng)然,可以將蛋白質(zhì)中心都設(shè)為原點(diǎn),平移的問(wèn)題可以不用管,但是旋轉(zhuǎn)的問(wèn)題要處理。

他們應(yīng)當(dāng)是利用了一個(gè)網(wǎng)絡(luò)同時(shí)預(yù)測(cè)旋轉(zhuǎn)和三維坐標(biāo)。這兩個(gè)網(wǎng)絡(luò)都是比較新的技術(shù),這是他們的創(chuàng)新之處。有幾個(gè)研究組包括我們自己也在研究Transformer在這個(gè)問(wèn)題上的應(yīng)用,也有些小組在研究怎么直接產(chǎn)生三維坐標(biāo),然而DeepMind是第一個(gè)找到正確方法的。但是我不認(rèn)為僅僅靠這兩個(gè)算法就能夠做到現(xiàn)在這種程度,還有很多工程問(wèn)題。

現(xiàn)在,所有的算法都是依靠同源序列,能不能產(chǎn)生非常好的同源序列非常關(guān)鍵。AlphaFold2的團(tuán)隊(duì)大概有30個(gè)人,里面專門有專家負(fù)責(zé)搜索同源序列,這項(xiàng)工作非常重要。因?yàn)槿绻葱蛄姓也缓?,結(jié)果也不可能很好。

因此,AlphaFold2的團(tuán)隊(duì)的成功之處在于,可以把所有重要的工作結(jié)合得非常好。

當(dāng)然,算力也很重要。雖然他們宣稱訓(xùn)練一個(gè)模型只需要一兩百個(gè)GPU,訓(xùn)練兩個(gè)禮拜就可以了。事實(shí)上,在找到正確的方法之前,要做無(wú)數(shù)的實(shí)驗(yàn)、測(cè)試不同的策略。做實(shí)驗(yàn)需要非常多的機(jī)器, 這樣可以同時(shí)測(cè)試幾個(gè)不同的想法。

30人的團(tuán)隊(duì)肯定不止有一個(gè)想法,這些想法的測(cè)試需要非常多的計(jì)算資源,這是學(xué)術(shù)界比不了的。30多人可以在一起互相討論,看誰(shuí)的想法好,很快就可以知道哪一種策略是成功的。學(xué)術(shù)界通常是一個(gè)教授帶一個(gè)小組,大部分都是學(xué)生,最多有一兩個(gè)博士后,不可能得到那么快的反饋。

這是學(xué)術(shù)界的一個(gè)劣勢(shì)。

今后有沒(méi)有可能有更好的算法?我相信應(yīng)該會(huì)有,只是說(shuō)好的程度到底有多少。AlphaFold2的團(tuán)隊(duì)已經(jīng)做得非常好,提升空間還有,但是不像以前那么大。

例如,學(xué)術(shù)界能不能訓(xùn)練出一個(gè)模型,不需要那么多計(jì)算資源,就能把結(jié)構(gòu)預(yù)測(cè)出來(lái)?能不能找到一個(gè)模型簡(jiǎn)單、但效果差不多的模型?

因此,未來(lái)的工作還是有進(jìn)步空間,但是這個(gè)進(jìn)步空間是從1到10,還是從0到1?從0到1的可能性不太大,也就是說(shuō),非常重大的原創(chuàng)性的突破可能很難,但還是有很多完善性的工作。

順帶一提,雖然很多人認(rèn)為蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的問(wèn)題幾乎被解決了,但要看怎么定義蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè):現(xiàn)在所有的方法都是基于同源序列,沒(méi)有同源序列,大部分情況下都不可能做得那么好。

在自然界中,蛋白質(zhì)折疊是不需要看有沒(méi)有同源序列的,它是單獨(dú)地折疊起來(lái)的。

能不能設(shè)計(jì)出一種算法,不需要通過(guò)使用同源序列就能把蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)出來(lái),這是一個(gè)非常重要的問(wèn)題,也是一個(gè)非常難的問(wèn)題,這個(gè)問(wèn)題有很多嘗試的空間。

許東:的確,AlphaFold有全明星團(tuán)隊(duì),有無(wú)窮的計(jì)算資源,而且注意力機(jī)制和Transformer就是他們自己提出來(lái)的,這是他們的本領(lǐng),當(dāng)然會(huì)做得比別人更順手。但即使這樣,我認(rèn)為AlphaFold2是有實(shí)質(zhì)性創(chuàng)新的,并不是簡(jiǎn)單地在工程上做得更好。

許錦波教授講到的Transforme、end-to-end,這些不是小的創(chuàng)新。所謂端到端的預(yù)測(cè),能夠跨越這些中間過(guò)程。

AlphaFold1跟AlphaGo1差不多,基本上是用這個(gè)領(lǐng)域里的算法做,就像AlphaGo用經(jīng)典的棋譜來(lái)訓(xùn)練。而AlphaFold2到不了AlphaGo2的水平,但已經(jīng)到了AlphaGo1.5的水準(zhǔn)。

什么意思?AlphaFold2跨過(guò)了預(yù)測(cè)氨基酸空間距離的過(guò)程,直接預(yù)測(cè)坐標(biāo)。很多人都想到這個(gè)問(wèn)題,但目前實(shí)現(xiàn)的只有他們一家。

此外,AlphaFold2不僅能預(yù)測(cè)結(jié)構(gòu),還能預(yù)測(cè)可靠性。做序列比對(duì)的一個(gè)重要工具叫BLAST(全稱Basic Local Alignment Search Tool,即“基于局部比對(duì)算法的搜索工具”)。其重要突破在于,準(zhǔn)確地說(shuō)明對(duì)比的結(jié)果在生物學(xué)上有多靠譜。現(xiàn)在的AlphaFold2也能做到。

另外一點(diǎn),AlphaFold2對(duì)構(gòu)架進(jìn)行了精美的調(diào)整,使用了一些迭代的機(jī)制。此前我們?cè)谧龅鞍捉Y(jié)構(gòu)實(shí)驗(yàn)時(shí)使用一種叫Multidimensional Scaling的方法,但是很長(zhǎng)時(shí)間都無(wú)法成功,在改用迭代以后很快成功,他們把迭代做的非常好,

但是為什么目前達(dá)不到AlphaGo2.0的程度呢?AlphaFold2除了輸入蛋白質(zhì)本身的序列,還需要到蛋白序列數(shù)據(jù)庫(kù)里尋找同源序列進(jìn)行比對(duì),推出進(jìn)化關(guān)系來(lái)作為輸入,而AlphaGo2.0則不需要這類額外信息作為輸入。這是因?yàn)锳lphaFold2和圍棋不一樣,圍棋可以通過(guò)無(wú)數(shù)次下棋比試來(lái)總結(jié)規(guī)律。

蛋白質(zhì)結(jié)構(gòu)只有17萬(wàn)個(gè),雖然看起來(lái)很大,但對(duì)機(jī)器學(xué)習(xí)來(lái)說(shuō)非常有限。所以,AlphaFold2現(xiàn)在無(wú)法達(dá)到AlphaGo2.0的水平。今后,在達(dá)到這一水平后,一方面可以預(yù)測(cè)復(fù)雜的結(jié)果,另一方面會(huì)對(duì)蛋白折疊的路徑機(jī)理有更加深刻的了解。

(關(guān)注微信公眾號(hào)“醫(yī)健AI掘金志”,查看下篇精彩內(nèi)容)雷鋒網(wǎng)

四大頂級(jí)專家談AlphaFold2:記錄、風(fēng)向與學(xué)術(shù)思考(上篇)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)