0
本文作者: 李雨晨 | 2020-12-16 10:28 |
盡管,距離Deepmind公司AlphaFold2的橫空出世,已經(jīng)過去了兩周的時間,但是圍繞AlphaFold2的討論熱度依然不減。
AlphaFold2是否是完美無缺,如果不是,它的“勝利”具體體現(xiàn)在哪些項目上?AlphaFold2對結(jié)構(gòu)生物學的影響有哪些,哪些方向能受益而加速突破?哪些方向會受到影響而淡出?學術(shù)研究者與企業(yè)工程人員該如何分工,進一步實現(xiàn)“產(chǎn)學融合”的高效轉(zhuǎn)化?
關(guān)于AlphaFold2,太多的問題需要解答。
近日,主題為“權(quán)威專家談AlphaFold:DeepMind到底突破了什么?”的圓桌論壇正式舉行。本次主題論壇由圖像計算與數(shù)字醫(yī)學國際研討會(ISICDM)主辦,雷鋒網(wǎng)、醫(yī)健AI掘金志協(xié)辦。
印第安納大學醫(yī)學院副院長、AIMBE Fellow黃昆教授擔任主持,密蘇里大學教授、AAAS/AIMBE Fellow許東教授、密歇根大學教授、DeLano獎得主和I-TASSER算法發(fā)明人張陽教授、芝加哥豐田計算技術(shù)研究所、斯隆獎得主許錦波教授共同參與討論。
在上篇中,幾位嘉賓共同回顧CASP競賽的歷史、AlphaFold2的技術(shù)細節(jié)、局限與意義;在下篇中,將著重分析AlphaFold2的產(chǎn)業(yè)應(yīng)用前景、學術(shù)研究風向、藥物研發(fā)等“未來”話題。
圖像計算與數(shù)字醫(yī)學國際研討會(ISICDM)自2017年創(chuàng)辦以來,一直是醫(yī)工交叉的前沿陣地,圍繞圖像計算和數(shù)字醫(yī)學中的一些重要的理論、算法與應(yīng)用問題進行學術(shù)討論,旨在促進電子信息(包括計算機、自動化與生物醫(yī)學工程)、數(shù)學和醫(yī)學等領(lǐng)域?qū)W者的交流與合作,截止至今,ISICDM共邀請到400余位大會報告及專題報告嘉賓。
在今年的ISICDM 2020上, “計算解剖學”創(chuàng)始人的Michael I.Miller教授,新加坡國家科學院院士、發(fā)展中國家科學院院士沈佐偉教授、瑞士工程科學院院士Michael Unser教授、美國國家發(fā)明家科學院院士王革教授等數(shù)十位嘉賓分別進行了主題演講。
黃昆:請大家先談?wù)勛约簩ASP競賽的了解,包括其目的、歷史。
張陽:CASP全稱是Critical Assessment of protein Structure Prediction,它是一個關(guān)于蛋白質(zhì)結(jié)構(gòu)預(yù)測的競賽。在CASP舉辦之前,蛋白質(zhì)結(jié)構(gòu)預(yù)測一直是生命科學里的一個重要問題。每年都會有人發(fā)表大量的論文,有些論文甚至宣稱解決了這個問題。
但是,蛋白質(zhì)結(jié)構(gòu)預(yù)測是一個基于計算機程序預(yù)測的問題,如果沒有實驗的介入,沒法斷定這些宣稱是否真的正確。
所以,在1994年,馬里蘭大學的John Moult教授和同事就發(fā)起并組織了這么一個比賽。每年的夏天,由組織者收集大約一百個左右蛋白質(zhì)的序列,沒有任何人知道他們的三級結(jié)構(gòu)。然后讓做蛋白質(zhì)結(jié)構(gòu)預(yù)測的人來利用計算機程序來預(yù)測他們的結(jié)構(gòu),同時讓實驗結(jié)構(gòu)生物學家的人利用X-光衍射,核磁共振,或者冷凍電鏡的方法,把這些蛋白質(zhì)的結(jié)構(gòu)解析出來。
最后,由獨立的科學家團隊把計算機預(yù)測的模型和實驗的結(jié)構(gòu)對照,分析不同計算機算法的預(yù)測結(jié)果。因為是雙盲的預(yù)測,這些結(jié)果可以客觀真實的反映結(jié)構(gòu)預(yù)測的精度。
CASP組織者一直是在淡化競賽的概念,他們一直把它稱作CASP實驗。其目的是評價目前最領(lǐng)先的技術(shù),找出現(xiàn)存的問題,規(guī)范和指導(dǎo)領(lǐng)域的發(fā)展。
但是,每個參賽者都很認真對待。這個比賽一般是5月份開始,八月份結(jié)束,很多實驗室在比賽期間,停下一切事務(wù),全力參賽。這應(yīng)該是生物學領(lǐng)域第一次舉辦這樣的比賽,也是最重要和名氣最大的科學競賽。后來很多學科和專業(yè)都模仿這種方式,舉辦各種科學競賽。
黃昆:這次CASP中AlphaFold的勝利體現(xiàn)在哪些項目上?除了AlphaFold2之外,這次CASP競賽還有哪些亮點?
張陽:過去二十多年來,蛋白質(zhì)結(jié)構(gòu)預(yù)測這個領(lǐng)域一直在不斷進步。特別是最近五,六年,因為共同演化,接觸圖預(yù)測,以及深度機器學習技術(shù)的引進,很多實驗室的算法精度都有很大的提升。這些提升是學術(shù)界內(nèi)部的提升,和谷歌的AlphaFold沒有關(guān)系。
就拿我們實驗室的I-TASSER自動服務(wù)器來講,在兩年前CASP13的時候,它預(yù)測非同源蛋白結(jié)構(gòu)的數(shù)目比六年前CASP11的時候增長了五倍。在這次CASP14中,它的預(yù)測精度和CASP13相比,也有很大增加。
但是這次AlphaFold2比上次的AlphaFold增加的幅度更大。他們大約有一半的蛋白質(zhì),其單結(jié)構(gòu)域結(jié)構(gòu)的GDT-TS score都大于0.9,也就是說接近實驗測量的精度。
我在另外一個場合引用谷歌的宣傳材料稱,他們有2/3的蛋白達到了這個精度,但是后來我自己做了結(jié)構(gòu)比對和檢查,發(fā)現(xiàn)除掉水分之后,這個數(shù)字應(yīng)該是51%(如果考慮第一個模型);如果考慮五個模型中最好的模型,有58%的結(jié)構(gòu)域達到這個精度。但是這個結(jié)果依然非常驚艷!
為什么如此驚艷?蛋白質(zhì)結(jié)構(gòu)預(yù)測一般分成基于模板和從頭預(yù)測兩種算法。如果數(shù)據(jù)庫中有同源的結(jié)構(gòu)存在,大家利用基于模板的算法,都可以做的很好。
但是如果結(jié)構(gòu)數(shù)據(jù)庫中沒有同源蛋白存在,純粹基于序列從頭預(yù)測,精度會大幅度下降。但是AlphaFold2,它就用一種算法---深度機器學習,對于從頭預(yù)測的蛋白質(zhì)做的幾乎和基于模板的蛋白質(zhì)一樣好,這就是它讓人震驚的地方。
和傳統(tǒng)的結(jié)構(gòu)預(yù)測方法相比,這個增加幅度簡直難以置信。因為這是CASP雙盲測試的檢測結(jié)果,我們沒有選擇,只有相信它。
現(xiàn)在我講一個小故事。這次CASP比賽,我們實驗室也有幸被邀請在CASP會議上做報告(包括谷歌和Baker實驗室,一共有三個團隊被邀請做結(jié)構(gòu)預(yù)測報告),所以我們大概在CASP會議之前的三個星期,拿到了各團隊參賽的數(shù)據(jù)。
當然為了新聞的要求,CASP要求在12/1號開會之前,不得向外界泄露。我當時看了結(jié)果之后,雖然有一些心理準備,但是仍然驚訝的目瞪口呆。我給Moult回信,表示對結(jié)果非常震驚。
他回信說,自從六月份他們開始看到并評估第一個目標蛋白以來,整個CASP組織團隊就開始對結(jié)果完全無語了,他用的一個詞是“speechless”。你可以想象整個領(lǐng)域?qū)@個結(jié)果的驚訝程度。
黃昆:我想請教一下,蛋白質(zhì)折疊從計算的角度來講,具體的難點是什么?它的意義在哪里?另外AlphaFold2的算法,取得了哪些技術(shù)上的突破?到底都利用了哪些前人的工作?
許東:蛋白質(zhì)折疊對于理解基因的功能、疾病的原理、制藥都是非常重要的。
幾十年前,大家就在探討這個領(lǐng)域里被稱作Levinthal的悖論。
第一,一般蛋白的平均長度大概在300個氨基酸,假設(shè)每個氨基酸的可能構(gòu)象有10個,所有的可能性就是10的300次方,數(shù)據(jù)量非常巨大。即使是全球最好的計算資源價值,也不能處理這么多的可能性。
第二,蛋白質(zhì)折疊靠的是能量,能量實際上非常復(fù)雜。從底層來講,它是基于量子力學的過程,即使走到經(jīng)典力學的過程,把它變成一個函數(shù),這個函數(shù)非常復(fù)雜。要優(yōu)化這個函數(shù),沒有什么可能。
第三,這幾十年,我們確實積累了大量的實驗結(jié)構(gòu)。現(xiàn)在數(shù)據(jù)庫里大概有17萬個已知結(jié)構(gòu),聽起來數(shù)量龐大,但實際上很多蛋白的序列與結(jié)構(gòu)是類似的,沒有那么多獨特的結(jié)構(gòu)、序列。
深度學習是屬于“數(shù)據(jù)饑餓”的方法,喂它多少數(shù)據(jù)都不一定夠。過去通過這個方法,也不能很系統(tǒng)地得出準確的結(jié)果。即使在某一個蛋白質(zhì)預(yù)測上做得非常好,但是不能保證全都做得很好。
這次的AlphaFold2,我認為最主要的是實現(xiàn)了魯棒性,能夠得到很穩(wěn)定、很好的結(jié)果。過去從來沒有團隊做到。從技術(shù)上講,我們有一個打分機制,基于多少個氨基酸預(yù)測到位來評分。一般蛋白質(zhì)預(yù)測需要達到90%及以上的準確率,才能算預(yù)測得比較有用。
這次AlphaFold2已經(jīng)達到了平均92.4,幾乎和實驗結(jié)果差不多。今后,AlphaFold預(yù)測出來的結(jié)果,就可以和實驗,例如MR、冷凍電鏡的方法相媲美。
這個現(xiàn)象與AI閱片一樣,雖然不能完全代替醫(yī)生的診斷方式,但是可以對人類醫(yī)生的一些漏診進行補充。
當然,AlphaFold2的成果不代表所有問題都得到解決,但是第一次基本上系統(tǒng)地解決了蛋白結(jié)構(gòu)預(yù)測的問題。我非常驚訝的就是它的精度,不光是蛋白質(zhì)的主鏈,在被稱作側(cè)鏈的原子層面,預(yù)測也非常到位、準確,這是我們很多人想不到的。
還有哪些問題沒解決?
其中有一些非常難的蛋白,或者數(shù)據(jù)庫里沒有這樣的結(jié)構(gòu),或者結(jié)構(gòu)跟現(xiàn)有數(shù)據(jù)庫里其他結(jié)構(gòu)很像,但是基本上沒有任何相似的序列,被稱之為孤兒基因。這種情況非常難預(yù)測,分數(shù)大概能達到87分左右。
另外一點,AlphaFold2今后能否全自動做蛋白質(zhì)結(jié)構(gòu)預(yù)測?AlphaFold2的贏面不是在全自動的大類里,還需要手工進行。能否真正實現(xiàn)全自動,或者算得足夠快,讓很多人都能用上,還需要進一步探索。
第三,蛋白有很多種類(多聚體),例如同一種蛋白形成2-4個多聚體,或者是不一樣的蛋白形成1個多聚體。這個問題還沒有真正的得以解決。此外,蛋白經(jīng)常被修飾,比如糖化、磷酸化?,F(xiàn)在設(shè)計的新冠疫苗,在重要的蛋白上經(jīng)常有糖化的修飾,對疫苗設(shè)計都是很大的障礙。對于那些有修飾的蛋白能否預(yù)測得很準確,目前也不是很清楚。
實際上,蛋白在不同環(huán)境下的構(gòu)象并不相同,比如酸堿度的高低,含鹽的多少等因素,給蛋白質(zhì)的在生物體內(nèi)的精準預(yù)測制造了非常大的難度。
話說回來,很多重大科學問題宣布解決時,并不意味著所有問題得到解決,只是大的問題得到解決,其它小問題可以慢慢解決。
這次AlphaFold2的成果,很多人功不可沒。我們也很興奮,幫助這個領(lǐng)域增加了很多的曝光度。這就像是一場接力賽,往往是跑到最后一棒的人會有更多的高光時刻。然而,這個接力賽確實需要很多人共同參與才能完成。
在蛋白質(zhì)結(jié)構(gòu)研究的50年過程中,很多華人科學家做出了非常重要的貢獻,徐鷹教授、周耀旗教授、李明教授、許錦波教授、張陽教授、卜東波教授和我們系里的程建林教授等在這個領(lǐng)域里都做了非常好的工作。
其中最值得介紹的就是我們的兩位嘉賓。
首先就是張陽教授,從2006年開始,常年把持CASP自動預(yù)測類的第一名,包括今年自動類第一名仍然是他們團隊,他們的服務(wù)器被151個國家和地區(qū)使用,有14萬個以上的用戶,預(yù)測了五十幾萬個蛋白,張教授還有很多蛋白方面的服務(wù)器,并且他在15年前就指出,完全通過數(shù)據(jù)進行搜索以解決蛋白結(jié)構(gòu)的理論上的可能,做了很多的數(shù)據(jù)模擬,我覺得這些工作都很具有前瞻性。
許錦波教授在氨基酸的距離預(yù)測上,真正將蛋白質(zhì)預(yù)測的問題提升了一個臺階。
其實,AlphaFold2對蛋白結(jié)構(gòu)預(yù)測中很重要的一點,是對蛋白質(zhì)距離預(yù)測的過程。這個過程中,許錦波教授是第一個認識到氨基酸之間的距離預(yù)測,不能一對一對預(yù)測,要所有對一起預(yù)測。這就是所謂的end-to-end——端到端模型。
這次,AlphaFold2所使用的也是端到端模型,根據(jù)序列的特征直接輸出了三維結(jié)構(gòu)。許錦波教授是第一個真正成功利用深度學習把這件事(距離)搞定的。CASP13的時,AlphaFold1也是用許錦波教授的方法來進行研究。
張陽:我稍微補充一下。AlphaFold是不是解決了蛋白質(zhì)結(jié)構(gòu)預(yù)測的問題?我覺得還有待商榷。
首先,怎么定義蛋白質(zhì)結(jié)構(gòu)預(yù)測的問題?
蛋白質(zhì)結(jié)構(gòu)預(yù)測包含三級結(jié)構(gòu)和四級結(jié)構(gòu)預(yù)測。其中三級結(jié)構(gòu)是指單鏈,四級結(jié)構(gòu)是指多鏈蛋白質(zhì)的結(jié)構(gòu)預(yù)測。這次AlphaFold參加的主要是三級結(jié)構(gòu)預(yù)測。即使是在三級結(jié)構(gòu)預(yù)測,CASP評估的也只是單結(jié)構(gòu)域的預(yù)測結(jié)構(gòu)。
自然界中一個功能蛋白質(zhì)鏈往往也包含多個結(jié)構(gòu)域,這些結(jié)構(gòu)域之間有復(fù)雜的相互作用。這些結(jié)構(gòu)域之間或者蛋白質(zhì)鏈之間的相互作用都屬于蛋白質(zhì)結(jié)構(gòu)預(yù)測的范疇,都具有重要的生物學意義。但是CASP對這種多結(jié)構(gòu)域的復(fù)雜構(gòu)型并沒有做評估,主要是多年以來我們沒有好的辦法預(yù)測它們。
所以,嚴格意義上講,AlphaFold2接近于解決了單結(jié)構(gòu)域的蛋白質(zhì)結(jié)構(gòu)預(yù)測問題,預(yù)測精度很高。很多媒體中提到它的中位數(shù)值是0.92,即大致有一半的模型是超過0.9,接近或者達到實驗的精度。也就是說,還有接近一半的蛋白質(zhì)預(yù)測沒有達到這個精度。因此,要完全解決蛋白質(zhì)結(jié)構(gòu)預(yù)測的問題,仍然需要很多工作。
提到華人教授的貢獻,許東教授是這個領(lǐng)域的前輩。在進入這個領(lǐng)域之前,我就已經(jīng)知道許東老師和徐鷹老師他們在20年前開發(fā)的Prospect算法,我的實驗室現(xiàn)在還在運用他們的程序。
另外,我們也常常用DomainParser做蛋白質(zhì)結(jié)構(gòu)域的分割,這個程序也是許東教授他們在20年前開發(fā)的?,F(xiàn)在,許老師和徐老師的研究興趣可能轉(zhuǎn)向了其他方面,但他們在這個領(lǐng)域里的努力是非??扇牲c的。
黃昆:AlphaFold2算法的成功主要得益于機器學習,深度學習中的哪些重要技術(shù)和突破(例如注意力機制)?如果僅靠增加算力能否進一步突破?AlphaFold2算法當前的局限性在哪里?可能有哪些改進空間?
許錦波:進行蛋白質(zhì)結(jié)構(gòu)預(yù)測這方面的研究,我是跟徐鷹老師和許東老師學的。雖然他們不是我的導(dǎo)師,但是讀博士時,我就在讀他們的prospect代碼,開始學習這個方向。
就如許東教授說,AlphaFold2的很多算法靈感都是基于以前的工作。我先簡單回顧一下經(jīng)典的算法。
最早是用蒙特卡洛采樣(Monte Carlo Simulation),隨機產(chǎn)生多種可能的形狀,然后用一個能量函數(shù)去選擇,覺得哪個形狀更有可能,就選擇能量最小的形狀。這是早期的算法。
但這個算法的問題在于,稍微大點的蛋白就處理不了了,即使后來加上了片段組裝 (fragment assembly),也還是處理不了特別大的蛋白,并且需要很多計算資源才能做這件事情。
2010年之后,這個領(lǐng)域里的共進化數(shù)據(jù)變得很有用,主要是因為測序變得非常容易,產(chǎn)生了大量的蛋白序列。雖然這些蛋白序列沒有結(jié)構(gòu),但是沒有關(guān)系。我們可以通過研究它們的進化關(guān)系,把它們跟結(jié)構(gòu)的關(guān)系預(yù)測出來,這叫共進化分析方法。這種方法取得了一定成功,但是對很多沒有結(jié)構(gòu)的蛋白質(zhì)并沒有很好的效果。
其中一個原因是,很多蛋白還沒有那么多同源序列,需要有很多同源序列才能做得比較準確。通常來說,共進化分析方法需要跟蒙特卡洛采樣結(jié)合使用,效果才會比較好。
2012年,深度學習開始慢慢進入這個領(lǐng)域,但那個時候并沒有成功。有些研究者嘗試了一些非常簡單的深度學習方法,比如說DBN方法,但并沒有表現(xiàn)出任何好的效果。
直到2016年我們引入卷積殘差神經(jīng)網(wǎng)絡(luò)后,我們才真正發(fā)現(xiàn),深度學習可以把這個問題做得很好。通過卷積殘差神經(jīng)網(wǎng)絡(luò),可以將共進化信息利用得很好,還是一樣用同源信息?,F(xiàn)在所有成功的方法,都是依靠同源信息。那個時候我們就發(fā)現(xiàn)可以把氨基酸在空間中的關(guān)系(接觸圖或距離)預(yù)測得比較準。
2018年之后,很多成功的組都是要么間接、要么直接地使用這種卷積神經(jīng)網(wǎng)絡(luò)跟共進化信息結(jié)合起來的方法。
發(fā)展到這個地步,我們就發(fā)現(xiàn)完全可以拋棄蒙特卡洛采樣。當然,用蒙特卡洛采樣可能會稍微好一點,但差別不是很大,這樣可以大大節(jié)省計算資源。只是在做訓練的時候還是需要那么幾塊GPU,這樣才能比較快地將模型訓練好。
2018年,DeepMind也使用了卷積殘差神經(jīng)網(wǎng)絡(luò)的方法。他們的團隊,無論是人才資源還是計算資源都比其他組要多一些,那個時候的效果也挺好。
AlphaFold2做得比2018年要好很多。他們確實是發(fā)展了一些新的方法。例如最新的算法——注意力機制。他們引入了一個像Transformer之類的神經(jīng)網(wǎng)絡(luò)。Transformer翻譯為中文就是“變形金剛”,是自然語言處理里一個非?;馃岬纳窠?jīng)網(wǎng)絡(luò)模型。Transformer的主要作用還是用來預(yù)測蛋白質(zhì)里氨基酸之間的相互關(guān)系。
另外,他們這次不直接使用氨基酸之間的距離,而是利用了另一個神經(jīng)網(wǎng)絡(luò)從Transformer的輸出直接產(chǎn)生原子的三維坐標。
要產(chǎn)生三維坐標,就要去處理蛋白質(zhì)空間的旋轉(zhuǎn)問題。
由于蛋白質(zhì)空間可以旋轉(zhuǎn),訓練產(chǎn)生的結(jié)構(gòu)跟正式結(jié)構(gòu)比較,就需要處理旋轉(zhuǎn)或者平移的問題。當然,可以將蛋白質(zhì)中心都設(shè)為原點,平移的問題可以不用管,但是旋轉(zhuǎn)的問題要處理。
他們應(yīng)當是利用了一個網(wǎng)絡(luò)同時預(yù)測旋轉(zhuǎn)和三維坐標。這兩個網(wǎng)絡(luò)都是比較新的技術(shù),這是他們的創(chuàng)新之處。有幾個研究組包括我們自己也在研究Transformer在這個問題上的應(yīng)用,也有些小組在研究怎么直接產(chǎn)生三維坐標,然而DeepMind是第一個找到正確方法的。但是我不認為僅僅靠這兩個算法就能夠做到現(xiàn)在這種程度,還有很多工程問題。
現(xiàn)在,所有的算法都是依靠同源序列,能不能產(chǎn)生非常好的同源序列非常關(guān)鍵。AlphaFold2的團隊大概有30個人,里面專門有專家負責搜索同源序列,這項工作非常重要。因為如果同源序列找不好,結(jié)果也不可能很好。
因此,AlphaFold2的團隊的成功之處在于,可以把所有重要的工作結(jié)合得非常好。
當然,算力也很重要。雖然他們宣稱訓練一個模型只需要一兩百個GPU,訓練兩個禮拜就可以了。事實上,在找到正確的方法之前,要做無數(shù)的實驗、測試不同的策略。做實驗需要非常多的機器, 這樣可以同時測試幾個不同的想法。
30人的團隊肯定不止有一個想法,這些想法的測試需要非常多的計算資源,這是學術(shù)界比不了的。30多人可以在一起互相討論,看誰的想法好,很快就可以知道哪一種策略是成功的。學術(shù)界通常是一個教授帶一個小組,大部分都是學生,最多有一兩個博士后,不可能得到那么快的反饋。
這是學術(shù)界的一個劣勢。
今后有沒有可能有更好的算法?我相信應(yīng)該會有,只是說好的程度到底有多少。AlphaFold2的團隊已經(jīng)做得非常好,提升空間還有,但是不像以前那么大。
例如,學術(shù)界能不能訓練出一個模型,不需要那么多計算資源,就能把結(jié)構(gòu)預(yù)測出來?能不能找到一個模型簡單、但效果差不多的模型?
因此,未來的工作還是有進步空間,但是這個進步空間是從1到10,還是從0到1?從0到1的可能性不太大,也就是說,非常重大的原創(chuàng)性的突破可能很難,但還是有很多完善性的工作。
順帶一提,雖然很多人認為蛋白質(zhì)結(jié)構(gòu)預(yù)測的問題幾乎被解決了,但要看怎么定義蛋白質(zhì)結(jié)構(gòu)預(yù)測:現(xiàn)在所有的方法都是基于同源序列,沒有同源序列,大部分情況下都不可能做得那么好。
在自然界中,蛋白質(zhì)折疊是不需要看有沒有同源序列的,它是單獨地折疊起來的。
能不能設(shè)計出一種算法,不需要通過使用同源序列就能把蛋白質(zhì)結(jié)構(gòu)預(yù)測出來,這是一個非常重要的問題,也是一個非常難的問題,這個問題有很多嘗試的空間。
許東:的確,AlphaFold有全明星團隊,有無窮的計算資源,而且注意力機制和Transformer就是他們自己提出來的,這是他們的本領(lǐng),當然會做得比別人更順手。但即使這樣,我認為AlphaFold2是有實質(zhì)性創(chuàng)新的,并不是簡單地在工程上做得更好。
許錦波教授講到的Transforme、end-to-end,這些不是小的創(chuàng)新。所謂端到端的預(yù)測,能夠跨越這些中間過程。
AlphaFold1跟AlphaGo1差不多,基本上是用這個領(lǐng)域里的算法做,就像AlphaGo用經(jīng)典的棋譜來訓練。而AlphaFold2到不了AlphaGo2的水平,但已經(jīng)到了AlphaGo1.5的水準。
什么意思?AlphaFold2跨過了預(yù)測氨基酸空間距離的過程,直接預(yù)測坐標。很多人都想到這個問題,但目前實現(xiàn)的只有他們一家。
此外,AlphaFold2不僅能預(yù)測結(jié)構(gòu),還能預(yù)測可靠性。做序列比對的一個重要工具叫BLAST(全稱Basic Local Alignment Search Tool,即“基于局部比對算法的搜索工具”)。其重要突破在于,準確地說明對比的結(jié)果在生物學上有多靠譜?,F(xiàn)在的AlphaFold2也能做到。
另外一點,AlphaFold2對構(gòu)架進行了精美的調(diào)整,使用了一些迭代的機制。此前我們在做蛋白結(jié)構(gòu)實驗時使用一種叫Multidimensional Scaling的方法,但是很長時間都無法成功,在改用迭代以后很快成功,他們把迭代做的非常好,
但是為什么目前達不到AlphaGo2.0的程度呢?AlphaFold2除了輸入蛋白質(zhì)本身的序列,還需要到蛋白序列數(shù)據(jù)庫里尋找同源序列進行比對,推出進化關(guān)系來作為輸入,而AlphaGo2.0則不需要這類額外信息作為輸入。這是因為AlphaFold2和圍棋不一樣,圍棋可以通過無數(shù)次下棋比試來總結(jié)規(guī)律。
蛋白質(zhì)結(jié)構(gòu)只有17萬個,雖然看起來很大,但對機器學習來說非常有限。所以,AlphaFold2現(xiàn)在無法達到AlphaGo2.0的水平。今后,在達到這一水平后,一方面可以預(yù)測復(fù)雜的結(jié)果,另一方面會對蛋白折疊的路徑機理有更加深刻的了解。
(關(guān)注微信公眾號“醫(yī)健AI掘金志”,查看下篇精彩內(nèi)容)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。