丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
醫(yī)療AI 正文
發(fā)私信給劉海濤
發(fā)送

0

五大頂級學者的AlphaFold 2論道:破譯結構、開源代碼后的產研「大變局」(上篇)

本文作者: 劉海濤 2021-08-17 14:26
導語:后AlphaFold2時代,蛋白質結構領域是否會出現(xiàn)學術研究的“軍備競賽”?從這篇文章里得到解答。

過去半個月,Alphafold2先后兩次沸騰了整個學術圈。

一邊是“AI界年度十大突破”AlphaFold2終于開源,登上Nature;

另一邊DeepMind又發(fā)布,堪比人類基因組圖譜的,最完整人類蛋白質結構數據庫。

對自家的“王者級成果”,DeepMind聯(lián)合創(chuàng)始人、首席執(zhí)行官德米斯·哈薩比斯(Demis Hassabis)也自豪表示:“這是迄今為止AI在推動科學進步方面做出的最大貢獻,我覺得這么說一點兒也不夸張?!?/p>

但事實真是如此嗎?

爆火的AlphaFold2是否被期望過高?后AlphaFold2時代,蛋白質結構領域是否會出現(xiàn)學術研究的“軍備競賽”?AlphaFold2代碼開源,是否為各大藥企和AI制藥企業(yè)創(chuàng)造了一次最佳的超車機會?備受期待的AlphaFold2數據庫,是否會成為專家們打開蛋白質功能奧秘的金鑰匙?

近日,主題為“權威專家再談AlphaFold 2:AI是否會帶來結構生物學的「大革命」?”的圓桌論壇正式舉行。本次主題論壇由圖像計算與數字醫(yī)學國際研討會(ISICDM)主辦,雷鋒網、醫(yī)健AI掘金志協(xié)辦。

印第安納大學醫(yī)學院副院長、AIMBE Fellow黃昆教授擔任主持,密蘇里大學教授、AAAS/AIMBE Fellow許東教授、密歇根大學教授、DeLano獎得主和I-TASSER算法發(fā)明人張陽教授、芝加哥豐田計算技術研究所、斯隆獎得主許錦波教授,中科院計算機所研究員卜東波教授共同參與了討論。

在上篇中,幾位嘉賓共同深究AlphaFold2這次成果的技術細節(jié)與意義;在下篇中,將著重分析AlphaFold2數據集,這一重磅成果實際的科研價值,以及怎樣拓展到新冠疫苗、新藥研發(fā)等其他領域的未來話題。

圖像計算與數字醫(yī)學國際研討會(ISICDM)自2017年創(chuàng)辦以來,一直是醫(yī)工交叉的前沿陣地,圍繞圖像計算和數字醫(yī)學中的一些重要的理論、算法與應用問題進行學術討論,旨在促進電子信息(包括計算機、自動化與生物醫(yī)學工程)、數學和醫(yī)學等領域學者的交流與合作,截止至今,ISICDM共邀請到400余位大會報告及專題報告嘉賓。

以下是主題論壇的現(xiàn)場內容,雷鋒網做了不改變原意的編輯和整理:

黃昆(主持人):去年我們已經談論過一次AlphaFold2的成績,這次其在短時間內破譯了98.5%的人類蛋白質組的結構,并開源了代碼,相比傳統(tǒng)算法AlphaFold2究竟有怎樣的進步,優(yōu)點有哪些?

許錦波:從我的角度理解,AlphaFold2并不是用一個idea,就把蛋白質結構預測一下子提高很多。

其主要通過實現(xiàn)了幾個不同的Idea,每一個Idea把預測精度提升幾個點的得分,最后把總分提升很多,這些Idea里有些是這個領域里已經有的, 有些是DeepMind自研的。

為了理解AlphaFold2和其他算法之間區(qū)別,我先總結一下它的做法:

首先,AlphaFold2第一步和以前的深度學習方法是類似的。

過去,我們預測目標蛋白結構,首先就是在序列數據庫里找這個蛋白的同源序列,建立多序列對比;

而AlphaFold2也是在實驗結構數據庫里,找目標蛋白的模板,最后把模板和多系列對比,輸入到神經網絡當中。

AlphaFold2的神經網絡主要由兩大模塊組成:

第一個模塊,處理同源序列信息,主要使用注意力機制對蛋白序列進行建模,從多系列對比和模板里,學習蛋白質殘基之間的相互作用關系。這種關系可以理解成距離,也可以理解成聯(lián)系。

這個模塊把目標蛋白序列映射到高維空間里,這種映射本身就包含殘基之間相互作用關系。

第二模塊,怎么把第一個模塊輸出轉換成三維結構,也就是把目標蛋白序列在高維空間映射,以及殘基之間相互作用關系,兩種信息轉化成三維坐標。

從實踐角度來看,第一模塊無非就是學習氨基酸之間關系,這和過去殘差網絡是類似的。

殘差網絡過去也是學習氨基酸之間關系,只不過是用距離矩陣表示,而AlphaFold2因為實現(xiàn)了端到端訓練,就不用使用距離矩陣表示。

我覺得AlphaFold2真正創(chuàng)新應該在第二模塊,第一模塊注意力網絡過去就已經有很多研究組在做,像Facebook很早就嘗試使用注意力機制模擬蛋白質序列,把兩種信息轉化成三維坐標算法的第二模塊,相對于其他組也是一個比較大的創(chuàng)新。

AlphaFold2另外一個創(chuàng)新點是Loss Function(機器學習模型的訓練函數),也就是評判預測結構的準確性,過去可能更多使用RMSD、氨基酸之間接觸矩陣或距離矩陣、氨基酸之間相對位置的方法。

而這次AlphaFold2則是在每個氨基酸上,都建立了局部坐標系統(tǒng),然后根據局部坐標系統(tǒng),對其它氨基酸建立相對坐標,計算真實局部坐標和預測出的局部坐標之間誤差,這種方式是以前沒有使用過的。

就我的理解,它其實是相當于把以往距離和Orientation(相對方向)綜合在一起,這樣做法就不需要分開處理距離和相對方向,這是我認為AlphaFold2在Loss Function上的一些創(chuàng)新。

至于其他創(chuàng)新,例如使用自己生成的幾十萬個蛋白質結構去做訓練數據,則不屬于算法上的創(chuàng)新,而是工程上的優(yōu)化,而網絡迭代優(yōu)化(Recycling),同樣也是工程上優(yōu)化。

總結起來,AlphaFold2真正的突破就幾個方向:第一,使用注意力機制,這相比過去卷積網絡會提高一些,但不會太多,第二,在三維建模和Loss Function上的創(chuàng)新,最后就是使用更多訓練數據。

而基本思想和以前其實是類似的,無非就是怎么把物理約束加進去。以前我們是通過距離矩陣,而現(xiàn)在AlphaFold2則是直接生成三維坐標,把更多物理約束直接加入到深度神經網絡當中。

許東:AlphaFold2的創(chuàng)新可能不是在蛋白質本身認識上,更多是工程創(chuàng)新。

創(chuàng)新一般主要分為兩類:第一,單點問題創(chuàng)新,例如發(fā)現(xiàn)DNA雙螺旋結構;第二,整合創(chuàng)新,例如芯片、手機迭代,很多技術的本質就是整合創(chuàng)新。

從綜合創(chuàng)新角度來看,AlphaFold2是有很多創(chuàng)新的,在結果上也可以看到,比之前方法提高了很多。

AlphaFold2的文章里也寫的很清楚,其中包含了10種新方法,其中就有剛才錦波教授分享的,特殊注意力機制和端到端學習,每一種方法都能夠提高一點。

所以,我認為怎樣將這些新方法整合在一起,才是AlphaFold2非常厲害的一個點,這應該不是過去量的增加,而是質的飛躍,這種創(chuàng)新確實是值得欽佩的。

張陽:AlphaFold2很重要一點創(chuàng)新在于,過去需要先預測氨基酸之間距離和接觸圖,然后再依次構造三維結構模型,這樣的流程,讓機器學習訓練只是一個中間過程,并非是最終結果,進而影響機器學習效率。

相比其他實驗室的結構預測算法,這次AlphaFold2最關鍵的提升因素,就是端到端訓練,也就是從序列直接學習三維空間結構。

這種端到端訓練有一個難點,就是怎樣把神經網絡結果投影到三維空間當中,然后把三維空間誤差反饋到神經網絡,我認為這是AlphaFold2算法上最重要的創(chuàng)新點,之前其他實驗室不是沒有做過嘗試,但最后都沒有成功。

AlphaFold2這次把每個氨基酸都建立了局域坐標系統(tǒng),通過學習局域坐標旋轉矩陣,把蛋白質三維空間結構直接引入到神經網絡當中。

這樣模型可以直接從數據庫學習到三維空間結構,省去距離和接觸圖等中間過程,將機器學習的威力真正釋放出來。

卜東波:我覺得張陽教授提出的這一點,在AlphaFold2和第一代AlphaFold的對比中,就能看得非常清楚。

第一代AlphaFold是三段論,把整個預測過程分解為三個階段:從MSA出發(fā)預測殘基間距離、根據殘基間距離構建能量函數、最終再用優(yōu)化技術構建出能量盡量低的結構構象。

現(xiàn)在AlphaFold2使用三合一,就把誤差都反傳回來,避免了中間步驟可能導致的信息丟失。

黃昆(主持人):除了算法上進步,目前AlphaFold2究竟解決了多少蛋白質結構問題,從算法的角度還有多大的改進空間?

張陽:回答這個問題前,我先介紹一下蛋白質結構預測包含哪些主要問題,從結構層面分類,主要分為四類:二級結構預測、三級結構預測(包含單鏈、單結構域)、高階三級結構預測(包含單鏈、多結構域)和四級結構預測(蛋白質之間相互作用的復合體)。

第一個問題,二級結構預測,在AlphaFold2進入之前,這個問題就已經解決,它的一個主要標志就是自2004年起CASP比賽就已經不再把二級結構預測列為比賽項目。

所以,AlphaFold2主要解決的就是第二和第三層面問題,即單鏈三級結構預測問題。

對于單鏈單結構域問題,從CASP14比賽結果來看,AlphaFold2基本可以正確預測出所有目標蛋白的拓撲學結構,也就是TM-score>0.5。

而總體上來看,其它預測模型有2/3達到低精度實驗要求,對比較困難的蛋白質結構,也有1/3達到實驗精度,這里的困難蛋白質主要是指,結構數據庫(PDB)里沒有同源模板的蛋白。

而AlphaFold2能夠對困難蛋白高精度預測的原因在于,這些蛋白結構數據庫雖然沒有同源模板,但序列數據庫卻有很多同源序列,根據同源序列進化分析就可以得到結構信息。

而對于那些即沒有同源結構,又沒有同源序列的真正困難蛋白,AlphaFold2預測精度還有待提高。

對于單鏈多結構域問題,目前AlphaFold2只解決了一部分,按照TM-score,它對多結構域預測精度可以達到單結構域90%。

在CASP14,AlphaFold2對單結構域的平均TM-score可以達到0.91,而對多結構域的平均TM-score只有0.82。

所以總體來看,相比其他實驗室,AlphaFold2雖然對多結構域預測精度提高很多,但對高階多結構域的三級結構預測,仍然還心有余,力不足。

第四個問題,四級結構預測,目前基于深度學習從頭預測蛋白質四級結構的工作還沒有開始。

但現(xiàn)在也許真的到了可以發(fā)起探索的時候,特別是AlphaFold2提供了從序列,到三維結構端到端預測突破,給大家提供了一種新的途徑和想法。

所以,我認為四級結構預測可能是這個領域的下一個突破點。

其實除了剛才分析的四個方面,和蛋白質結構預測相關的重要問題還有很多。

例如預測蛋白質和其它DNA、RNA等分子相互作用,蛋白質和藥物分子相互作用,蛋白質和功能之間關系,以及深度學習如何和冷凍電鏡、冷凍電子斷層掃描這樣大標度實驗技術的結合,利用低精度實驗數據,協(xié)助AI確定高精度蛋白結構的算法,還都是AlphaFold2未曾嘗試的。

至于AlphaFold2還有多大發(fā)揮空間,我覺得AI對于結構生物學以及生物醫(yī)學應用才剛剛開始,大有可期。

許錦波:我再補充一下單結構域問題,目前所有解決方法都依賴于同源序列或同源模板、如果沒有同源模板,或同源序列也非常少,模型最后的結果都不會很好。

其實在細胞里面,蛋白質折疊是根本不知道同源序列信息,所以我們目前的解決方法都有點作弊。

從生物物理角度,這個問題還沒有完全解決,因為在沒有同源信息情況下很難把蛋白質結構預測出來。

許東:我也基本認可錦波教授的這個看法,其實AlphaFold2預測出來的結構,經常有一些偏差比較大的結果,這些結果可能一部分是無序結構,但也有一部分就是沒有預測好。

以目前進展來看,AlphaFold2的預測結果里,應該有一半預測比較好, 另一半里一部分是沒有精準結構,也有很多就是預測比較差,所以,目前還談不上AlphaFold2能解決所有問題。

而如今的AlphaFold2是不是達到了理論上限,目前還不好說,我覺得還沒有足夠證據。

黃昆(主持人):那除了結構生物學部分,AI在結構生物學上還有哪些比較重要的應用點?

許東:剛才張老師已經回答不少,有些工作是進行,例如蛋白人工設計大師David Baker在《science》的那篇文章,就已經做了兩個方面工作:

第一,預測蛋白質結構拓展,例如解析電鏡結構或解析晶體結構,這些問題已經解決的很好。

第二,對蛋白功能理解,像GPCR蛋白以前沒有精準結構預測方法,所以看不出來活性狀態(tài)和失活狀態(tài)下的結構差異。現(xiàn)在有了精準預測方法以后,就可以看到不同活性狀態(tài)下的結構差異,也就推進了我們對蛋白功能的理解。

此外,在結構生物學上,AI應該還可以解決很多問題:

第一,應在在蛋白質修飾作用中,一些較大的修飾,像糖化、脂化對蛋白質結構、功能都會造成很大的影響。而疫苗有效性差的問題,就是因為靶蛋白糖化使結合不夠理想,將來或許Alphafold2真的可以解決這類問題。

第二,解決蛋白的相互作用問題,剛才張陽教授談到蛋白質跟DNA、RNA、脂類等相互作用非常重要,例如跟RNA相互作用形成蛋白復合體。

其實,細胞質里的蛋白質經常會和ER蛋白膜進行相互作用,現(xiàn)在的預測方法就已經可以推進這方面的研究。

第三,預測蛋白質和DNA之間相互作用,蛋白質能夠作為轉錄因子和DNA產生相互作用,我們可以利用AI預測蛋白質和DNA之間相互作用,來理解轉錄機理。以上這些方面,David Baker的文章里也做了列舉。

第四,解決疫苗設計和癌癥治療問題,Alphafold2也可以用于研究抗原和B細胞,抗體之間的相互作用。

第五,解決動力學難題。我自己的博士論文就與分子動力學相關,當時遇到就一個難點——如何將分子動力學做的更長一點,更好展示蛋白質動態(tài)過程?

現(xiàn)在的分子動力學不能看到蛋白折疊全過程,因為它耗時非常短,一般分子動力學模擬遠達不到這個標準,對此,我曾嘗試把模擬過程增長,更好模擬整個過程;或通過已有分子動力學建立神經網絡,研究異構問題。

我認為,蛋白結構對蛋白質功能研究只是一個起點,后面還有很多進化、動力學功能相關問題仍待解決,而Alphafold提供了一個很好的研究工具。

黃昆(主持人):我認為從生物信息需求者角度,Alpha fold實際應用有非常好的潛力。

例如癌癥相關突變基因預測,以前需要直接觀察基因和表現(xiàn)型之間關系,但我們更想知道基因突變對蛋白質結構的影響,目前如果未來對這些結構做出預測,會很有價值,能夠解決許多下游問題,例如疾病診斷。

那在后Alphafold2時代,蛋白質預測是否會進入一個新階段,疾病診斷方面,有哪些既有數據,又值得攻關的重點?

卜東波:我們實驗室張海倉老師所做的工作,就是一個很好的案例。

過去我們關注癌癥相關突變位點,分析癌癥患者和正常人基因組變異,二者之間變異位點差別比較多,但一直很難斷定哪些是真正相關位點。

Alphafold2出來之后,把人類基因組的大部分蛋白質結構都預測出來,我們就可以從結構角度觀察,疾病患者與正常人之間基因組變異的差異,判斷和疾病相關關鍵位點的位置,是位于蛋白質表面,還是內部區(qū)域,是否對蛋白質整體結構造成破壞,還是對蛋白質相互作用接觸表面造成破壞。從結構角度判斷,哪些變異對疾病比較關鍵,這對尋找新靶點很有幫助。

黃昆(主持人):Alphafold2另一個應用領域就是生物制藥,在生物制藥領域,它的方法或結果如何應用,AI怎么樣才能夠和制藥流程結合起來?

許東:制藥過程相當復雜,首先我們需要知道哪些是比較重要的問題。

例如單細胞技術,通過單細胞技術,我們可以了解細胞里DNA、RNA、小分子、蛋白質等物質,這是一個數據量大、且值得攻關的項目,會有很多AI研究的機會。

而且,單細胞技術還與很多結構問題相關,其能夠通過結構來理解細胞之間相互作用,理解細胞表面受體與靶蛋白質相互作用。

這些過程理解可以對制藥產生很大幫助,例如新藥研發(fā)、癌癥相互作用的阻斷,這都可以應用AI,有很大應用價值。

其實很多時候,我們雖然找到很好的算法,但這個算法到底能夠把整個問題推進到什么程度,還需要我們去評估。

目前,我自己也在做阿爾茲海默癥研究,有一個前年投入3600萬美元的阿爾茲海默癥藥品研發(fā)中心,在研究中光是前期藥物靶點尋找,我們就遇到很多問題,更不用說后面真正成藥。

所以,我覺得生物制藥這個問題牽涉到很多內容,一方面是技術和算法上問題,另外一方面是整個流程的結合。

黃昆(主持人):從研究角度來看,Alphafold的出現(xiàn)到底是給行業(yè)增加了門檻,還是減少了門檻?這會讓越來越多人進入這個領域,還是會造成研究壟斷性局面的出現(xiàn)?

張陽:從某些方面來講,門檻是降低的。

因為任何懂機器學習的人都會躍躍欲試,著手研究這個問題,把已知蛋白質序列和結構放到神經網絡里嘗試,如何預測蛋白結構。

像傳統(tǒng)的蛋白質結構預測,我們一般都要有背景準備,需要了解物理化學知識,設計蛋白質中包含的相互作用力場,分子動力學,以及蒙特卡洛模擬知識,通過尋找最低自由能態(tài)折疊蛋白結構。

甚至像同源建模和threading這些簡單方法,我們也都必須了解序列比對算法,以及物理、化學知識幫助模型優(yōu)化。

但這些現(xiàn)在都不需要了,所以門檻是降低了。

至于是否讓更多人進入這個領域,或者是否造成一家獨大局面,我更傾向于前者。

首先,AlphaFold2的成功給這個領域做了一個巨大且免費的廣告,讓大家關注這個領域,也讓大家意識到這個問題的重要性。

其次,因為機器學習把結構預測門檻降低,所以會有越來越多人加入到這個領域。

許錦波:我補充一點,門檻降低或升高,要針對不同的人、不同研究組。

對于機器學習背景門檻是降低了,很多背景知識不需要學習,只要有輸入、輸出就可以放在神經網絡訓練。

但訓練這些模型需要更多的計算資源,大量GPU和算法工程師,一些小lab不一定會有這么多計算資源,也雇不起很好的算法工程師。

所以,對于生物背景或非計算機背景,門檻則不一定降低。

他們以前沒有可以在網上一些下載代碼,稍微改一改就可以用,但現(xiàn)在他們需要重新設計新模型,新算法,這樣的門檻肯定是升高了。

而且,如果他們繼續(xù)讓以前方法進行研究,肯定做不過現(xiàn)在的深度學習,所以他們可能必須面臨改變。

黃昆(主持人):盡管進入門檻降低,但如果想要在行業(yè)持續(xù)發(fā)展,是否還需要生物、物理、化學等學科知識儲備?

許東:大家要知道,蛋白質預測是一個系統(tǒng)問題,不僅需要算法,還必須對蛋白質有一定了解。從這點來看,我覺得如果新團隊目標是打敗Alpha fold2,那機會非常小。但我認為,肯定會有更多l(xiāng)ab參與進來。

其實在Alpha fold2出來之后,就有很多合作者找過我,他們一方面表示自己也有這樣的工具,另一方面也想解決類似相關的問題。

而且,其實算力和工具已經不是現(xiàn)在的研究瓶頸,算法在谷歌co-lab上就可以全部安裝完畢,網上提交序列,十幾分鐘就能預測出一般的蛋白質,這大大增加生物實驗室在結構預測的應用。

卜東波:第一,Alphafold2一個很大意義在于使大家相信結構預測的結果。

過去我們總碰到其他領域說結構預測結果不可信,最后還得指望電鏡等實驗解析結構。

Alpha fold2的成功使得大家相信計算、相信預測,鼓勵更多人嘗試用AI涉足結構生物學相關研究,正如張陽老師所說,會有很多l(xiāng)ab進入這個領域。

第二,雖然對具體物理、生化知識要求沒有那么高,但網絡設計過程,還需要對蛋白質有深入理解。

例如在Alphafold2結構圖中,從MSA,到Distance和pair presentation中間有一個雙向箭頭。

這個箭頭背后反映我們對結構認知有可能不準,需要通過距離來修正,也就是不僅從MSA來做pair presentation,還可以用pair presentation來修正MSA。

Alphafold2文章里就強調MSA和pair presentation之間一致性。這么一個小箭頭,背后代表的是對蛋白質結構預測深刻認識。雷鋒網雷鋒網

PS.由于全文篇幅較長,醫(yī)健AI掘金志將講座內容分為上、下兩篇。

下篇中,五位專家將著重分析備受期待的AlphaFold2數據庫的未來前景、新的學術研究風向等“未來話題”。

雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。

分享:
相關文章

編輯

專注AI醫(yī)療的新勢力和投融資丨微信ID:Daniel-six
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說