0
本文作者: 喬燕薇 | 2022-08-03 17:39 |
AlphaFold蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)向公眾免費(fèi)開(kāi)放一年后,上周,它再次刷新了我們對(duì)它的期待:已預(yù)測(cè)出超過(guò)100萬(wàn)個(gè)物種的2.14億個(gè)蛋白質(zhì)結(jié)構(gòu),幾乎涵蓋了地球上所有已知蛋白質(zhì)。
此次數(shù)據(jù)庫(kù)更新的蛋白質(zhì)三維結(jié)構(gòu)涵蓋了涵蓋了植物、細(xì)菌、動(dòng)物和其他微生物等多類別,并且能通過(guò)谷歌云公共數(shù)據(jù)集下載。
在可預(yù)測(cè)的2.14億蛋白質(zhì)結(jié)構(gòu)中,約35%的結(jié)構(gòu)已達(dá)到了實(shí)驗(yàn)手段獲取的結(jié)構(gòu)精度,80%的結(jié)構(gòu)可靠性足以用于多項(xiàng)后續(xù)分析。
而且,以上數(shù)據(jù)將繼續(xù)免費(fèi)向公眾開(kāi)放,DeepMind的CEO Hassabis博士說(shuō),“這是我們送給人類的禮物?!?/p>
AlphaFold 2橫空出世時(shí)的熱烈場(chǎng)景重現(xiàn),再次在國(guó)內(nèi)外的社交媒體上引發(fā)熱議。
作為“圈內(nèi)人”的生命科學(xué)領(lǐng)域研究者們,又是如何看待AlphaFold此次取得的成果?
美國(guó)密蘇里大學(xué)哥倫比亞分校Shumaker講座教授許東向雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))《醫(yī)健AI掘金志》介紹,DeepMind此次發(fā)布的成果中,依舊沿用此前的AlphaFold工具,在技術(shù)上并無(wú)大的創(chuàng)新。
但其預(yù)測(cè)出的2.14億個(gè)蛋白質(zhì)結(jié)構(gòu)將起到非常大的作用,借助這些蛋白質(zhì)結(jié)構(gòu),生物學(xué)領(lǐng)域的諸多問(wèn)題可以從全新的角度進(jìn)行解答。
許東教授是AAAS和AIMBE會(huì)士,曾因?yàn)榈鞍捉Y(jié)構(gòu)預(yù)測(cè)的工作獲得2001年美國(guó)“最杰出研究與開(kāi)發(fā)100人獎(jiǎng)勵(lì)(國(guó)際2001R&D 100 Award)”。
從1997年開(kāi)始,許東教授就開(kāi)始了蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)這方面的研究。
“我們過(guò)去做蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)只能通過(guò)序列對(duì)比的方式進(jìn)行,那時(shí)候大部分蛋白質(zhì)的結(jié)構(gòu)都還沒(méi)有發(fā)現(xiàn),預(yù)測(cè)的準(zhǔn)確率也不高。AlphaFold出現(xiàn)以后蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的相關(guān)研究都可以再上一個(gè)新臺(tái)階?!?/p>
通過(guò)挖掘已發(fā)現(xiàn)的兩億多蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)觀察蛋白質(zhì)整體折疊的分布規(guī)律,可以更清晰地認(rèn)識(shí)蛋白質(zhì)的進(jìn)化、功能和分布。
但是,這兩億多的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)可以全部應(yīng)用于研究中嗎?
深圳灣實(shí)驗(yàn)室系統(tǒng)與物理生物學(xué)研究所副所長(zhǎng)周耀旗教授,同樣進(jìn)行了多年蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的研究。
在AlphaFold出現(xiàn)之前,他和他的團(tuán)隊(duì)就發(fā)展了神經(jīng)網(wǎng)絡(luò)回歸預(yù)測(cè)蛋白質(zhì)真實(shí)二面角的方法,為端對(duì)端的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)提供了基礎(chǔ)。
周耀旗指出了此次公布的海量數(shù)據(jù)背后隱存的問(wèn)題:AlphaFold蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)中的數(shù)據(jù)雖然龐大,但其中部分蛋白質(zhì)由于同源序列較少,AlphaFold并不能準(zhǔn)確地進(jìn)行預(yù)測(cè),仍需補(bǔ)充更多的進(jìn)化信息。
此外,有些蛋白質(zhì)本身結(jié)構(gòu)不穩(wěn)定,需要靠與其它分子結(jié)合來(lái)穩(wěn)定化,其結(jié)構(gòu)也難以準(zhǔn)確預(yù)測(cè)。
“AlphaFold使用信任度量pLDDT描述各個(gè)氨基酸在結(jié)構(gòu)內(nèi)的可信度,當(dāng)pLDDT指標(biāo)過(guò)低時(shí),蛋白質(zhì)結(jié)構(gòu)就是不可用的?!?/strong>
許東也指出,此次AlphaFold預(yù)測(cè)出的蛋白質(zhì)結(jié)構(gòu)中有部分結(jié)果結(jié)構(gòu)不穩(wěn)定,不能應(yīng)用于研究中;
此外,當(dāng)兩個(gè)結(jié)構(gòu)在序列上變化較小時(shí),例如蛋白質(zhì)中一兩個(gè)氨基酸發(fā)生變異的情況,AlphaFold無(wú)法區(qū)分其差異。
中國(guó)科學(xué)院深圳理工大學(xué)(籌)計(jì)算機(jī)科學(xué)與控制工程學(xué)院院長(zhǎng)潘毅教授也有類似的顧慮。
計(jì)算機(jī)背景出身的他表示,“人工智能有一個(gè)學(xué)習(xí)的過(guò)程,要通過(guò)大量的訓(xùn)練來(lái)提升其準(zhǔn)確性。如果AlphaFold預(yù)測(cè)的蛋白質(zhì)結(jié)構(gòu)是不常見(jiàn)的結(jié)構(gòu),AI無(wú)法通過(guò)已有的知識(shí)學(xué)習(xí)到這個(gè)結(jié)構(gòu),預(yù)測(cè)時(shí)就容易產(chǎn)生偏差?!?/p>
潘毅向《醫(yī)健AI掘金志》介紹,AI是一個(gè)能夠利用現(xiàn)有的知識(shí)預(yù)測(cè)將來(lái)的工具,如果連現(xiàn)有的知識(shí)都是缺失狀態(tài),自然無(wú)法預(yù)測(cè)新結(jié)構(gòu)。
“除非把世界上所有的蛋白質(zhì)結(jié)構(gòu)都預(yù)測(cè)并驗(yàn)證過(guò)了,否則是不可能達(dá)到100%的準(zhǔn)確率?!?/p>
雖然對(duì)部分蛋白質(zhì)結(jié)構(gòu)的預(yù)測(cè)不完全準(zhǔn)確,但AlphaFold蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)在開(kāi)放數(shù)據(jù)的同時(shí)也提供了相應(yīng)結(jié)構(gòu)預(yù)測(cè)的準(zhǔn)確度報(bào)告,為使用者提供參考。
數(shù)量龐大的蛋白質(zhì)結(jié)構(gòu)為生命科學(xué)研究帶來(lái)的影響仍是毋庸置疑,尤其是在結(jié)構(gòu)生物學(xué)的領(lǐng)域。
“已預(yù)測(cè)出的蛋白質(zhì)結(jié)構(gòu),可以更好地幫助研究者解析人體蛋白質(zhì)的功能,”加拿大蒙特利爾大學(xué)MILA實(shí)驗(yàn)室教授唐建表示,“但是對(duì)藥物研發(fā)的影響有限?!?/p>
唐建如今正集中精力研究圖表示學(xué)習(xí)在新藥研發(fā)中的應(yīng)用。
對(duì)于AlphaFold給制藥行業(yè)帶來(lái)的作用,潘毅的看法卻更為積極。
他告訴《醫(yī)健AI掘金志》,AlphaFold預(yù)測(cè)出的蛋白質(zhì)結(jié)構(gòu)對(duì)生物制藥將有很大的幫助,尤其是在小分子篩選的工作上。
自2020年回國(guó)后,潘毅的研究逐漸從理論轉(zhuǎn)向應(yīng)用,藥物研發(fā)也是其研究的重點(diǎn)落地方向之一。
他認(rèn)為,這些已經(jīng)預(yù)測(cè)完成的蛋白質(zhì)結(jié)構(gòu)將為生命科學(xué)領(lǐng)域內(nèi)的研究者們節(jié)省頗多精力與資金,可以直接從數(shù)據(jù)庫(kù)中查找相應(yīng)的結(jié)構(gòu)進(jìn)行研究,不必再自行解析。
總結(jié)而言,AlphaFold蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)中的結(jié)構(gòu)雖然有不足之處,不能全部將其應(yīng)用于研究中,但數(shù)量龐大的蛋白質(zhì)結(jié)構(gòu)對(duì)生命科學(xué)各個(gè)領(lǐng)域的研究,仍有著不可忽略的意義。
雖然誕生只有只有短短四年的時(shí)間,但AlphaFold在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)上的影響幾乎翻天覆地。
2016年,DeepMind公司開(kāi)發(fā)的AlphaGo擊敗韓國(guó)傳奇圍棋選手李世石后,其先進(jìn)性與潛力受到認(rèn)可,DeepMind決定成立團(tuán)隊(duì)開(kāi)始研究“蛋白質(zhì)折疊問(wèn)題”。
2018年12月2日,AlphaFold橫空出世,在第13屆國(guó)際蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽(CASP13)上預(yù)測(cè)出了43種蛋白質(zhì)中25種蛋白質(zhì)的最精確結(jié)構(gòu),力壓其他參賽者取得第一名 (在條目A7D下),其研究團(tuán)隊(duì)再次擴(kuò)大,開(kāi)始研究創(chuàng)新的新系統(tǒng)。
兩年后的2020年11月30日,DeepMind率AlphaFold2再次參賽,在CASP14上一舉奪魁,預(yù)測(cè)結(jié)構(gòu)達(dá)到原子精度,中值誤差 (RMSD_95) 小于1埃,比次優(yōu)系統(tǒng)準(zhǔn)確3倍,可與實(shí)驗(yàn)方法媲美。
CASP的組織者曾表示,AlphaFold2破解了有著50年歷史的“蛋白質(zhì)折疊問(wèn)題”的重大難題。
2021年7月15日,DeepMind通過(guò)一篇Nature論文開(kāi)源了其基于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的AlphaFold2模型;
一周后的7月22日,DeepMind再次發(fā)表Nature論文,推出AlphaFold蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù),向公眾免費(fèi)開(kāi)放人類蛋白質(zhì)組以及另外20種模式生物的總共超過(guò)350000種結(jié)構(gòu),并且對(duì)98.5%的人類蛋白質(zhì)結(jié)構(gòu)進(jìn)行了準(zhǔn)確預(yù)測(cè)。
在此之前,科學(xué)界解析的蛋白質(zhì)結(jié)構(gòu)僅僅覆蓋了人類蛋白序列17%的氨基酸。
時(shí)隔一年,AlphaFold再次引起轟動(dòng),它對(duì)生物信息學(xué)領(lǐng)域的研究歷程又將會(huì)產(chǎn)生多大的影響?雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。