0
雷鋒網 AI 科技評論按:近日來自 Stanford 的 Anvita Gupta, James Zou 在 arXiv 上貼出他們近期的工作,利用 GANs 來生成編碼可變長度蛋白質的合成 DNA 序列。
首先需要介紹一下合成生物學。
合成生物學是生物科學在 21 世紀才剛剛出現的一個分支學科,其研究方法就是從最基本的要素系統地去設計和合成生物物質(例如合成蛋白質、DNA 片段等)。據雷鋒網了解,近年來合成生物學成長很快,科學家們已經不局限于非常辛苦地進行基因剪接,而是開始構建遺傳密碼,以期利用合成的遺傳因子構建新的生物體。有人甚至認為合成生物學將催生下一次生物技術革命。合成生物學在很多領域將具有極好的應用前景,例如更有效的疫苗的生產、新藥和改進的藥物、以生物學為基礎的制造、利用可再生能源生產可持續(xù)能源、環(huán)境污染的生物治理、可以檢測有毒化學物質的生物傳感器等。
但是,像幾乎所有需要借助人工智能的學科一樣,目前的合成生物技術大多還是手動,這需要大量的時間、勞力以及豐富的領域經驗;另一方面,他們現在有大量的基因組和蛋白質組數據集。于是自然就有人想到是否能夠利用 AI 技術,通過揭示這些數據集中的模式,幫助他們設計出最佳的生物分子,從而促進生物分子設計的進程。
生成對抗網絡(GANs)則代表了將 AI 技術應用于合成生物學中,來生成真實數據(例如基因、蛋白質、藥物等)的一種新穎的方法。作者在本文中即利用了 GANs 技術,生成用來編碼可變長度蛋白質的合成 DAN 序列。
當然若要保證合成的分子可以應用于各種真實環(huán)境中,則不僅僅是要用 GANs 生成新型的序列,還需要根據所需性質對產生的序列進行優(yōu)化,例如序列對特定配體的親和力,或者所生成的大分子的二級結構等。
因此作者在文章中,提出了一種新的利用 GAN 生成 DAN 的反饋循環(huán)機制,并使用單獨的預測期(稱為「函數分析器」)來優(yōu)化這些序列,以獲得期望的屬性。
作者使用這個模型做了兩個案例實驗:1)生成抗菌肽的編碼 DAN 序列;2)生成α-螺旋抗菌肽的編碼 DAN 序列。其中前者對細菌、病毒和真菌具有廣泛的抗菌活性,由于它們通常很短(少于 50 個氨基酸),因此用來作為 GANs 模型的案例很具優(yōu)勢。第二個案例,主要是考慮到蛋白質二級結構(例如α-螺旋或β-折疊)的問題,這種二級機構即使在較短的肽中也會出現。
如下圖所示,反饋 GAN 模型(Feedback GAN,FBGAN)由兩部分組成。
第一個部分為 GAN(準確的說,作者采用了 GAN 的變體 Wasserstein GAN,WGAN),它產生的新型基因序列不具有任何性質。
第二個部分是分析器,在第一個使用案例中,作者選用一個可微分神經網絡作為分析器,它接收基因序列并預測序列編碼抗菌肽的概率。
事實上分析器是一個黑箱,它的作用就是接收基因序列,并用一個分數來預測基因序列的可取性。例如在α-螺旋肽編碼 DAN 序列的案例中,作者用 Web 服務器作為分析器,返回一個基因編碼α-螺旋殘基的數量。分析器甚至也可以是一個科學家,他們可以通過實驗來驗證生成的基因序列。
GAN 和分析器在一定的預訓練歷元(pretraining epochs)后通過反饋機制連接起來,這時候發(fā)生器(Generator)才能產生有效序列。一旦反饋機制開始,在每個歷元中,發(fā)生器 G 產生一定數量的序列,隨后輸入到分析器中;分析器預測每個基因序列的有利程度,并將 n 個最有利的序列輸入到鑒別器(Discriminator)中,作為發(fā)生器必須模仿以最小化損失函數的「真實」數據。隨后就和通常 GAN 的訓練一樣了。隨著反饋過程的繼續(xù),在每個歷元中,鑒別器 D 的整個訓練集都將被分析器中分數最高的生成序列所替換。
按照上述模型的流程進行試驗后,作者通過兩項標準測量了 FBGAN 的有效性。
分析器對生成器輸出的抗菌性預測是否在不犧牲基因結構的同時隨著時間而優(yōu)化?
從基因序列和所編碼的蛋白質性質上來看,產生的基因序列是否與已知抗菌肽基因相似,也即是否過度擬合?
為了回答第一個問題,作者檢查了在反饋過程中分析器對生成器 G 生成序列的預測情況。如下圖所示,經過 10 個閉環(huán)訓練后,分析器預測大部分序列都是抗菌的;經過 60 個閉環(huán)訓練后,幾乎所有的序列都是高度可能具有抗菌性(大于 0.99)。
直方圖顯示了隨著閉環(huán)訓練的進行,產生的基因是抗菌的預測概率。 雖然大多數序列最初被賦予0.1抗菌性,但隨著訓練的進行,幾乎所有的序列最終都被預測為抗微生物,概率大于0.99。
以高于三個閾值 [0.5,0.8,0.95] 的概率預測為抗菌性的序列的百分比。雖然 0.8 被用作反饋的截止點,但在 0.95 以上的序列的百分比在反饋訓練期間也繼續(xù)上升。
值得注意的是,盡管反饋閾值是 0.8,但隨著訓練的進行預測結果不斷提高,甚至遠超閾值。這表明閉環(huán)訓練對閾值的變化是穩(wěn)健的。此外,閉環(huán)訓練后產生的序列中 93.3% 的具有正確的基因結構,這表明訓練沒有犧牲基因結構,反而是被強化了。
如何檢測生成序列與實驗性抗菌基因的相似性呢?或者說如何判斷生成序列沒有過擬合呢?這就需要根據編碼蛋白質的序列和生理化學性質來判斷了。
下圖 a 顯示了已知抗菌肽和反饋前、后合成基因的蛋白質之間的平均編輯距離直方圖。圖 b 顯示了抗菌肽蛋白內以及反饋后合成基因序列編碼的蛋白內的內在編輯距離。所有的編輯距離通過序列的長度進行歸一化。從圖 a 中,可以看出編輯距離的分布在反饋后向小端發(fā)生了移動;而另一方面從圖 b 中,反饋后的序列相比抗菌肽序列,有更高的內在編輯距離。這些表明該模型沒有過度擬合/復制單個數據點。
已知抗菌肽序列(AMP)與:1)反饋前產生的合成基因編碼的蛋白質;2)反饋后產生的合成基因編碼的蛋白質,之間的組間編輯距離(Levenstein distance)。 為了計算組間編輯距離,需要計算每個合成蛋白與每個AMP之間的距離,然后繪制平均值。
AMPs 和反饋后產生的蛋白質的組內編輯距離,以評估反饋循環(huán)后 GAN 產生的基因的變異性。 組內編輯距離通過從組中選擇 500 個序列并計算組中每個序列與每個其他序列之間的距離來計算; 然后取這些距離的平均值并繪制出來。
另一方面是通過測量所得蛋白質的生理化學性質來看其相似性,如下表所示。從表中可以看出,由閉環(huán)序列編碼的蛋白質在十個物理化學性質中有五個(長度、摩爾重量、芳香性、博曼指數、疏水性)在反饋后接近抗菌肽,但其他幾個卻偏離很大??紤]到分析器只是分析基因序列,而沒有考慮這些生理化學性質,所以反饋機制沒有直接優(yōu)化這些性質,也合情合理。
用于優(yōu)化螺旋肽的分析儀是來自 PSIPRED 服務器的黑箱二級結構預測器,它在每個氨基酸處標記具有預測的二級結構的蛋白質序列。所有具有超過 5 個α-螺旋殘基的基因序列作為實際數據輸入到鑒別器中。
經過 43 次反饋后,生成的序列中的螺旋長度顯著高于沒有反饋的螺旋長度和原始 Uniprot 蛋白的螺旋長度。
下面為生成的肽的折疊示意圖,這兩個三維的肽結構是從生成的基因序列中進行從頭折疊(ab initio folding)產生的,使用基于知識的力場無模板折疊從 QUARK 服務器。
這個工作的新穎點在于:
首次將 GANs 的技術應用于帶有反饋回路機制的生物序列合成;
他們證明了這種訓練機制對于所有類型的分析器都有很強的魯棒性,可以針對特定的特性設計特定的分析器。例如作者分別采用 RNN 分析器和 PSIPRED 分析器優(yōu)化編碼抗菌肽的基因和優(yōu)化編碼α-螺旋肽的基因。
但是這項工作仍然有一些有待改進的地方。例如:
在文中作者限制基因長度為 50 個堿基對,對于較長的基因仍然存在困難,如何將這種方法推廣到數千個堿基對的基因序列需要進一步探索;
在文中作者為了降低難度,而專注于生成具有明確的起始/終止密碼子結構并且只有四個核苷酸的基因序列,那么能否直接生成蛋白質序列(有 26 個氨基酸)呢?這也需要進一步探索。
論文地址:https://arxiv.org/abs/1804.01694
生成對抗網絡(GANs)代表了一種在合成生物學中產生現實數據(例如基因、蛋白質、藥物等)的有吸引力且新穎的方法。在本文中,我們應用 GAN 生成編碼可變長度蛋白質的合成 DNA 序列。我們提出了一種新型反饋循環(huán)架構,稱之為 Feedback GAN(FBGAN)。該模型使用外部函數分析器優(yōu)化合成基因序列以獲得所需特性。我們所提出的這個架構具有分析器不需要可微分的優(yōu)點。我們將反饋循環(huán)機制應用于兩個例子:1)產生編碼抗菌肽的合成基因;2)優(yōu)化合成基因用于其所產生肽的二級結構。我們采用幾項指標表明 GAN 產生的蛋白質具有理想的生物物理特性。FBGAN 體系結構也可用于優(yōu)化 GAN 生成的數據點,以獲取基因組以外的有用屬性。
— via 雷鋒網 AI科技評論
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。