0
本文作者: 李雨晨 | 2018-03-21 15:58 |
雷鋒網(wǎng)消息,《Nature》雜志近日發(fā)布消息稱,研究人員利用人工智能發(fā)現(xiàn)了近6000種未知的病毒。這項工作是在3月15日由美國能源部(DOE)組織的一次會議上提出的,它展示了一種探索地球上巨大而未知的病毒多樣性的新工具。
從人類健康到垃圾降解,雖然病毒的影響力十分巨大,但它們卻很難被摸透。 科學家們無法在實驗室環(huán)境中培養(yǎng)大多數(shù)病毒,識別其基因序列的嘗試也往往無法進行,因為病毒的基因組很小并且進化得很快。
近年來,研究人員通過對來自不同環(huán)境的樣本進行DNA測序,來尋找未知的病毒。為了識別出現(xiàn)的微生物,研究人員搜索已知病毒和細菌的遺傳特征,正如文字處理器的“查找”功能會突出顯示文檔中包含特定字母的單詞。但是這種方法經(jīng)常失敗,因為病毒學家無法搜索他們不知道的東西。
不過,機器學習解決了這個問題,因為它可以發(fā)現(xiàn)海量信息中的新興模式。機器學習算法解析數(shù)據(jù),從中學習,然后自主分類信息。
南加州大學洛杉磯分校的計算生物學家Jie Ren表示,“以前,人們沒有辦法很好地研究病毒,但現(xiàn)在我們有新工具可以找到它們?!?/p>
在最近的一項研究中,美國能源部聯(lián)合基因組研究所(JGI)的計算生物學家 Simon Roux 訓練計算機識別不常見的 Inoviridae 病毒家族的基因序列。這些病毒生存在細菌中并改變宿主的行為,例如,它們會使得引起霍亂的霍亂弧菌細菌毒性更強。在加州舊金山召開的會議上,他提出了自己的研究成果。他表示,在他的研究開始之前已經(jīng)有不到100種基因組被發(fā)現(xiàn)。
Roux提出了一種機器學習算法,其中包含兩組數(shù)據(jù):其中一組含有來自已知的Inoviridae的805個基因組序列,另一個含有來自細菌和其他類型病毒的約2000個基因序列。該算法可以找到區(qū)分它們的方法。
接下來,Roux 向模型饋送大量宏基因組學數(shù)據(jù)集。該計算機回收了超過10000種的Inoviridae基因組,并將其分成不同種類的集群。他說,其中一些集群之間的遺傳變異很大,以至于Inoviridae可能有很多家族。
雷鋒網(wǎng)了解到,在另一項研究中,巴西圣保羅大學的生物信息學家Deyvid Amgarten利用機器學習在城市動物園尋找肥料堆中的病毒。他編寫了算法來搜索病毒基因組的一些顯著特征,例如給定長度的DNA鏈中的基因密度。訓練結(jié)束后,計算機復原了幾個似乎是新型的基因組,Amgarten表示。他在JGI會議上介紹了他的結(jié)果。最后一步是了解這些病毒產(chǎn)生的蛋白質(zhì),看看它們中的哪些會加速有機物質(zhì)分解的速度?!拔覀兿胩岣叻柿系馁|(zhì)量?!彼f。
Amgarten 是從去年報告的一項機器學習工具即 Ren 的團隊開發(fā)的 VirFinder 中得到靈感的。VirFinder被設計為尋找 DNA 堿基組合,例如 DNA 雙鏈中的 AT 或 GC。據(jù)雷鋒網(wǎng)了解,Ren將該算法應用于健康人和肝硬化患者(一種由肝炎、慢性酒精中毒引起的疾病)的基因組樣本。機器將取樣的病毒完成了分組之后,該團隊注意到樣本中某些特定類型的基因組在健康人群中相對更少或更多,這意味著這些基因組相關(guān)的病毒可能導致了疾病。
Ren的發(fā)現(xiàn)是一個引人注目的發(fā)現(xiàn):生物醫(yī)學研究人員一直在想,病毒是否會導致一些難以捉摸的癥狀,如慢性疲勞綜合征(也稱為肌痛性腦脊髓炎)和炎癥性腸病??的腋裰莘黝D的Jackson基因組醫(yī)學實驗室的免疫學家Derya Unutmaz推測,病毒可能會引發(fā)一種破壞性炎癥反應,或者他們可能會改變?nèi)梭w微生物群中細菌的行為,反過來會破壞新陳代謝和免疫系統(tǒng)。
Unutmaz說,通過應用機器學習,研究人員可以確定隱藏在患者身上的病毒。此外,由于AI有能力在海量數(shù)據(jù)集中尋找模式,這種方法也許可以將病毒數(shù)據(jù)與細菌相關(guān)聯(lián),然后將癥狀數(shù)據(jù)與蛋白質(zhì)變化聯(lián)系起來。Unutmaz說,“機器學習甚至可以揭示我們從來沒有想過的問題。”
原文地址:https://www.nature.com/articles/d41586-018-03358-3
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。