0
本文作者: 李雨晨 | 2020-07-09 15:07 | 專題:世界人工智能大會(huì) WAIC 2020 |
雷鋒網(wǎng)消息,7月9日,2020世界人工智能大會(huì)云端峰會(huì)開幕。會(huì)上,騰訊首席運(yùn)營(yíng)官任宇昕公布了用AI助力藥物研發(fā)領(lǐng)域的最新進(jìn)展——由騰訊自主研發(fā)的首個(gè)AI驅(qū)動(dòng)的藥物發(fā)現(xiàn)平臺(tái)“云深智藥(iDrug)”正式對(duì)外發(fā)布。
云深智藥平臺(tái)的推出,將幫助研發(fā)人員提升臨床前藥物發(fā)現(xiàn)的效率,有望緩解新冠疫情威脅下,醫(yī)藥行業(yè)亟需快速、低成本地進(jìn)行藥物研發(fā)的痛點(diǎn)。
騰訊已和多家藥企達(dá)成合作,將AI模型應(yīng)用到實(shí)際藥物研發(fā)項(xiàng)目中。目前已有十余個(gè)項(xiàng)目,包括對(duì)抗新冠病毒藥物的相關(guān)研發(fā)等,在云深智藥平臺(tái)上穩(wěn)定運(yùn)行。
“云深智藥”的命名出自唐詩(shī)《尋隱者不遇》,“只在此山中,云深不知處”,暗含新藥研發(fā)背后相似的歷程。
該平臺(tái)旨在覆蓋臨床前新藥研發(fā)的全流程,包含蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、虛擬篩選、分子設(shè)計(jì)/優(yōu)化、ADMET性質(zhì)預(yù)測(cè)(即將開源)及合成路線規(guī)劃等在內(nèi)的五大模塊。
蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)作為藥物設(shè)計(jì)的基礎(chǔ),對(duì)了解生物體內(nèi)分子間的相互作用至關(guān)重要。此前藥企、科研機(jī)構(gòu)等通過傳統(tǒng)方式進(jìn)行蛋白質(zhì)結(jié)構(gòu)的實(shí)驗(yàn)測(cè)定,往往難度大、周期長(zhǎng)、費(fèi)用高。
而通過深度學(xué)習(xí)模型預(yù)測(cè)出蛋白質(zhì)結(jié)構(gòu)以及功能后,計(jì)算機(jī)可以更快的從數(shù)億的海量小分子中,快速而有針對(duì)性地找到潛在的苗頭化合物,有效提升研發(fā)效率。
此次在云深智藥平臺(tái)上,騰訊AI Lab應(yīng)用了一項(xiàng)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的新算法。數(shù)據(jù)顯示,騰訊新算法在困難案例(hard)上的提高非常顯著,比業(yè)內(nèi)公認(rèn)的權(quán)威方法Robetta提高了10%。
自2020年加入蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的全球權(quán)威測(cè)試平臺(tái)CAMEO以來,騰訊AI Lab團(tuán)隊(duì)?wèi){借該自研算法,半年內(nèi)五次奪得月度冠軍。
這項(xiàng)算法的創(chuàng)新思路也已應(yīng)用在云深智藥平臺(tái)上,將在新靶點(diǎn)發(fā)現(xiàn)、疾病機(jī)理研究上進(jìn)一步發(fā)揮應(yīng)用價(jià)值。
在藥物虛擬篩選和ADMET性質(zhì)預(yù)測(cè)方面,騰訊AI Lab也在多個(gè)公開數(shù)據(jù)集上取得較高精確度、突破了業(yè)界標(biāo)準(zhǔn)。后續(xù)ADMET預(yù)測(cè)模塊將開源大規(guī)模自監(jiān)督分子圖預(yù)訓(xùn)練GX模型,分子生成模型預(yù)計(jì)也將在下半年開源。
雷鋒網(wǎng)了解到,目前,虛擬篩選和ADMET性質(zhì)預(yù)測(cè)兩個(gè)工具模塊已免費(fèi)對(duì)外開放使用,蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、分子設(shè)計(jì)/優(yōu)化、合成路線規(guī)劃等模塊也將在未來幾個(gè)月陸續(xù)上線,后續(xù)平臺(tái)還將研發(fā)更多藥物發(fā)現(xiàn)功能模塊和分析功能。
除了能夠免費(fèi)使用平臺(tái)搭載的核心功能外,藥企、科研機(jī)構(gòu)還可以與騰訊共同開發(fā)定制化的AI工具。
云深智藥平臺(tái)融合了騰訊AI Lab和騰訊云在前沿算法、優(yōu)化數(shù)據(jù)庫(kù)以及計(jì)算資源上的優(yōu)勢(shì),用戶不需再自行部署,登錄平臺(tái)就能快速地將AI能力引入現(xiàn)有的研發(fā)流程中,可以更便捷地展開研究。
平臺(tái)提供數(shù)據(jù)庫(kù)-算法-算力一體化服務(wù)
AI助力藥物研發(fā),算法、算力、數(shù)據(jù)三要素缺一不可、且相輔相成。先進(jìn)算法可對(duì)已有大數(shù)據(jù)深度挖掘并分析數(shù)據(jù)間的隱含關(guān)系。
這個(gè)過程不僅直接助力新藥發(fā)現(xiàn),還整合了大量已有數(shù)據(jù)庫(kù),同時(shí)促進(jìn)新數(shù)據(jù)的產(chǎn)生和積累,更好地優(yōu)化算法。優(yōu)化的算法反過來也能降低模型對(duì)數(shù)據(jù)量的依賴,提高模型的范化性。
騰訊的算力支持則加快了數(shù)據(jù)庫(kù)存儲(chǔ)查找、算法迭代速度,并大大縮短使用模型的運(yùn)算時(shí)間。
云深智藥平臺(tái)除了在算法領(lǐng)域不斷創(chuàng)新,還提供算力和數(shù)據(jù)庫(kù)的一體化服務(wù)支撐。
數(shù)據(jù)方面,分子大數(shù)據(jù)是藥物研發(fā)中的基礎(chǔ)設(shè)施。
現(xiàn)有的藥物分子公開數(shù)據(jù)集,以PubChem和ChEMBL等為代表,其來源多樣。但也由于數(shù)據(jù)來源于不同機(jī)構(gòu)的不同實(shí)驗(yàn)環(huán)境,存在數(shù)據(jù)難以對(duì)齊,字段缺失較多,總體質(zhì)量不佳的問題,從而難以直接用于開發(fā)預(yù)測(cè)模型。
云深智藥平臺(tái)使用的分子大數(shù)據(jù),基于現(xiàn)有公開數(shù)據(jù)集,進(jìn)行了多個(gè)環(huán)節(jié)的精細(xì)清洗整理工作,得到可以用于直接構(gòu)建深度學(xué)習(xí)模型的藥物分子大數(shù)據(jù)集,并且已在多個(gè)藥物研發(fā)的項(xiàng)目中得到應(yīng)用驗(yàn)證,清洗過程對(duì)多個(gè)項(xiàng)目的結(jié)果均有很大的提升作用。
清洗過后的、打通多個(gè)數(shù)據(jù)庫(kù)的大數(shù)據(jù)集已在陸續(xù)上線中。
算力方面,騰訊云為云深智藥平臺(tái)提供計(jì)算資源,藥企、科研機(jī)構(gòu)登錄平臺(tái)即可開展研究,不需要再自行部署,就能快速地將AI能力引入現(xiàn)有的研發(fā)流程中。
平臺(tái)功能覆蓋新藥發(fā)現(xiàn)全流程
臨床前新藥發(fā)現(xiàn)流程要經(jīng)歷從靶點(diǎn)的發(fā)現(xiàn)和驗(yàn)證、苗頭化合物的發(fā)現(xiàn)、先導(dǎo)化合物的發(fā)現(xiàn)和優(yōu)化直至臨床候選化合物的確認(rèn)及開發(fā)?!冈粕钪撬帯蛊脚_(tái)覆蓋了臨床前新藥發(fā)現(xiàn)的全流程。
新藥發(fā)現(xiàn)的第一步是靶點(diǎn)識(shí)別和確認(rèn),找到藥物在體內(nèi)的作用位點(diǎn),確定靶點(diǎn)蛋白質(zhì)的結(jié)構(gòu)是其中的關(guān)鍵工作,被視為藥物研發(fā)的重要基石。
比如一個(gè)蛋白參與了某個(gè)疾病并成為關(guān)鍵通路上的重要一環(huán),那么當(dāng)研究人員了解該蛋白的結(jié)構(gòu)后,就可以針對(duì)性地設(shè)計(jì)藥物分子來調(diào)節(jié)蛋白的功能。
實(shí)驗(yàn)測(cè)定蛋白質(zhì)結(jié)構(gòu)往往難度大、周期長(zhǎng)、費(fèi)用高;通過深度學(xué)習(xí)模型預(yù)測(cè)出蛋白質(zhì)結(jié)構(gòu)以及功能后,計(jì)算機(jī)便可以更快地從數(shù)億的海量小分子中,快速而有針對(duì)性地找到潛在的苗頭化合物。
雷鋒網(wǎng)了解到,「云深智藥」平臺(tái)采用的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法在準(zhǔn)確度上達(dá)到國(guó)際領(lǐng)先水平,得益于兩項(xiàng)關(guān)鍵技術(shù)上取得突破。
一是基于自監(jiān)督學(xué)習(xí)的蛋白質(zhì)折疊方法,不依賴同源序列,而是直接從序列數(shù)據(jù)庫(kù)中通過自監(jiān)督學(xué)習(xí),學(xué)得共進(jìn)化的模式,從而能夠從無(wú)到有地產(chǎn)生出含有共進(jìn)化信息的偽同源序列,并最終讓這些蛋白能夠有效折疊;
二是通過一種基于深度學(xué)習(xí)的可迭代方法,有效整合模板建模與自由建模,首次提出了動(dòng)態(tài)的、可迭代的氨基酸對(duì)特異性的約束條件,顯著提高了建模的精度,從而更好的折疊蛋白。
針對(duì)靶點(diǎn)篩選苗頭化合物是新藥發(fā)現(xiàn)的第二步。與傳統(tǒng)的實(shí)驗(yàn)篩選相比,計(jì)算方法進(jìn)行的虛擬篩選無(wú)需消耗化合物樣品,能極大節(jié)省人力物力。
基于配體的藥物設(shè)計(jì)方法(ligand-based drug design,LBDD)是虛擬篩選的常見方法之一,是指從已知的有活性的配體小分子結(jié)構(gòu)出發(fā),學(xué)習(xí)和建立分子結(jié)構(gòu)與活性之間關(guān)系的模型,用來預(yù)測(cè)新化合物的活性。
由于很多靶點(diǎn)的已測(cè)得的化合物活性數(shù)據(jù)非常有限,嚴(yán)重制約了預(yù)測(cè)模型的準(zhǔn)確性。
AI方法有望解決這一問題:例如「云深智藥」平臺(tái)的虛擬篩選模塊首次將元學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)算法用于LBDD任務(wù),通過AI”遷移“從其他靶點(diǎn)上面學(xué)習(xí)到的知識(shí)(如分子局部結(jié)構(gòu)對(duì)靶點(diǎn)結(jié)合強(qiáng)度的影響),應(yīng)用在目標(biāo)靶點(diǎn)上來提高模型預(yù)測(cè)精度。
目前,該算法在數(shù)千個(gè)實(shí)驗(yàn)數(shù)據(jù)集上預(yù)測(cè)精度(預(yù)測(cè)活性與實(shí)驗(yàn)測(cè)量活性的相關(guān)性)的中位數(shù)從目前最高記錄0.36提升到0.42,且篩選可用模型的百分比從56%提升到60%,突破業(yè)界標(biāo)準(zhǔn)。
進(jìn)入藥物研發(fā)后期,預(yù)測(cè)分子的ADMET性質(zhì)尤為重要(包括藥物的吸收、分配、代謝、排泄和毒性)。據(jù)統(tǒng)計(jì),因ADMET性質(zhì)問題引起的藥物后期失敗的比例高達(dá)60%。
因此,及早發(fā)現(xiàn)并排除成藥性欠佳的分子能夠大幅降低后期藥物研發(fā)失敗的風(fēng)險(xiǎn)?;贏I的ADMET性質(zhì)預(yù)測(cè)能夠讓藥物化學(xué)家快速地進(jìn)行分子結(jié)構(gòu)改造,優(yōu)化分子理化性質(zhì),縮短藥物研發(fā)的周期,降低實(shí)驗(yàn)測(cè)試成本。
「云深智藥」平臺(tái)的藥物小分子ADMET屬性預(yù)測(cè)模塊已在多個(gè)數(shù)據(jù)集上比學(xué)術(shù)界現(xiàn)有最好模型提高3%~11%;在合作伙伴的反饋中,平臺(tái)的自研算法精度超過現(xiàn)有商業(yè)軟件6%~37%不等。
同時(shí),平臺(tái)采用了注意力等機(jī)制可視化分子中的子結(jié)構(gòu)對(duì)結(jié)果的影響,提供模型的可解釋性。此外,平臺(tái)還可提供當(dāng)?shù)匕姹镜褥`活的部署形式,保障用戶的數(shù)據(jù)安全。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章