燧坤智能CEO曾亥年：AI制藥是未來藥神，還是虛假繁榮？丨萬字長文

本文作者：劉海濤

2021-07-29 12:21

導(dǎo)語：少年版本的AI新藥研發(fā)真的會如己所愿成為新的造富時(shí)代，還就只是一場虛假的泡沫神話。

盤點(diǎn)互聯(lián)網(wǎng)的前十年，電子商務(wù)絕對是那個(gè)時(shí)代最耀眼的產(chǎn)業(yè)，也更是各個(gè)互聯(lián)網(wǎng)企業(yè)的首次集體站隊(duì)。

彼時(shí)，卓越亞馬遜、eBay等平臺在海外的巨大成功，以及新物流市場的全面起步，讓電子商務(wù)成為國內(nèi)最大的紅利市場。

而當(dāng)初京東、淘寶、蘇寧的那次集體站隊(duì)，不僅創(chuàng)造出了BATJ的巨頭格局，甚至當(dāng)初的規(guī)則還影響著現(xiàn)今的互聯(lián)網(wǎng)商業(yè)模式。

如今，AI新藥研發(fā)的美好前景，也開始觸發(fā)巨頭和新創(chuàng)業(yè)們的再次集體下注。

在這一切還沒塵埃落定之前，少年版本的AI新藥研發(fā)真的會如己所愿成為新的造富時(shí)代，還就只是一場虛假的泡沫神話。

近日，雷鋒網(wǎng)《醫(yī)健AI掘金志》以“AI制藥·下一個(gè)現(xiàn)象級賽道”為主題，邀請燧坤智能、英飛智藥、宇道生物、西湖歐米、華為云，五家先鋒企業(yè)，舉辦了一場云峰會分享。

作為此次論壇的演講嘉賓，燧坤智能CEO曾亥年，以《人工智能重塑生物醫(yī)藥研發(fā)的現(xiàn)狀與展望》為題，進(jìn)行了演講。

曾亥年表示：如今人工智能應(yīng)用已經(jīng)拓展至各個(gè)行業(yè)，例如圍棋、計(jì)算機(jī)圖像、醫(yī)學(xué)影像、安防領(lǐng)域等等，而在新藥研發(fā)領(lǐng)域，通過阿斯利康、AlphaFold2等藥企和AI公司的推動，也漸漸成為共同追捧的熱點(diǎn)。

但AI+制藥在創(chuàng)造巨大前景的同時(shí)也存在許多挑戰(zhàn)。

例如，美國著名藥化學(xué)家Derek Lowe，近日就對于AI制藥企業(yè)Exscientia和住友集團(tuán)合作研發(fā)的針對強(qiáng)迫癥的創(chuàng)新藥——DSP-1181發(fā)難。

首先，Derek 認(rèn)為這個(gè)分子雖然是 AI輔助研發(fā)出來的藥物，但不一定能夠解決靶點(diǎn)本身和臨床生物學(xué)不清晰的問題，而且新分子發(fā)現(xiàn)也并不是藥物研發(fā)的限速步驟。

其次，Derek 表示，已經(jīng)有大量類似小分子被發(fā)現(xiàn)，所以把小分子用在OCD適應(yīng)癥領(lǐng)域的想法并不是新的創(chuàng)新。

最后，AI并沒有解決臨床失敗率大于90%的問題。

以下是演講全部內(nèi)容，《醫(yī)健AI掘金志》做了不改變原意的整理和編輯：

大家好，我是燧坤智能的CEO曾亥年，教育背景包括生物學(xué)和化學(xué)。

本科在復(fù)旦大學(xué)學(xué)習(xí)生命科學(xué)，之后在美國有兩段學(xué)習(xí)經(jīng)歷：分別主修植物化學(xué)，涵蓋分析化學(xué)和分子生物學(xué)，另一段學(xué)習(xí)經(jīng)歷是美國FDA注冊法規(guī)。

回國之后做過一段時(shí)間BD & licensing，然后做過兩年時(shí)間創(chuàng)新生物藥投資，也算是生物藥行業(yè)一個(gè)從業(yè)者。

2019年我加入燧坤智能，成為燧坤智能CEO。

今天很榮幸能夠用一個(gè)小時(shí)，在這里聊一下人工智能如何重塑生物醫(yī)藥行業(yè)，用具體案例講述行業(yè)現(xiàn)狀和面臨的挑戰(zhàn)，并且和大家一起展望行業(yè)的未來。

首先有個(gè)聲明，今天所講的東西很多來自于網(wǎng)上，不代表公司立場，更多的是站在一個(gè)全局角度，探討人工智能和生物醫(yī)藥兩者結(jié)合的現(xiàn)狀。

燧坤智能CEO曾亥年：AI制藥是未來藥神，還是虛假繁榮？丨萬字長文

大家應(yīng)該還記得，2018年電影《我不是藥神》在國內(nèi)上映?？催^這部電影的人基本上都會哭。

電影主要講述的是這樣一個(gè)故事：由于新藥研發(fā)的前期投入很大，成功率很低，因此批準(zhǔn)上市新藥的定價(jià)往往非常高，這就造成國內(nèi)許多重癥病患，無論是吃藥還是不吃藥，都是一個(gè)難以取舍的抉擇。

如果吃藥，很有可能就會吃得傾家蕩產(chǎn)；如果不吃藥，就基本上是放棄生命選擇死亡了。這是一個(gè)非常悲傷的故事。

這部電影對于醫(yī)藥行業(yè)算是反面的教材。醫(yī)藥行業(yè)就是以病人為中心，以臨床需求的滿足為中心，去解決病患無藥可用、用不上藥和用不起藥的問題，也就是可及性和可負(fù)擔(dān)性的問題。

所以，在今天給大家分享的主題下面，我寫了一小行字：讓藥神被AI取代。

今天的分享分成四個(gè)部分：

第一部分是背景，將一些概念厘清；

第二部分是現(xiàn)狀，通過案例講述人工智能具體應(yīng)用以及面臨的挑戰(zhàn)；

第三部分是展望，說說未來人工智能如何改變整個(gè)生物醫(yī)藥研發(fā)；

第四部分是公司的情況。

技術(shù)革命，AI能否“取代藥神”？

這張圖我相信大家都有看過，映射《我不是藥神》里著重凸顯藥價(jià)過高的問題，主要源于新藥研發(fā)三個(gè)大問題：失敗率高、投入高、耗時(shí)長。

燧坤智能CEO曾亥年：AI制藥是未來藥神，還是虛假繁榮？丨萬字長文

我在剛?cè)胄械臅r(shí)候，在美國問過一個(gè)新藥研發(fā)科學(xué)家，“為什么藥物研發(fā)那么難？”

他肯定覺得很奇怪，作為一個(gè)行業(yè)里的人，怎么連這個(gè)問題都不知道？但是他直接就回答我，說“如果你有答案，一個(gè)解決方案，那么你的解決方案至少值百萬美元?！?/p>

這里面的失敗率，我們寫的是90%，其實(shí)遠(yuǎn)遠(yuǎn)不止90%。因?yàn)樽鋈魏我豢钚滤?，能從臨床前推到臨床，也就是推到人體實(shí)驗(yàn)，基本上都是要萬里挑一，甚至有可能是百萬里挑一。

這樣的一個(gè)失敗率遠(yuǎn)超90%，投入成本還要考慮到大量研發(fā)失敗的藥物，這些成本也要攤薄在一個(gè)成功上市的藥物上，所以整個(gè)投入費(fèi)用非常高。

還有耗時(shí)，耗時(shí)大家好像沒有什么概念，大約是9~15年時(shí)間，而任何一個(gè)藥物上市，專利只有20年時(shí)間。

這意味著在上市之后，藥物能夠在市場上獨(dú)家做銷售時(shí)間非常短。

這也是為什么藥物，尤其是一些非常罕見的急重癥新藥上市之初就會面臨藥價(jià)非常高的市場現(xiàn)狀。

這是一個(gè)必然，企業(yè)必須在短暫的專利保護(hù)期內(nèi)將前期研發(fā)投入全部收回，此外還必須有一定盈利。

正因?yàn)榇嬖谶@三個(gè)問題，整個(gè)行業(yè)一直在追求全新技術(shù)手段解決難點(diǎn)。

其中有一個(gè)技術(shù)手段行業(yè)逐漸重視起來，人工智能，其實(shí)分兩大塊：

一塊可以理解成是簡單的、以規(guī)則為基礎(chǔ)，去制定相應(yīng)的或者開發(fā)相應(yīng)的模型；

另外可以用幾個(gè)關(guān)鍵詞籠統(tǒng)定義（連接主義、大數(shù)據(jù)、機(jī)器學(xué)習(xí)等等。）

燧坤智能CEO曾亥年：AI制藥是未來藥神，還是虛假繁榮？丨萬字長文

大家想象一下，這相當(dāng)于教一個(gè)小朋友，給他看幾張貓、狗照片，然后讓他試圖理解什么是貓，什么是狗，接下來，他很有可能就判斷出什么是貓，什么是狗。

這樣的學(xué)習(xí)能力，就是基于數(shù)據(jù)判斷學(xué)習(xí)，這樣的學(xué)習(xí)也是狹義人工智能定義。

但大家記住核心還是基于大數(shù)據(jù)的機(jī)器學(xué)習(xí)模型，基于大數(shù)據(jù)的人工智能模型。

廣義AI有一套基于CADD工具，也有一套基于機(jī)器學(xué)習(xí)的工具，這兩套工具在不同維度區(qū)別非常大。

燧坤智能CEO曾亥年：AI制藥是未來藥神，還是虛假繁榮？丨萬字長文

對于AI來講，它是基于大數(shù)據(jù)的機(jī)器學(xué)習(xí)，進(jìn)一步做相應(yīng)特征提取、模式識別。然后這些識別結(jié)果可以應(yīng)用在不同的、全新靶點(diǎn)或分子形態(tài)。

因此，我們需要有大量訓(xùn)練數(shù)據(jù)集建立這樣一個(gè)模型。

而CADD不太一樣，這套理論更像人工智能這一寬泛概念中，基于規(guī)則的，尤其是基于物理學(xué)規(guī)則，如量子力學(xué)規(guī)則、牛頓力學(xué)等規(guī)則的模型，這樣模型更多運(yùn)用在計(jì)算自由能、勢能等物理參數(shù)上。

并且，CADD不是一個(gè)龐大訓(xùn)練數(shù)據(jù)集，而是在特定靶點(diǎn)或化合物上有相應(yīng)數(shù)據(jù)，如蛋白質(zhì)靶點(diǎn)結(jié)構(gòu)相關(guān)數(shù)據(jù)，像共晶數(shù)據(jù)，然后再基于CADD模型搭建構(gòu)效關(guān)系就會更加準(zhǔn)確一些。

AI和CADD在算力方面要求也不太一樣，AI對于算力要求其實(shí)相對比較低的，但通量比較高。

同時(shí)因?yàn)锳I訓(xùn)練數(shù)據(jù)一開始就是幾十萬到幾百萬條，所以精度相對較高。例如計(jì)算百萬級別小分子，基本就是幾個(gè)小時(shí)，最多也就是幾天時(shí)間。

而CADD需要的計(jì)算算力往往與計(jì)算精度成正比，精度越高，算力要求也就越高。

例如計(jì)算一個(gè)自由能擾動，或者用量子力學(xué)計(jì)算，需要12個(gè)小時(shí)甚至幾十天時(shí)間才能完成。所以CADD和AI機(jī)器學(xué)習(xí)在算力要求方面的差別還非常大。

另外還有兩個(gè)關(guān)鍵差異：

一是迭代優(yōu)化，AI可以隨著計(jì)算數(shù)據(jù)量不斷提高，甚至這些數(shù)據(jù)不需要同一個(gè)靶點(diǎn)，只要隨著數(shù)據(jù)不斷增加，模型精度就會得到不斷提升。

而CADD通常情況可以直接從頭做計(jì)算，但從頭計(jì)算對預(yù)算要求也很高。

另外，如果不做從頭計(jì)算，CADD就需要一些已有實(shí)驗(yàn)數(shù)據(jù)、已有共晶結(jié)構(gòu)，甚至大量結(jié)構(gòu)信息和親和力數(shù)據(jù)信息給到軟件，不然構(gòu)建出的模型就不會準(zhǔn)確。

這里就有一個(gè)悖論，在大量數(shù)據(jù)情況下，商業(yè)價(jià)值就會相對較低。

第二是應(yīng)用場景，由于人工智能模型、機(jī)器學(xué)習(xí)模型基于數(shù)據(jù)驅(qū)動，所以一般能夠做大量基于生物學(xué)預(yù)測，如選擇性、毒性預(yù)測和成藥性等，所以人工智能模型、機(jī)器學(xué)習(xí)模型應(yīng)用潛力更大。

而CADD更多還是基于計(jì)算化學(xué)模型，所以在生物體內(nèi)幾乎沒有什么應(yīng)用場景，這是AI和CADD在算法路徑上的不同點(diǎn)。

燧坤智能CEO曾亥年：AI制藥是未來藥神，還是虛假繁榮？丨萬字長文

回過頭來看，人工智能已經(jīng)在很多領(lǐng)域里有了非常多應(yīng)用。大家可以看到有圍棋、計(jì)算機(jī)圖像、影像識別、安防領(lǐng)域的廣泛應(yīng)用。

燧坤智能CEO曾亥年：AI制藥是未來藥神，還是虛假繁榮？丨萬字長文

在新藥研發(fā)領(lǐng)域，這個(gè)應(yīng)用也非常明確，就是通過大量數(shù)據(jù)做特征提取以及模式識別。

所以人工智能在生物醫(yī)藥領(lǐng)域中，在新藥研發(fā)各個(gè)環(huán)節(jié)都可以有大量應(yīng)用，無論是藥物早期發(fā)現(xiàn)、靶點(diǎn)發(fā)現(xiàn)，還有臨床前研究、臨床實(shí)驗(yàn)如何挑選合適病人，以及藥物上市之后如何拓展相應(yīng)適應(yīng)癥、拓展藥物全新靶點(diǎn)都有巨大應(yīng)用價(jià)值。

競相試水，大藥企為何擁抱AI？

講完了背景，接下來我想跟大家介紹幾個(gè)案例，也就是具體現(xiàn)狀。

燧坤智能CEO曾亥年：AI制藥是未來藥神，還是虛假繁榮？丨萬字長文

第一個(gè)是阿斯利康。

今年3月，阿斯利康在他們的open day里提到小分子新藥研發(fā)管線中，目前有超過50%項(xiàng)目使用了一部分 AI工具。

由于阿斯利康應(yīng)用不同AI以及數(shù)據(jù)科學(xué)工具，所以他們公司在新藥研發(fā)領(lǐng)域里整體成功率顯著高于行業(yè)平均水平。

行業(yè)里面平均需要用三年時(shí)間，而阿斯利康只需要用一年時(shí)間；行業(yè)里平均需要合成幾千個(gè)小分子化合物，但阿斯利康只要合成1/3到1/5數(shù)量的小分子，成功率遠(yuǎn)高于行業(yè)平均水平。

另外，阿斯利康也和AI公司開展廣泛合作，比如和BenevolentAI合作，通過疾病知識圖譜發(fā)現(xiàn)新靶點(diǎn)，再基于新靶點(diǎn)尋找候選藥物。

同時(shí)，阿斯利康也有兩個(gè)不同的AI工具，一個(gè)是REINVENT，做虛擬篩選；另外一個(gè)是AiZynth，做逆合成路線設(shè)計(jì)。

現(xiàn)在已經(jīng)有越來越多藥企嘗試和AI公司，在不同領(lǐng)域開展合作，除了小分子領(lǐng)域，大分子領(lǐng)域里也有藥企向AI公司拋出橄欖枝，尤其是新冠疫苗。

燧坤智能CEO曾亥年：AI制藥是未來藥神，還是虛假繁榮？丨萬字長文

其中Moderna就利用了AI和machine learning高效開發(fā)新冠疫苗，應(yīng)用主要有三塊：

第一，評估病毒逃逸，即對于免疫逃逸或者疫苗逃逸；

第二，通過人工智能模型在設(shè)計(jì)疫苗時(shí)針對密碼子進(jìn)行優(yōu)化，即codon optimization；

第三，對mRNA結(jié)構(gòu)做優(yōu)化，可以達(dá)到兩個(gè)效果，一個(gè)是mRNA二級結(jié)構(gòu)相對穩(wěn)定，更利于翻譯；另外翻譯時(shí)候能夠提高蛋白質(zhì)產(chǎn)量，使得免疫誘導(dǎo)和免疫激活處于最強(qiáng)水平。

燧坤智能CEO曾亥年：AI制藥是未來藥神，還是虛假繁榮？丨萬字長文

除了剛才提到兩個(gè)案例，去年還有一篇非常重磅的文章，介紹MIT的James Collins課題組成果：通過人工智能發(fā)現(xiàn)全新抗生素。

這項(xiàng)成果有一定運(yùn)氣成分，他們所構(gòu)建的模型其實(shí)是基于一個(gè)非常小的樣本，只有2000多個(gè)化合物，而且僅僅針對大腸桿菌。

他們就是在這樣一個(gè)小樣本數(shù)據(jù)中構(gòu)建模型，再放到6000多個(gè)化合物庫做虛擬篩選，最后在前99個(gè)分子中找與傳統(tǒng)抗生素非常不一樣的分子。

他們最后找到一個(gè)分子，也就是Halicin，這個(gè)分子與其他抗生素確實(shí)長得不一樣

大家可以關(guān)注到它與其他抗寄生蟲或抗真菌類藥物比較接近，如甲硝唑。

完成虛擬篩選之后，進(jìn)行大腸桿菌抑菌實(shí)驗(yàn)，發(fā)現(xiàn)它的抑菌效果還不錯(cuò)，再拿這個(gè)分子針對其他耐藥革蘭氏陰性致病菌做相應(yīng)抑菌試驗(yàn)，發(fā)現(xiàn)也有抗菌活性。

因?yàn)閺囊婚_始建立機(jī)器學(xué)習(xí)模型的時(shí)候，并沒有考慮抗生素結(jié)構(gòu)本身，而是考慮抗生素結(jié)構(gòu)相關(guān)性，正是因?yàn)闆]有考慮到這個(gè)機(jī)制，所以他們找到了 Halicin。

這是一個(gè)完全不一樣的抑菌機(jī)制：通過破壞細(xì)菌細(xì)胞膜上維持電化學(xué)梯度能力來殺死細(xì)菌，也就是這個(gè)分子把細(xì)菌質(zhì)子泵能力給破壞，導(dǎo)致細(xì)菌沒有辦法產(chǎn)生能量，進(jìn)而導(dǎo)致死亡，所以對于耐藥致病菌也有一定效果。

這也證明機(jī)器學(xué)習(xí)模型、人工智能模型在新藥研發(fā)中，哪怕是在數(shù)據(jù)量不夠情況下，依然有希望找到非常好的候選藥物。

兩起爭議，AI+制藥是虛假繁榮？

下面兩個(gè)案例在網(wǎng)上存在較大爭議。

燧坤智能CEO曾亥年：AI制藥是未來藥神，還是虛假繁榮？丨萬字長文

這篇文章是2019年6月份發(fā)表于Nature Biotechnology上的。

當(dāng)時(shí)這篇文章在業(yè)界很轟動，因?yàn)閲鴥?nèi)傳播這個(gè)文章時(shí)，用到標(biāo)題是“AI在21天/46天獲得先導(dǎo)化合物”。

這樣一個(gè)標(biāo)題讓傳統(tǒng)藥化界為之一震：居然能夠那么快速度拿到先導(dǎo)化合物？

但美國非常有名的藥化學(xué)家Derek Lowe，也是生物醫(yī)藥行業(yè)評論家，卻提到了幾個(gè)觀點(diǎn)：

第一，這個(gè)分子還需要進(jìn)一步做優(yōu)化，換言之這只是一個(gè)先導(dǎo)化合物，并不是PCC。

第二，這樣一個(gè)分子其實(shí)和藥化學(xué)家看一眼就能想到分子改造非常接近，他這里寫的叫“too obvious”，這還有另外一個(gè)內(nèi)涵（就是專利里很可能已經(jīng)覆蓋掉這個(gè)分子，所以并沒有專利空間。）

第三，對應(yīng)上述提到的“too obvious”，他只是把一個(gè)羰基變成一個(gè)異惡唑。

我覺得這個(gè)變化不同人可以有不同的觀點(diǎn)，但不管怎樣，至少看上去結(jié)構(gòu)整體相似度還比較接近。

所以Derek Lowe就認(rèn)為，整個(gè)流程并沒有能夠真正證明，AI確實(shí)能夠把這個(gè)流程應(yīng)用在不同領(lǐng)域里面，從而找到一個(gè)最好的化合物。

這其實(shí)還有一個(gè)問題，整個(gè)流程里用到大量針對DDR1靶點(diǎn)的小分子配體，大概有幾百個(gè)到幾千個(gè)。

大量數(shù)據(jù)構(gòu)建一個(gè)模型，最多做出來的也就是一個(gè)me too、me better，連fast follow可能都不算，更不用說first in class。

那這個(gè)流程是不是真的能夠應(yīng)用全新的、數(shù)據(jù)量非常少的靶點(diǎn)上做相應(yīng)藥物發(fā)現(xiàn)，或者快速找到先導(dǎo)化合物，這其實(shí)是非常存疑，這也是這篇文章有爭議的地方。

還有一個(gè)是關(guān)于行業(yè)里面炙手可熱的一家企業(yè)（Exscientia），這家公司一直有大量新聞報(bào)道，最近這段時(shí)間也有一個(gè)藥物啟動臨床實(shí)驗(yàn)，和住友一起合作研發(fā)針對強(qiáng)迫癥的藥——DSP-1181。

燧坤智能CEO曾亥年：AI制藥是未來藥神，還是虛假繁榮？丨萬字長文

Derek Lowe對此也發(fā)表評論：

第一，他認(rèn)為這個(gè)分子雖然是AI輔助研發(fā)的藥物，但不一定真的能夠解決掉靶點(diǎn)本身，或者生物學(xué)不清晰問題，并且他認(rèn)為新分子發(fā)現(xiàn)也并不是藥物研發(fā)的限速步驟。

第二，Derek表示已經(jīng)有大量類似小分子被發(fā)現(xiàn)，所以把這些小分子用在OCD適應(yīng)癥的領(lǐng)域想法并不是全新。

第三，Derek認(rèn)為AI并沒有解決臨床失敗率大于90%的問題。

我覺得Derek可能混淆了AI在藥物研發(fā)中起到一個(gè)主要作用，相信AI更多地是被用來判斷這個(gè)分子是不是適合OCD適應(yīng)癥，以及適應(yīng)癥對應(yīng)的靶點(diǎn)。

它本身不能解決靶點(diǎn)和適應(yīng)癥之間生物學(xué)問題，或者臨床失敗率高問題，AI更多地還是站在靶點(diǎn)、小分子之間關(guān)系去解決第一步—即藥物發(fā)現(xiàn)。

所以在這個(gè)疑惑上，我覺得Derek可能對于AI期望太高，勉為其難。

挑戰(zhàn)預(yù)測，AI互補(bǔ)生物學(xué)認(rèn)知

接下來簡單談?wù)勀婧铣伞?/p>

從前兩年一直到今天，整個(gè)業(yè)界已經(jīng)有越來越多人關(guān)注逆合成，國內(nèi)好幾家公司在用不同逆合成工具。

燧坤智能CEO曾亥年：AI制藥是未來藥神，還是虛假繁榮？丨萬字長文

但大家對于逆合成普遍判斷都是對于已有、明確有具體反應(yīng)路徑的分子，逆合成效果非常好。

因?yàn)樗喈?dāng)于計(jì)算機(jī)記住了所有反應(yīng)路徑，以及這些反應(yīng)路徑每一個(gè)原料、底物、價(jià)格、反應(yīng)的得率。

所以當(dāng)給到一個(gè)它見過的分子，逆合成路徑推薦是非?？焖佟?/p>

但我們經(jīng)常遇見都新分子，像現(xiàn)在的新藥研發(fā)，無論是做fast-follow，還是first in class，為了有自己的專利空間，設(shè)計(jì)出來的一定是全新分子，甚至之前從來沒有人報(bào)道過。

而這樣一個(gè)分子合成路徑一定是新的，此時(shí)計(jì)算機(jī)再做推薦就會存在一定問題。

所以我們得到的反饋是，大家認(rèn)為從逆合成角度，現(xiàn)在能起到作用還相對有限，但我們相信在不久將來，逆合成預(yù)測一定會做得越來越好。

現(xiàn)在單步反應(yīng)已經(jīng)做得很不錯(cuò)，在未來多步反應(yīng)一定也會做得越來越好，而且能夠把不同維度信息全都整合進(jìn)來，包括原材料成本和可及性等相關(guān)信息。

我這里還想講的是關(guān)于hERG預(yù)測。

我們拿過自己的數(shù)據(jù)做相應(yīng)實(shí)驗(yàn)，最后得到的結(jié)論就是，目前主流的hERG相關(guān)模型準(zhǔn)確率都不太高，相關(guān)性基本在0.1~0.2之間。

為什么會出現(xiàn)這個(gè)問題呢？

這與一開始模型建模有很大關(guān)系，也就是訓(xùn)練數(shù)據(jù)集雖然是對的，但模型總體的框架思路，并沒有真正做好相應(yīng)特征提取和模式識別，導(dǎo)致計(jì)算機(jī)基于這樣一個(gè)數(shù)據(jù)集“學(xué)歪了”，或者有一定bias，后面預(yù)測就會出現(xiàn)大量問題。

我相信隨著對于hERG本身生物學(xué)認(rèn)知的提升，以及更多訓(xùn)練數(shù)據(jù)集，模型最終的整體相關(guān)性會得到不斷提高。

燧坤智能CEO曾亥年：AI制藥是未來藥神，還是虛假繁榮？丨萬字長文

還有一個(gè)案例和肝臟毒性相關(guān)，就是藥物誘導(dǎo)肝臟毒性 drug induced liver injury。

熟悉藥物誘導(dǎo)肝臟損傷會知道，在做動物模型、細(xì)胞模型，還是做酶動力學(xué)實(shí)驗(yàn)時(shí)觀測點(diǎn)完全不一樣。

但建模時(shí)候到底用什么樣數(shù)據(jù)，用什么樣算法框架分析學(xué)習(xí)數(shù)據(jù)，其實(shí)需要不同算法模型團(tuán)隊(duì)，需要基于自己判斷認(rèn)知去做相應(yīng)模型。

燧坤智能CEO曾亥年：AI制藥是未來藥神，還是虛假繁榮？丨萬字長文

這里很容易把不同數(shù)據(jù)混到一起，導(dǎo)致模型什么都沒有學(xué)到，或者對將特定數(shù)據(jù)類型建立一種模型，但預(yù)測卻是另一個(gè)類型。

例如，想做生化實(shí)驗(yàn)數(shù)據(jù)模型，但我想預(yù)測細(xì)胞水平數(shù)據(jù)，這樣很有可能會南轅北轍。

所以在這個(gè)領(lǐng)域中，算法模型、機(jī)器學(xué)習(xí)模型、人工智能模型一定要根據(jù)具體數(shù)據(jù)集、具體問題做相應(yīng)調(diào)整。

還有抗原選擇預(yù)測，我們在新冠期間針對新冠病毒做過大量MHC I表位結(jié)合預(yù)測，其中幾個(gè)地方需要大家關(guān)注：

第一，人類其實(shí)有不同MHC表位，這些不同MHC表位在每個(gè)人發(fā)生率是不同的。

所以我們輸血時(shí)候要分血型，如果是器官移植則還要看亞型，不同MHC或HLA型對應(yīng)表位親和力越好，或者表位被呈遞展示出來可能性越好，其實(shí)會很不一樣。

舉個(gè)例子，有一段表位在兩個(gè)不同亞型人種親和力不同，相差10倍也就意味抗原設(shè)計(jì)時(shí)候要考慮生物學(xué)本質(zhì)問題，不能簡單認(rèn)為某一特定HLA亞型最優(yōu)表位，直接做抗原選擇。

燧坤智能CEO曾亥年：AI制藥是未來藥神，還是虛假繁榮？丨萬字長文

除此之外，還要更多考慮本身表位生成是否符合自然法則，以及當(dāng)表位生成之后，怎么設(shè)計(jì)整個(gè)抗原，應(yīng)該把不同表位串起來，還是直接就用一個(gè)完整S蛋白。

還有一個(gè)點(diǎn)RBD排序并非最高，我看一個(gè)文獻(xiàn)，寫到RBD起始氨基酸是300多到500多，并沒有出現(xiàn)在前10名。

現(xiàn)在有很多疫苗用到的都是RBD表位，那是不是我們應(yīng)該用一些其他表位，或者其他抗原去設(shè)計(jì)新冠疫苗，尤其考慮到有效激發(fā)細(xì)胞免疫。

這也是從人工智能角度，反過來可以給予我們生物學(xué)角度在疫苗設(shè)計(jì)上的反思。

另外通過密碼子優(yōu)化增加蛋白質(zhì)表達(dá)量，還要考慮問題就更多，例如密碼子優(yōu)化模型在某一個(gè)蛋白質(zhì)能做到最優(yōu)同時(shí)，在其他蛋白質(zhì)是否也能通用。

另外，影響蛋白質(zhì)翻譯因素也有很多，這些是不是都已經(jīng)考慮進(jìn)來，還是只考慮了一部分。

在做蛋白質(zhì)的密碼子優(yōu)化時(shí)，還考慮產(chǎn)量、蛋白質(zhì)穩(wěn)定性的關(guān)系，這些都是人工智能模型構(gòu)建過程中需要解決的問題。

燧坤智能CEO曾亥年：AI制藥是未來藥神，還是虛假繁榮？丨萬字長文

展望：AI的短期及中長期潛能

AI在整個(gè)生物醫(yī)藥領(lǐng)域應(yīng)用中，大家可以聽到很多概念，包括探索更廣泛化合物空間、從大量數(shù)據(jù)里學(xué)到很多規(guī)律再反哺不同領(lǐng)域，以及應(yīng)用在全新靶點(diǎn)或全新分子角度再提高效率等等。

燧坤智能CEO曾亥年：AI制藥是未來藥神，還是虛假繁榮？丨萬字長文

其實(shí)真正判斷人工智能模型應(yīng)用價(jià)值角度有很多，下圖右側(cè)是簡單羅列一些，當(dāng)然，這些都是基于自己的一些觀察，不一定完全正確。

我們相信短期人工智能跟生物藥結(jié)合，更多還是人腦和機(jī)器，或者h(yuǎn)uman Intelligence和artificial Intelligence之間的協(xié)作互動。

燧坤智能CEO曾亥年：AI制藥是未來藥神，還是虛假繁榮？丨萬字長文

這個(gè)圖大家看到過很多次是DMTA的流程，從開始設(shè)計(jì)（Design），然后把實(shí)驗(yàn)做出來（Make），再做測試（Test），再做分析（Analysis），最后反過來的一個(gè)循環(huán)。

人工智能在建模時(shí)候遠(yuǎn)比大家想象要復(fù)雜，很多人可能以為人工智能建模，就是我有很多數(shù)據(jù)，再建了一個(gè)模型，然后就很容易到達(dá)終點(diǎn)。

其實(shí)不是這樣，真實(shí)大數(shù)據(jù)分析是反反復(fù)復(fù)、起起落落，有很多問題，很有可能建出來的模型既沒有學(xué)到合適特征也沒有學(xué)到應(yīng)有模式，預(yù)測出來全是瞎猜，甚至可能比丟硬幣準(zhǔn)確率還要低。

這個(gè)時(shí)候就需要大家回過頭來看一下，究竟是什么地方出了問題，是最早的需求出了問題？還是數(shù)據(jù)本身出了問題？數(shù)據(jù)清洗出了問題，還是最后對于整個(gè)數(shù)據(jù)的建模錯(cuò)了、框架、算法選擇錯(cuò)了？抑或是特征工程用錯(cuò)了？或者整體判斷標(biāo)準(zhǔn)和判斷依據(jù)錯(cuò)了？

所以建模過程非常復(fù)雜，這也是為什么在短期內(nèi)我們依然需要Human Intelligence和artificial Intelligence一起來協(xié)作，才能最終達(dá)到生物醫(yī)藥研發(fā)上效率提升。

燧坤智能CEO曾亥年：AI制藥是未來藥神，還是虛假繁榮？丨萬字長文

AI和生物科技在新藥研發(fā)領(lǐng)域里面的深度融合內(nèi)容基本上這個(gè)表里都框進(jìn)來了，大部分聚焦在候選分子的發(fā)現(xiàn)或者優(yōu)化上。

這些優(yōu)化已經(jīng)不僅局限于小分子，可以是多肽、表位抗體抗原選擇、疫苗，也可以是生物大分子藥物。

除了這一塊，臨床前大量研究也可以跟人工智能相結(jié)合。

臨床實(shí)驗(yàn)中，AI可以去找到相應(yīng)生物標(biāo)志物，包括對一些病人分析以便我們找到對應(yīng)病人，進(jìn)而找到相應(yīng)診斷方法，最后能夠使得臨床實(shí)驗(yàn)成功率得以提高，病人受益更多，不良反應(yīng)更小。

還有藥物再利用，單用也好，做聯(lián)合療法也好，也包括最簡單直接快速利用人工智能算法、模型、腳本、爬蟲做信息聚集和綜合，構(gòu)建知識圖譜，最后還能匯總起來給到科學(xué)家快速做判斷，這就是計(jì)算機(jī)一直以來的關(guān)鍵作用。

燧坤智能CEO曾亥年：AI制藥是未來藥神，還是虛假繁榮？丨萬字長文

中長期來看，人工智能是全面整合到或者說是賦能生物醫(yī)藥的各個(gè)階段的：

第一，能夠通過人工智能提升疾病認(rèn)知，包括衰老認(rèn)知，包括與干細(xì)胞相關(guān)、再生醫(yī)學(xué)相關(guān)。

第二，能夠拓展疾病治療創(chuàng)新平臺，和不同、全新的一些therapeutic modality合作，不僅僅是小分子，可以是多肽、大分子，多肽+小分子、單抗的大分子，各種各樣的核酸類藥物。

燧坤智能CEO曾亥年：AI制藥是未來藥神，還是虛假繁榮？丨萬字長文

這里有一個(gè)小例子，AI在腫瘤治療領(lǐng)域的應(yīng)用。

從一開始靶點(diǎn)發(fā)現(xiàn)，到藥物發(fā)現(xiàn)，最后確定聯(lián)合療法，哪些病人哪些藥物是最有用，以及如何確定給藥劑量，整個(gè)流程都是可以用到人工智能、機(jī)器學(xué)習(xí)模型去起到相應(yīng)輔助賦能、提升效率作用。

最后介紹一下我們公司的情況。

燧坤智能CEO曾亥年：AI制藥是未來藥神，還是虛假繁榮？丨萬字長文

我們還是一個(gè)初創(chuàng)型企業(yè)，于2018年9月份在圖靈人工智能研究院幫助下孵化成立，公司注冊在南京。

現(xiàn)在在北京有自己人工智能算法研發(fā)中心，在上海有新藥研發(fā)中心和商務(wù)中心，整個(gè)技術(shù)團(tuán)隊(duì)擁有可以從0~1建模能力。

因此，我們過往無論是學(xué)術(shù)上還是研發(fā)上，其實(shí)都有大量優(yōu)良track record，可以做大量模型從0~1的從頭開發(fā)。

我們自己也有很多軟件著作，包括已經(jīng)申請了的好幾個(gè)模型的專利。小分子全球PCT專利已經(jīng)提交兩個(gè)，后續(xù)也在寫幾個(gè)新小分子專利。

燧坤智能CEO曾亥年：AI制藥是未來藥神，還是虛假繁榮？丨萬字長文

我們和其它 AI公司不太一樣在于，我們不聚焦計(jì)算化學(xué)或者物理化學(xué)上，我們更多聚焦在多領(lǐng)域。

例如剛才提到的小分子、多肽大分子等，我們都有相應(yīng)模型可以覆蓋到，而且我們也有能力為 CRO、為新藥研發(fā)做相應(yīng)模型建立。

燧坤智能CEO曾亥年：AI制藥是未來藥神，還是虛假繁榮？丨萬字長文

我們現(xiàn)在合作單位已經(jīng)超過20家，自主研發(fā)項(xiàng)目超過8個(gè)。

整個(gè)新藥研發(fā)的流程是非常漫長的，都是串聯(lián)的過程，我們現(xiàn)在在做的事情其實(shí)是在降本增效，通過人工智能平臺和不同合作方合作，賦能創(chuàng)新生物醫(yī)藥的研發(fā)。

我們相信未來非常短時(shí)間里，也許是3~5年就能夠重塑整個(gè)生物醫(yī)藥的研發(fā)流程，通過這樣一個(gè)生物醫(yī)藥研發(fā)流程重塑再造。

我們可以真正提升新藥研發(fā)效率，從而實(shí)現(xiàn)(讓藥神被AI)。

問答環(huán)節(jié)

Q1、AI公司的數(shù)據(jù)來源一般從哪里來？

曾亥年：一般情況下大家都是幾個(gè)來源：

①公開數(shù)據(jù)。公開數(shù)據(jù)現(xiàn)在已經(jīng)有很多了，但有幾個(gè)注意事項(xiàng)：

一個(gè)是公開數(shù)據(jù)的質(zhì)量很有可能是有一定問題的；

第二，公開數(shù)據(jù)其實(shí)會有大量的數(shù)據(jù)缺失，甚至?xí)幸恍╇[藏的標(biāo)簽，而這些標(biāo)簽會導(dǎo)致建模的時(shí)候出現(xiàn)一個(gè)虛高的模型準(zhǔn)確率。我們曾經(jīng)有用過某一個(gè)數(shù)據(jù)庫里面的某一個(gè)類型的數(shù)據(jù)，我們覺得這個(gè)數(shù)據(jù)是蠻好的，但是用完之后，模型建完發(fā)現(xiàn)結(jié)果異常契合，這里面一定是有隱藏標(biāo)簽的，這并不是一個(gè)真正的那么好的預(yù)測結(jié)果。所以像這種公開數(shù)據(jù)，大家一定要當(dāng)心；

②自己實(shí)驗(yàn)數(shù)據(jù)；

③我們通過合作方會去做的一些數(shù)據(jù)。其實(shí)像我們公司還會關(guān)注專利里面的一些數(shù)據(jù)，然后這些專利的數(shù)據(jù)我們自己有一整套高通量、大批量的自動化提取數(shù)據(jù)的工具，所以這些數(shù)據(jù)也可以拿來作為訓(xùn)練數(shù)據(jù)。

Q2：AI的靶點(diǎn)發(fā)現(xiàn)怎么做？

曾亥年：新靶點(diǎn)發(fā)現(xiàn)是很難的，新靶點(diǎn)發(fā)現(xiàn)，尤其現(xiàn)在一般情況下，我認(rèn)為分兩種，一種是靶點(diǎn)本身是一個(gè)信號通路里，但信號通路可能以前大家不關(guān)心。

但通過大量數(shù)據(jù)組學(xué)分析之后，找到這個(gè)靶點(diǎn)，還有從腫瘤角度，可能嘗試更多尋找突變靶點(diǎn)，這也是從多組學(xué)數(shù)據(jù)尋找。

Q3：似乎部分藥企也有自己AI建模的能力（剛才提到阿斯利康50%的流程都用到AI），那藥企愿意為面向燧坤這樣的AI+制藥付費(fèi)嗎？藥企是不是更傾向自己建模？

曾亥年：我們有碰到過不同的兩種公司，一種公司是愿意花錢的，而且他不僅是愿意建模，也愿意通過建模得到一系列asset，還愿意分享一部分ownership。

但也有企業(yè)不愿意做這方面付費(fèi)，所以這在商業(yè)環(huán)境里面永遠(yuǎn)是有區(qū)別的。

如果大家關(guān)注大藥企，尤其是歐美藥企和AI公司合作，基本都上都是付費(fèi)，而且金額都不少。

Q4：NLP的summarization可以實(shí)現(xiàn)到什么程度呢？AI可以總結(jié)提煉上萬篇論文的精髓，然后給一個(gè)問題的解決方案嗎？

曾亥年：其實(shí)可以實(shí)現(xiàn)很細(xì)，例如可以做到藥物分子靶點(diǎn)、適應(yīng)癥、不良反應(yīng)、藥物互相作用，甚至用具體哪一個(gè)assay來做相應(yīng)數(shù)據(jù)分析實(shí)驗(yàn)驗(yàn)證。

用什么樣細(xì)胞模型，用什么樣動物模型， NLP可以整理到非常細(xì)，當(dāng)然這取決于每一個(gè)團(tuán)隊(duì)本身能力。

NLP只是一個(gè)大概念，不是隨便去網(wǎng)上扒NLP工具，就能把這些東西都做好，這中間還是有大量訓(xùn)練過程。

Q5：跟生信相比做多組學(xué)分析的區(qū)別在哪里？

曾亥年：生信是很有可能可以找到成千上萬個(gè)不同關(guān)鍵點(diǎn)，就我們統(tǒng)一都叫biomarker，這些biomarker如果都去分析的話，時(shí)間精力會很多。

從計(jì)算機(jī)角度，從AI角度，它可以基于一系列biomarker找出他認(rèn)為最重要的幾個(gè)關(guān)鍵生物標(biāo)志物，然后再通過這些生物標(biāo)志物，或者說是靶點(diǎn)、某些信號分子、一些factors再去做進(jìn)一步分析。

而且當(dāng)組學(xué)數(shù)據(jù)足夠多的時(shí)候，生信分析起來是很痛苦的，計(jì)算機(jī)機(jī)器學(xué)習(xí)模型會更快一些。

Q6：真實(shí)世界數(shù)據(jù)研究在 Ai藥物研發(fā)中的價(jià)值和局限性？

曾亥年：今天沒有講真實(shí)世界數(shù)據(jù)，其實(shí)真實(shí)世界數(shù)據(jù)在整個(gè)藥物研發(fā)中起的作用非常大。

我們曾經(jīng)做過和蘇大附屬兒童醫(yī)院合作的項(xiàng)目，主要是兒童急性T細(xì)胞白血病用藥預(yù)后。

標(biāo)準(zhǔn)療法中會使用一些激素藥物，但是會有一部分小朋友其實(shí)沒有響應(yīng)，如果用藥前能夠判斷是否有響應(yīng)，在臨床上會很有幫助，這是一種類型的應(yīng)用場景。

還有一種類型在臨床上面匯總大量真實(shí)世界研究數(shù)據(jù)之后，很有可能找到最適合某一個(gè)特定藥物一群病人，或者對病人去做分類，然后找到對應(yīng)biomarker，最后這個(gè)biomarker可以作為一個(gè)伴隨診斷的工具。

還有一種可能性是通過大量組學(xué)數(shù)據(jù)，反過來再去找老藥新用機(jī)會，這個(gè)其實(shí)是一個(gè)特別復(fù)雜的問題，需要和生物學(xué)家，臨床醫(yī)生一起討論。

Q7：數(shù)據(jù)來自文獻(xiàn)，數(shù)據(jù)的可靠度如何解決？

曾亥年：通常情況下，如果我們都用是IC50的數(shù)據(jù)，盡管他用的測試方法可能不完全一樣，但我們默認(rèn)只要都是biochemical assay，不是cell-base的assay，應(yīng)該都是基于酶動力學(xué)、基于酶活去做的相應(yīng)的一個(gè)測試，這個(gè)數(shù)據(jù)還可以通用。

但這可能存在不同批次之間所得數(shù)據(jù)也可能會不一樣問題。

所以這個(gè)問題其實(shí)是從建模角度確實(shí)是一個(gè)挑戰(zhàn)，好在通常情況下 biological variance不會那么大，背景噪音從大數(shù)據(jù)角度也可以忍受。

Q8：deepepMHC是已經(jīng)發(fā)表的嗎？

曾亥年：MHC模型大家如果關(guān)心的話，可以查到蠻多團(tuán)隊(duì)開源模型，但我站在生物藥行業(yè)角度，這些MHC模型還有各種各樣問題，其實(shí)在剛才的幻燈片里面有簡單提到過。

Q9：Alpha fold價(jià)值多大？

曾亥年：我不想在這里引起很大的一個(gè)爭議。但很早以前，我們其實(shí)在不同的場合討論過這個(gè)問題，Alpha fold2是不是 AI或者計(jì)算生物學(xué)里面的一個(gè)奇點(diǎn)事件。

其實(shí)站在我的認(rèn)知范圍內(nèi)，我認(rèn)為是一個(gè)奇點(diǎn)事件，但這里有一個(gè)問題，其實(shí)有很多蛋白質(zhì)不是因?yàn)闆]有結(jié)構(gòu)做不出藥來，而是因?yàn)榧词褂辛私Y(jié)構(gòu)，我依然做不出藥來。

所以Alpha fold奇點(diǎn)事件確實(shí)對于無論是新藥研發(fā)也好，還是生物醫(yī)藥生命科學(xué)領(lǐng)域的研究也好，都是有非常大幫助。

但他們要做的工作還很多，比如第一個(gè)，現(xiàn)在能做到還原成為一個(gè)snapshot，就是我給你一段序列，你告訴我蛋白質(zhì)應(yīng)該長什么樣子，三維結(jié)構(gòu)應(yīng)該是什么樣子，對應(yīng)其實(shí)是一個(gè)晶體衍射結(jié)構(gòu)，或者是一個(gè)冷凍電鏡結(jié)構(gòu)，這還僅僅是一個(gè)snapshot，一個(gè)固定靜態(tài)的結(jié)構(gòu)。

其實(shí)真正要關(guān)心的是蛋白質(zhì)的動態(tài)結(jié)構(gòu)，或者說是蛋白質(zhì)和其他的小分子，以及配體，包括多肽，其他的蛋白質(zhì)復(fù)合物里面的component，它們之間的互相作用，這是一個(gè)動態(tài)的過程。

這個(gè)過程其實(shí)需要技術(shù)，包括計(jì)算，還要比現(xiàn)在Alpha fold2更進(jìn)一步，所以留給我們后來要做的事情還有很多。

Alpha fold2是有價(jià)值的，但是這個(gè)價(jià)值，這個(gè)拐點(diǎn)事件后面要走的路其實(shí)還很長。

Q10：PPT提到藥物臨床失敗率高達(dá)90%，但是恒瑞等公司臨床成功率接近100%，請問是什么原因？為什么差別這么大?

曾亥年：其實(shí)國內(nèi)臨床成功率高主要原因是大家基本上都是做fast-follow，做fast-follow的成功率是比較高，而做first in class成功率是很低的。

Q11：未來AI制藥主要商業(yè)模式還是里程碑嗎？還是更多會變成自己做管線?

曾亥年：這個(gè)沒有非黑即白商業(yè)模式。CADD元老級公司薛定諤商業(yè)模式最早時(shí)候是賣軟件，后面除了賣軟件也去換一個(gè)小公司 startup的股權(quán)。

大家都調(diào)侃說可能嫌這個(gè)股權(quán)拿太少了，所以他們就改自己做pipeline了。

所以您看一個(gè)公司30年的公司從最早賣軟件到最后自己做pipeline，其實(shí)這中間也沒有什么對錯(cuò)，包括我在PPT里面有提到 Exscientia。

那家公司其實(shí)是一個(gè)純 CRO企業(yè)，很有可能他們以后也會自己去做管線。我覺得沒有一個(gè)非黑即白的商業(yè)模式在里面。

凡是要跟生物藥結(jié)合，

平臺可以非常棒，但最終你一定要做到具體drug candidate，無論是小分子、大分子、多肽，但你一定要做到一個(gè)candidate，然后要把 candidate推到臨床，真正解決臨床上的問題，才是有意義的。

Q12：90年代硅谷曾經(jīng)流行過一輪IT+BT？

曾亥年：有位老師提了90年代硅谷曾經(jīng)流行過IT+BT。其實(shí)CADD最早時(shí)候誕生于80年代末，90年代初。

30年時(shí)間，CADD發(fā)展到現(xiàn)在有很大突破和飛躍，但我認(rèn)為沒有達(dá)到當(dāng)時(shí)整個(gè)行業(yè)對它的一個(gè)預(yù)期，因?yàn)镃ADD第二個(gè)D是design，不是discovery，是computer aided drug design。

如果大家在藥企里面待過，其實(shí)也知道做CADD的人在藥企里面其實(shí)是往往依附于藥化部門或者data science部門，這很尷尬。

現(xiàn)在因?yàn)镃ADD和AI深度融合之后，隨著IT+BT整個(gè)發(fā)展方向和趨勢，我相信會帶來很多不一樣的東西，因?yàn)?machine learning能夠做到很多原先CADD做不到的東西。

所以在這一塊，我們整個(gè) AI+生物制藥行業(yè)里面小伙伴們應(yīng)該都有這樣信心，真正去做一些事情。

最后，感謝大家參與這次的交流。雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章