丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
醫(yī)療AI 正文
發(fā)私信給劉海濤
發(fā)送

0

燧坤智能CEO曾亥年:AI制藥是未來藥神,還是虛假繁榮?丨萬字長文

本文作者: 劉海濤 2021-07-29 12:21
導語:少年版本的AI新藥研發(fā)真的會如己所愿成為新的造富時代,還就只是一場虛假的泡沫神話。

盤點互聯(lián)網(wǎng)的前十年,電子商務(wù)絕對是那個時代最耀眼的產(chǎn)業(yè),也更是各個互聯(lián)網(wǎng)企業(yè)的首次集體站隊。

彼時,卓越亞馬遜、eBay等平臺在海外的巨大成功,以及新物流市場的全面起步,讓電子商務(wù)成為國內(nèi)最大的紅利市場。

而當初京東、淘寶、蘇寧的那次集體站隊,不僅創(chuàng)造出了BATJ的巨頭格局,甚至當初的規(guī)則還影響著現(xiàn)今的互聯(lián)網(wǎng)商業(yè)模式。

如今,AI新藥研發(fā)的美好前景,也開始觸發(fā)巨頭和新創(chuàng)業(yè)們的再次集體下注。

在這一切還沒塵埃落定之前,少年版本的AI新藥研發(fā)真的會如己所愿成為新的造富時代,還就只是一場虛假的泡沫神話。

近日,雷鋒網(wǎng)《醫(yī)健AI掘金志》以“AI制藥·下一個現(xiàn)象級賽道”為主題,邀請燧坤智能、英飛智藥、宇道生物、西湖歐米、華為云,五家先鋒企業(yè),舉辦了一場云峰會分享。

作為此次論壇的演講嘉賓,燧坤智能CEO曾亥年,以《人工智能重塑生物醫(yī)藥研發(fā)的現(xiàn)狀與展望》為題,進行了演講。

曾亥年表示:如今人工智能應(yīng)用已經(jīng)拓展至各個行業(yè),例如圍棋、計算機圖像、醫(yī)學影像、安防領(lǐng)域等等,而在新藥研發(fā)領(lǐng)域,通過阿斯利康、AlphaFold2等藥企和AI公司的推動,也漸漸成為共同追捧的熱點。

但AI+制藥在創(chuàng)造巨大前景的同時也存在許多挑戰(zhàn)。

例如,美國著名藥化學家Derek Lowe,近日就對于AI制藥企業(yè)Exscientia和住友集團合作研發(fā)的針對強迫癥的創(chuàng)新藥——DSP-1181發(fā)難。

首先,Derek 認為這個分子雖然是 AI輔助研發(fā)出來的藥物,但不一定能夠解決靶點本身和臨床生物學不清晰的問題,而且新分子發(fā)現(xiàn)也并不是藥物研發(fā)的限速步驟。

其次,Derek 表示,已經(jīng)有大量類似小分子被發(fā)現(xiàn),所以把小分子用在OCD適應(yīng)癥領(lǐng)域的想法并不是新的創(chuàng)新。

最后,AI并沒有解決臨床失敗率大于90%的問題。

以下是演講全部內(nèi)容,《醫(yī)健AI掘金志》做了不改變原意的整理和編輯:

大家好,我是燧坤智能的CEO曾亥年,教育背景包括生物學和化學。

本科在復旦大學學習生命科學,之后在美國有兩段學習經(jīng)歷:分別主修植物化學,涵蓋分析化學和分子生物學,另一段學習經(jīng)歷是美國FDA注冊法規(guī)。

回國之后做過一段時間BD & licensing,然后做過兩年時間創(chuàng)新生物藥投資,也算是生物藥行業(yè)一個從業(yè)者。

2019年我加入燧坤智能,成為燧坤智能CEO。

今天很榮幸能夠用一個小時,在這里聊一下人工智能如何重塑生物醫(yī)藥行業(yè),用具體案例講述行業(yè)現(xiàn)狀和面臨的挑戰(zhàn),并且和大家一起展望行業(yè)的未來。

首先有個聲明,今天所講的東西很多來自于網(wǎng)上,不代表公司立場,更多的是站在一個全局角度,探討人工智能和生物醫(yī)藥兩者結(jié)合的現(xiàn)狀。

燧坤智能CEO曾亥年:AI制藥是未來藥神,還是虛假繁榮?丨萬字長文

大家應(yīng)該還記得,2018年電影《我不是藥神》在國內(nèi)上映??催^這部電影的人基本上都會哭。

電影主要講述的是這樣一個故事:由于新藥研發(fā)的前期投入很大,成功率很低,因此批準上市新藥的定價往往非常高,這就造成國內(nèi)許多重癥病患,無論是吃藥還是不吃藥,都是一個難以取舍的抉擇。

如果吃藥,很有可能就會吃得傾家蕩產(chǎn);如果不吃藥,就基本上是放棄生命選擇死亡了。這是一個非常悲傷的故事。

這部電影對于醫(yī)藥行業(yè)算是反面的教材。醫(yī)藥行業(yè)就是以病人為中心,以臨床需求的滿足為中心,去解決病患無藥可用、用不上藥和用不起藥的問題,也就是可及性和可負擔性的問題。

所以,在今天給大家分享的主題下面,我寫了一小行字:讓藥神被AI取代。 

燧坤智能CEO曾亥年:AI制藥是未來藥神,還是虛假繁榮?丨萬字長文

今天的分享分成四個部分:

第一部分是背景,將一些概念厘清;

第二部分是現(xiàn)狀,通過案例講述人工智能具體應(yīng)用以及面臨的挑戰(zhàn);

第三部分是展望,說說未來人工智能如何改變整個生物醫(yī)藥研發(fā);

第四部分是公司的情況。

技術(shù)革命,AI能否“取代藥神”?

這張圖我相信大家都有看過,映射《我不是藥神》里著重凸顯藥價過高的問題,主要源于新藥研發(fā)三個大問題:失敗率高、投入高、耗時長。

燧坤智能CEO曾亥年:AI制藥是未來藥神,還是虛假繁榮?丨萬字長文

我在剛?cè)胄械臅r候,在美國問過一個新藥研發(fā)科學家,“為什么藥物研發(fā)那么難?”

他肯定覺得很奇怪,作為一個行業(yè)里的人,怎么連這個問題都不知道?但是他直接就回答我,說“如果你有答案,一個解決方案,那么你的解決方案至少值百萬美元?!?/p>

這里面的失敗率,我們寫的是90%,其實遠遠不止90%。因為做任何一款新藥,能從臨床前推到臨床,也就是推到人體實驗,基本上都是要萬里挑一,甚至有可能是百萬里挑一。

這樣的一個失敗率遠超90%,投入成本還要考慮到大量研發(fā)失敗的藥物,這些成本也要攤薄在一個成功上市的藥物上,所以整個投入費用非常高。

還有耗時,耗時大家好像沒有什么概念,大約是9~15年時間,而任何一個藥物上市,專利只有20年時間。

這意味著在上市之后,藥物能夠在市場上獨家做銷售時間非常短。

這也是為什么藥物,尤其是一些非常罕見的急重癥新藥上市之初就會面臨藥價非常高的市場現(xiàn)狀。

這是一個必然,企業(yè)必須在短暫的專利保護期內(nèi)將前期研發(fā)投入全部收回,此外還必須有一定盈利。

正因為存在這三個問題,整個行業(yè)一直在追求全新技術(shù)手段解決難點。

其中有一個技術(shù)手段行業(yè)逐漸重視起來,人工智能,其實分兩大塊:

一塊可以理解成是簡單的、以規(guī)則為基礎(chǔ),去制定相應(yīng)的或者開發(fā)相應(yīng)的模型;

另外可以用幾個關(guān)鍵詞籠統(tǒng)定義(連接主義、大數(shù)據(jù)、機器學習等等。)

燧坤智能CEO曾亥年:AI制藥是未來藥神,還是虛假繁榮?丨萬字長文

大家想象一下,這相當于教一個小朋友,給他看幾張貓、狗照片,然后讓他試圖理解什么是貓,什么是狗,接下來,他很有可能就判斷出什么是貓,什么是狗。

這樣的學習能力,就是基于數(shù)據(jù)判斷學習,這樣的學習也是狹義人工智能定義。

但大家記住核心還是基于大數(shù)據(jù)的機器學習模型,基于大數(shù)據(jù)的人工智能模型。

廣義AI有一套基于CADD工具,也有一套基于機器學習的工具,這兩套工具在不同維度區(qū)別非常大。 

燧坤智能CEO曾亥年:AI制藥是未來藥神,還是虛假繁榮?丨萬字長文

對于AI來講,它是基于大數(shù)據(jù)的機器學習,進一步做相應(yīng)特征提取、模式識別。然后這些識別結(jié)果可以應(yīng)用在不同的、全新靶點或分子形態(tài)。

因此,我們需要有大量訓練數(shù)據(jù)集建立這樣一個模型。

而CADD不太一樣,這套理論更像人工智能這一寬泛概念中,基于規(guī)則的,尤其是基于物理學規(guī)則,如量子力學規(guī)則、牛頓力學等規(guī)則的模型,這樣模型更多運用在計算自由能、勢能等物理參數(shù)上。

并且,CADD不是一個龐大訓練數(shù)據(jù)集,而是在特定靶點或化合物上有相應(yīng)數(shù)據(jù),如蛋白質(zhì)靶點結(jié)構(gòu)相關(guān)數(shù)據(jù),像共晶數(shù)據(jù),然后再基于CADD模型搭建構(gòu)效關(guān)系就會更加準確一些。

AI和CADD在算力方面要求也不太一樣,AI對于算力要求其實相對比較低的,但通量比較高。

同時因為AI訓練數(shù)據(jù)一開始就是幾十萬到幾百萬條,所以精度相對較高。例如計算百萬級別小分子,基本就是幾個小時,最多也就是幾天時間。

而CADD需要的計算算力往往與計算精度成正比,精度越高,算力要求也就越高。

例如計算一個自由能擾動,或者用量子力學計算,需要12個小時甚至幾十天時間才能完成。所以CADD和AI機器學習在算力要求方面的差別還非常大。

另外還有兩個關(guān)鍵差異:

一是迭代優(yōu)化,AI可以隨著計算數(shù)據(jù)量不斷提高,甚至這些數(shù)據(jù)不需要同一個靶點,只要隨著數(shù)據(jù)不斷增加,模型精度就會得到不斷提升。

而CADD通常情況可以直接從頭做計算,但從頭計算對預(yù)算要求也很高。

另外,如果不做從頭計算,CADD就需要一些已有實驗數(shù)據(jù)、已有共晶結(jié)構(gòu),甚至大量結(jié)構(gòu)信息和親和力數(shù)據(jù)信息給到軟件,不然構(gòu)建出的模型就不會準確。

這里就有一個悖論,在大量數(shù)據(jù)情況下,商業(yè)價值就會相對較低。

第二是應(yīng)用場景,由于人工智能模型、機器學習模型基于數(shù)據(jù)驅(qū)動,所以一般能夠做大量基于生物學預(yù)測,如選擇性、毒性預(yù)測和成藥性等,所以人工智能模型、機器學習模型應(yīng)用潛力更大。

而CADD更多還是基于計算化學模型,所以在生物體內(nèi)幾乎沒有什么應(yīng)用場景,這是AI和CADD在算法路徑上的不同點。

燧坤智能CEO曾亥年:AI制藥是未來藥神,還是虛假繁榮?丨萬字長文

回過頭來看,人工智能已經(jīng)在很多領(lǐng)域里有了非常多應(yīng)用。大家可以看到有圍棋、計算機圖像、影像識別、安防領(lǐng)域的廣泛應(yīng)用。

燧坤智能CEO曾亥年:AI制藥是未來藥神,還是虛假繁榮?丨萬字長文

在新藥研發(fā)領(lǐng)域,這個應(yīng)用也非常明確,就是通過大量數(shù)據(jù)做特征提取以及模式識別。

所以人工智能在生物醫(yī)藥領(lǐng)域中,在新藥研發(fā)各個環(huán)節(jié)都可以有大量應(yīng)用,無論是藥物早期發(fā)現(xiàn)、靶點發(fā)現(xiàn),還有臨床前研究、臨床實驗如何挑選合適病人,以及藥物上市之后如何拓展相應(yīng)適應(yīng)癥、拓展藥物全新靶點都有巨大應(yīng)用價值。

競相試水,大藥企為何擁抱AI?

講完了背景,接下來我想跟大家介紹幾個案例,也就是具體現(xiàn)狀。

燧坤智能CEO曾亥年:AI制藥是未來藥神,還是虛假繁榮?丨萬字長文

第一個是阿斯利康。

今年3月,阿斯利康在他們的open day里提到小分子新藥研發(fā)管線中,目前有超過50%項目使用了一部分 AI工具。

由于阿斯利康應(yīng)用不同AI以及數(shù)據(jù)科學工具,所以他們公司在新藥研發(fā)領(lǐng)域里整體成功率顯著高于行業(yè)平均水平。

行業(yè)里面平均需要用三年時間,而阿斯利康只需要用一年時間;行業(yè)里平均需要合成幾千個小分子化合物,但阿斯利康只要合成1/3到1/5數(shù)量的小分子,成功率遠高于行業(yè)平均水平。

另外,阿斯利康也和AI公司開展廣泛合作,比如和BenevolentAI合作,通過疾病知識圖譜發(fā)現(xiàn)新靶點,再基于新靶點尋找候選藥物。

同時,阿斯利康也有兩個不同的AI工具,一個是REINVENT,做虛擬篩選;另外一個是AiZynth,做逆合成路線設(shè)計。

現(xiàn)在已經(jīng)有越來越多藥企嘗試和AI公司,在不同領(lǐng)域開展合作,除了小分子領(lǐng)域,大分子領(lǐng)域里也有藥企向AI公司拋出橄欖枝,尤其是新冠疫苗。

燧坤智能CEO曾亥年:AI制藥是未來藥神,還是虛假繁榮?丨萬字長文

其中Moderna就利用了AI和machine learning高效開發(fā)新冠疫苗,應(yīng)用主要有三塊:

第一,評估病毒逃逸,即對于免疫逃逸或者疫苗逃逸;

第二,通過人工智能模型在設(shè)計疫苗時針對密碼子進行優(yōu)化,即codon optimization;

第三,對mRNA結(jié)構(gòu)做優(yōu)化,可以達到兩個效果,一個是mRNA二級結(jié)構(gòu)相對穩(wěn)定,更利于翻譯;另外翻譯時候能夠提高蛋白質(zhì)產(chǎn)量,使得免疫誘導和免疫激活處于最強水平。 

燧坤智能CEO曾亥年:AI制藥是未來藥神,還是虛假繁榮?丨萬字長文

除了剛才提到兩個案例,去年還有一篇非常重磅的文章,介紹MIT的James Collins課題組成果:通過人工智能發(fā)現(xiàn)全新抗生素。

這項成果有一定運氣成分,他們所構(gòu)建的模型其實是基于一個非常小的樣本,只有2000多個化合物,而且僅僅針對大腸桿菌。

他們就是在這樣一個小樣本數(shù)據(jù)中構(gòu)建模型,再放到6000多個化合物庫做虛擬篩選,最后在前99個分子中找與傳統(tǒng)抗生素非常不一樣的分子。

他們最后找到一個分子,也就是Halicin,這個分子與其他抗生素確實長得不一樣

大家可以關(guān)注到它與其他抗寄生蟲或抗真菌類藥物比較接近,如甲硝唑。

完成虛擬篩選之后,進行大腸桿菌抑菌實驗,發(fā)現(xiàn)它的抑菌效果還不錯,再拿這個分子針對其他耐藥革蘭氏陰性致病菌做相應(yīng)抑菌試驗,發(fā)現(xiàn)也有抗菌活性。

因為從一開始建立機器學習模型的時候,并沒有考慮抗生素結(jié)構(gòu)本身,而是考慮抗生素結(jié)構(gòu)相關(guān)性,正是因為沒有考慮到這個機制,所以他們找到了 Halicin。

這是一個完全不一樣的抑菌機制:通過破壞細菌細胞膜上維持電化學梯度能力來殺死細菌,也就是這個分子把細菌質(zhì)子泵能力給破壞,導致細菌沒有辦法產(chǎn)生能量,進而導致死亡,所以對于耐藥致病菌也有一定效果。

這也證明機器學習模型、人工智能模型在新藥研發(fā)中,哪怕是在數(shù)據(jù)量不夠情況下,依然有希望找到非常好的候選藥物。

兩起爭議,AI+制藥是虛假繁榮?

下面兩個案例在網(wǎng)上存在較大爭議。

燧坤智能CEO曾亥年:AI制藥是未來藥神,還是虛假繁榮?丨萬字長文

這篇文章是2019年6月份發(fā)表于Nature Biotechnology上的。

當時這篇文章在業(yè)界很轟動,因為國內(nèi)傳播這個文章時,用到標題是“AI在21天/46天獲得先導化合物”。

這樣一個標題讓傳統(tǒng)藥化界為之一震:居然能夠那么快速度拿到先導化合物?

但美國非常有名的藥化學家Derek Lowe,也是生物醫(yī)藥行業(yè)評論家,卻提到了幾個觀點:

第一,這個分子還需要進一步做優(yōu)化,換言之這只是一個先導化合物,并不是PCC。

第二,這樣一個分子其實和藥化學家看一眼就能想到分子改造非常接近,他這里寫的叫“too obvious”,這還有另外一個內(nèi)涵(就是專利里很可能已經(jīng)覆蓋掉這個分子,所以并沒有專利空間。)

第三,對應(yīng)上述提到的“too obvious”,他只是把一個羰基變成一個異惡唑。

我覺得這個變化不同人可以有不同的觀點,但不管怎樣,至少看上去結(jié)構(gòu)整體相似度還比較接近。

所以Derek Lowe就認為,整個流程并沒有能夠真正證明,AI確實能夠把這個流程應(yīng)用在不同領(lǐng)域里面,從而找到一個最好的化合物。

這其實還有一個問題,整個流程里用到大量針對DDR1靶點的小分子配體,大概有幾百個到幾千個。

大量數(shù)據(jù)構(gòu)建一個模型,最多做出來的也就是一個me too、me better,連fast follow可能都不算,更不用說first in class。

那這個流程是不是真的能夠應(yīng)用全新的、數(shù)據(jù)量非常少的靶點上做相應(yīng)藥物發(fā)現(xiàn),或者快速找到先導化合物,這其實是非常存疑,這也是這篇文章有爭議的地方。

還有一個是關(guān)于行業(yè)里面炙手可熱的一家企業(yè)(Exscientia),這家公司一直有大量新聞報道,最近這段時間也有一個藥物啟動臨床實驗,和住友一起合作研發(fā)針對強迫癥的藥——DSP-1181。

燧坤智能CEO曾亥年:AI制藥是未來藥神,還是虛假繁榮?丨萬字長文

Derek Lowe對此也發(fā)表評論:

第一,他認為這個分子雖然是AI輔助研發(fā)的藥物,但不一定真的能夠解決掉靶點本身,或者生物學不清晰問題,并且他認為新分子發(fā)現(xiàn)也并不是藥物研發(fā)的限速步驟。

第二,Derek表示已經(jīng)有大量類似小分子被發(fā)現(xiàn),所以把這些小分子用在OCD適應(yīng)癥的領(lǐng)域想法并不是全新。

第三,Derek認為AI并沒有解決臨床失敗率大于90%的問題。

我覺得Derek可能混淆了AI在藥物研發(fā)中起到一個主要作用,相信AI更多地是被用來判斷這個分子是不是適合OCD適應(yīng)癥,以及適應(yīng)癥對應(yīng)的靶點。

它本身不能解決靶點和適應(yīng)癥之間生物學問題,或者臨床失敗率高問題,AI更多地還是站在靶點、小分子之間關(guān)系去解決第一步—即藥物發(fā)現(xiàn)。

所以在這個疑惑上,我覺得Derek可能對于AI期望太高,勉為其難。

挑戰(zhàn)預(yù)測,AI互補生物學認知

接下來簡單談?wù)勀婧铣伞?/p>

從前兩年一直到今天,整個業(yè)界已經(jīng)有越來越多人關(guān)注逆合成,國內(nèi)好幾家公司在用不同逆合成工具。

燧坤智能CEO曾亥年:AI制藥是未來藥神,還是虛假繁榮?丨萬字長文

但大家對于逆合成普遍判斷都是對于已有、明確有具體反應(yīng)路徑的分子,逆合成效果非常好。

因為它相當于計算機記住了所有反應(yīng)路徑,以及這些反應(yīng)路徑每一個原料、底物、價格、反應(yīng)的得率。

所以當給到一個它見過的分子,逆合成路徑推薦是非??焖?。

但我們經(jīng)常遇見都新分子,像現(xiàn)在的新藥研發(fā),無論是做fast-follow,還是first in class,為了有自己的專利空間,設(shè)計出來的一定是全新分子,甚至之前從來沒有人報道過。

而這樣一個分子合成路徑一定是新的,此時計算機再做推薦就會存在一定問題。

所以我們得到的反饋是,大家認為從逆合成角度,現(xiàn)在能起到作用還相對有限,但我們相信在不久將來,逆合成預(yù)測一定會做得越來越好。

現(xiàn)在單步反應(yīng)已經(jīng)做得很不錯,在未來多步反應(yīng)一定也會做得越來越好,而且能夠把不同維度信息全都整合進來,包括原材料成本和可及性等相關(guān)信息。

我這里還想講的是關(guān)于hERG預(yù)測。

我們拿過自己的數(shù)據(jù)做相應(yīng)實驗,最后得到的結(jié)論就是,目前主流的hERG相關(guān)模型準確率都不太高,相關(guān)性基本在0.1~0.2之間。

為什么會出現(xiàn)這個問題呢?

這與一開始模型建模有很大關(guān)系,也就是訓練數(shù)據(jù)集雖然是對的,但模型總體的框架思路,并沒有真正做好相應(yīng)特征提取和模式識別,導致計算機基于這樣一個數(shù)據(jù)集“學歪了”,或者有一定bias,后面預(yù)測就會出現(xiàn)大量問題。

我相信隨著對于hERG本身生物學認知的提升,以及更多訓練數(shù)據(jù)集,模型最終的整體相關(guān)性會得到不斷提高。

燧坤智能CEO曾亥年:AI制藥是未來藥神,還是虛假繁榮?丨萬字長文

還有一個案例和肝臟毒性相關(guān),就是藥物誘導肝臟毒性 drug induced liver injury。

熟悉藥物誘導肝臟損傷會知道,在做動物模型、細胞模型,還是做酶動力學實驗時觀測點完全不一樣。

但建模時候到底用什么樣數(shù)據(jù),用什么樣算法框架分析學習數(shù)據(jù),其實需要不同算法模型團隊,需要基于自己判斷認知去做相應(yīng)模型。 

燧坤智能CEO曾亥年:AI制藥是未來藥神,還是虛假繁榮?丨萬字長文

這里很容易把不同數(shù)據(jù)混到一起,導致模型什么都沒有學到,或者對將特定數(shù)據(jù)類型建立一種模型,但預(yù)測卻是另一個類型。

例如,想做生化實驗數(shù)據(jù)模型,但我想預(yù)測細胞水平數(shù)據(jù),這樣很有可能會南轅北轍。

所以在這個領(lǐng)域中,算法模型、機器學習模型、人工智能模型一定要根據(jù)具體數(shù)據(jù)集、具體問題做相應(yīng)調(diào)整。

還有抗原選擇預(yù)測,我們在新冠期間針對新冠病毒做過大量MHC I表位結(jié)合預(yù)測,其中幾個地方需要大家關(guān)注:

第一,人類其實有不同MHC表位,這些不同MHC表位在每個人發(fā)生率是不同的。

所以我們輸血時候要分血型,如果是器官移植則還要看亞型,不同MHC或HLA型對應(yīng)表位親和力越好,或者表位被呈遞展示出來可能性越好,其實會很不一樣。

舉個例子,有一段表位在兩個不同亞型人種親和力不同,相差10倍也就意味抗原設(shè)計時候要考慮生物學本質(zhì)問題,不能簡單認為某一特定HLA亞型最優(yōu)表位,直接做抗原選擇。 

燧坤智能CEO曾亥年:AI制藥是未來藥神,還是虛假繁榮?丨萬字長文

除此之外,還要更多考慮本身表位生成是否符合自然法則,以及當表位生成之后,怎么設(shè)計整個抗原,應(yīng)該把不同表位串起來,還是直接就用一個完整S蛋白。

還有一個點RBD排序并非最高,我看一個文獻,寫到RBD起始氨基酸是300多到500多,并沒有出現(xiàn)在前10名。

現(xiàn)在有很多疫苗用到的都是RBD表位,那是不是我們應(yīng)該用一些其他表位,或者其他抗原去設(shè)計新冠疫苗,尤其考慮到有效激發(fā)細胞免疫。

這也是從人工智能角度,反過來可以給予我們生物學角度在疫苗設(shè)計上的反思。

另外通過密碼子優(yōu)化增加蛋白質(zhì)表達量,還要考慮問題就更多,例如密碼子優(yōu)化模型在某一個蛋白質(zhì)能做到最優(yōu)同時,在其他蛋白質(zhì)是否也能通用。

另外,影響蛋白質(zhì)翻譯因素也有很多,這些是不是都已經(jīng)考慮進來,還是只考慮了一部分。

在做蛋白質(zhì)的密碼子優(yōu)化時,還考慮產(chǎn)量、蛋白質(zhì)穩(wěn)定性的關(guān)系,這些都是人工智能模型構(gòu)建過程中需要解決的問題。

燧坤智能CEO曾亥年:AI制藥是未來藥神,還是虛假繁榮?丨萬字長文

展望:AI的短期及中長期潛能

AI在整個生物醫(yī)藥領(lǐng)域應(yīng)用中,大家可以聽到很多概念,包括探索更廣泛化合物空間、從大量數(shù)據(jù)里學到很多規(guī)律再反哺不同領(lǐng)域,以及應(yīng)用在全新靶點或全新分子角度再提高效率等等。

燧坤智能CEO曾亥年:AI制藥是未來藥神,還是虛假繁榮?丨萬字長文

其實真正判斷人工智能模型應(yīng)用價值角度有很多,下圖右側(cè)是簡單羅列一些,當然,這些都是基于自己的一些觀察,不一定完全正確。

我們相信短期人工智能跟生物藥結(jié)合,更多還是人腦和機器,或者human Intelligence和artificial Intelligence之間的協(xié)作互動。

燧坤智能CEO曾亥年:AI制藥是未來藥神,還是虛假繁榮?丨萬字長文

這個圖大家看到過很多次是DMTA的流程,從開始設(shè)計(Design),然后把實驗做出來(Make),再做測試(Test),再做分析(Analysis),最后反過來的一個循環(huán)。

人工智能在建模時候遠比大家想象要復雜,很多人可能以為人工智能建模,就是我有很多數(shù)據(jù),再建了一個模型,然后就很容易到達終點。

其實不是這樣,真實大數(shù)據(jù)分析是反反復復、起起落落,有很多問題,很有可能建出來的模型既沒有學到合適特征也沒有學到應(yīng)有模式,預(yù)測出來全是瞎猜,甚至可能比丟硬幣準確率還要低。

這個時候就需要大家回過頭來看一下,究竟是什么地方出了問題,是最早的需求出了問題?還是數(shù)據(jù)本身出了問題?數(shù)據(jù)清洗出了問題,還是最后對于整個數(shù)據(jù)的建模錯了、框架、算法選擇錯了?抑或是特征工程用錯了?或者整體判斷標準和判斷依據(jù)錯了?

所以建模過程非常復雜,這也是為什么在短期內(nèi)我們依然需要Human Intelligence和artificial Intelligence一起來協(xié)作,才能最終達到生物醫(yī)藥研發(fā)上效率提升。 

燧坤智能CEO曾亥年:AI制藥是未來藥神,還是虛假繁榮?丨萬字長文

AI和生物科技在新藥研發(fā)領(lǐng)域里面的深度融合內(nèi)容基本上這個表里都框進來了,大部分聚焦在候選分子的發(fā)現(xiàn)或者優(yōu)化上。

這些優(yōu)化已經(jīng)不僅局限于小分子,可以是多肽、表位抗體抗原選擇、疫苗,也可以是生物大分子藥物。

除了這一塊,臨床前大量研究也可以跟人工智能相結(jié)合。

臨床實驗中,AI可以去找到相應(yīng)生物標志物,包括對一些病人分析以便我們找到對應(yīng)病人,進而找到相應(yīng)診斷方法,最后能夠使得臨床實驗成功率得以提高,病人受益更多,不良反應(yīng)更小。

還有藥物再利用,單用也好,做聯(lián)合療法也好,也包括最簡單直接快速利用人工智能算法、模型、腳本、爬蟲做信息聚集和綜合,構(gòu)建知識圖譜,最后還能匯總起來給到科學家快速做判斷,這就是計算機一直以來的關(guān)鍵作用。

燧坤智能CEO曾亥年:AI制藥是未來藥神,還是虛假繁榮?丨萬字長文

中長期來看,人工智能是全面整合到或者說是賦能生物醫(yī)藥的各個階段的:

第一,能夠通過人工智能提升疾病認知,包括衰老認知,包括與干細胞相關(guān)、再生醫(yī)學相關(guān)。

第二,能夠拓展疾病治療創(chuàng)新平臺,和不同、全新的一些therapeutic modality合作,不僅僅是小分子,可以是多肽、大分子,多肽+小分子、單抗的大分子,各種各樣的核酸類藥物。

燧坤智能CEO曾亥年:AI制藥是未來藥神,還是虛假繁榮?丨萬字長文

這里有一個小例子,AI在腫瘤治療領(lǐng)域的應(yīng)用。

從一開始靶點發(fā)現(xiàn),到藥物發(fā)現(xiàn),最后確定聯(lián)合療法,哪些病人哪些藥物是最有用,以及如何確定給藥劑量,整個流程都是可以用到人工智能、機器學習模型去起到相應(yīng)輔助賦能、提升效率作用。

最后介紹一下我們公司的情況。 

燧坤智能CEO曾亥年:AI制藥是未來藥神,還是虛假繁榮?丨萬字長文

我們還是一個初創(chuàng)型企業(yè),于2018年9月份在圖靈人工智能研究院幫助下孵化成立,公司注冊在南京。

現(xiàn)在在北京有自己人工智能算法研發(fā)中心,在上海有新藥研發(fā)中心和商務(wù)中心,整個技術(shù)團隊擁有可以從0~1建模能力。

因此,我們過往無論是學術(shù)上還是研發(fā)上,其實都有大量優(yōu)良track record,可以做大量模型從0~1的從頭開發(fā)。

我們自己也有很多軟件著作,包括已經(jīng)申請了的好幾個模型的專利。小分子全球PCT專利已經(jīng)提交兩個,后續(xù)也在寫幾個新小分子專利。 

燧坤智能CEO曾亥年:AI制藥是未來藥神,還是虛假繁榮?丨萬字長文

我們和其它 AI公司不太一樣在于,我們不聚焦計算化學或者物理化學上,我們更多聚焦在多領(lǐng)域。

例如剛才提到的小分子、多肽大分子等,我們都有相應(yīng)模型可以覆蓋到,而且我們也有能力為 CRO、為新藥研發(fā)做相應(yīng)模型建立。

燧坤智能CEO曾亥年:AI制藥是未來藥神,還是虛假繁榮?丨萬字長文

我們現(xiàn)在合作單位已經(jīng)超過20家,自主研發(fā)項目超過8個。

整個新藥研發(fā)的流程是非常漫長的,都是串聯(lián)的過程,我們現(xiàn)在在做的事情其實是在降本增效,通過人工智能平臺和不同合作方合作,賦能創(chuàng)新生物醫(yī)藥的研發(fā)。

我們相信未來非常短時間里,也許是3~5年就能夠重塑整個生物醫(yī)藥的研發(fā)流程,通過這樣一個生物醫(yī)藥研發(fā)流程重塑再造。

我們可以真正提升新藥研發(fā)效率,從而實現(xiàn)(讓藥神被AI)。

問答環(huán)節(jié)

Q1、AI公司的數(shù)據(jù)來源一般從哪里來?

曾亥年:一般情況下大家都是幾個來源:

①公開數(shù)據(jù)。公開數(shù)據(jù)現(xiàn)在已經(jīng)有很多了,但有幾個注意事項:

一個是公開數(shù)據(jù)的質(zhì)量很有可能是有一定問題的;

第二,公開數(shù)據(jù)其實會有大量的數(shù)據(jù)缺失,甚至會有一些隱藏的標簽,而這些標簽會導致建模的時候出現(xiàn)一個虛高的模型準確率。我們曾經(jīng)有用過某一個數(shù)據(jù)庫里面的某一個類型的數(shù)據(jù),我們覺得這個數(shù)據(jù)是蠻好的,但是用完之后,模型建完發(fā)現(xiàn)結(jié)果異常契合,這里面一定是有隱藏標簽的,這并不是一個真正的那么好的預(yù)測結(jié)果。所以像這種公開數(shù)據(jù),大家一定要當心;

②自己實驗數(shù)據(jù);

③我們通過合作方會去做的一些數(shù)據(jù)。其實像我們公司還會關(guān)注專利里面的一些數(shù)據(jù),然后這些專利的數(shù)據(jù)我們自己有一整套高通量、大批量的自動化提取數(shù)據(jù)的工具,所以這些數(shù)據(jù)也可以拿來作為訓練數(shù)據(jù)。

Q2:AI的靶點發(fā)現(xiàn)怎么做?

曾亥年:新靶點發(fā)現(xiàn)是很難的,新靶點發(fā)現(xiàn),尤其現(xiàn)在一般情況下,我認為分兩種,一種是靶點本身是一個信號通路里,但信號通路可能以前大家不關(guān)心。

但通過大量數(shù)據(jù)組學分析之后,找到這個靶點,還有從腫瘤角度,可能嘗試更多尋找突變靶點,這也是從多組學數(shù)據(jù)尋找。

Q3:似乎部分藥企也有自己AI建模的能力(剛才提到阿斯利康50%的流程都用到AI),那藥企愿意為面向燧坤這樣的AI+制藥付費嗎?藥企是不是更傾向自己建模?

曾亥年:我們有碰到過不同的兩種公司,一種公司是愿意花錢的,而且他不僅是愿意建模,也愿意通過建模得到一系列asset,還愿意分享一部分ownership。

但也有企業(yè)不愿意做這方面付費,所以這在商業(yè)環(huán)境里面永遠是有區(qū)別的。

如果大家關(guān)注大藥企,尤其是歐美藥企和AI公司合作,基本都上都是付費,而且金額都不少。

Q4:NLP的summarization可以實現(xiàn)到什么程度呢?AI可以總結(jié)提煉上萬篇論文的精髓,然后給一個問題的解決方案嗎?

曾亥年:其實可以實現(xiàn)很細,例如可以做到藥物分子靶點、適應(yīng)癥、不良反應(yīng)、藥物互相作用,甚至用具體哪一個assay來做相應(yīng)數(shù)據(jù)分析實驗驗證。

用什么樣細胞模型,用什么樣動物模型, NLP可以整理到非常細,當然這取決于每一個團隊本身能力。

NLP只是一個大概念,不是隨便去網(wǎng)上扒NLP工具,就能把這些東西都做好,這中間還是有大量訓練過程。

Q5:跟生信相比做多組學分析的區(qū)別在哪里?

曾亥年:生信是很有可能可以找到成千上萬個不同關(guān)鍵點,就我們統(tǒng)一都叫biomarker,這些biomarker如果都去分析的話,時間精力會很多。

從計算機角度,從AI角度,它可以基于一系列biomarker找出他認為最重要的幾個關(guān)鍵生物標志物,然后再通過這些生物標志物,或者說是靶點、某些信號分子、一些factors再去做進一步分析。

而且當組學數(shù)據(jù)足夠多的時候,生信分析起來是很痛苦的,計算機機器學習模型會更快一些。

Q6:真實世界數(shù)據(jù)研究在 Ai藥物研發(fā)中的價值和局限性?

曾亥年:今天沒有講真實世界數(shù)據(jù),其實真實世界數(shù)據(jù)在整個藥物研發(fā)中起的作用非常大。

我們曾經(jīng)做過和蘇大附屬兒童醫(yī)院合作的項目,主要是兒童急性T細胞白血病用藥預(yù)后。

標準療法中會使用一些激素藥物,但是會有一部分小朋友其實沒有響應(yīng),如果用藥前能夠判斷是否有響應(yīng),在臨床上會很有幫助,這是一種類型的應(yīng)用場景。

還有一種類型在臨床上面匯總大量真實世界研究數(shù)據(jù)之后,很有可能找到最適合某一個特定藥物一群病人,或者對病人去做分類,然后找到對應(yīng)biomarker,最后這個biomarker可以作為一個伴隨診斷的工具。

還有一種可能性是通過大量組學數(shù)據(jù),反過來再去找老藥新用機會,這個其實是一個特別復雜的問題,需要和生物學家,臨床醫(yī)生一起討論。

Q7:數(shù)據(jù)來自文獻,數(shù)據(jù)的可靠度如何解決?

曾亥年:通常情況下,如果我們都用是IC50的數(shù)據(jù),盡管他用的測試方法可能不完全一樣,但我們默認只要都是biochemical assay,不是cell-base的assay,應(yīng)該都是基于酶動力學、基于酶活去做的相應(yīng)的一個測試,這個數(shù)據(jù)還可以通用。

但這可能存在不同批次之間所得數(shù)據(jù)也可能會不一樣問題。

所以這個問題其實是從建模角度確實是一個挑戰(zhàn),好在通常情況下 biological variance不會那么大,背景噪音從大數(shù)據(jù)角度也可以忍受。

Q8:deepepMHC是已經(jīng)發(fā)表的嗎?

曾亥年:MHC模型大家如果關(guān)心的話,可以查到蠻多團隊開源模型,但我站在生物藥行業(yè)角度,這些MHC模型還有各種各樣問題,其實在剛才的幻燈片里面有簡單提到過。

Q9:Alpha fold價值多大?

曾亥年:我不想在這里引起很大的一個爭議。但很早以前,我們其實在不同的場合討論過這個問題,Alpha fold2是不是 AI或者計算生物學里面的一個奇點事件。

其實站在我的認知范圍內(nèi),我認為是一個奇點事件,但這里有一個問題,其實有很多蛋白質(zhì)不是因為沒有結(jié)構(gòu)做不出藥來,而是因為即使有了結(jié)構(gòu),我依然做不出藥來。

所以Alpha fold奇點事件確實對于無論是新藥研發(fā)也好,還是生物醫(yī)藥生命科學領(lǐng)域的研究也好,都是有非常大幫助。

但他們要做的工作還很多,比如第一個,現(xiàn)在能做到還原成為一個snapshot,就是我給你一段序列,你告訴我蛋白質(zhì)應(yīng)該長什么樣子,三維結(jié)構(gòu)應(yīng)該是什么樣子,對應(yīng)其實是一個晶體衍射結(jié)構(gòu),或者是一個冷凍電鏡結(jié)構(gòu),這還僅僅是一個snapshot,一個固定靜態(tài)的結(jié)構(gòu)。

其實真正要關(guān)心的是蛋白質(zhì)的動態(tài)結(jié)構(gòu),或者說是蛋白質(zhì)和其他的小分子,以及配體,包括多肽,其他的蛋白質(zhì)復合物里面的component,它們之間的互相作用,這是一個動態(tài)的過程。

這個過程其實需要技術(shù),包括計算,還要比現(xiàn)在Alpha fold2更進一步,所以留給我們后來要做的事情還有很多。

Alpha fold2是有價值的,但是這個價值,這個拐點事件后面要走的路其實還很長。

Q10:PPT提到藥物臨床失敗率高達90%,但是恒瑞等公司臨床成功率接近100%,請問是什么原因?為什么差別這么大?

曾亥年:其實國內(nèi)臨床成功率高主要原因是大家基本上都是做fast-follow,做fast-follow的成功率是比較高,而做first in class成功率是很低的。

Q11:未來AI制藥主要商業(yè)模式還是里程碑嗎?還是更多會變成自己做管線?

曾亥年:這個沒有非黑即白商業(yè)模式。CADD元老級公司薛定諤商業(yè)模式最早時候是賣軟件,后面除了賣軟件也去換一個小公司 startup的股權(quán)。

大家都調(diào)侃說可能嫌這個股權(quán)拿太少了,所以他們就改自己做pipeline了。

所以您看一個公司30年的公司從最早賣軟件到最后自己做pipeline,其實這中間也沒有什么對錯,包括我在PPT里面有提到 Exscientia。

那家公司其實是一個純 CRO企業(yè),很有可能他們以后也會自己去做管線。我覺得沒有一個非黑即白的商業(yè)模式在里面。

凡是要跟生物藥結(jié)合,

平臺可以非常棒,但最終你一定要做到具體drug candidate,無論是小分子、大分子、多肽,但你一定要做到一個candidate,然后要把 candidate推到臨床,真正解決臨床上的問題,才是有意義的。

Q12:90年代硅谷曾經(jīng)流行過一輪IT+BT?

曾亥年:有位老師提了90年代硅谷曾經(jīng)流行過IT+BT。其實CADD最早時候誕生于80年代末,90年代初。

30年時間,CADD發(fā)展到現(xiàn)在有很大突破和飛躍,但我認為沒有達到當時整個行業(yè)對它的一個預(yù)期,因為CADD第二個D是design,不是discovery,是computer aided drug design。

如果大家在藥企里面待過,其實也知道做CADD的人在藥企里面其實是往往依附于藥化部門或者data science部門,這很尷尬。

現(xiàn)在因為CADD和AI深度融合之后,隨著IT+BT整個發(fā)展方向和趨勢,我相信會帶來很多不一樣的東西,因為 machine learning能夠做到很多原先CADD做不到的東西。

所以在這一塊,我們整個 AI+生物制藥行業(yè)里面小伙伴們應(yīng)該都有這樣信心,真正去做一些事情。

最后,感謝大家參與這次的交流。雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

編輯

專注AI醫(yī)療的新勢力和投融資丨微信ID:Daniel-six
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說