0
本文作者: 劉海濤 | 2021-05-27 18:07 | 專題:AI新藥研發(fā)未來獨角獸云峰會 |
“接下來,生物計算將成為百度重點發(fā)力的關(guān)鍵領(lǐng)域之一,在這一賽道的投入上,百度只有盡力,沒有盡頭?!?/p>
這是近期,李彥宏在首屆生物計算大會上的一段豪言壯語。
如今隨著像百度、字節(jié)跳動、華為這些科技大廠的高調(diào)加注,以及各個VC接連不斷的注資,與生物計算密切相關(guān)的AI新藥無疑已經(jīng)成為關(guān)注度最高的創(chuàng)業(yè)賽道。
近日,雷鋒網(wǎng)《醫(yī)健AI掘金志》以“AI制藥·下一個現(xiàn)象級賽道”為主題,邀請百圖生科、劑泰醫(yī)藥、未知君、望石智慧、英矽智能、星藥科技,六家先鋒企業(yè),舉辦了一場線上論壇分享。
作為此次論壇的開場報告嘉賓,百圖生科科學顧問、沙特阿卜杜拉國王科技大學教授,高欣以《更精準的生物醫(yī)學及基因組學》為題,進行了演講。
高欣教授的團隊從“靶點發(fā)現(xiàn)”方向出發(fā),開展了一系列納米孔測序相關(guān)工作,并應用深度學習算法,開發(fā)了一款全新cwDTW算法“WaveNano”,該算法直接解決了困擾生物學家的納米孔測序儀錯誤率較高問題,并在國際頂級生物信息學會議ECCB發(fā)表。
作為一個計算機學家,高欣的算法研發(fā)沒有止步于WaveNano,做出以上研究之后,他開始反問自己:1.自己有沒有可能得到更可控、質(zhì)量更好的標注數(shù)據(jù)訓練監(jiān)督式學習模型?2.自己有沒有可能大幅提高DTW算法時間復雜度?
這些問題也在日后的研究中逐步被優(yōu)化和改進。
以下是演講全部內(nèi)容,雷鋒網(wǎng)做了不改變原意的整理和編輯:
大家晚上好,我是高欣,很高興跟大家進行分享。今天的題目是“更精準的生物醫(yī)學及基因組學”。
大家知道藥物發(fā)現(xiàn)是一個極其漫長且昂貴的過程。一個藥物平均從最初研發(fā)到上市,需要15~20年時間,耗資超過20億美元。
這一漫長流程由多個步驟組成的,從最開始靶點識別,到先導化合物發(fā)現(xiàn)、先導化合物優(yōu)化、臨床前動物實驗、多期臨床實驗。
整個流程當中,任何一個步驟出現(xiàn)失敗,都導致整個流程以失敗而告終,整個藥物發(fā)現(xiàn)流程成功率非常之低,只有不到5%。
如果對當中各個步驟統(tǒng)計會發(fā)現(xiàn),每一個步驟的失敗率都在隨時間變化而逐年增高。
而且在這些步驟中,晚期發(fā)現(xiàn)失敗消耗的代價,要遠遠大于早期失敗。因此,早期步驟成功率在整個流程至關(guān)重要。
今天跟大家分享的題目,就主要集中在藥物發(fā)現(xiàn)第一步“靶點識別”。
我想談的是,如何通過第三代測序技術(shù),更快、更準確得到基因組數(shù)據(jù),得到基因組數(shù)據(jù)之后,如何更好解讀基因組數(shù)據(jù),以求發(fā)現(xiàn)更好的藥物靶點。
這個系列云峰會講座當中,后續(xù)speaker還會給大家分享不同步驟以及整體流程上一些振奮人心的工作。
今天我主要集中在第一步,介紹我的課題組工作,即時DNA測序方面成果。
現(xiàn)代醫(yī)學大多都是基于基因組診斷,人共有30億對堿基,這些堿基都是非常長的基因組序列。
大家可以把它理解成一本非常厚的字典,每個人都有一個模板。抄寫這本字典的時候,就無法避免犯一些錯誤,例如插入、刪除、錯別字等等。
絕大部分錯誤不會導致嚴重后果,但如果在一些關(guān)鍵位置抄寫錯誤,就會導致罕見遺傳疾病?;蚪M診斷就是要把這些抄寫錯誤和罕見遺傳疾病相互關(guān)聯(lián)起來,做到這一點,就要知道錯誤發(fā)生地點。
因為生物技術(shù)所限,我們沒有辦法通讀整個字典,只能把字典拆分成一頁一頁,或一段一段分別解讀,最后整合起來。
這是一件非常難的任務(wù),就好像是很出名的變形藝術(shù)—metamorphosis。
基于這種metamorphosis變形藝術(shù)設(shè)計拼圖游戲,就會發(fā)現(xiàn)拼圖游戲非常難,因為所有piece都高度相似,沒有任何兩塊完全一致。
因此,大家想出各種辦法克服技術(shù)上難點,其中一個直觀辦法就是把拼圖塊從小塊變成大塊,所謂長讀長DNA測序。
長讀長DNA測序,主要有兩種技術(shù):PacBio和納米孔。
納米孔相對于其它測序技術(shù)來說,主要有幾大優(yōu)勢:
第一,便攜性,納米孔測序儀大小只有手機一半大小,理論上可以在世界任何時間、任何地點,提供及時檢測,也就是point of care;
第二,測序長度非常長,可以讀長有大約10k到100k這么長,相對于二代測序100~200bp長度,已經(jīng)是很長的讀長長度,因此可以很好處理大結(jié)構(gòu)變異,以及DNA中的repeat;
第三,納米孔測序不需要進行PCR擴增。
既然有好的地方,就一定有壞的地方,納米孔有這么多技術(shù)上優(yōu)勢,主要劣勢就是測序精度。
例如R9 Flowcell,測序精度只有85%左右;即使最新R10,官方精度也只有95%左右,相比于二代測序99%精度,這個確實非常低。
測序精度低除了設(shè)備上局限性,納米孔數(shù)據(jù)分析也是非常難的任務(wù)。
在此,我簡單介紹一下納米孔工作原理,納米孔當中有一個膜,膜上有一些穿膜蛋白,即membrane protein。
單鏈DNA會被蛋白酶拽著通過膜蛋白,在任何一個時間點膜蛋白當中大約有5到6個堿基,所以可以假設(shè)是一個5mer總共會有45,大約1024種不同5mer。
由于5mer組合不同,形狀不同,對孔阻塞程度也不一樣,因此,當膜兩端加上電壓再去測一個時間點有多少電流能通過時,就會發(fā)現(xiàn)不同5mer在孔中的電流值不一樣。
而且納米孔測序儀測出的原始數(shù)據(jù)是離散時間序列電流值。我們想做的是解碼,把離散時間序列電流值解碼成ACGTDNA讀長。
對于計算機同學來說,解碼是一個非常經(jīng)典的任務(wù),有很多現(xiàn)成算法,但納米孔解碼和傳統(tǒng)解碼完全不同,主要有幾大技術(shù)難點:
第一,電流測量范圍小。1024種不同5mer,它們之間平均誤差已經(jīng)小于電流之間測量誤差,直接做解碼,就會有很多不確定性。
第二,DNA序列并不勻速通過,有的時候很快,有的時候很慢。但電流是以恒定頻率被測量,因此在電流中,有的5mer會被測兩次,有的5mer會被測200次,平均一個5mer大約被測10次左右。
從離散時間序列角度來說,并不知道任何一個時間點是在測上一個時間點5mer,還是下一個5mer。
第三,信號聯(lián)配困難,DNA讀長大約有1萬到10萬這么長,原始電信號長度又是DNA讀長10倍左右,也就是10萬到100萬這么長。
如果把兩個序列進行聯(lián)配,最標準算法就是動態(tài)規(guī)劃,這是一個平方時間和空間復雜度算法,這么長序列里,這種算法時間復雜度同樣也沒有辦法接受。
納米孔測序數(shù)據(jù)分析是一個非常難的任務(wù),我的課題組過去三年里,已經(jīng)研發(fā)端到端計算平臺用于處理納米孔測序數(shù)據(jù)分析等關(guān)鍵問題。
現(xiàn)在給大家做個簡單介紹:就是把特定離散時間序列電信號解碼成一個DNA讀長,最終設(shè)計成一個基于監(jiān)督式學習的解碼問題。
這是我們?nèi)昵霸O(shè)計的一個深度學習框架“WaveNano”,當中深度學習單元主要采用wave net單元,也就是聲波網(wǎng)絡(luò)相關(guān)單元想法結(jié)合wave net和殘差網(wǎng)絡(luò),從上游到下游分別提取序列中信息,并把信息整合起來。
接下來訓練一個監(jiān)督式學習模型,預測任何一個時間點的上下標簽。
第一個標簽是時間點,和上一個時間點對比,究竟是同一5mer,還是變成下一個5mer。
第二個標簽是分類,任何一個時間點測量5mer屬于1024種中的哪一類。
預測完兩種標簽概率之后,我們就可以通過概率引導Viterbi解碼算法,解碼出DNA讀長序列,整個流程最重要的就是“如何為監(jiān)督式學習準備訓練數(shù)據(jù)”。
雖然可以從公共數(shù)據(jù)集拿到很多配對原始電信號和DNA讀長信息,但如果想做監(jiān)督式學習,就需要知道這些原始電信號的任何一個時間點二類標簽和1024類內(nèi)容。
但原始電信號序列非常長,沒有人會手工標注這些標簽,只能自己進行數(shù)據(jù)標注,找到原始電信號和DNA讀長之間最優(yōu)聯(lián)配。
這種問題,一般通過動態(tài)時間規(guī)整算法—“dynamic time warping”就可以解決。
大家可以把它理解成動態(tài)規(guī)劃的變種,動態(tài)規(guī)劃沒有空位罰分(Gap Penalty) 的情況下的變種。因為它的電流序列長度是DNA序列長度10倍,因此一旦gap penalty,gap penalty就會占據(jù)主導位置,最后聯(lián)配不會好,因此就需要采用沒有罰分項動態(tài)規(guī)劃變種,就是DTW算法。
簡單給大家展示一下DTW算法性能,和官方base calling、Metrichor和Albacore等方法進行對比。
因為其它兩個程序并不開源,不知道訓練數(shù)據(jù)情況,這個比較可能還不公平,尚且無法斷言,我們的算法base calling要比官方的好。但從這個表格至少可以發(fā)現(xiàn),WaveNano工具非常不錯。
但我對WaveNano其實并不滿意,為什么?
首先,我更感興趣的是現(xiàn)有問題,是為挑戰(zhàn)性問題量身打造的新算法,不是簡單應用市面上已有深度學習框架。
其次,這個問題還有兩個限制:
第一個限制,訓練數(shù)據(jù)準確度不可控。對于監(jiān)督式學習模型,如果訓練數(shù)據(jù)質(zhì)量不好,或標注不好,最終無論算法多么強大,訓練出的模型一定不好。
而剛才訓練的模型,都是自己聯(lián)配得來的訓練數(shù)據(jù),完全不知道離真正ground truth相差多遠。
第二個限制,運算速度比較慢。對原始電信號序列和DNA讀長序列進行聯(lián)配的時候,DTW還是一個平方時間復雜度算法,對于序列聯(lián)配的速率還比較慢。
因此,做出這些研究之后,作為一個計算機學家,我問了自己兩個問題:
1.自己有沒有可能得到更可控、質(zhì)量更好的標注數(shù)據(jù),用于訓練監(jiān)督式學習模型?
2.自己有沒有可能大幅提高 DTW算法時間復雜度?
接下來,介紹一下兩個問題的解決方式:
其實深度學習經(jīng)常會出現(xiàn)數(shù)據(jù)量不夠,或者標注數(shù)據(jù)量不夠的情況。
這種情況下,大家經(jīng)常會使用模擬器,例如Alpha Go就大量使用模擬器模擬非常多的圍棋對弈。
納米孔訓練上,我也想到了模擬器想法,雖然在此之前已經(jīng)有若干納米孔模擬器,但這些模擬都是DNA讀長,沒有任何人能夠模擬原始電信號序列。
因此在三年前,我們提出了一個想法—Deep simulator,它可以模擬納米孔測序整個流程。
首先,主要通過給定基因組,隨機把它打成一些DNA讀長,并且保證這些DNA讀長分布和真實數(shù)據(jù)讀長分布保持一致。
其次,對于這些隨機生成讀長的每一個DNA,還要隨機生成它的原始電信號序列,最后用base caller,從原始電信號序列把DNA讀長給呼叫回來。
因為自己的base caller并不完美,所以call回來的DNA讀長并不完美,自然會引入一些插入刪除,以及一些variation。
但最終模擬器還是為業(yè)內(nèi)人士提供大量訓練數(shù)據(jù),用于訓練他們的解碼器,被大家使用的頻率非常多。
所以去年,我們又提出模擬器1.5版本。這里簡單介紹一下其中的技術(shù)細節(jié)。
第一步,生成和實際數(shù)據(jù)讀長長度分布一致的讀長長度,為了達到這個目的,就需要對實際數(shù)據(jù)進行讀長分布總結(jié)。
我們發(fā)現(xiàn),實際納米孔測序數(shù)據(jù)基本服從三個分布:指數(shù)分布、β分布和兩個γ混合分布。
我們分別對三個分布進行參數(shù)估計,然后把選擇權(quán)留給用戶,用戶選擇按照哪一種分布去進行生成,最終發(fā)現(xiàn)生成的數(shù)據(jù)讀長分布,和實際真實分布非常類似。
第二步,對隨機產(chǎn)生的DNA讀長生成原始電信號序列。為了這件事,我們又提出了新模型—深度典型事件規(guī)整(deep canonical time warping)。
它的想法是基于DNA讀長和原始電信號,分別加入兩個深度學習網(wǎng)絡(luò)作為特征提取器,提取出來兩個特征序列。
如果讀長和原始電信號序列是對應的,那這兩個提取出來的特征序列就應該最大程度耦合到一起,因此采用典型相關(guān)分析值作為損失函數(shù),會逼著我們深度學習框架,學到更好的特征提取。
在模型訓練過程中,我們可能需要訓練整個網(wǎng)絡(luò),但測試階段只需要使用其中部分,也就是從一個讀長生成原始電信號序列。
因為每一個5mer都會平均被測到10次,所以還要對每一個真實5mer重復測量次數(shù)進行統(tǒng)計,統(tǒng)計匹配分布,使得數(shù)據(jù)5mer重復測量次數(shù)和真實數(shù)據(jù)達成一致。
我們分別在4個物種上進行了模擬器訓練和測試。
簡單給大家展示一下結(jié)果,通過這個圖里所有對角線之的點,大家可以看到模擬器要遠遠好于現(xiàn)在市面上現(xiàn)有模擬器。
回到第二個問題,也就是如何更快進行DNA讀長和原始電信號序列聯(lián)配。
大家已經(jīng)知道,原始電信號序列長度是DNA讀長10倍,而DNA讀長長度是1萬-10萬,原始電信號讀長就是10萬-100萬。
盡管有非常多DTW算法變種已經(jīng)被前人所發(fā)現(xiàn),但所有這些方法都無法處理這么長、尺度相差這么大的兩個序列聯(lián)配。
基于motivation,我們提出了一種新算法—連續(xù)小波變換DTW,也就是CWDTW,它整合了三種不同idea,第一分層動態(tài)規(guī)整,第二粗化動態(tài)規(guī)整,第三受限動態(tài)規(guī)整。
在這里我列舉一個案例,如果想對兩個原始序列進行聯(lián)配,但兩個序列都特別長,沒有辦法直接聯(lián)配,就需要通過連續(xù)小波變換把信號進行壓縮和特征提取。
因為連續(xù)小波變換,在原始電信號特征提取層面已經(jīng)被證明具有很強優(yōu)勢,所以通過連續(xù)小波變換,可以讓原來序列長度變得非常短。
在短序列維度上,就可以進行最優(yōu)DTW算法,找到聯(lián)配路徑,而其還可以從粗化連續(xù)小波變換維度,找到更細化維度,隨后序列就會變長,同時還會把找到的聯(lián)配路徑,投影到更細化的分辨率上。
在投影過程當中,我的聯(lián)配路徑一定不會是最優(yōu),但假設(shè)聯(lián)配路徑是一個很好的出發(fā)點,假設(shè)成一個更好聯(lián)配路徑。
在這個路徑的鄰距范圍,假設(shè)一個窗口大小,讓算法這個窗口范圍內(nèi)找到更好的聯(lián)配路徑。
當然窗口大小也是算法重要參數(shù)之一,隨著找到更好的聯(lián)配路徑,就可以把它再映射到更高分辨率維度上,隨著整個過程的不斷循環(huán),就可以獲取到最原始的維度。
這張圖,比較了該算法和現(xiàn)有DTW算法性能差異,對角線上就是最優(yōu)解,離對角線越近,說明找出來的聯(lián)配路徑離真實聯(lián)配路徑就越近。
大家看到紅點就是FAST DTW,它離真實聯(lián)配路徑非常遠,CWDTW基本上都能找到最優(yōu)聯(lián)配路徑幾乎一致的路徑。
從時間上來講一個CPU核上聯(lián)配一對需要花費時間為0.31秒;而FAST DTW需要136秒,原始DTW需要916秒,也就是說在單核上,CWDTW把原始DTW提速了3000倍,把FAST DTW提速了400倍。
剛才介紹了通過AI方法以及高效算法,研發(fā)端到端即時DNA測序平臺,我們不但要測DNA序列,還要解讀DNA序列,以求發(fā)現(xiàn)更好的藥物靶點。
在這方面,我們也做了很多工作,例如有了DNA序列之后,怎樣發(fā)現(xiàn)每一個樣本突變,怎么把它和疾病建立準確的關(guān)系。
為此,我們兩年前提出了一個想法—“疾病的嵌入。”通過1.5億美國人健康保險數(shù)據(jù),把人類600多種所有疾病同時投影、嵌入到一個高維連續(xù)空間內(nèi)。
這種嵌入一旦完成,就不需要再把疾病名字當成離散名詞來使用,例如糖尿病、肝癌,大家不知道兩個病之間關(guān)系是什么,更不存在定量關(guān)系。
疾病嵌入之后,每一個疾病都變成20維連續(xù)空間的一個向量,不但可以談?wù)摷膊≈g相似性,還可以談?wù)摷膊≈g不同點。
而且過去一個人同時得了多種疾病,也知道如何去表達,通過疾病嵌入只需要把這幾種疾病向量相加到一起,或者加權(quán)到一起,就可以代表病人的disease tree。
有了疾病嵌入連續(xù)表征之后,我們還可以把之前所有跟疾病相關(guān)study都重新做一遍,因為不再需要對每一種疾病單獨建模,通過對人類600多種疾病進行分析和建模,可以極大提高統(tǒng)計power。
這是我們兩年前的工作,證明當疾病嵌入空間向量為特征時候,可以在任何一個地方,例如丹麥、瑞典這種基因組學數(shù)據(jù)上估算遺傳學參數(shù)。
此外,我們還從疾病的發(fā)病年齡中就發(fā)現(xiàn),不同疾病的發(fā)病年齡有很強的模式,基本可以聚成5種不同類型疾病種類。
除了這些,疾病嵌入空間還可以重新做之前的基因組關(guān)聯(lián),也就是GWAS,同時對人類600種疾病進行基因關(guān)聯(lián)。
我們在英國UK Biobank上,通過疾病嵌入特征空間,跟基因組突變空間進行新關(guān)聯(lián),就發(fā)現(xiàn)了116種非常強的關(guān)聯(lián)信號。
這在之前GWAS研究都沒有發(fā)現(xiàn)。而這116種強烈關(guān)聯(lián)信號,很有可能作為新疾病藥物靶點,同樣的想法還可以應用到多模態(tài)同時嵌入,就是除了嵌入疾病還可以做藥物和疾病關(guān)聯(lián)嵌入。
這樣疾病可以作為正則項來影響藥物嵌入,反過來藥物也可以作為正則項來影響疾病嵌入,不但可以嵌入疾病和藥物,還可以嵌入他們之間的關(guān)系,更好發(fā)現(xiàn)新靶點,以及疾病潛在藥物。
有了基因組之后,還可以找一些更隱性、更深的致病突變。例如孟德爾疾病就是由某一突變或某一基因突變造成,這是人類了解最多的疾病。
臨床上為這類病人 order全外顯子或者全基因組測序,最后測序回來report,最終成功率只有25%~50%以內(nèi)。
對這么簡單病因疾病,我們都沒有辦法進行全面診斷,主要原因在于很多突變都非常深層,是隱性突變,并不直接作用于編碼蛋白,或基因組層面,而是轉(zhuǎn)錄組層面。
例如,它可能引發(fā)某些異常轉(zhuǎn)錄本出現(xiàn),或者正常轉(zhuǎn)錄本異常表達量等情況出現(xiàn),這種信號往往會由于人體NMD機制,變得非常微弱。
因此,如果想從序列測序數(shù)據(jù)中發(fā)現(xiàn)這種異常轉(zhuǎn)錄本,或者正常轉(zhuǎn)錄本異常表達,就需要敏感度非常高的算法。
我們也研發(fā)了一些基于轉(zhuǎn)錄本的疾病診斷方法,通過跟沙特臨床醫(yī)生合作,診斷之前懸而未解的罕見遺傳疾病。
例如去年我們第一個study就診斷了一個小頭侏儒癥個體,這個人有腦白質(zhì)疏松以及智力發(fā)育遲緩,最終發(fā)現(xiàn),他在基因區(qū)間有一個38bp大小的deletion。
我們第二個study也研究了4個不同family,這4個家族同時具有發(fā)育遲緩、小頭侏儒癥以及面部畸形,在他們SMG8基因當中,發(fā)現(xiàn)一個非常deep的致病突變。
除此之外,還有另一種解讀基因組方式,通過理解regulatory code(調(diào)控代碼),由于基因組里有非常多調(diào)控元件,即使在編碼區(qū)域,也有幾種最常見的調(diào)控機理,從起始出發(fā),由轉(zhuǎn)錄起始位點調(diào)控;從結(jié)尾出發(fā),由多聚腺苷酸加尾,也就是polyA。
如果只盯著最淺顯方式,也許有幾十個方式,但現(xiàn)在所有方法都沒有辦法對任意PolyA位點進行同時建模。
所以,我們從去年提出了DeeReCT工具,它結(jié)合了CNN和RNN的優(yōu)點,從而得到自適應模型,對任意PolyA位點進行同時建模,以model這些位點之間競爭性。
我們把目光集中在多聚腺苷酸加尾,還研究了轉(zhuǎn)錄起始位點—TSS,研發(fā)了第一個基于深度學習的轉(zhuǎn)錄起始位點預測程序—Direct PeomID。
該方法與之前所有轉(zhuǎn)錄起始位點預測程序相比,除了采用深度學習框架,最大區(qū)別就是在比較平衡的正負數(shù)據(jù)集上的二分類問題。
當把這些訓練好模型應用到全基因組掃描時,就會發(fā)現(xiàn)他們的假陽性率非常高,甚至高到無法實際使用,而這種循環(huán)迭代負樣本增強想法,能夠非常有效降低全基因組掃描假陽性率。
目前為止,Direct PeomID還是唯一一個可以在全基因組層面預測轉(zhuǎn)錄起始位點的工具。除此之外,我們還做了各種后續(xù)工具,這些都是沿著調(diào)節(jié)代碼方向來操作。
最后替百圖生科打一個廣告,百圖生科是在李彥宏和劉維帶領(lǐng)下的干濕技術(shù)結(jié)合的造藥新勢力,干技術(shù)就是AI;濕技術(shù)就是生物技術(shù)。通過形成AI賦能的干濕結(jié)合大閉環(huán),希望能夠從全新角度為人類藥物設(shè)計研發(fā),做出一些突破性貢獻,我們還希望更多有識之士能夠加入。
Q1:目前 AI新藥研發(fā)有沒有已經(jīng)研發(fā)出的藥物以及應用的案例?
高欣:這里如果把已經(jīng)研發(fā)出來定義為獲批上市,據(jù)我所知,目前AI研發(fā)的新藥還沒有獲批上市的先例。
但已經(jīng)有非常多AI研發(fā)或AI輔助研發(fā)藥物在各期、不同臨床實驗當中。
此外,新藥和研發(fā)這兩個詞,還有著不同的解讀。
第一種解讀,是為已知靶點,尋找之前不知道的化合物或藥物分子。
第二種,是為已知藥找新適應癥,也就是老藥新用。
第三種,是完全從0開始,設(shè)計之前沒有的小分子或大分子藥物。
事實上,各種不同解讀情況當中,AI已經(jīng)做出非常喜人的成果和進展。
例如從零開始藥物設(shè)計上,就有非常出名的案例,MIT的James Collins lab就研發(fā)了一種從0開始的抗生素藥物設(shè)計。
這種抗生素,在試驗中已經(jīng)展現(xiàn)出非常好的抗細菌效果,能夠殺死一些已知抗生素沒有辦法清除的細菌。
此外,其它藥物也有各種各樣例子,國外制藥企業(yè)和國內(nèi)AI藥物研發(fā)企業(yè)都有藥物在臨床實驗當中。
Q2:AI藥物研發(fā)的原始數(shù)據(jù)獲取來源都有哪些?
高欣:這要回歸到 AI藥物研發(fā)根本,這是一個系統(tǒng)性學科,需要涉及到生物醫(yī)療的方方面面。
如果大家想從整體、完整角度去做AI藥物研發(fā),就需要獲取方方面面所有原始數(shù)據(jù)來源。例如序列、組學、影像學、臨床數(shù)據(jù)、生物技術(shù)數(shù)據(jù)、文本數(shù)據(jù)、三維結(jié)構(gòu)數(shù)據(jù)等等,所有數(shù)據(jù)都會對最后平臺成功性做出一定貢獻。
Q3:NLP(自然語言處理)對于AI藥物研發(fā)的用處有哪些?
高欣:NLP是深度學習最成功應用的兩大領(lǐng)域之一。所謂AI藥物研發(fā),很大程度是指深度學習賦能藥物研發(fā)。也就是NLP在AI藥物研發(fā)過程當中占到至關(guān)重要的作用。
這里給大家列舉兩個經(jīng)典案例:
第一, NLP被大量地用于知識圖譜研發(fā)。
第二, NLP被大量用于各種各樣蛋白質(zhì)分子或DNA分子模型預訓練,這些預訓練模型被證明能夠非常有效提取生物分子特征,并且服務(wù)各種下游。
例如AlphaFold2,應該就是基于某種蛋白質(zhì)預訓練模型,或protein的transformers,所以NLP技術(shù)在AI藥物研發(fā)用處非常大。
Q4:百圖生科的研發(fā)中是否用到藥物研發(fā)知識圖譜,規(guī)模有多大,數(shù)據(jù)源哪些,質(zhì)量如何保證及評估。
高欣:這是非常好的問題。藥物研發(fā)知識圖譜取決于靶向疾病、靶向靶點,或者藥物搜索空間到底有多大,它會有相應規(guī)模,這種知識圖譜質(zhì)量應該如何評估?
首先盡量確保數(shù)據(jù)和信息準確,一個是數(shù)據(jù)源是否可靠,再就是數(shù)據(jù)源手工校準,或者各種各樣清洗、預處理是否合理,最后,還要看下游預測結(jié)果是否和先驗知識吻合。
Q5:藥物研發(fā)過程中,除了發(fā)現(xiàn)新的適應癥,如何進行臨床療效評價?
高欣:藥物進入臨床療效評價已經(jīng)是非常后期的任務(wù)。
如果這個時候藥物被證明副作用較大,或者體內(nèi)不起效,損失的時間以及代價就非常大,所以在臨床療效評價之前,應該盡量確保藥物被很好測試。
這些測試有各種各樣方法,有統(tǒng)計學相關(guān)、文本挖掘、先驗知識印證相關(guān)。
最后就是臨床前實驗,例如在濕實驗室進行實驗,或者在IPS細胞當中進行實驗,或者類器官當中進行實驗,或者是動物實驗。
無論如何,大家都希望在代價不可挽回的時間點前,將這些藥物的問題盡早發(fā)現(xiàn)出來并盡早進行挽救。
Q6:AI發(fā)現(xiàn)新適應癥有幾種方法?各自的優(yōu)缺點是什么?
高欣:這是一種非常泛的問題,AI發(fā)現(xiàn)新適應癥,就是一個非常大的問題,基本能想到的所有方法都可以被應用這個領(lǐng)域。
例如基于知識圖譜方法、基于三維結(jié)構(gòu)方法,基于多組學分析的方法,基于分子動力學模擬的方法,很難準確界定AI發(fā)現(xiàn)新適應癥有幾種方法。
Q7:在算法設(shè)計過程中,應如何與藥學家進行合作,用先驗知識指導算法設(shè)計,從而使算法效率更高、結(jié)果更加安全科學?
高欣:這是一個非常好的問題,涉及所有交叉領(lǐng)域。不光是與藥學家合作,與地質(zhì)學家合作、生物學家合作、植物學家合作、海洋學家合作、化學家合作等等都將面臨這個問題。
這個問題最好要找到互相之間的共同語言、尊重對方專業(yè)、認可對方專業(yè)、對自己專業(yè)重要程度有良好認識合作者,然后與這些合作者進行密切的、閉環(huán)式交流與合作,有反饋合作才是成功代表。
如果只是單純輸出給另一方,沒有反饋,那么這種合作注定不會成功,也不會安全。
在AI制藥中就是指藥學家的先驗知識到底是什么,并且把他的先驗知識給進行結(jié)構(gòu)化,進行政策化。
把他的先驗知識很好融合到數(shù)學模型和AI模型當中,然后再用預測結(jié)果去提供給藥學家,讓它進行甄別,讓他給更下一步反饋意見,進行所謂的強化學習,
往返的閉環(huán),才能使算法效率更高,結(jié)果更加安全和科學。
Q8:AI藥物研發(fā)所用到的外部計算軟件哪些是主流?還是自己開發(fā)計算軟件?
高欣:這同樣是個好問題,涉及到很多做生物信息或者計算生物學的人。
大家知道計算生物學和生物信息的科學家們,本身并不開發(fā)新計算軟件,但他們熟知現(xiàn)有所有軟件、包、庫。
如果他們拿到新數(shù)據(jù)和新問題,可以非常熟練把現(xiàn)有方法應用到問題上,然后選擇表現(xiàn)性能最好方法。
此外,還有另一類生物信息學家,他們并不滿足于這種現(xiàn)有方法,而是希望測試所有現(xiàn)有方法,當現(xiàn)有方法能夠很好解決這些問題的時候,他們才不再研發(fā)新方法。
否則他們會總結(jié)現(xiàn)有方法的優(yōu)缺點,然后有的放矢地設(shè)計和開發(fā)自己的計算軟件,針對性地解決問題,而且能夠overcome這些現(xiàn)有外部計算方法共同約束和限制。
目前,兩種不同類型的研發(fā)和科研理念,都有非常成功的例子,沒有一概而論的答案。
Q9:AI開發(fā)的候選藥,比傳統(tǒng)方法開發(fā)臨床實驗成功率會有多大提升?
高欣:具體有多大提升,取決于具體例子,也是一個case-by-case的答案。
傳統(tǒng)方法的改進空間實在太大,傳統(tǒng)意義上,藥廠開發(fā)新藥需要15~20年時間,超過20億美元代價,而失敗率超過95%,成功率還在逐年下跌,所以即使把5%成功率提高到10%,也是巨大的進步和飛躍。
對于某些疾病、某些靶點,可能把5%提高到30%,有些則可以把5%提高到10%。無論如何都是一個非常好的進展。
大家隨便上網(wǎng)就會發(fā)現(xiàn),國內(nèi)AI藥企,已經(jīng)可以把新藥研發(fā)周期縮短到12~18個月,開發(fā)費用縮小到百萬美元量級,這已經(jīng)是飛躍式的進展。如果最后臨床實驗證明安全有效,這些藥物可以獲批上市將是一個非常好的應用案例。
Q10:目前AI藥物研發(fā)是否主要基于分子結(jié)構(gòu)?基于基因組數(shù)據(jù)的Ai藥物研發(fā),當前研究進展和未來發(fā)展如何?
高欣:首先,基于分子結(jié)構(gòu),只是非常多元信息當中的一員而已。那么主要基于分子結(jié)構(gòu)的這種藥物研發(fā),例如薛定諤,他們可能是主要基于分子結(jié)構(gòu)來進行AI藥物研發(fā)。
但很多其他公司,完全是基于基因組數(shù)據(jù),或者主要基于基因組數(shù)據(jù)來進行藥物研發(fā),例如加拿大DeepGenomics,他們都是基于大規(guī)模組學數(shù)據(jù),影像數(shù)據(jù)進行AI藥物研發(fā)。
Q11:AI藥物研發(fā)的后續(xù)開發(fā)路徑,后續(xù)可能形成的商業(yè)化的形式是什么?與big pharma 合作更多的在藥物方面深入,還是受到藥企的委托去做外包服務(wù)的方式? 感覺會往either 是一個藥企 or 一個CRO公司方向發(fā)展?
高欣:這是和商業(yè)計劃有關(guān)問題,對于集中在某一個局部痛點的AI藥物研發(fā)公司來說,它們主要商業(yè)模式可能是與藥企進行密切合作,為藥企某一步或整個平臺進行賦能。
而百圖生科希望的就是和這些AI藥物研發(fā)公司形成互補,一同做風險更高、未來期待收益更高大規(guī)模端到端內(nèi)部閉環(huán)藥物開發(fā)模式。
這不光是某些AI算法調(diào)參或局部優(yōu)化,更希望有一個端到端的AI工程化和AI智能化研發(fā),同時賦予in house生物技術(shù)以及高通量生物數(shù)據(jù),形成內(nèi)部資產(chǎn)閉環(huán)。
最后感謝大家提出這些非常有建設(shè)性的問題,希望下次還有機會交流。雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。