丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
醫(yī)療AI 正文
發(fā)私信給劉海濤
發(fā)送

0

百圖生科科學(xué)顧問(wèn)高欣:自我否定、二次創(chuàng)新,我為納米孔測(cè)序提供了更可靠的AI工具 | 萬(wàn)字長(zhǎng)文

導(dǎo)語(yǔ):在WaveNano取得了成就之后,高欣教授并不是很滿意,為什么?

“接下來(lái),生物計(jì)算將成為百度重點(diǎn)發(fā)力的關(guān)鍵領(lǐng)域之一,在這一賽道的投入上,百度只有盡力,沒(méi)有盡頭?!?/p>

這是近期,李彥宏在首屆生物計(jì)算大會(huì)上的一段豪言壯語(yǔ)。

如今隨著像百度、字節(jié)跳動(dòng)、華為這些科技大廠的高調(diào)加注,以及各個(gè)VC接連不斷的注資,與生物計(jì)算密切相關(guān)的AI新藥無(wú)疑已經(jīng)成為關(guān)注度最高的創(chuàng)業(yè)賽道。

近日,雷鋒網(wǎng)《醫(yī)健AI掘金志》以“AI制藥·下一個(gè)現(xiàn)象級(jí)賽道”為主題,邀請(qǐng)百圖生科、劑泰醫(yī)藥、未知君、望石智慧、英矽智能、星藥科技,六家先鋒企業(yè),舉辦了一場(chǎng)線上論壇分享。

作為此次論壇的開(kāi)場(chǎng)報(bào)告嘉賓,百圖生科科學(xué)顧問(wèn)、沙特阿卜杜拉國(guó)王科技大學(xué)教授,高欣以《更精準(zhǔn)的生物醫(yī)學(xué)及基因組學(xué)》為題,進(jìn)行了演講。

高欣教授的團(tuán)隊(duì)從“靶點(diǎn)發(fā)現(xiàn)”方向出發(fā),開(kāi)展了一系列納米孔測(cè)序相關(guān)工作,并應(yīng)用深度學(xué)習(xí)算法,開(kāi)發(fā)了一款全新cwDTW算法“WaveNano”,該算法直接解決了困擾生物學(xué)家的納米孔測(cè)序儀錯(cuò)誤率較高問(wèn)題,并在國(guó)際頂級(jí)生物信息學(xué)會(huì)議ECCB發(fā)表。

作為一個(gè)計(jì)算機(jī)學(xué)家,高欣的算法研發(fā)沒(méi)有止步于WaveNano,做出以上研究之后,他開(kāi)始反問(wèn)自己:1.自己有沒(méi)有可能得到更可控、質(zhì)量更好的標(biāo)注數(shù)據(jù)訓(xùn)練監(jiān)督式學(xué)習(xí)模型?2.自己有沒(méi)有可能大幅提高DTW算法時(shí)間復(fù)雜度?

這些問(wèn)題也在日后的研究中逐步被優(yōu)化和改進(jìn)。

以下是演講全部?jī)?nèi)容,雷鋒網(wǎng)做了不改變?cè)獾恼砗途庉嫞?/strong>

大家晚上好,我是高欣,很高興跟大家進(jìn)行分享。今天的題目是“更精準(zhǔn)的生物醫(yī)學(xué)及基因組學(xué)”。

大家知道藥物發(fā)現(xiàn)是一個(gè)極其漫長(zhǎng)且昂貴的過(guò)程。一個(gè)藥物平均從最初研發(fā)到上市,需要15~20年時(shí)間,耗資超過(guò)20億美元。

百圖生科科學(xué)顧問(wèn)高欣:自我否定、二次創(chuàng)新,我為納米孔測(cè)序提供了更可靠的AI工具 | 萬(wàn)字長(zhǎng)文

這一漫長(zhǎng)流程由多個(gè)步驟組成的,從最開(kāi)始靶點(diǎn)識(shí)別,到先導(dǎo)化合物發(fā)現(xiàn)、先導(dǎo)化合物優(yōu)化、臨床前動(dòng)物實(shí)驗(yàn)、多期臨床實(shí)驗(yàn)。

整個(gè)流程當(dāng)中,任何一個(gè)步驟出現(xiàn)失敗,都導(dǎo)致整個(gè)流程以失敗而告終,整個(gè)藥物發(fā)現(xiàn)流程成功率非常之低,只有不到5%。

如果對(duì)當(dāng)中各個(gè)步驟統(tǒng)計(jì)會(huì)發(fā)現(xiàn),每一個(gè)步驟的失敗率都在隨時(shí)間變化而逐年增高。

而且在這些步驟中,晚期發(fā)現(xiàn)失敗消耗的代價(jià),要遠(yuǎn)遠(yuǎn)大于早期失敗。因此,早期步驟成功率在整個(gè)流程至關(guān)重要。

今天跟大家分享的題目,就主要集中在藥物發(fā)現(xiàn)第一步“靶點(diǎn)識(shí)別”。

長(zhǎng)讀長(zhǎng)測(cè)序:基因組數(shù)據(jù)的抽提利器

我想談的是,如何通過(guò)第三代測(cè)序技術(shù),更快、更準(zhǔn)確得到基因組數(shù)據(jù),得到基因組數(shù)據(jù)之后,如何更好解讀基因組數(shù)據(jù),以求發(fā)現(xiàn)更好的藥物靶點(diǎn)。

這個(gè)系列云峰會(huì)講座當(dāng)中,后續(xù)speaker還會(huì)給大家分享不同步驟以及整體流程上一些振奮人心的工作。

今天我主要集中在第一步,介紹我的課題組工作,即時(shí)DNA測(cè)序方面成果。

現(xiàn)代醫(yī)學(xué)大多都是基于基因組診斷,人共有30億對(duì)堿基,這些堿基都是非常長(zhǎng)的基因組序列。

大家可以把它理解成一本非常厚的字典,每個(gè)人都有一個(gè)模板。抄寫(xiě)這本字典的時(shí)候,就無(wú)法避免犯一些錯(cuò)誤,例如插入、刪除、錯(cuò)別字等等。

絕大部分錯(cuò)誤不會(huì)導(dǎo)致嚴(yán)重后果,但如果在一些關(guān)鍵位置抄寫(xiě)錯(cuò)誤,就會(huì)導(dǎo)致罕見(jiàn)遺傳疾病?;蚪M診斷就是要把這些抄寫(xiě)錯(cuò)誤和罕見(jiàn)遺傳疾病相互關(guān)聯(lián)起來(lái),做到這一點(diǎn),就要知道錯(cuò)誤發(fā)生地點(diǎn)。

因?yàn)樯锛夹g(shù)所限,我們沒(méi)有辦法通讀整個(gè)字典,只能把字典拆分成一頁(yè)一頁(yè),或一段一段分別解讀,最后整合起來(lái)。

這是一件非常難的任務(wù),就好像是很出名的變形藝術(shù)—metamorphosis。

基于這種metamorphosis變形藝術(shù)設(shè)計(jì)拼圖游戲,就會(huì)發(fā)現(xiàn)拼圖游戲非常難,因?yàn)樗衟iece都高度相似,沒(méi)有任何兩塊完全一致。

百圖生科科學(xué)顧問(wèn)高欣:自我否定、二次創(chuàng)新,我為納米孔測(cè)序提供了更可靠的AI工具 | 萬(wàn)字長(zhǎng)文

因此,大家想出各種辦法克服技術(shù)上難點(diǎn),其中一個(gè)直觀辦法就是把拼圖塊從小塊變成大塊,所謂長(zhǎng)讀長(zhǎng)DNA測(cè)序。

長(zhǎng)讀長(zhǎng)DNA測(cè)序,主要有兩種技術(shù):PacBio和納米孔。

納米孔相對(duì)于其它測(cè)序技術(shù)來(lái)說(shuō),主要有幾大優(yōu)勢(shì):

第一,便攜性,納米孔測(cè)序儀大小只有手機(jī)一半大小,理論上可以在世界任何時(shí)間、任何地點(diǎn),提供及時(shí)檢測(cè),也就是point of care;

第二,測(cè)序長(zhǎng)度非常長(zhǎng),可以讀長(zhǎng)有大約10k到100k這么長(zhǎng),相對(duì)于二代測(cè)序100~200bp長(zhǎng)度,已經(jīng)是很長(zhǎng)的讀長(zhǎng)長(zhǎng)度,因此可以很好處理大結(jié)構(gòu)變異,以及DNA中的repeat;

第三,納米孔測(cè)序不需要進(jìn)行PCR擴(kuò)增。

既然有好的地方,就一定有壞的地方,納米孔有這么多技術(shù)上優(yōu)勢(shì),主要劣勢(shì)就是測(cè)序精度。

例如R9 Flowcell,測(cè)序精度只有85%左右;即使最新R10,官方精度也只有95%左右,相比于二代測(cè)序99%精度,這個(gè)確實(shí)非常低。

數(shù)據(jù)處理:納米孔測(cè)序的長(zhǎng)期瓶頸

測(cè)序精度低除了設(shè)備上局限性,納米孔數(shù)據(jù)分析也是非常難的任務(wù)。

在此,我簡(jiǎn)單介紹一下納米孔工作原理,納米孔當(dāng)中有一個(gè)膜,膜上有一些穿膜蛋白,即membrane protein。

單鏈DNA會(huì)被蛋白酶拽著通過(guò)膜蛋白,在任何一個(gè)時(shí)間點(diǎn)膜蛋白當(dāng)中大約有5到6個(gè)堿基,所以可以假設(shè)是一個(gè)5mer總共會(huì)有45,大約1024種不同5mer。

由于5mer組合不同,形狀不同,對(duì)孔阻塞程度也不一樣,因此,當(dāng)膜兩端加上電壓再去測(cè)一個(gè)時(shí)間點(diǎn)有多少電流能通過(guò)時(shí),就會(huì)發(fā)現(xiàn)不同5mer在孔中的電流值不一樣。

而且納米孔測(cè)序儀測(cè)出的原始數(shù)據(jù)是離散時(shí)間序列電流值。我們想做的是解碼,把離散時(shí)間序列電流值解碼成ACGTDNA讀長(zhǎng)。

對(duì)于計(jì)算機(jī)同學(xué)來(lái)說(shuō),解碼是一個(gè)非常經(jīng)典的任務(wù),有很多現(xiàn)成算法,但納米孔解碼和傳統(tǒng)解碼完全不同,主要有幾大技術(shù)難點(diǎn):

第一,電流測(cè)量范圍小。1024種不同5mer,它們之間平均誤差已經(jīng)小于電流之間測(cè)量誤差,直接做解碼,就會(huì)有很多不確定性。

第二,DNA序列并不勻速通過(guò),有的時(shí)候很快,有的時(shí)候很慢。但電流是以恒定頻率被測(cè)量,因此在電流中,有的5mer會(huì)被測(cè)兩次,有的5mer會(huì)被測(cè)200次,平均一個(gè)5mer大約被測(cè)10次左右。

從離散時(shí)間序列角度來(lái)說(shuō),并不知道任何一個(gè)時(shí)間點(diǎn)是在測(cè)上一個(gè)時(shí)間點(diǎn)5mer,還是下一個(gè)5mer。

第三,信號(hào)聯(lián)配困難,DNA讀長(zhǎng)大約有1萬(wàn)到10萬(wàn)這么長(zhǎng),原始電信號(hào)長(zhǎng)度又是DNA讀長(zhǎng)10倍左右,也就是10萬(wàn)到100萬(wàn)這么長(zhǎng)。

如果把兩個(gè)序列進(jìn)行聯(lián)配,最標(biāo)準(zhǔn)算法就是動(dòng)態(tài)規(guī)劃,這是一個(gè)平方時(shí)間和空間復(fù)雜度算法,這么長(zhǎng)序列里,這種算法時(shí)間復(fù)雜度同樣也沒(méi)有辦法接受。

納米孔測(cè)序數(shù)據(jù)分析是一個(gè)非常難的任務(wù),我的課題組過(guò)去三年里,已經(jīng)研發(fā)端到端計(jì)算平臺(tái)用于處理納米孔測(cè)序數(shù)據(jù)分析等關(guān)鍵問(wèn)題。

WaveNano:納米孔測(cè)序的解碼框架

百圖生科科學(xué)顧問(wèn)高欣:自我否定、二次創(chuàng)新,我為納米孔測(cè)序提供了更可靠的AI工具 | 萬(wàn)字長(zhǎng)文

現(xiàn)在給大家做個(gè)簡(jiǎn)單介紹:就是把特定離散時(shí)間序列電信號(hào)解碼成一個(gè)DNA讀長(zhǎng),最終設(shè)計(jì)成一個(gè)基于監(jiān)督式學(xué)習(xí)的解碼問(wèn)題。

這是我們?nèi)昵霸O(shè)計(jì)的一個(gè)深度學(xué)習(xí)框架“WaveNano”,當(dāng)中深度學(xué)習(xí)單元主要采用wave net單元,也就是聲波網(wǎng)絡(luò)相關(guān)單元想法結(jié)合wave net和殘差網(wǎng)絡(luò),從上游到下游分別提取序列中信息,并把信息整合起來(lái)。

接下來(lái)訓(xùn)練一個(gè)監(jiān)督式學(xué)習(xí)模型,預(yù)測(cè)任何一個(gè)時(shí)間點(diǎn)的上下標(biāo)簽。

第一個(gè)標(biāo)簽是時(shí)間點(diǎn),和上一個(gè)時(shí)間點(diǎn)對(duì)比,究竟是同一5mer,還是變成下一個(gè)5mer。

第二個(gè)標(biāo)簽是分類(lèi),任何一個(gè)時(shí)間點(diǎn)測(cè)量5mer屬于1024種中的哪一類(lèi)。

預(yù)測(cè)完兩種標(biāo)簽概率之后,我們就可以通過(guò)概率引導(dǎo)Viterbi解碼算法,解碼出DNA讀長(zhǎng)序列,整個(gè)流程最重要的就是“如何為監(jiān)督式學(xué)習(xí)準(zhǔn)備訓(xùn)練數(shù)據(jù)”。

雖然可以從公共數(shù)據(jù)集拿到很多配對(duì)原始電信號(hào)和DNA讀長(zhǎng)信息,但如果想做監(jiān)督式學(xué)習(xí),就需要知道這些原始電信號(hào)的任何一個(gè)時(shí)間點(diǎn)二類(lèi)標(biāo)簽和1024類(lèi)內(nèi)容。

但原始電信號(hào)序列非常長(zhǎng),沒(méi)有人會(huì)手工標(biāo)注這些標(biāo)簽,只能自己進(jìn)行數(shù)據(jù)標(biāo)注,找到原始電信號(hào)和DNA讀長(zhǎng)之間最優(yōu)聯(lián)配。

這種問(wèn)題,一般通過(guò)動(dòng)態(tài)時(shí)間規(guī)整算法—“dynamic time warping”就可以解決。

百圖生科科學(xué)顧問(wèn)高欣:自我否定、二次創(chuàng)新,我為納米孔測(cè)序提供了更可靠的AI工具 | 萬(wàn)字長(zhǎng)文

大家可以把它理解成動(dòng)態(tài)規(guī)劃的變種,動(dòng)態(tài)規(guī)劃沒(méi)有空位罰分(Gap Penalty) 的情況下的變種。因?yàn)樗碾娏餍蛄虚L(zhǎng)度是DNA序列長(zhǎng)度10倍,因此一旦gap penalty,gap penalty就會(huì)占據(jù)主導(dǎo)位置,最后聯(lián)配不會(huì)好,因此就需要采用沒(méi)有罰分項(xiàng)動(dòng)態(tài)規(guī)劃變種,就是DTW算法。

百圖生科科學(xué)顧問(wèn)高欣:自我否定、二次創(chuàng)新,我為納米孔測(cè)序提供了更可靠的AI工具 | 萬(wàn)字長(zhǎng)文

簡(jiǎn)單給大家展示一下DTW算法性能,和官方base calling、Metrichor和Albacore等方法進(jìn)行對(duì)比。

因?yàn)槠渌鼉蓚€(gè)程序并不開(kāi)源,不知道訓(xùn)練數(shù)據(jù)情況,這個(gè)比較可能還不公平,尚且無(wú)法斷言,我們的算法base calling要比官方的好。但從這個(gè)表格至少可以發(fā)現(xiàn),WaveNano工具非常不錯(cuò)。

問(wèn)題溯源:兩大思路繼續(xù)精細(xì)化

百圖生科科學(xué)顧問(wèn)高欣:自我否定、二次創(chuàng)新,我為納米孔測(cè)序提供了更可靠的AI工具 | 萬(wàn)字長(zhǎng)文

但我對(duì)WaveNano其實(shí)并不滿意,為什么?

首先,我更感興趣的是現(xiàn)有問(wèn)題,是為挑戰(zhàn)性問(wèn)題量身打造的新算法,不是簡(jiǎn)單應(yīng)用市面上已有深度學(xué)習(xí)框架。

其次,這個(gè)問(wèn)題還有兩個(gè)限制:

第一個(gè)限制,訓(xùn)練數(shù)據(jù)準(zhǔn)確度不可控。對(duì)于監(jiān)督式學(xué)習(xí)模型,如果訓(xùn)練數(shù)據(jù)質(zhì)量不好,或標(biāo)注不好,最終無(wú)論算法多么強(qiáng)大,訓(xùn)練出的模型一定不好。

而剛才訓(xùn)練的模型,都是自己聯(lián)配得來(lái)的訓(xùn)練數(shù)據(jù),完全不知道離真正ground truth相差多遠(yuǎn)。

第二個(gè)限制,運(yùn)算速度比較慢。對(duì)原始電信號(hào)序列和DNA讀長(zhǎng)序列進(jìn)行聯(lián)配的時(shí)候,DTW還是一個(gè)平方時(shí)間復(fù)雜度算法,對(duì)于序列聯(lián)配的速率還比較慢。

因此,做出這些研究之后,作為一個(gè)計(jì)算機(jī)學(xué)家,我問(wèn)了自己兩個(gè)問(wèn)題:

1.自己有沒(méi)有可能得到更可控、質(zhì)量更好的標(biāo)注數(shù)據(jù),用于訓(xùn)練監(jiān)督式學(xué)習(xí)模型?

2.自己有沒(méi)有可能大幅提高 DTW算法時(shí)間復(fù)雜度?

接下來(lái),介紹一下兩個(gè)問(wèn)題的解決方式:

其實(shí)深度學(xué)習(xí)經(jīng)常會(huì)出現(xiàn)數(shù)據(jù)量不夠,或者標(biāo)注數(shù)據(jù)量不夠的情況。

這種情況下,大家經(jīng)常會(huì)使用模擬器,例如Alpha Go就大量使用模擬器模擬非常多的圍棋對(duì)弈。

納米孔訓(xùn)練上,我也想到了模擬器想法,雖然在此之前已經(jīng)有若干納米孔模擬器,但這些模擬都是DNA讀長(zhǎng),沒(méi)有任何人能夠模擬原始電信號(hào)序列。

百圖生科科學(xué)顧問(wèn)高欣:自我否定、二次創(chuàng)新,我為納米孔測(cè)序提供了更可靠的AI工具 | 萬(wàn)字長(zhǎng)文

因此在三年前,我們提出了一個(gè)想法—Deep simulator,它可以模擬納米孔測(cè)序整個(gè)流程。

首先,主要通過(guò)給定基因組,隨機(jī)把它打成一些DNA讀長(zhǎng),并且保證這些DNA讀長(zhǎng)分布和真實(shí)數(shù)據(jù)讀長(zhǎng)分布保持一致。

其次,對(duì)于這些隨機(jī)生成讀長(zhǎng)的每一個(gè)DNA,還要隨機(jī)生成它的原始電信號(hào)序列,最后用base caller,從原始電信號(hào)序列把DNA讀長(zhǎng)給呼叫回來(lái)。

因?yàn)樽约旱腷ase caller并不完美,所以call回來(lái)的DNA讀長(zhǎng)并不完美,自然會(huì)引入一些插入刪除,以及一些variation。

但最終模擬器還是為業(yè)內(nèi)人士提供大量訓(xùn)練數(shù)據(jù),用于訓(xùn)練他們的解碼器,被大家使用的頻率非常多。

所以去年,我們又提出模擬器1.5版本。這里簡(jiǎn)單介紹一下其中的技術(shù)細(xì)節(jié)。

百圖生科科學(xué)顧問(wèn)高欣:自我否定、二次創(chuàng)新,我為納米孔測(cè)序提供了更可靠的AI工具 | 萬(wàn)字長(zhǎng)文

第一步,生成和實(shí)際數(shù)據(jù)讀長(zhǎng)長(zhǎng)度分布一致的讀長(zhǎng)長(zhǎng)度,為了達(dá)到這個(gè)目的,就需要對(duì)實(shí)際數(shù)據(jù)進(jìn)行讀長(zhǎng)分布總結(jié)。

我們發(fā)現(xiàn),實(shí)際納米孔測(cè)序數(shù)據(jù)基本服從三個(gè)分布:指數(shù)分布、β分布和兩個(gè)γ混合分布。

我們分別對(duì)三個(gè)分布進(jìn)行參數(shù)估計(jì),然后把選擇權(quán)留給用戶(hù),用戶(hù)選擇按照哪一種分布去進(jìn)行生成,最終發(fā)現(xiàn)生成的數(shù)據(jù)讀長(zhǎng)分布,和實(shí)際真實(shí)分布非常類(lèi)似。

百圖生科科學(xué)顧問(wèn)高欣:自我否定、二次創(chuàng)新,我為納米孔測(cè)序提供了更可靠的AI工具 | 萬(wàn)字長(zhǎng)文

第二步,對(duì)隨機(jī)產(chǎn)生的DNA讀長(zhǎng)生成原始電信號(hào)序列。為了這件事,我們又提出了新模型—深度典型事件規(guī)整(deep canonical time warping)。

它的想法是基于DNA讀長(zhǎng)和原始電信號(hào),分別加入兩個(gè)深度學(xué)習(xí)網(wǎng)絡(luò)作為特征提取器,提取出來(lái)兩個(gè)特征序列。

如果讀長(zhǎng)和原始電信號(hào)序列是對(duì)應(yīng)的,那這兩個(gè)提取出來(lái)的特征序列就應(yīng)該最大程度耦合到一起,因此采用典型相關(guān)分析值作為損失函數(shù),會(huì)逼著我們深度學(xué)習(xí)框架,學(xué)到更好的特征提取。百圖生科科學(xué)顧問(wèn)高欣:自我否定、二次創(chuàng)新,我為納米孔測(cè)序提供了更可靠的AI工具 | 萬(wàn)字長(zhǎng)文

在模型訓(xùn)練過(guò)程中,我們可能需要訓(xùn)練整個(gè)網(wǎng)絡(luò),但測(cè)試階段只需要使用其中部分,也就是從一個(gè)讀長(zhǎng)生成原始電信號(hào)序列。

因?yàn)槊恳粋€(gè)5mer都會(huì)平均被測(cè)到10次,所以還要對(duì)每一個(gè)真實(shí)5mer重復(fù)測(cè)量次數(shù)進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)匹配分布,使得數(shù)據(jù)5mer重復(fù)測(cè)量次數(shù)和真實(shí)數(shù)據(jù)達(dá)成一致。

我們分別在4個(gè)物種上進(jìn)行了模擬器訓(xùn)練和測(cè)試。

百圖生科科學(xué)顧問(wèn)高欣:自我否定、二次創(chuàng)新,我為納米孔測(cè)序提供了更可靠的AI工具 | 萬(wàn)字長(zhǎng)文

簡(jiǎn)單給大家展示一下結(jié)果,通過(guò)這個(gè)圖里所有對(duì)角線之的點(diǎn),大家可以看到模擬器要遠(yuǎn)遠(yuǎn)好于現(xiàn)在市面上現(xiàn)有模擬器。

百圖生科科學(xué)顧問(wèn)高欣:自我否定、二次創(chuàng)新,我為納米孔測(cè)序提供了更可靠的AI工具 | 萬(wàn)字長(zhǎng)文

回到第二個(gè)問(wèn)題,也就是如何更快進(jìn)行DNA讀長(zhǎng)和原始電信號(hào)序列聯(lián)配。

大家已經(jīng)知道,原始電信號(hào)序列長(zhǎng)度是DNA讀長(zhǎng)10倍,而DNA讀長(zhǎng)長(zhǎng)度是1萬(wàn)-10萬(wàn),原始電信號(hào)讀長(zhǎng)就是10萬(wàn)-100萬(wàn)。

百圖生科科學(xué)顧問(wèn)高欣:自我否定、二次創(chuàng)新,我為納米孔測(cè)序提供了更可靠的AI工具 | 萬(wàn)字長(zhǎng)文

盡管有非常多DTW算法變種已經(jīng)被前人所發(fā)現(xiàn),但所有這些方法都無(wú)法處理這么長(zhǎng)、尺度相差這么大的兩個(gè)序列聯(lián)配。

基于motivation,我們提出了一種新算法—連續(xù)小波變換DTW,也就是CWDTW,它整合了三種不同idea,第一分層動(dòng)態(tài)規(guī)整,第二粗化動(dòng)態(tài)規(guī)整,第三受限動(dòng)態(tài)規(guī)整。

百圖生科科學(xué)顧問(wèn)高欣:自我否定、二次創(chuàng)新,我為納米孔測(cè)序提供了更可靠的AI工具 | 萬(wàn)字長(zhǎng)文

在這里我列舉一個(gè)案例,如果想對(duì)兩個(gè)原始序列進(jìn)行聯(lián)配,但兩個(gè)序列都特別長(zhǎng),沒(méi)有辦法直接聯(lián)配,就需要通過(guò)連續(xù)小波變換把信號(hào)進(jìn)行壓縮和特征提取。

因?yàn)檫B續(xù)小波變換,在原始電信號(hào)特征提取層面已經(jīng)被證明具有很強(qiáng)優(yōu)勢(shì),所以通過(guò)連續(xù)小波變換,可以讓原來(lái)序列長(zhǎng)度變得非常短。

在短序列維度上,就可以進(jìn)行最優(yōu)DTW算法,找到聯(lián)配路徑,而其還可以從粗化連續(xù)小波變換維度,找到更細(xì)化維度,隨后序列就會(huì)變長(zhǎng),同時(shí)還會(huì)把找到的聯(lián)配路徑,投影到更細(xì)化的分辨率上。

在投影過(guò)程當(dāng)中,我的聯(lián)配路徑一定不會(huì)是最優(yōu),但假設(shè)聯(lián)配路徑是一個(gè)很好的出發(fā)點(diǎn),假設(shè)成一個(gè)更好聯(lián)配路徑。

在這個(gè)路徑的鄰距范圍,假設(shè)一個(gè)窗口大小,讓算法這個(gè)窗口范圍內(nèi)找到更好的聯(lián)配路徑。

當(dāng)然窗口大小也是算法重要參數(shù)之一,隨著找到更好的聯(lián)配路徑,就可以把它再映射到更高分辨率維度上,隨著整個(gè)過(guò)程的不斷循環(huán),就可以獲取到最原始的維度。

百圖生科科學(xué)顧問(wèn)高欣:自我否定、二次創(chuàng)新,我為納米孔測(cè)序提供了更可靠的AI工具 | 萬(wàn)字長(zhǎng)文

這張圖,比較了該算法和現(xiàn)有DTW算法性能差異,對(duì)角線上就是最優(yōu)解,離對(duì)角線越近,說(shuō)明找出來(lái)的聯(lián)配路徑離真實(shí)聯(lián)配路徑就越近。

大家看到紅點(diǎn)就是FAST DTW,它離真實(shí)聯(lián)配路徑非常遠(yuǎn),CWDTW基本上都能找到最優(yōu)聯(lián)配路徑幾乎一致的路徑。

從時(shí)間上來(lái)講一個(gè)CPU核上聯(lián)配一對(duì)需要花費(fèi)時(shí)間為0.31秒;而FAST DTW需要136秒,原始DTW需要916秒,也就是說(shuō)在單核上,CWDTW把原始DTW提速了3000倍,把FAST DTW提速了400倍。

疾病嵌入:從基因數(shù)據(jù)到疾病表征

剛才介紹了通過(guò)AI方法以及高效算法,研發(fā)端到端即時(shí)DNA測(cè)序平臺(tái),我們不但要測(cè)DNA序列,還要解讀DNA序列,以求發(fā)現(xiàn)更好的藥物靶點(diǎn)。

在這方面,我們也做了很多工作,例如有了DNA序列之后,怎樣發(fā)現(xiàn)每一個(gè)樣本突變,怎么把它和疾病建立準(zhǔn)確的關(guān)系。

為此,我們兩年前提出了一個(gè)想法—“疾病的嵌入。”通過(guò)1.5億美國(guó)人健康保險(xiǎn)數(shù)據(jù),把人類(lèi)600多種所有疾病同時(shí)投影、嵌入到一個(gè)高維連續(xù)空間內(nèi)。

這種嵌入一旦完成,就不需要再把疾病名字當(dāng)成離散名詞來(lái)使用,例如糖尿病、肝癌,大家不知道兩個(gè)病之間關(guān)系是什么,更不存在定量關(guān)系。

疾病嵌入之后,每一個(gè)疾病都變成20維連續(xù)空間的一個(gè)向量,不但可以談?wù)摷膊≈g相似性,還可以談?wù)摷膊≈g不同點(diǎn)。

而且過(guò)去一個(gè)人同時(shí)得了多種疾病,也知道如何去表達(dá),通過(guò)疾病嵌入只需要把這幾種疾病向量相加到一起,或者加權(quán)到一起,就可以代表病人的disease tree。

有了疾病嵌入連續(xù)表征之后,我們還可以把之前所有跟疾病相關(guān)study都重新做一遍,因?yàn)椴辉傩枰獙?duì)每一種疾病單獨(dú)建模,通過(guò)對(duì)人類(lèi)600多種疾病進(jìn)行分析和建模,可以極大提高統(tǒng)計(jì)power。百圖生科科學(xué)顧問(wèn)高欣:自我否定、二次創(chuàng)新,我為納米孔測(cè)序提供了更可靠的AI工具 | 萬(wàn)字長(zhǎng)文

這是我們兩年前的工作,證明當(dāng)疾病嵌入空間向量為特征時(shí)候,可以在任何一個(gè)地方,例如丹麥、瑞典這種基因組學(xué)數(shù)據(jù)上估算遺傳學(xué)參數(shù)。

此外,我們還從疾病的發(fā)病年齡中就發(fā)現(xiàn),不同疾病的發(fā)病年齡有很強(qiáng)的模式,基本可以聚成5種不同類(lèi)型疾病種類(lèi)。

百圖生科科學(xué)顧問(wèn)高欣:自我否定、二次創(chuàng)新,我為納米孔測(cè)序提供了更可靠的AI工具 | 萬(wàn)字長(zhǎng)文

除了這些,疾病嵌入空間還可以重新做之前的基因組關(guān)聯(lián),也就是GWAS,同時(shí)對(duì)人類(lèi)600種疾病進(jìn)行基因關(guān)聯(lián)。

我們?cè)谟?guó)UK Biobank上,通過(guò)疾病嵌入特征空間,跟基因組突變空間進(jìn)行新關(guān)聯(lián),就發(fā)現(xiàn)了116種非常強(qiáng)的關(guān)聯(lián)信號(hào)。

這在之前GWAS研究都沒(méi)有發(fā)現(xiàn)。而這116種強(qiáng)烈關(guān)聯(lián)信號(hào),很有可能作為新疾病藥物靶點(diǎn),同樣的想法還可以應(yīng)用到多模態(tài)同時(shí)嵌入,就是除了嵌入疾病還可以做藥物和疾病關(guān)聯(lián)嵌入。

這樣疾病可以作為正則項(xiàng)來(lái)影響藥物嵌入,反過(guò)來(lái)藥物也可以作為正則項(xiàng)來(lái)影響疾病嵌入,不但可以嵌入疾病和藥物,還可以嵌入他們之間的關(guān)系,更好發(fā)現(xiàn)新靶點(diǎn),以及疾病潛在藥物。

深度解碼:罕見(jiàn)遺傳病的隱性秘密

百圖生科科學(xué)顧問(wèn)高欣:自我否定、二次創(chuàng)新,我為納米孔測(cè)序提供了更可靠的AI工具 | 萬(wàn)字長(zhǎng)文

有了基因組之后,還可以找一些更隱性、更深的致病突變。例如孟德?tīng)柤膊【褪怯赡骋煌蛔兓蚰骋换蛲蛔冊(cè)斐?,這是人類(lèi)了解最多的疾病。

百圖生科科學(xué)顧問(wèn)高欣:自我否定、二次創(chuàng)新,我為納米孔測(cè)序提供了更可靠的AI工具 | 萬(wàn)字長(zhǎng)文

臨床上為這類(lèi)病人 order全外顯子或者全基因組測(cè)序,最后測(cè)序回來(lái)report,最終成功率只有25%~50%以?xún)?nèi)。

對(duì)這么簡(jiǎn)單病因疾病,我們都沒(méi)有辦法進(jìn)行全面診斷,主要原因在于很多突變都非常深層,是隱性突變,并不直接作用于編碼蛋白,或基因組層面,而是轉(zhuǎn)錄組層面。

百圖生科科學(xué)顧問(wèn)高欣:自我否定、二次創(chuàng)新,我為納米孔測(cè)序提供了更可靠的AI工具 | 萬(wàn)字長(zhǎng)文

例如,它可能引發(fā)某些異常轉(zhuǎn)錄本出現(xiàn),或者正常轉(zhuǎn)錄本異常表達(dá)量等情況出現(xiàn),這種信號(hào)往往會(huì)由于人體NMD機(jī)制,變得非常微弱。

因此,如果想從序列測(cè)序數(shù)據(jù)中發(fā)現(xiàn)這種異常轉(zhuǎn)錄本,或者正常轉(zhuǎn)錄本異常表達(dá),就需要敏感度非常高的算法。

我們也研發(fā)了一些基于轉(zhuǎn)錄本的疾病診斷方法,通過(guò)跟沙特臨床醫(yī)生合作,診斷之前懸而未解的罕見(jiàn)遺傳疾病。

百圖生科科學(xué)顧問(wèn)高欣:自我否定、二次創(chuàng)新,我為納米孔測(cè)序提供了更可靠的AI工具 | 萬(wàn)字長(zhǎng)文

例如去年我們第一個(gè)study就診斷了一個(gè)小頭侏儒癥個(gè)體,這個(gè)人有腦白質(zhì)疏松以及智力發(fā)育遲緩,最終發(fā)現(xiàn),他在基因區(qū)間有一個(gè)38bp大小的deletion。

我們第二個(gè)study也研究了4個(gè)不同family,這4個(gè)家族同時(shí)具有發(fā)育遲緩、小頭侏儒癥以及面部畸形,在他們SMG8基因當(dāng)中,發(fā)現(xiàn)一個(gè)非常deep的致病突變。

除此之外,還有另一種解讀基因組方式,通過(guò)理解regulatory code(調(diào)控代碼),由于基因組里有非常多調(diào)控元件,即使在編碼區(qū)域,也有幾種最常見(jiàn)的調(diào)控機(jī)理,從起始出發(fā),由轉(zhuǎn)錄起始位點(diǎn)調(diào)控;從結(jié)尾出發(fā),由多聚腺苷酸加尾,也就是polyA。

如果只盯著最淺顯方式,也許有幾十個(gè)方式,但現(xiàn)在所有方法都沒(méi)有辦法對(duì)任意PolyA位點(diǎn)進(jìn)行同時(shí)建模。

所以,我們從去年提出了DeeReCT工具,它結(jié)合了CNN和RNN的優(yōu)點(diǎn),從而得到自適應(yīng)模型,對(duì)任意PolyA位點(diǎn)進(jìn)行同時(shí)建模,以model這些位點(diǎn)之間競(jìng)爭(zhēng)性。

百圖生科科學(xué)顧問(wèn)高欣:自我否定、二次創(chuàng)新,我為納米孔測(cè)序提供了更可靠的AI工具 | 萬(wàn)字長(zhǎng)文

我們把目光集中在多聚腺苷酸加尾,還研究了轉(zhuǎn)錄起始位點(diǎn)—TSS,研發(fā)了第一個(gè)基于深度學(xué)習(xí)的轉(zhuǎn)錄起始位點(diǎn)預(yù)測(cè)程序—Direct PeomID。

該方法與之前所有轉(zhuǎn)錄起始位點(diǎn)預(yù)測(cè)程序相比,除了采用深度學(xué)習(xí)框架,最大區(qū)別就是在比較平衡的正負(fù)數(shù)據(jù)集上的二分類(lèi)問(wèn)題。

當(dāng)把這些訓(xùn)練好模型應(yīng)用到全基因組掃描時(shí),就會(huì)發(fā)現(xiàn)他們的假陽(yáng)性率非常高,甚至高到無(wú)法實(shí)際使用,而這種循環(huán)迭代負(fù)樣本增強(qiáng)想法,能夠非常有效降低全基因組掃描假陽(yáng)性率。

目前為止,Direct PeomID還是唯一一個(gè)可以在全基因組層面預(yù)測(cè)轉(zhuǎn)錄起始位點(diǎn)的工具。除此之外,我們還做了各種后續(xù)工具,這些都是沿著調(diào)節(jié)代碼方向來(lái)操作。

最后替百圖生科打一個(gè)廣告,百圖生科是在李彥宏和劉維帶領(lǐng)下的干濕技術(shù)結(jié)合的造藥新勢(shì)力,干技術(shù)就是AI;濕技術(shù)就是生物技術(shù)。通過(guò)形成AI賦能的干濕結(jié)合大閉環(huán),希望能夠從全新角度為人類(lèi)藥物設(shè)計(jì)研發(fā),做出一些突破性貢獻(xiàn),我們還希望更多有識(shí)之士能夠加入。

問(wèn)答環(huán)節(jié)

Q1:目前 AI新藥研發(fā)有沒(méi)有已經(jīng)研發(fā)出的藥物以及應(yīng)用的案例?

高欣:這里如果把已經(jīng)研發(fā)出來(lái)定義為獲批上市,據(jù)我所知,目前AI研發(fā)的新藥還沒(méi)有獲批上市的先例。

但已經(jīng)有非常多AI研發(fā)或AI輔助研發(fā)藥物在各期、不同臨床實(shí)驗(yàn)當(dāng)中。

此外,新藥和研發(fā)這兩個(gè)詞,還有著不同的解讀。

第一種解讀,是為已知靶點(diǎn),尋找之前不知道的化合物或藥物分子。

第二種,是為已知藥找新適應(yīng)癥,也就是老藥新用。

第三種,是完全從0開(kāi)始,設(shè)計(jì)之前沒(méi)有的小分子或大分子藥物。

事實(shí)上,各種不同解讀情況當(dāng)中,AI已經(jīng)做出非常喜人的成果和進(jìn)展。

例如從零開(kāi)始藥物設(shè)計(jì)上,就有非常出名的案例,MIT的James Collins lab就研發(fā)了一種從0開(kāi)始的抗生素藥物設(shè)計(jì)。

這種抗生素,在試驗(yàn)中已經(jīng)展現(xiàn)出非常好的抗細(xì)菌效果,能夠殺死一些已知抗生素沒(méi)有辦法清除的細(xì)菌。

此外,其它藥物也有各種各樣例子,國(guó)外制藥企業(yè)和國(guó)內(nèi)AI藥物研發(fā)企業(yè)都有藥物在臨床實(shí)驗(yàn)當(dāng)中。

Q2:AI藥物研發(fā)的原始數(shù)據(jù)獲取來(lái)源都有哪些?

高欣:這要回歸到 AI藥物研發(fā)根本,這是一個(gè)系統(tǒng)性學(xué)科,需要涉及到生物醫(yī)療的方方面面。

如果大家想從整體、完整角度去做AI藥物研發(fā),就需要獲取方方面面所有原始數(shù)據(jù)來(lái)源。例如序列、組學(xué)、影像學(xué)、臨床數(shù)據(jù)、生物技術(shù)數(shù)據(jù)、文本數(shù)據(jù)、三維結(jié)構(gòu)數(shù)據(jù)等等,所有數(shù)據(jù)都會(huì)對(duì)最后平臺(tái)成功性做出一定貢獻(xiàn)。

Q3:NLP(自然語(yǔ)言處理)對(duì)于AI藥物研發(fā)的用處有哪些?

高欣:NLP是深度學(xué)習(xí)最成功應(yīng)用的兩大領(lǐng)域之一。所謂AI藥物研發(fā),很大程度是指深度學(xué)習(xí)賦能藥物研發(fā)。也就是NLP在AI藥物研發(fā)過(guò)程當(dāng)中占到至關(guān)重要的作用。

這里給大家列舉兩個(gè)經(jīng)典案例:

第一, NLP被大量地用于知識(shí)圖譜研發(fā)。

第二, NLP被大量用于各種各樣蛋白質(zhì)分子或DNA分子模型預(yù)訓(xùn)練,這些預(yù)訓(xùn)練模型被證明能夠非常有效提取生物分子特征,并且服務(wù)各種下游。

例如AlphaFold2,應(yīng)該就是基于某種蛋白質(zhì)預(yù)訓(xùn)練模型,或protein的transformers,所以NLP技術(shù)在AI藥物研發(fā)用處非常大。

Q4:百圖生科的研發(fā)中是否用到藥物研發(fā)知識(shí)圖譜,規(guī)模有多大,數(shù)據(jù)源哪些,質(zhì)量如何保證及評(píng)估。

高欣:這是非常好的問(wèn)題。藥物研發(fā)知識(shí)圖譜取決于靶向疾病、靶向靶點(diǎn),或者藥物搜索空間到底有多大,它會(huì)有相應(yīng)規(guī)模,這種知識(shí)圖譜質(zhì)量應(yīng)該如何評(píng)估?

首先盡量確保數(shù)據(jù)和信息準(zhǔn)確,一個(gè)是數(shù)據(jù)源是否可靠,再就是數(shù)據(jù)源手工校準(zhǔn),或者各種各樣清洗、預(yù)處理是否合理,最后,還要看下游預(yù)測(cè)結(jié)果是否和先驗(yàn)知識(shí)吻合。

Q5:藥物研發(fā)過(guò)程中,除了發(fā)現(xiàn)新的適應(yīng)癥,如何進(jìn)行臨床療效評(píng)價(jià)?

高欣:藥物進(jìn)入臨床療效評(píng)價(jià)已經(jīng)是非常后期的任務(wù)。

如果這個(gè)時(shí)候藥物被證明副作用較大,或者體內(nèi)不起效,損失的時(shí)間以及代價(jià)就非常大,所以在臨床療效評(píng)價(jià)之前,應(yīng)該盡量確保藥物被很好測(cè)試。

這些測(cè)試有各種各樣方法,有統(tǒng)計(jì)學(xué)相關(guān)、文本挖掘、先驗(yàn)知識(shí)印證相關(guān)。

最后就是臨床前實(shí)驗(yàn),例如在濕實(shí)驗(yàn)室進(jìn)行實(shí)驗(yàn),或者在IPS細(xì)胞當(dāng)中進(jìn)行實(shí)驗(yàn),或者類(lèi)器官當(dāng)中進(jìn)行實(shí)驗(yàn),或者是動(dòng)物實(shí)驗(yàn)。

無(wú)論如何,大家都希望在代價(jià)不可挽回的時(shí)間點(diǎn)前,將這些藥物的問(wèn)題盡早發(fā)現(xiàn)出來(lái)并盡早進(jìn)行挽救。

Q6:AI發(fā)現(xiàn)新適應(yīng)癥有幾種方法?各自的優(yōu)缺點(diǎn)是什么?

高欣:這是一種非常泛的問(wèn)題,AI發(fā)現(xiàn)新適應(yīng)癥,就是一個(gè)非常大的問(wèn)題,基本能想到的所有方法都可以被應(yīng)用這個(gè)領(lǐng)域。

例如基于知識(shí)圖譜方法、基于三維結(jié)構(gòu)方法,基于多組學(xué)分析的方法,基于分子動(dòng)力學(xué)模擬的方法,很難準(zhǔn)確界定AI發(fā)現(xiàn)新適應(yīng)癥有幾種方法。

Q7:在算法設(shè)計(jì)過(guò)程中,應(yīng)如何與藥學(xué)家進(jìn)行合作,用先驗(yàn)知識(shí)指導(dǎo)算法設(shè)計(jì),從而使算法效率更高、結(jié)果更加安全科學(xué)?

高欣:這是一個(gè)非常好的問(wèn)題,涉及所有交叉領(lǐng)域。不光是與藥學(xué)家合作,與地質(zhì)學(xué)家合作、生物學(xué)家合作、植物學(xué)家合作、海洋學(xué)家合作、化學(xué)家合作等等都將面臨這個(gè)問(wèn)題。

這個(gè)問(wèn)題最好要找到互相之間的共同語(yǔ)言、尊重對(duì)方專(zhuān)業(yè)、認(rèn)可對(duì)方專(zhuān)業(yè)、對(duì)自己專(zhuān)業(yè)重要程度有良好認(rèn)識(shí)合作者,然后與這些合作者進(jìn)行密切的、閉環(huán)式交流與合作,有反饋合作才是成功代表。

如果只是單純輸出給另一方,沒(méi)有反饋,那么這種合作注定不會(huì)成功,也不會(huì)安全。

在AI制藥中就是指藥學(xué)家的先驗(yàn)知識(shí)到底是什么,并且把他的先驗(yàn)知識(shí)給進(jìn)行結(jié)構(gòu)化,進(jìn)行政策化。

把他的先驗(yàn)知識(shí)很好融合到數(shù)學(xué)模型和AI模型當(dāng)中,然后再用預(yù)測(cè)結(jié)果去提供給藥學(xué)家,讓它進(jìn)行甄別,讓他給更下一步反饋意見(jiàn),進(jìn)行所謂的強(qiáng)化學(xué)習(xí),

往返的閉環(huán),才能使算法效率更高,結(jié)果更加安全和科學(xué)。

Q8:AI藥物研發(fā)所用到的外部計(jì)算軟件哪些是主流?還是自己開(kāi)發(fā)計(jì)算軟件?

高欣:這同樣是個(gè)好問(wèn)題,涉及到很多做生物信息或者計(jì)算生物學(xué)的人。

大家知道計(jì)算生物學(xué)和生物信息的科學(xué)家們,本身并不開(kāi)發(fā)新計(jì)算軟件,但他們熟知現(xiàn)有所有軟件、包、庫(kù)。

如果他們拿到新數(shù)據(jù)和新問(wèn)題,可以非常熟練把現(xiàn)有方法應(yīng)用到問(wèn)題上,然后選擇表現(xiàn)性能最好方法。

此外,還有另一類(lèi)生物信息學(xué)家,他們并不滿足于這種現(xiàn)有方法,而是希望測(cè)試所有現(xiàn)有方法,當(dāng)現(xiàn)有方法能夠很好解決這些問(wèn)題的時(shí)候,他們才不再研發(fā)新方法。

否則他們會(huì)總結(jié)現(xiàn)有方法的優(yōu)缺點(diǎn),然后有的放矢地設(shè)計(jì)和開(kāi)發(fā)自己的計(jì)算軟件,針對(duì)性地解決問(wèn)題,而且能夠overcome這些現(xiàn)有外部計(jì)算方法共同約束和限制。

目前,兩種不同類(lèi)型的研發(fā)和科研理念,都有非常成功的例子,沒(méi)有一概而論的答案。

Q9:AI開(kāi)發(fā)的候選藥,比傳統(tǒng)方法開(kāi)發(fā)臨床實(shí)驗(yàn)成功率會(huì)有多大提升?

高欣:具體有多大提升,取決于具體例子,也是一個(gè)case-by-case的答案。

傳統(tǒng)方法的改進(jìn)空間實(shí)在太大,傳統(tǒng)意義上,藥廠開(kāi)發(fā)新藥需要15~20年時(shí)間,超過(guò)20億美元代價(jià),而失敗率超過(guò)95%,成功率還在逐年下跌,所以即使把5%成功率提高到10%,也是巨大的進(jìn)步和飛躍。

對(duì)于某些疾病、某些靶點(diǎn),可能把5%提高到30%,有些則可以把5%提高到10%。無(wú)論如何都是一個(gè)非常好的進(jìn)展。

大家隨便上網(wǎng)就會(huì)發(fā)現(xiàn),國(guó)內(nèi)AI藥企,已經(jīng)可以把新藥研發(fā)周期縮短到12~18個(gè)月,開(kāi)發(fā)費(fèi)用縮小到百萬(wàn)美元量級(jí),這已經(jīng)是飛躍式的進(jìn)展。如果最后臨床實(shí)驗(yàn)證明安全有效,這些藥物可以獲批上市將是一個(gè)非常好的應(yīng)用案例。

Q10:目前AI藥物研發(fā)是否主要基于分子結(jié)構(gòu)?基于基因組數(shù)據(jù)的Ai藥物研發(fā),當(dāng)前研究進(jìn)展和未來(lái)發(fā)展如何?

高欣:首先,基于分子結(jié)構(gòu),只是非常多元信息當(dāng)中的一員而已。那么主要基于分子結(jié)構(gòu)的這種藥物研發(fā),例如薛定諤,他們可能是主要基于分子結(jié)構(gòu)來(lái)進(jìn)行AI藥物研發(fā)。

但很多其他公司,完全是基于基因組數(shù)據(jù),或者主要基于基因組數(shù)據(jù)來(lái)進(jìn)行藥物研發(fā),例如加拿大DeepGenomics,他們都是基于大規(guī)模組學(xué)數(shù)據(jù),影像數(shù)據(jù)進(jìn)行AI藥物研發(fā)。

Q11:AI藥物研發(fā)的后續(xù)開(kāi)發(fā)路徑,后續(xù)可能形成的商業(yè)化的形式是什么?與big pharma 合作更多的在藥物方面深入,還是受到藥企的委托去做外包服務(wù)的方式? 感覺(jué)會(huì)往either 是一個(gè)藥企 or 一個(gè)CRO公司方向發(fā)展?

高欣:這是和商業(yè)計(jì)劃有關(guān)問(wèn)題,對(duì)于集中在某一個(gè)局部痛點(diǎn)的AI藥物研發(fā)公司來(lái)說(shuō),它們主要商業(yè)模式可能是與藥企進(jìn)行密切合作,為藥企某一步或整個(gè)平臺(tái)進(jìn)行賦能。

而百圖生科希望的就是和這些AI藥物研發(fā)公司形成互補(bǔ),一同做風(fēng)險(xiǎn)更高、未來(lái)期待收益更高大規(guī)模端到端內(nèi)部閉環(huán)藥物開(kāi)發(fā)模式。

這不光是某些AI算法調(diào)參或局部?jī)?yōu)化,更希望有一個(gè)端到端的AI工程化和AI智能化研發(fā),同時(shí)賦予in house生物技術(shù)以及高通量生物數(shù)據(jù),形成內(nèi)部資產(chǎn)閉環(huán)。

最后感謝大家提出這些非常有建設(shè)性的問(wèn)題,希望下次還有機(jī)會(huì)交流。雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

分享:
相關(guān)文章

編輯

專(zhuān)注AI醫(yī)療的新勢(shì)力和投融資丨微信ID:Daniel-six
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄