GAIR Live｜AI藥物發(fā)現(xiàn)平臺(tái)，如何與傳統(tǒng)醫(yī)藥企業(yè)打出「組合拳」？（下）

本文作者：喬燕薇

2023-06-21 15:30

導(dǎo)語：AI制藥平臺(tái)化勢必成為醫(yī)藥行業(yè)的一股革命性力量。

作為藥物發(fā)現(xiàn)階段的研究核心，先導(dǎo)結(jié)構(gòu)的發(fā)現(xiàn)和優(yōu)化往往需要花費(fèi)數(shù)年時(shí)間，投入數(shù)億美元，長期被視為藥物研發(fā)的關(guān)鍵技術(shù)瓶頸。

從20世紀(jì)70年代以來，計(jì)算機(jī)輔助藥物設(shè)計(jì)（CADD）作為一個(gè)日趨完善的藥物發(fā)現(xiàn)手段，主要包括虛擬篩選和藥物從頭設(shè)計(jì)兩種策略，曾極大提升新藥設(shè)計(jì)和開發(fā)的效率。

“我們即將迎來生物醫(yī)學(xué)大爆發(fā)的時(shí)刻，但這一成果的取得，不僅取決于生物學(xué)家與醫(yī)學(xué)家的努力，甚至更大程度上取決于數(shù)學(xué)、物理學(xué)、化學(xué)、計(jì)算機(jī)技術(shù)等的發(fā)展以及與生物醫(yī)學(xué)的結(jié)合?！?/p>

“隨著AI技術(shù)的成熟，蛋白質(zhì)、基因組學(xué)數(shù)據(jù)的積累，AI制藥平臺(tái)化勢必成為醫(yī)藥行業(yè)的一股革命性力量，從根本上改變傳統(tǒng)藥物設(shè)計(jì)試錯(cuò)流程，未來AI大模型技術(shù)又將引發(fā)新的期待?！?/p>

近日，由雷峰網(wǎng)GAIR Live&《醫(yī)健AI掘金志》舉辦的《「人機(jī)協(xié)同」模式下的新藥研發(fā)》線上圓桌論壇落幕，五位具有投資、企業(yè)、藥物實(shí)驗(yàn)、AI制藥背景的專家表達(dá)出這樣的愿景。

本次論壇，由浙江大學(xué)藥學(xué)院教授謝昌諭主持，北京大學(xué)藥學(xué)院研究員劉振明、騰訊醫(yī)療健康A(chǔ)IDD技術(shù)負(fù)責(zé)人劉偉、浙江工業(yè)大學(xué)智能制藥研究院院長段宏亮、清華大學(xué)智能產(chǎn)業(yè)研究院戰(zhàn)略發(fā)展與合作部主任張煜參與討論。

在上篇中，他們共同辨析了人機(jī)協(xié)同模式下的藥物研發(fā)歷程、近幾年AI制藥領(lǐng)域的算法和模型突破、以及與傳統(tǒng)藥物研發(fā)手段相比AIDD的優(yōu)劣性。

在下篇中，則探討了我國創(chuàng)新藥研發(fā)的痛點(diǎn)、AI制藥的數(shù)據(jù)之困，以及新一輪AI浪潮下藥物研發(fā)的可能性。近期AI大模型爆火，歡迎添加作者微信（微信號(hào)：qiaoyw186），互通有無。

GAIR Live｜AI藥物發(fā)現(xiàn)平臺(tái)，如何與傳統(tǒng)醫(yī)藥企業(yè)打出「組合拳」？（下）

“全球人工智能與機(jī)器人大會(huì)”（GAIR）始于2016年雷峰網(wǎng)與中國計(jì)算機(jī)學(xué)會(huì)（CCF）合作創(chuàng)立的CCF-GAIR大會(huì)，旨在打造人工智能浪潮下，連接學(xué)術(shù)界、產(chǎn)業(yè)界、投資界的新平臺(tái)，而雷峰網(wǎng)“連接三界”的全新定位也在此大會(huì)上得以確立。

經(jīng)過幾年發(fā)展，GAIR大會(huì)已成為行業(yè)標(biāo)桿，是目前為止粵港澳大灣區(qū)人工智能領(lǐng)域規(guī)模最大、規(guī)格最高、跨界最廣的學(xué)術(shù)、工業(yè)和投資領(lǐng)域盛會(huì)。

GAIR Live作為雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))旗下視頻直播品牌，旨在輸出新鮮、深度、原創(chuàng)的大咖訪談與對話內(nèi)容，打造輻射產(chǎn)、學(xué)、研、投的特色線上平臺(tái)。

以下是主題論壇的現(xiàn)場內(nèi)容，雷峰網(wǎng)《醫(yī)健AI掘金志》做了不改變原意的編輯和整理。

中國的新藥研發(fā)存在哪些痛點(diǎn)？

國內(nèi)外AI制藥技術(shù)是否存在代際差異？

張煜：從歷史來看，我們國家的西藥研發(fā)確實(shí)跟隨著歐美的步伐在前進(jìn)，歐美國家很早就有了相關(guān)的行業(yè)標(biāo)準(zhǔn)和規(guī)定，使新藥研發(fā)有規(guī)律可循，并且在發(fā)展的過程中培養(yǎng)了大量的行業(yè)人才。在行業(yè)標(biāo)準(zhǔn)性、規(guī)范性以及人才培養(yǎng)上，我們都還有很長的路要走。

過去那套新藥研發(fā)的機(jī)制，包括前期的研發(fā)、IND（Investigational New Drug，新藥臨床研究審批）、臨床實(shí)驗(yàn)等環(huán)節(jié)在內(nèi)，都需要很長的時(shí)間和資金的積累。在國外，已經(jīng)有了很成熟的新藥研發(fā)體系，不論資本、人才還是機(jī)制都非常成熟。

而國內(nèi)還處于起步階段，雖然國家正在大力推動(dòng)國產(chǎn)藥物創(chuàng)新，但是在新藥研發(fā)機(jī)制上，我們還有很多的課要補(bǔ)。

在技術(shù)積累、人才培養(yǎng)、實(shí)驗(yàn)機(jī)制等方面，我們前段時(shí)間去了幾家國際知名的大藥廠進(jìn)行學(xué)習(xí)，發(fā)現(xiàn)他們的流程化做得非常好，國內(nèi)的企業(yè)目前也在學(xué)習(xí)中，但整體上看還是跟隨著歐美的腳步，其中存在很多痛點(diǎn)。

與國外的AI制藥技術(shù)相比，我國的相關(guān)技術(shù)仍舊存在著代際差異，并且是系統(tǒng)性的差異，而非某一兩個(gè)因素。在追趕的過程中，國家要發(fā)揮更大的作用。

新藥研發(fā)的投入是巨大的，雖然如今行業(yè)內(nèi)已經(jīng)劃分出CDMO（ Contract Development Manufacture Organization，合同研發(fā)生產(chǎn)組織）、CRO(Clinical Research Organization，臨床試驗(yàn)業(yè)務(wù)）等不同的研發(fā)階段，但仍舊是一件費(fèi)時(shí)、費(fèi)力、費(fèi)錢的事情。

對國外已經(jīng)發(fā)展成熟的大藥廠來說，他們有成型的平臺(tái)和多年的資源積累，探索AI輔助新藥研發(fā)的成本會(huì)更低一些，而國內(nèi)目前還處于摸索階段，試錯(cuò)的時(shí)間和金錢成本要更高，標(biāo)準(zhǔn)成本也更高，還需要國家的支持。

AI制藥是否能成為國產(chǎn)藥的創(chuàng)新彎道超車的機(jī)會(huì)，我認(rèn)為這是一定的。新的技術(shù)要素造就新的格局，每一次產(chǎn)業(yè)革命都是由新技術(shù)的變革所帶來的，AI制藥正是我們國家趕超歐美的一個(gè)新機(jī)會(huì)。

幾位老師在前面的討論中也講到，AI制藥不能僅僅停留在計(jì)算的階段，最終還是要落實(shí)到實(shí)際的藥物療效上，所以必須要和干濕實(shí)驗(yàn)結(jié)合起來，從過往的經(jīng)驗(yàn)來看，濕實(shí)驗(yàn)更多的是正向?qū)嶒?yàn)。

如今很多企業(yè)，特別是新的AI制藥企業(yè)都引入了干濕實(shí)驗(yàn)實(shí)驗(yàn)，從正反兩方面進(jìn)行驗(yàn)證，使算法收斂的速度和優(yōu)化的效率都得以大幅提高。

所以，我們的AI制藥技術(shù)和國際上差距在不斷縮短，但是從創(chuàng)新程度上來看，歐美如今還是創(chuàng)新的源頭，我們?nèi)蕴幱诟S和學(xué)習(xí)的階段。

段宏亮：創(chuàng)新藥的研究國內(nèi)起步比較晚，距今還不過十余年時(shí)間，在此之前一直以仿制藥為主。當(dāng)然，這也和我們國家所處的發(fā)展階段相關(guān)，很多研究都要從零開始發(fā)展，創(chuàng)新藥也是如此。

在人才培養(yǎng)、新藥研發(fā)流程方面的欠缺，導(dǎo)致我們和美國、歐洲、日本等國家之間，存在著非常大的差距。

但是從最近十年國內(nèi)從零開始做創(chuàng)新藥開始，能夠看到國內(nèi)以恒瑞、百濟(jì)神州等為代表的公司，已經(jīng)有一些產(chǎn)品在國際上具備了一定的競爭力和影響力，比如百濟(jì)神州開發(fā)的BTK抑制劑，這表明我們國家的藥物行業(yè)有很強(qiáng)的學(xué)習(xí)能力，尤其是在一些相對較新的藥物研發(fā)細(xì)分領(lǐng)域。

比如ADC抗體偶聯(lián)藥物，最近一兩年間，國內(nèi)的制藥公司向國外制藥巨頭轉(zhuǎn)讓了數(shù)個(gè)金額達(dá)幾十億美金的ADC藥物。

在類似的新興細(xì)分領(lǐng)域中，歐美國家也沒有太多的積累。AI制藥也是類似于ADC領(lǐng)域的新興賽道，相比我們國家，歐美國家的技術(shù)積累也不太多。

雖然國內(nèi)的制藥行業(yè)相比國際上還落后一些，但我們的AI技術(shù)在全世界是非常一流的，我們國內(nèi)憑借先進(jìn)的AI技術(shù)水平，和相對落后的創(chuàng)新藥研發(fā)進(jìn)行結(jié)合，形成AI制藥這樣的新行業(yè)形態(tài)雖然只發(fā)展了短短幾年的時(shí)間，但整個(gè)資本市場這個(gè)行業(yè)的反響都非常熱烈，甚至比歐美國家的投入還要大得多。在大量資源的扶持之下，我們或許能在短時(shí)間內(nèi)取得一定的成果。

在新藥研發(fā)領(lǐng)域，我們和歐美依然存在著代際差異，尤其是小分子這一板塊，我們幾乎沒有做First In Class的新藥開發(fā)能力，國內(nèi)的First In Class屈指可數(shù)，更多的是Fast Follow或者M(jìn)e-too、Me-better的項(xiàng)目。

但是在AI 制藥領(lǐng)域差距卻沒有那么大，國外這方面發(fā)展得也并不順利，以薛定諤、Recursion等為代表的各大AI制藥公司，在資本市場的表現(xiàn)并不算好，一些研發(fā)項(xiàng)目進(jìn)展緩慢。

這就為我們贏得了很多時(shí)間和機(jī)會(huì)，如果國內(nèi)能夠繼續(xù)保持研發(fā)的勁頭，在這樣一個(gè)全新的賽道中，完全可以彎道超車。

劉振明：這個(gè)問題很值得討論，在許多公開的報(bào)告、討論中，我曾經(jīng)反復(fù)提過一件事情：中國的創(chuàng)新藥被迫起航。從這句話當(dāng)中，我們可以感受到切膚之痛。

就在去年和前年，國內(nèi)的一家知名藥企裁員一千人，因?yàn)檫@些員工做的是仿制藥業(yè)務(wù)，而非創(chuàng)新藥；另一家藥企自斷臂膀，將自己所謂的創(chuàng)新藥項(xiàng)目砍掉了八十多個(gè)。

這就是他們的切膚之痛，他們做的藥物，放在五年前可能都是寶貝，但是在創(chuàng)新藥時(shí)代就變成了累贅。

為什么會(huì)出現(xiàn)這種局面？我從一個(gè)從事藥學(xué)研究的工作人員的角度來分析，首先，2021年國家藥監(jiān)局藥審中心發(fā)布了第46號(hào)文《以臨床價(jià)值為導(dǎo)向的抗腫瘤藥物臨床研發(fā)指導(dǎo)原則》，做腫瘤藥物的熱潮一下子就熄火了。

標(biāo)準(zhǔn)是人家制定的，要和他們競爭你的能耐在哪里？監(jiān)管部門要考慮這些問題，這些都是長痛，而非短痛。

其次，大家都在講AI，我們在研究中關(guān)注適應(yīng)癥更多一些，比如PD和AD對市場來說是很好的適應(yīng)癥，為什么大家不做？

以往基于Aβ蛋白，基于乙酰膽堿酯酶抑制劑研究積累的數(shù)據(jù)，對我們建模、做PD和AD的藥物研究，究竟是助力還是阻礙？這些問題都需要思考。

2021年，國家正式啟動(dòng)科技創(chuàng)新2030“腦科學(xué)與類腦研究”項(xiàng)目，在目前的研究水平之下，我們對一些腦部疾病的認(rèn)知還太膚淺，甚至于前期研發(fā)的相關(guān)藥物使用的都是“假”數(shù)據(jù)。

雖然現(xiàn)在大模型的概念玩的很嗨，但是到了真正練兵的時(shí)候估計(jì)作用有限。我個(gè)人感受，AI目前炒的太熱了，我們科技組的很多學(xué)生，水平都還未達(dá)到培養(yǎng)要求的標(biāo)準(zhǔn)，就已經(jīng)被企業(yè)爭搶得一塌糊涂，人才更是這個(gè)行業(yè)的痛點(diǎn)。我擔(dān)心繁華過后留下的是一地雞毛。

當(dāng)然，我們希望大模型的發(fā)展不會(huì)像當(dāng)年的互聯(lián)網(wǎng)泡沫破裂一樣經(jīng)歷漫長的寒冬，但前提是從業(yè)者能夠腳踏實(shí)地地為人才儲(chǔ)備做一些扎實(shí)的工作，才能讓這個(gè)行業(yè)經(jīng)歷過現(xiàn)在的短痛以后，不再經(jīng)歷未來的長痛。

關(guān)于國內(nèi)的AI 技術(shù)與國外相比是否存在代際，我的觀點(diǎn)與其他幾位老師相同，是不存在的。但中國目前的創(chuàng)新藥研發(fā)能力和國外存在代際差異。

為什么我們一直在強(qiáng)調(diào)基礎(chǔ)原創(chuàng)研究？很多研究藥學(xué)領(lǐng)域的老師都明確講過，我們的很多藥效模型和國外相差至少二十年，比如幾年前的IDO抑制劑藥物，國外的研究項(xiàng)目下線后，國內(nèi)的相關(guān)項(xiàng)目也全部下馬，因?yàn)楹诵牡脑瓌?chuàng)研究不在我們手里。此外，在藥劑和遞送技術(shù)、藥物研發(fā)環(huán)境等方面，我們和國外都存在代際差距。

至于AI制藥能否成為國產(chǎn)藥創(chuàng)新、彎道超車的機(jī)會(huì)，AI一定能讓創(chuàng)新藥的研發(fā)起步姿態(tài)非常美，但是能不能跑到終點(diǎn)，目前還不知道。彎道超車要有一個(gè)前提條件，它得有道。

我們做藥的人常常講，當(dāng)一款藥物成功以后，我們講出來的故事往往都是完美的。但如果回過頭重新走一遍這條路，也許最終得到的結(jié)果卻很不一樣。

簡而言之，做藥這件事情除了實(shí)力以外，還需要一點(diǎn)點(diǎn)的運(yùn)氣。因此，我只認(rèn)可AI技術(shù)能夠讓藥物研發(fā)的起跑姿態(tài)更美，能否超車仍是未知數(shù)。

謝昌諭：整體而言，這一階段新藥研發(fā)存在的痛點(diǎn)比較多，不論是整體的大生態(tài)還是人才、數(shù)據(jù)或其他方面，各位老師剛剛已經(jīng)講過很多，我就不再重復(fù)了。但如果就聚焦在AI制藥的領(lǐng)域，尤其是聚焦在算法模型的層面，我認(rèn)為不存在代際差異。

當(dāng)前的AI技術(shù)以及整個(gè)社區(qū)，相對來說比較開源、透明，世界各國的研究者們不入歐有新的研究成果或進(jìn)展，大家都可以快速地通過發(fā)表的論文，開源的代碼以及各種線上講座等方式來相互了解和學(xué)習(xí)。

但由于基礎(chǔ)設(shè)施的差距，在新藥研發(fā)過程中藥企之間反而很難像AI技術(shù)一樣迅速實(shí)現(xiàn)技術(shù)的學(xué)習(xí)和共享。彎道超車少不了AI技術(shù)的支持，但僅僅依靠AI技術(shù)可能還是無法實(shí)現(xiàn)。

AI大模型RLHF等技術(shù)紅利如何影響AI制藥？

能否一定程度上降低對龐大數(shù)據(jù)量的依賴？

謝昌諭：ChatGPT做的RLHF依賴專家標(biāo)注的數(shù)據(jù)量還是比較大的。RLHF應(yīng)用在藥學(xué)領(lǐng)域的挑戰(zhàn)在于，人類專家很多時(shí)候沒法“一拍腦袋”就輕易地對大模型輸出的不同答案進(jìn)行評價(jià)和排序，判斷好壞。

在藥學(xué)領(lǐng)域，研究者還要對大模型輸出的結(jié)果進(jìn)行更多的計(jì)算或?qū)嶒?yàn)，才能確認(rèn)哪個(gè)選擇是更好的。

如果說大模型輸出的結(jié)果非常容易分辨，比如設(shè)計(jì)出的新分子與口袋靶點(diǎn)是否能形成關(guān)鍵的相互作用，或者較為簡單的物理化性質(zhì)的評估等等，專家一看就能分辨，那么這個(gè)大模型學(xué)習(xí)到的相關(guān)知識(shí)可能還還是十分有限。

這也是ChatGPT與新藥研發(fā)在使用上的底層邏輯不同的需求。ChatGPT 更多的時(shí)候只要做到人類專家的水平即可，然而AI制藥往往期望 AI 可以做的比專家和之前的CADD 都更為準(zhǔn)確的判斷。

當(dāng)然，正如剛剛劉偉老師講到的，目前已有不少優(yōu)秀的分子生成模型是通過強(qiáng)化學(xué)習(xí)來進(jìn)行調(diào)試的，所以這項(xiàng)技術(shù)肯定還是有用的。

但是具體在什么樣的場景下才能將這項(xiàng)技術(shù)用得更好，真正在一定程度上可以降低對龐大數(shù)據(jù)量的依賴，還有待我們?nèi)ネ诰颉?/p>

劉振明：我們特別看好大模型未來對AI制藥行業(yè)的賦能。目前，大模型更多的應(yīng)用場景是在社交領(lǐng)域，而在AI制藥領(lǐng)域，大模型的商業(yè)價(jià)值的實(shí)現(xiàn)會(huì)更加緩慢，未來五到十年內(nèi)大模型應(yīng)用場景會(huì)發(fā)生切換，對AI制藥產(chǎn)生一定的影響。

以我們關(guān)注的化學(xué)制藥為例，化學(xué)制藥的合成實(shí)際上就是速控步，需要基于經(jīng)驗(yàn)來完成，否則就要依靠外包。SCIFinder這類知識(shí)庫也許很快就會(huì)被大模型取代。

在未來，即便一個(gè)經(jīng)驗(yàn)怎么不豐富的合成學(xué)家，借助大模型這個(gè)“軍師”也能完成合成工作，只要向大模型提問合成反應(yīng)的結(jié)構(gòu)式、不同反應(yīng)條件的選擇等等，大模型都能夠給出指導(dǎo)。

在優(yōu)化環(huán)節(jié)，使用者哪怕只是給出“這個(gè)結(jié)果不太對”的回應(yīng)，大模型都能夠據(jù)此對結(jié)果進(jìn)行優(yōu)化。

最近幾年，我和國內(nèi)做創(chuàng)新藥的投資人接觸比較多，感覺他們特別不容易，一方面帶著興奮，堅(jiān)信生物醫(yī)藥絕對是一個(gè)創(chuàng)新的朝陽行業(yè)；另一方面帶著迷茫，沒有深厚醫(yī)藥背景的他們很難看懂這個(gè)行業(yè)。

未來大模型的發(fā)展，也許能夠讓這批投資人更好地理解創(chuàng)新藥的研發(fā)，對行業(yè)的影響反而更大。

投資人雖然不做藥，但是他們在大模型的支持下，他們能夠與做創(chuàng)新藥的人更好地對話，省去了進(jìn)行底層教育的時(shí)間。

我遇到的很多投資人都不敢投創(chuàng)新藥行業(yè)，大模型更像一個(gè)軍師，我們也特別希望它未來能成為投資界的一個(gè)強(qiáng)有力的助手，使創(chuàng)新藥的投資門檻更低一些。

劉偉：預(yù)訓(xùn)練AI大模型出來之后，我們這些做AI的人歸納起來，認(rèn)為它帶給了我們兩個(gè)比較震撼的改變過去認(rèn)知的東西，一是改變了AI的范式，二是改變我們對效果的認(rèn)知。

過去我們做AI通常是基于監(jiān)督學(xué)習(xí)，或是規(guī)模不大的預(yù)訓(xùn)練的模型加微調(diào)，比如BERT+finetune?，F(xiàn)在的大模型在應(yīng)用場景中不依賴微調(diào)，只需要用海量的無標(biāo)簽數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，再用提示學(xué)習(xí)等方法小規(guī)模數(shù)據(jù)進(jìn)行優(yōu)化，這跟以前的預(yù)訓(xùn)練的大模型加微調(diào)是非常不一樣的。

這是一種新的范式，反映到AI制藥行業(yè)也是存在的。比如基因，蛋白質(zhì)序列，各種大規(guī)模化合物分子的數(shù)據(jù)庫等等，數(shù)據(jù)量可能達(dá)到幾十億到幾百萬億的量級(jí)，并且其中絕大多數(shù)都沒有標(biāo)簽，這與自然語言的情況是比較類似的。

這種情況下，如果我們能夠?qū)⑦@些數(shù)據(jù)拿過來對模型進(jìn)行訓(xùn)練，這些數(shù)據(jù)庫中所涵蓋專家知識(shí)的量是人類專家很難企及的。這些數(shù)據(jù)全都拿來，并且能夠進(jìn)行有效的表示和學(xué)習(xí)，能夠帶來的想象空間是非常大的。

當(dāng)大模型學(xué)習(xí)了大量的基因數(shù)據(jù)、蛋白質(zhì)數(shù)據(jù)或者分子數(shù)據(jù)后，也許就能夠發(fā)現(xiàn)新的分子生物學(xué)的機(jī)理，甚至是發(fā)現(xiàn)一種新的治療方法，這在不久的將來都是能夠想象得到的。

另一點(diǎn)對效果認(rèn)知的改變也十分顯著，過去我們認(rèn)為多輪對話并且具有一定的邏輯推理能力的AI非常難以實(shí)現(xiàn)，也許需要三五十年才能打造這樣一個(gè)通用的人工智能，當(dāng)下的大模型所展現(xiàn)的智能涌現(xiàn)的現(xiàn)象，是以前從未出現(xiàn)過的。

智能涌現(xiàn)叫做emergence，來源于凝聚態(tài)物理和復(fù)雜系統(tǒng)的研究中，即復(fù)雜系統(tǒng)中的較低層次的子系統(tǒng)通過相互聚集、相互作用構(gòu)筑較高層次的系統(tǒng)，會(huì)在較高層次的系統(tǒng)層面誕生一些子系統(tǒng)所不具備的新屬性或新規(guī)律。

比如凝聚態(tài)物理中的超導(dǎo)、超流等相變現(xiàn)象，就是物理學(xué)中的典型涌現(xiàn)現(xiàn)象。

在以前的AI模型訓(xùn)練中，從未出現(xiàn)過涌現(xiàn)的現(xiàn)象，即模型參數(shù)量以及訓(xùn)練的數(shù)據(jù)量跨過一個(gè)坎后，出現(xiàn)大幅度的性能提升，也就是出現(xiàn)相變。在以往的普遍認(rèn)知中，增加數(shù)據(jù)量后，模型的效果會(huì)出現(xiàn)一定的提升，但只是線性或亞線性的增長，而非涌現(xiàn)的那種突變。

以前的很多研究工作由于性能提升緩慢沒能再繼續(xù)下去，在大模型的背景下，這些工作可能又值得繼續(xù)研究下去。

大模型也為AI制藥的研究提供了源頭活水，如果我們有一個(gè)以分子化合物為基座的大模型，利用數(shù)十億量級(jí)的數(shù)據(jù)庫對大模型進(jìn)行預(yù)訓(xùn)練，其中少量帶有標(biāo)簽的數(shù)據(jù)可以來自濕實(shí)驗(yàn)，或是來自專業(yè)領(lǐng)域的知識(shí)、人類專家的反饋，然后對基座的大模型進(jìn)行微調(diào)與強(qiáng)化。

行業(yè)內(nèi)已經(jīng)有很多公司在進(jìn)行相關(guān)的研究工作，訓(xùn)練蛋白質(zhì)、基因或分子的大模型，將這套范式搬到藥物AI的場景下，這是一個(gè)非常值得投入的研發(fā)方向。

至于大模型在藥物AI領(lǐng)域能否像自然語言處理領(lǐng)域一樣，出現(xiàn)智能涌現(xiàn)的現(xiàn)象，達(dá)到一定的訓(xùn)練量和參數(shù)量后，效果實(shí)現(xiàn)顯著提升，目前還是一個(gè)開放性的問題，有待我們進(jìn)行進(jìn)一步的研究。

段宏亮：專業(yè)領(lǐng)域的大模型與ChatGPT等常識(shí)性大模型相比不同的地方在于，對于ChatGPT來說，來自全球的幾十億人都可以作為數(shù)據(jù)的生成人員與ChatGPT進(jìn)行人機(jī)互動(dòng)，但如果我們研發(fā)一個(gè)藥學(xué)大模型，能夠生成數(shù)據(jù)的人相對而言比較有限，可能只有幾十萬或是幾百萬的量級(jí)。

從大模型要處理的工作來看，藥物研發(fā)的難度比ChatGPT中自然語言處理的問題難得多，所以，藥學(xué)的大模型的研發(fā)和訓(xùn)練顯得更加困難。

藥學(xué)領(lǐng)域的很多數(shù)據(jù)都依賴于實(shí)驗(yàn)，或許幾周、幾個(gè)月的時(shí)間才能產(chǎn)生幾個(gè)數(shù)據(jù)反饋給計(jì)算機(jī)模型，無法像ChatGPT一樣從互動(dòng)聊天中即時(shí)獲得大量的信息，迅速迭代。

當(dāng)數(shù)據(jù)量或是產(chǎn)生數(shù)據(jù)的人較少時(shí)，藥學(xué)大模型是否還能像ChatGPT一樣，迅速地根據(jù)人類反饋優(yōu)化，使模型的智商在訓(xùn)練中增長，還是一個(gè)未知數(shù)。

但是從數(shù)據(jù)的角度來說，藥學(xué)大模型，或許可以成為收集藥學(xué)數(shù)據(jù)的方式。正如劉老師剛才所講，用聯(lián)邦學(xué)習(xí)平臺(tái)收集數(shù)據(jù)是不可行的，藥企的戒備心很重，無法放心地將數(shù)據(jù)放到聯(lián)邦學(xué)習(xí)平臺(tái)之中，擔(dān)心數(shù)據(jù)會(huì)泄露。

但藥物研發(fā)人員在與大模型的交流互動(dòng)過程中，會(huì)以一種隱蔽的方式將數(shù)據(jù)傳輸給大模型。大模型可以將這些零散的數(shù)據(jù)收集起來，將時(shí)間線拉長，在幾年、幾十年后，數(shù)據(jù)積累到一定程度，也許某一天藥學(xué)大模型就會(huì)豁然開朗。

AI制藥下一輪技術(shù)應(yīng)用爆發(fā)的突破口是什么？

張煜：蛋白質(zhì)結(jié)構(gòu)預(yù)測技術(shù)的突破，讓大家看到了更多的可能性，也讓人們開始暢想這個(gè)行業(yè)未來的模樣。

不僅僅是AI制藥領(lǐng)域，整個(gè)社會(huì)，包括專業(yè)的學(xué)術(shù)領(lǐng)域、技術(shù)領(lǐng)域、企業(yè)界和資本界，都對制藥產(chǎn)生了更多的關(guān)注和期望，所以即使沒有技術(shù)的突破，相關(guān)應(yīng)用的發(fā)展也會(huì)進(jìn)入快車道。

至于相關(guān)應(yīng)用突破和爆發(fā)的可能性，從技術(shù)角度來看可能的發(fā)展方向有以下幾個(gè)。

首先是藥物設(shè)計(jì)，肯定會(huì)更快、更精準(zhǔn)、成本更低，這本來也是AIDD要實(shí)現(xiàn)的目標(biāo)，在技術(shù)驅(qū)動(dòng)下會(huì)向著這樣的方向發(fā)展。

在具體應(yīng)用的層面，病癥的治療會(huì)更加個(gè)性化和精準(zhǔn)化。過去在治療普通病癥時(shí)，需要服用的藥物劑量都是一片、兩片，兒童減半，但治療一些特殊病癥時(shí)藥物的劑量需要非常精準(zhǔn)，沒辦法用傳統(tǒng)的方法來定量，但AI可以解決這一問題，通過計(jì)算給出精準(zhǔn)的藥物配比和劑量。

其次是在一些特殊方向上的應(yīng)用，比如抗衰老藥物的研發(fā)。干細(xì)胞的研究與個(gè)體相關(guān)，要進(jìn)行很多的實(shí)驗(yàn)，成本非常高，如果用AI技術(shù)來輔助進(jìn)行研究，或許能夠大幅降低成本。

罕見病的相關(guān)研究。藥物研發(fā)以數(shù)據(jù)為基礎(chǔ)，通常需要大量數(shù)據(jù)。但罕見病的稀有性則注定無法取得大規(guī)模的病例數(shù)據(jù)。如果使用AI技術(shù)，或許能夠使這些小樣本或小數(shù)據(jù)量的藥物設(shè)計(jì)成為可能，這也是未來可能的突破方向。

迅速反應(yīng)和預(yù)測。當(dāng)年SARS病毒出現(xiàn)時(shí)，研究機(jī)構(gòu)花了很長時(shí)間才確認(rèn)毒株，而四年前的新型冠狀病毒出現(xiàn)后，僅僅花了一周時(shí)間就確認(rèn)了毒株的整體結(jié)構(gòu)，從而快速找到應(yīng)對措施。在AI的輔助下，我們對大規(guī)模傳染性疾病的防治或許會(huì)取得更好的效果，甚至在AI的支持下，可以預(yù)測病毒的變異和進(jìn)化，從而提前研發(fā)面向未來的疫苗和抗體。不借助AI手段這些是無法實(shí)現(xiàn)的。

復(fù)合療法。目前的單抗、雙抗或是其他療法，通常相關(guān)性很強(qiáng)。在未來，某些疾病可能需要相關(guān)性不太強(qiáng)的療法，比數(shù)字療法加藥物療法，或是其他不同的療法綜合進(jìn)行疾病治療，其理論基礎(chǔ)和實(shí)驗(yàn)都非常難，以我們目前的手段幾乎無法實(shí)現(xiàn)，AI技術(shù)或許能夠使綜合性的療法成為可能。

藥物遞送。藥物遞送與藥物設(shè)計(jì)、靶點(diǎn)發(fā)現(xiàn)同為藥物研發(fā)中的三大難題，就目前的技術(shù)手段來看，藥物遞送還存在很多問題，也許只有AI技術(shù)能夠解決。

中藥。中藥研發(fā)過程中涉及到的機(jī)理和各種要素比較復(fù)雜，規(guī)律性比較差，用傳統(tǒng)的研究方法很難實(shí)現(xiàn)，用AI技術(shù)進(jìn)行研究或許能取得比較好的效果。

段宏亮：隨著蛋白質(zhì)結(jié)構(gòu)預(yù)測技術(shù)和大模型這兩個(gè)跨時(shí)代的新技術(shù)的應(yīng)用，對新藥研發(fā)工作的改變會(huì)非常大。

在小分子藥物的研發(fā)上，如果要做小分子藥物和蛋白藥物的相互作用，本身就需要蛋白質(zhì)結(jié)構(gòu)，蛋白質(zhì)結(jié)構(gòu)預(yù)測技術(shù)剛好可以解決這個(gè)問題，

當(dāng)然，更大的影響或許在蛋白藥物的開發(fā)以及多肽藥物的開發(fā)這些領(lǐng)域。

AlphaFold2做的主要是單體的蛋白結(jié)構(gòu)預(yù)測，而蛋白質(zhì)復(fù)合物、以及蛋白和多肽復(fù)合物的預(yù)測，和蛋白質(zhì)藥物、多肽藥物等的研發(fā)相關(guān)性會(huì)更高，DeepMind后來開發(fā)的AlphaFold Multimer就做了很多這方面的工作，本質(zhì)上與AlphaFold2一樣，都是氨基酸的相互作用。

如果能夠沿著這條路走下去，在蛋白質(zhì)復(fù)合物的研究上投入更多精力，把精度做得更加準(zhǔn)確，那么在抗體藥物、蛋白質(zhì)藥物、合成生物學(xué)等方向，或許會(huì)出現(xiàn)一些顛覆性的應(yīng)用，這會(huì)是未來幾年中我們可能看到的重大突破。

劉偉：從AlphaFold2出現(xiàn)以后，蛋白質(zhì)結(jié)構(gòu)預(yù)測做得越來越多了，但是目前仍然沒有將這項(xiàng)技術(shù)非常好地應(yīng)用落地在藥物臨床前的各個(gè)研究階段，并且取得比較大的提升，我覺得這一塊在未來是一個(gè)很重要的突破口。

剛才段老師提到，可以用蛋白質(zhì)結(jié)構(gòu)預(yù)測用在抗體的研究上，可以實(shí)現(xiàn)很多以前沒有做過的工作。

我們曾參加過CASP14競賽，自研了tFold，近年也在tFold的基礎(chǔ)之上擴(kuò)展出tFold-Ab，用于抗體結(jié)構(gòu)的研究，同時(shí)我們也測試了蛋白質(zhì)結(jié)構(gòu)預(yù)測在不同場景下的性能表現(xiàn)，比如單體、二聚體、三聚體、抗體抗原等體系下的性能，在有些情況下還存在比較大的誤差。

業(yè)界也有不少論文中提到了類似的測試結(jié)果，因此有人質(zhì)疑AlphaFold2是否真的能夠應(yīng)用于實(shí)際的藥物研發(fā)。

針對這一情況，我們團(tuán)隊(duì)專注于tFold在抗體抗原體系中的研究，在tFold模型的基礎(chǔ)上，設(shè)計(jì)了基于大規(guī)模預(yù)訓(xùn)練的單序列結(jié)構(gòu)預(yù)測方法，能夠快速預(yù)測出抗體重輕鏈復(fù)合體的三維結(jié)構(gòu)，這項(xiàng)研究成果已經(jīng)發(fā)表在 NeurIPS2022的機(jī)器學(xué)習(xí)與結(jié)構(gòu)生物學(xué)研討會(huì)（《Fast and Accurate Antibody Structure Prediction without Sequence Homologs》），目前該成果也已經(jīng)和多家藥企進(jìn)行了相關(guān)合作。

劉振明：AlphaFold2在生物醫(yī)藥領(lǐng)域中的應(yīng)用會(huì)帶來很多影響，解決了靶標(biāo)的問題，激活了以抗體設(shè)計(jì)為代表的大分子藥物設(shè)計(jì)領(lǐng)域。

有很多投資人問過我們?yōu)槭裁床蛔龃蠓肿樱蛔鲂》肿?。他們認(rèn)為大分子更復(fù)雜，但實(shí)際上抗體抗原設(shè)計(jì)中80%以上的東西是一致的，而小分子相對來說要復(fù)雜得多。

AlphaFold2的應(yīng)用也不會(huì)讓結(jié)構(gòu)生物學(xué)家們失業(yè)，我有一個(gè)學(xué)生在做鹵化酶的研究，他明確地講過AlphaFold2對他所研究的鹵化酶的預(yù)測是錯(cuò)的。鹵化酶并不是很復(fù)雜的一類蛋白，但AlphaFold2預(yù)測出的結(jié)果與實(shí)際情況的確存在出入。

這意味著AlphaFold2或許在統(tǒng)計(jì)學(xué)上做得很好，整體來看在蛋白質(zhì)預(yù)測領(lǐng)域表現(xiàn)很出色，但它并不是萬能的，在某些細(xì)分領(lǐng)域的預(yù)測不一定準(zhǔn)確，依然需要結(jié)合試驗(yàn)結(jié)果，由人類專家?guī)椭鷥?yōu)化。

其次，AlphaFold2用來做訓(xùn)練的數(shù)據(jù)是靜態(tài)數(shù)據(jù)，而蛋白質(zhì)在人體內(nèi)發(fā)揮作用時(shí)是動(dòng)態(tài)的，通過結(jié)構(gòu)的變化來產(chǎn)生功效，這是AlphaFold2目前的數(shù)據(jù)集中所缺少的數(shù)據(jù)，但是在藥物研發(fā)的過程中，必須要考慮這種動(dòng)態(tài)變化。

AlphaFold2走出了一個(gè)很好的開端，但是未來要走的路還有很長。

如果未來的藥物領(lǐng)域出現(xiàn)了AlphaDrug，它要回答的一個(gè)最重要的問題，某個(gè)疾病用什么“新”藥來治療？（不是簡單的用藥推薦）。

只有大數(shù)據(jù)能夠回答這個(gè)問題的時(shí)候，才真正實(shí)現(xiàn)了AlphaDrug。大夫可以和大模型進(jìn)行對話，將疾病的癥狀用定量的方式進(jìn)行描述，然后大模型在無窮大的倉庫中找出疾病的診斷結(jié)果與治療方案。

就像AIDD這個(gè)行業(yè)，不論算得再準(zhǔn)，最終要交付的還是品種。在我前幾天參加的一場答辯中，一位藥物化學(xué)領(lǐng)域的前輩提出，所有能被藥化學(xué)家看出來的東西都不是AIDD。品種交付能力一定是未來技術(shù)突破中要關(guān)注的問題。

我是傳統(tǒng)的藥物化學(xué)家，目前還在負(fù)責(zé)一本歐洲藥物化學(xué)雜志《EJMC》。我們在和主編討論時(shí)，經(jīng)常說起兩靶點(diǎn)、三靶點(diǎn)、四靶點(diǎn)，我們知道每一個(gè)疾病的發(fā)生和治療絕對不是單靶點(diǎn)，這就反向給我們提出了一個(gè)問題：在一個(gè)疾病的治療中，究竟什么樣的靶點(diǎn)群是有效的？

如果未來AI技術(shù)能夠解決這個(gè)問題，AI制藥也將取得很大的突破?，F(xiàn)在最大的問題在于，第一臨床數(shù)據(jù)太少，第二噪音背景太大，或許大模型技術(shù)已經(jīng)出現(xiàn)了很多好的文章，但是距離真正解決問題還需要一定的時(shí)間。

謝昌諭：各位老師剛剛也提到，在如今的AI+Science浪潮之下，很多不同的領(lǐng)域都有可能成為下個(gè)產(chǎn)生重大突破的焦點(diǎn)。

從我個(gè)人感興趣和能夠參與的領(lǐng)域來講，我很期看到AI能夠和基于理論的計(jì)算科學(xué)的傳統(tǒng)算法產(chǎn)生新的融合，從而加速在量子化學(xué)、蛋白質(zhì)結(jié)構(gòu)預(yù)測、分子動(dòng)力學(xué)等等領(lǐng)域內(nèi)的計(jì)算范式的突破。

AI的深遠(yuǎn)影響，甚至超過了制藥的范疇。我們對大語言模型的挖掘也遠(yuǎn)遠(yuǎn)沒有結(jié)束，它在生物醫(yī)藥領(lǐng)域還有其他的可能性。

比如剛剛曾提到過的，在高緯度空間中的數(shù)據(jù)分析，多模態(tài)的多組學(xué)等等，我們?nèi)绾胃玫貜闹辛私鈴?fù)雜的生物網(wǎng)絡(luò)，從而挖掘新靶點(diǎn)的新生物標(biāo)志物，這應(yīng)該是未來幾年中將會(huì)看到越來越多成果的方向。

除ChatGPT以外，目前已經(jīng)有AutoGPT能夠更好地規(guī)劃如何使用各種工具去完成更復(fù)雜的任務(wù)。由AutoGPT主導(dǎo)的干濕實(shí)驗(yàn)結(jié)合，加上可解釋性AI等技術(shù)，能夠?qū)崿F(xiàn)更好的人機(jī)互動(dòng)，使干濕實(shí)驗(yàn)結(jié)合達(dá)到一個(gè)新的高度。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章