0
本文作者: 任平 | 2023-04-20 11:17 |
生命科學(xué)領(lǐng)域迎來(lái)新故事。
最近的一段時(shí)間,很多人都在討論AI,幾乎每一個(gè)前沿科技關(guān)注者脫口而出,“ChatGPT開(kāi)啟微軟谷歌對(duì)決”、“中國(guó)AI大模型之爭(zhēng)”、“英偉達(dá)推出核彈級(jí)顯卡”。
當(dāng)這些話(huà)題湊在一起,AI便沾了一身煙火氣。業(yè)界借用2007年喬布斯發(fā)明iPhone的現(xiàn)象級(jí)事件,盛譽(yù)這是屬于“AI的iPhone時(shí)刻”。
不可否認(rèn),在這波AI浪潮中,百度搶占先機(jī)。
3月16日,百度發(fā)布大語(yǔ)言模型產(chǎn)品“文心一言”,李彥宏站臺(tái),繼ChatGPT后推出全球首個(gè)對(duì)標(biāo)產(chǎn)品。一周后,3月23日,李彥宏所創(chuàng)百圖生科,發(fā)布生命科學(xué)大模型驅(qū)動(dòng)的“AI生成蛋白質(zhì)平臺(tái)(AIGP,AI Generated Protein)”,同時(shí)發(fā)布AIGP生態(tài)合作計(jì)劃,旨在將生命系統(tǒng)與AI計(jì)算結(jié)合,在行業(yè)伙伴的加持下,為科研、環(huán)保、材料、消費(fèi)等領(lǐng)域提供解決方案。
相比較而言,國(guó)外盡管有Meta、IBM Research、Salesforce Research等公司和機(jī)構(gòu)更早推出生命科學(xué)大模型,卻仍處于“論文發(fā)表”階段。而AI技術(shù)本身就要跟場(chǎng)景密切結(jié)合,無(wú)論是百度還是百圖生科,都在技術(shù)落地上更進(jìn)一步。
百圖生科聯(lián)合創(chuàng)始人兼CEO劉維
百圖生科聯(lián)合創(chuàng)始人兼CEO劉維,在發(fā)布會(huì)當(dāng)天對(duì)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))&《醫(yī)健AI掘金志》表示:
“這一模型早在百圖生科兩年前成立時(shí)就有醞釀,在當(dāng)下時(shí)間點(diǎn)推出,既來(lái)自于這波AI大模型浪潮的推動(dòng),同時(shí)也說(shuō)明,百圖生科已經(jīng)積攢了較高的平臺(tái)化能力,諸如世界最大規(guī)模的免疫圖譜、全球最快復(fù)合物結(jié)構(gòu)預(yù)測(cè)模型、全新蛋白質(zhì)藥物ImmuBot等等,到了化零為整的發(fā)展階段。”
何謂“AIGP”?
實(shí)際上,與之相近的一詞,是最近火出圈的“AIGC”(AI Generated Content),即利用人工智能技術(shù)來(lái)生成內(nèi)容。AI繪畫(huà)、AI寫(xiě)作等都屬于AIGC的分支。相應(yīng)地,AIGP,即用AI自動(dòng)生成蛋白質(zhì)。
因此,盡管“AI生成類(lèi)”任務(wù)千差萬(wàn)別,但背后的邏輯別無(wú)二致—— 大力出奇跡,只要投喂足夠的數(shù)據(jù),AI就能夠表征人類(lèi)的知識(shí),從而實(shí)現(xiàn)從“發(fā)現(xiàn)”到“創(chuàng)造”。
因此,盡管過(guò)去十年跨模態(tài)的生物數(shù)據(jù)得到了快速的增長(zhǎng),但是在數(shù)據(jù)的挖掘和應(yīng)用方面仍然存在著許多挑戰(zhàn)和難題。這種速度增長(zhǎng)的數(shù)據(jù)對(duì)傳統(tǒng)的生物學(xué)或者生物信息家來(lái)說(shuō),已經(jīng)難以用小工具去分析。
得益于數(shù)據(jù)、算力、模型本身的充分發(fā)展,如今人工智能落地已經(jīng)進(jìn)入“大模型”時(shí)代。
美國(guó)斯坦福大學(xué)的權(quán)威研究團(tuán)隊(duì),更是將這一類(lèi)大規(guī)模預(yù)訓(xùn)練模型形容為“基礎(chǔ)模型”(Foundation Models),意味著其會(huì)是各種行業(yè)智能應(yīng)用必不可少的大型基礎(chǔ)設(shè)施。
在NLP、CV等多類(lèi)任務(wù)上,大模型已經(jīng)展現(xiàn)出碾壓性?xún)?yōu)勢(shì),發(fā)展生物計(jì)算大模型正當(dāng)時(shí):人體這一多尺度的復(fù)雜網(wǎng)絡(luò),加上多模態(tài)、高噪音的超大規(guī)模生物數(shù)據(jù),非常需要獨(dú)有的超大模型來(lái)提升研發(fā)效果。
因此,百圖生科自2020年成立以來(lái),便開(kāi)發(fā)了具有千億參數(shù)的生命科學(xué)大模型體系“xTrimo”。
據(jù)悉,百圖生科生命科學(xué)大模型“xTrimo”,全稱(chēng) Cross-modal Transformer Representation of Interactome and Multi-Omics,面向最難的生命科學(xué)問(wèn)題,是全球首個(gè)、也是目前最大的生命科學(xué)領(lǐng)域的“超大規(guī)模多模態(tài)模型體系”。
該大模型從跨物種、跨模態(tài)的生命信息中學(xué)習(xí)蛋白質(zhì)如何構(gòu)成和實(shí)現(xiàn)功能、如何相互作用、如何組合和調(diào)控細(xì)胞功能的關(guān)鍵規(guī)律,從而破解生命的自然語(yǔ)言——蛋白質(zhì)。
基于大模型,AI在一系列任務(wù)算法上取得了明顯的進(jìn)展,除了更好地完成結(jié)構(gòu)預(yù)測(cè)等基礎(chǔ)任務(wù)外,也開(kāi)始可以根據(jù)不同的問(wèn)題輸入,以生成的方式,設(shè)計(jì)創(chuàng)新的蛋白質(zhì),來(lái)回答各種生命科學(xué)問(wèn)題。
因此,如果說(shuō)千億級(jí)參數(shù)的ChatGPT掀開(kāi)了語(yǔ)言生成式人工智能的序幕,那么正在從千億參數(shù)邁向萬(wàn)億參數(shù)的“xTrimo”,則是吹響了沖擊諸多生命科學(xué)命題的號(hào)角。
百圖生科CTO宋樂(lè)博士
正如百圖生科CTO、首席AI科學(xué)家宋樂(lè)博士表示,“基于大規(guī)模預(yù)訓(xùn)練模型,正在成為解決問(wèn)題的一種范式。藥物發(fā)現(xiàn)等生命科學(xué)問(wèn)題的社會(huì)價(jià)值和行業(yè)價(jià)值極高,比起其他任務(wù)場(chǎng)景,需要更多企業(yè)投身到這個(gè)趨勢(shì)中,實(shí)現(xiàn)前沿項(xiàng)目的加速研發(fā)。”
能在兩年時(shí)間內(nèi)完成千億參數(shù)AI大模型的全部準(zhǔn)備工作,對(duì)任何公司來(lái)說(shuō)都是一個(gè)不小的難題。
對(duì)比OpenAI來(lái)說(shuō),2015年公司成立,足足等了三年才正式推出GPT-1,直到2019年2月,GPT-2版本開(kāi)啟公測(cè)階段,又隔三年才終于通過(guò)ChatGPT打響AI大模型。
一定程度上,AI研發(fā)需要細(xì)水長(zhǎng)流,即便是集齊Sam Altman(Y Combinator總裁)、Elon Musk(特斯拉CEO)、Peter Thiel(PayPal聯(lián)合創(chuàng)始人)、Reid Hoffman(LinkedIn聯(lián)合創(chuàng)始人)等一眾硅谷科技大亨的OpenAI,七年時(shí)間才讓AI技術(shù)的民主化不再是紙上談兵。
與此同時(shí),OpenAI的爆火再次說(shuō)明,中國(guó)也需要有自主“大模型”,而且在OpenAI等科技巨頭的牽制下,AI大模型已經(jīng)有明確的技術(shù)下限。
宋樂(lè)表示,“這需要在模型搭建之初,就做好頂層設(shè)計(jì)工作。主要分為三大塊:數(shù)據(jù)設(shè)計(jì)、模型設(shè)計(jì)、訓(xùn)練方法設(shè)計(jì)?!?/strong>
一、數(shù)據(jù)設(shè)計(jì)
對(duì)于AI大模型來(lái)說(shuō),生成結(jié)果的質(zhì)量如何,取決于灌輸了何種質(zhì)量的數(shù)據(jù)。因此,AI生成蛋白質(zhì)的本質(zhì)問(wèn)題在于,是否已經(jīng)到了“輸出即用”的程度?
在發(fā)布會(huì)現(xiàn)場(chǎng),劉維也舉例道,我們能要求AI自動(dòng)生成一個(gè)圓形蛋白質(zhì)、胡蘿卜形蛋白質(zhì)、甚至是花形蛋白質(zhì)、但這些蛋白質(zhì)沒(méi)有一點(diǎn)實(shí)用價(jià)值,只是一種技術(shù)模擬。換句話(huà)說(shuō),如果沒(méi)有大量且高質(zhì)量的數(shù)據(jù)做“投喂”,AI生成只是一個(gè)“空殼”。
為此,百圖生科在過(guò)去的兩年中,主要工作放在了建立生命科學(xué)數(shù)據(jù)圖譜之上。
據(jù)悉,目前百圖生科已經(jīng)建立全球規(guī)模最大的免疫圖譜xAtlas,覆蓋66+億蛋白,超過(guò)300億蛋白互作關(guān)系,1億單細(xì)胞,以及6100+萬(wàn)免疫互作關(guān)系,和6000億泛細(xì)胞共現(xiàn)關(guān)系的大規(guī)模圖譜。其中,90%的數(shù)據(jù)來(lái)自于公開(kāi)或半公開(kāi)的非結(jié)構(gòu)化數(shù)據(jù),其余的10%則來(lái)自?xún)?nèi)部實(shí)驗(yàn)室產(chǎn)生的私域數(shù)據(jù)。
宋樂(lè)表示,盡管這些數(shù)據(jù)聽(tīng)起來(lái)很容易找到,但整理起來(lái)難度極大。“因?yàn)檫@些數(shù)據(jù)散落在不同的數(shù)據(jù)集,甚至是非結(jié)構(gòu)化數(shù)據(jù),在各種論文、專(zhuān)利中。因此,如何抽取重要數(shù)據(jù),并且關(guān)聯(lián)數(shù)據(jù),比如對(duì)齊、聚類(lèi)、去重、篩選等,需要大量的專(zhuān)業(yè)人員付出努力。”
具體來(lái)看,百圖生科的生信工程師會(huì)基于自有實(shí)驗(yàn)體系,重新測(cè)量、評(píng)估數(shù)據(jù),以驗(yàn)證公開(kāi)數(shù)據(jù)之間的相關(guān)性或準(zhǔn)確率,測(cè)量結(jié)果將影響模型訓(xùn)練時(shí)對(duì)數(shù)據(jù)的使用權(quán)重;同時(shí),圍繞數(shù)據(jù)對(duì)應(yīng)關(guān)系的建立,百圖生科花費(fèi)了一年的時(shí)間實(shí)現(xiàn)了公開(kāi)數(shù)據(jù)的對(duì)齊,比如,將蛋白質(zhì)與基因配對(duì),將相互作用對(duì)應(yīng)的兩個(gè)基因或蛋白質(zhì)進(jìn)行關(guān)聯(lián)等。
劉維表示,前期百圖生科的生物投資動(dòng)作,也是如今能夠和醫(yī)藥行業(yè)伙伴在數(shù)據(jù)層充分合作的重要原因。目前全球已投資超過(guò)50家早期企業(yè)。
投資生態(tài)版圖
實(shí)際上,僅僅是以上公開(kāi)數(shù)據(jù),就足以煉就生命科學(xué)領(lǐng)域的專(zhuān)有AI大模型,為何還要補(bǔ)充內(nèi)部實(shí)驗(yàn)數(shù)據(jù)?
如果拆解ChatGPT來(lái)看,這一模型之所以強(qiáng)大的原因,在于驗(yàn)證了參數(shù)增長(zhǎng)、訓(xùn)練數(shù)據(jù)量增大,對(duì)AI模型的重要意義;其次,ChatGPT采用“小樣本+人類(lèi)反饋微調(diào)監(jiān)督學(xué)習(xí)”的方法,解決了大模型數(shù)據(jù)標(biāo)注工作量巨大的問(wèn)題,是模型得以迅速迭代的基礎(chǔ),并且顯著提升了真實(shí)性、減少了有害信息的輸出。
同理,在生命科學(xué)領(lǐng)域里面,加標(biāo)簽的成本要高很多,比如,給一個(gè)蛋白質(zhì)的序列加上標(biāo)簽,往往需要大量的實(shí)驗(yàn),包括電鏡的收數(shù)據(jù)、解數(shù)據(jù)。
“因此,通過(guò)高通量實(shí)驗(yàn)等產(chǎn)生的數(shù)據(jù),就可以直接繞過(guò)加標(biāo)簽這一步,可以理解為生命科學(xué)大模型的監(jiān)督信號(hào),讓它能夠合成有功能的蛋白。”
宋樂(lè)進(jìn)一步表示,“這個(gè)就是AI從大規(guī)模預(yù)訓(xùn)練模型走到具體實(shí)用的一種模式?!?/strong>
據(jù)悉,在內(nèi)部數(shù)據(jù)獲取方面,為更好地實(shí)現(xiàn)引擎的干濕閉環(huán),百圖生科構(gòu)建的免疫模擬和擾動(dòng)實(shí)驗(yàn)體系,從臨床出發(fā),開(kāi)展10余個(gè)免疫治療前后的隊(duì)列項(xiàng)目,計(jì)劃采集樣本千余。
以組學(xué)實(shí)驗(yàn)室為例,百圖生科針對(duì)10余種不同來(lái)源的組織進(jìn)行樣本處理,每年可采集1000萬(wàn)個(gè)單細(xì)胞測(cè)序數(shù)據(jù)。而在更后端的早期成藥性篩選環(huán)節(jié),每月可交付2000個(gè)樣品,檢項(xiàng)包括靶點(diǎn)抗原親和力,多聚性,熱穩(wěn)定性,酸堿峰分析,基于質(zhì)譜的完整分子量和糖型分析。
劉維表示,為了加速推進(jìn)幾十、上百個(gè)藥物管線的開(kāi)發(fā),百圖生科在蘇州建立了一套完整的從抗體發(fā)現(xiàn),到蛋白打印,再到抗體工程和優(yōu)化的平臺(tái),能夠高通量地實(shí)現(xiàn)藥物親和力、特異性、表位、功能、可開(kāi)發(fā)性的全方面數(shù)據(jù)采集。
“可以說(shuō),這一套高通量實(shí)驗(yàn)驗(yàn)證體系,就是為了實(shí)現(xiàn)干濕數(shù)據(jù)的端到端閉環(huán),也是近兩年開(kāi)始,我們這一代公司才有這樣強(qiáng)的需求?!?/p>
從蛋白實(shí)體、到蛋白和蛋白相互作用,從單個(gè)細(xì)胞、到多細(xì)胞系統(tǒng),這些在免疫模擬系統(tǒng)內(nèi)產(chǎn)生的高通量私域數(shù)據(jù),加之百圖生科基于公開(kāi)數(shù)據(jù)精細(xì)化加工所得到的多模態(tài)數(shù)據(jù),匯成了AI大模型的“數(shù)據(jù)基石”。
二、模型設(shè)計(jì)
搭建生命科學(xué)領(lǐng)域的AI大模型,同樣是一個(gè)“從無(wú)到有”的創(chuàng)新過(guò)程。正如宋樂(lè)所言,為何模型參數(shù)選定為“千億”,而非“十億”、“百億”,或者“萬(wàn)億”?事實(shí)上,從性能和成本上看,千億參數(shù)是一種平衡。
首先,千億參數(shù)對(duì)于自然語(yǔ)言大模型來(lái)說(shuō)也是非常大的量級(jí)。目前每個(gè)蛋白質(zhì)長(zhǎng)度是幾百,總體而言,蛋白質(zhì)數(shù)據(jù)量級(jí)已經(jīng)能夠媲美自然語(yǔ)言數(shù)據(jù),數(shù)據(jù)量已經(jīng)達(dá)到千億級(jí)別,萬(wàn)億或者更多。
宋樂(lè)表示,“如今的蛋白質(zhì)數(shù)據(jù)已經(jīng)能夠媲美自然語(yǔ)言數(shù)據(jù),數(shù)據(jù)量早已達(dá)到TB Trillion級(jí)別,在擬合過(guò)程中嘗試過(guò)不同億級(jí)的參數(shù),最終發(fā)現(xiàn),參數(shù)越大,對(duì)問(wèn)題理解程度和表征能力越強(qiáng)。而千億參數(shù)才能充分吸收蛋白質(zhì)相關(guān)信息,才能精準(zhǔn)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)問(wèn)題,以及denovo(從頭生成)精準(zhǔn)度較高的蛋白?!?/p>
劉維補(bǔ)充道,“反過(guò)來(lái)看,是不是一定有千億參數(shù)才可以進(jìn)行蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)和設(shè)計(jì)?”
他表示,“通過(guò)幾個(gè)輪次的模型迭代來(lái)看,如果AI做的設(shè)計(jì)出來(lái)東西,跟普及度更高的動(dòng)物篩選平臺(tái)差不多,或者拉開(kāi)的差距不大,那么AI就沒(méi)有優(yōu)勢(shì)可言,因此,‘一萬(wàn)億倍差距’才是我們值得探索的目標(biāo)。此外,我們的特長(zhǎng)是解決行業(yè)中目前無(wú)解或者更前沿的問(wèn)題?!?/p>
實(shí)際上,目前生命科學(xué)大模型仍有參數(shù)上升趨勢(shì),但從現(xiàn)實(shí)成本考量,千億已經(jīng)算是是行業(yè)中極高的技術(shù)門(mén)檻。
宋樂(lè)指出,訓(xùn)練一個(gè)千億級(jí)的大模型,可能需要上千個(gè)GPU,運(yùn)行3到5個(gè)月,每年對(duì)類(lèi)似xTrimo這樣級(jí)別的大模型進(jìn)行幾次訓(xùn)練,需要在計(jì)算資源方面花費(fèi)上億元?!岸覀儽晨堪俣人懔Y源,也是能夠把生命科學(xué)大模型做出來(lái)的一個(gè)重要原因?!?/p>
此外,百圖生科與百度云聯(lián)合構(gòu)建了“混合異構(gòu)的生物超算中心”,能夠支持動(dòng)態(tài)獲取高達(dá)幾千到幾萬(wàn)個(gè)GPU,以及相應(yīng)的CPU資源。
值得一提的是,目前xTrimo的下游模型,比如抗體抗原復(fù)合物的結(jié)構(gòu)預(yù)測(cè)、親和力預(yù)測(cè),單細(xì)胞在擾動(dòng)下面的響應(yīng)預(yù)測(cè)等等,都達(dá)到了業(yè)界的最優(yōu)水平。
劉維表示,“無(wú)論是預(yù)訓(xùn)練模型設(shè)計(jì),還是下游模型微調(diào)上看,既是對(duì)AI和生物兩種背景人才合作和碰撞的好機(jī)會(huì),也是百圖生科對(duì)未來(lái)尖端人才融合培養(yǎng)的一次嘗試。”
同時(shí),劉維保持著一如既往的開(kāi)放態(tài)度,談到AI大模型的發(fā)展趨勢(shì),“如今AI大模型的技術(shù)浪潮,確實(shí)帶來(lái)一種繁榮,甚至一開(kāi)始還會(huì)出現(xiàn)重復(fù)造輪子,無(wú)序競(jìng)爭(zhēng)的現(xiàn)象。某種意義也不是壞事,意味著更多人才和公司發(fā)展出來(lái),自然會(huì)有所分化,找到適合自己的垂類(lèi)方向?!?/p>
三、訓(xùn)練方法設(shè)計(jì)
在發(fā)布會(huì)現(xiàn)場(chǎng),“行業(yè)敬畏”是出現(xiàn)極多的一詞。
如何理解呢?
百圖生科企業(yè)發(fā)展副總裁瞿佳潤(rùn)(Vicky)表示,“生命科學(xué)大模型已經(jīng)取得了很大進(jìn)展,但它天然具有持續(xù)迭代的特性,因此需要不斷地去整合生命科學(xué)領(lǐng)域的各種數(shù)據(jù)、知識(shí)和技術(shù)。”
百圖生科企業(yè)發(fā)展副總裁瞿佳潤(rùn)(Vicky)
以數(shù)據(jù)為例,因?yàn)樯w的高度復(fù)雜度,目前數(shù)據(jù)量很大,但仍然是有限的。隨著生命科學(xué)領(lǐng)域觀測(cè)手段和技術(shù)的發(fā)展,吸收更多的數(shù)據(jù)尤其是垂直類(lèi)數(shù)據(jù),將使我們能夠更加精細(xì)精準(zhǔn)地理解進(jìn)化,理解生命。
這也就意味著,要實(shí)現(xiàn)這一目標(biāo),百圖生科需要不斷吸納新的合作伙伴,特別是那些在體外模擬體系、超精度觀測(cè)和特殊驗(yàn)證體系等方面具有豐富知識(shí)和技術(shù)的生命科學(xué)家。
敬重科學(xué)的力量,并且利用成熟的商業(yè)合作推動(dòng)技術(shù)具像化,正是這次AI風(fēng)口的最大魅力。
但百圖生科帶來(lái)的想象力并不止于此。在生命科學(xué)行業(yè),具有通用能力的大模型成為基礎(chǔ)設(shè)施,在支持具體的新任務(wù)時(shí),只需要利用該任務(wù)的標(biāo)注數(shù)據(jù)進(jìn)行微調(diào)即可,一般工程師就可以實(shí)現(xiàn)。
在大模型時(shí)代,所有面向生命科學(xué)的公司,都可以便捷地用最先進(jìn)的AI技術(shù)來(lái)解決各自的業(yè)務(wù)問(wèn)題,不同規(guī)模的企業(yè)重新站在同一起跑線上,將大幅加快生命科學(xué)的面世進(jìn)程。
正如瞿佳潤(rùn)所言,“百圖生科的目標(biāo),是讓更多人帶著高價(jià)值問(wèn)題,零門(mén)檻或低門(mén)檻啟動(dòng)起來(lái)。”
對(duì)此,全球頂尖生信專(zhuān)家Robert?Gentleman教授評(píng)述,“如果將這一模型視作‘idea generator‘,一切會(huì)變得更加美妙”。在百圖生科的基因里,“用科技讓復(fù)雜世界更簡(jiǎn)單”,與之遙相呼應(yīng)。
困擾AI的最大問(wèn)題,是應(yīng)用。
說(shuō)到底,百圖生科究竟有沒(méi)有起底生命科學(xué)的實(shí)力?從目前的合作伙伴上看,百圖生科已經(jīng)贏在了起跑線上。
瞿佳潤(rùn)透露,目前xTrimo體系的進(jìn)展和已經(jīng)應(yīng)用的具體案例,截止目前,xTrimo大模型已經(jīng)在蛋白結(jié)構(gòu)預(yù)測(cè)、抗體序列生成、細(xì)胞表征等問(wèn)題上實(shí)現(xiàn)SOTA,并在細(xì)胞功能預(yù)測(cè)、denovo藥物設(shè)計(jì)上取得突破性進(jìn)展。
AIGP 3大功能模塊+12項(xiàng)核心能力示意圖
據(jù)雷峰網(wǎng)&《醫(yī)健AI掘金志》不完全統(tǒng)計(jì),在F2P、P2P、C2P等AICP三大能力上,典型合作伙伴有:
F2P:MBZUAI(石油污染降解酶聯(lián)合設(shè)計(jì))、世界漸凍人日(漸凍癥調(diào)控蛋白設(shè)計(jì))、西湖大學(xué)(and-gate蛋白設(shè)計(jì))、STEALTH PARITNER(基因療法遞送蛋白設(shè)計(jì));
P2P:HARBOUR BIOMEO(高性能免疫調(diào)控彈頭設(shè)計(jì)),華輝安健(難成藥靶點(diǎn)精準(zhǔn)設(shè)計(jì))、邏晟生物(定表位抗體篩選)、新景智源生物科技(可溶性TCR親和力優(yōu)化);
C2P:免疫學(xué)研究所(巨噬細(xì)胞靶點(diǎn)和調(diào)控蛋白發(fā)現(xiàn))、清華大學(xué)(多種自免疾病靶點(diǎn)和調(diào)控蛋白發(fā)現(xiàn))、北京大學(xué)腫瘤醫(yī)院(胃癌靶點(diǎn)和調(diào)控蛋白發(fā)現(xiàn))、中國(guó)醫(yī)學(xué)科學(xué)院腫瘤醫(yī)院(食管癌新細(xì)胞調(diào)控靶點(diǎn)挖掘)、索智生物(IBD協(xié)同雙靶點(diǎn)挖掘)。
劉維表示,目前百圖生科的AIGP平臺(tái),可支持同時(shí)跑四十多個(gè)生命科學(xué)研發(fā)項(xiàng)目,如果按照傳統(tǒng)的生命科學(xué)邏輯研發(fā),這可能需要花費(fèi)十億美金。
與此同時(shí),他也坦誠(chéng)表示,如今的AIGP平臺(tái)還是一款不算完美的產(chǎn)品。盡管前沿Denovo蛋白質(zhì)預(yù)測(cè)的指標(biāo)已經(jīng)達(dá)到SOTA或首創(chuàng),但原因很簡(jiǎn)單:“這些領(lǐng)域原來(lái)基線太低,不意味著我們都能高質(zhì)量地完成工業(yè)任務(wù)。”
因此,回過(guò)頭來(lái)看,為何百圖生科選擇與行業(yè)伙伴共同深入到原創(chuàng)藥物的設(shè)計(jì)、研發(fā)、臨床試驗(yàn)等環(huán)節(jié),而非定位于“CRO”的角色,致力于外包服務(wù)?
在發(fā)布會(huì)現(xiàn)場(chǎng),劉維、宋樂(lè)從經(jīng)營(yíng)運(yùn)作和技術(shù)發(fā)展的角度給出相似的回答:
“兩年的時(shí)間基本夠干什么呢?數(shù)據(jù)整理完成第一個(gè)階段,實(shí)驗(yàn)體系完成第一個(gè)階段,大模型架構(gòu)完成第一個(gè)階段,對(duì)一系列的任務(wù)評(píng)估問(wèn)題達(dá)到SOTA,只能說(shuō)搭起一個(gè)架子。而生命科學(xué)最大的魅力,正是在于未知問(wèn)題的上限高。”
因此,如今百圖生科推出AIGP平臺(tái)的邏輯,恰恰只是一個(gè)開(kāi)始。
據(jù)悉,在發(fā)布前,AIGP平臺(tái)已經(jīng)進(jìn)行了一段時(shí)間的內(nèi)部測(cè)試,有近20家合作伙伴和百圖生科開(kāi)展了AIGP聯(lián)合研發(fā)合作。隨著這一平臺(tái)開(kāi)啟“公測(cè)”新階段,行業(yè)伙伴的使用與反饋,論證模式的可行性,也會(huì)加快其后續(xù)的迭代速度。
正如劉維所言,“他們既是我們今天的第一波聯(lián)合開(kāi)發(fā)者或者用戶(hù),也是我們未來(lái)的合作伙伴,而且百圖生科跟主流的CRO企業(yè)間仍然是合作的關(guān)系?!?/p>
百圖生科AIGP平臺(tái)發(fā)展計(jì)劃
在這次的AI浪潮中,一家公司是否具有技術(shù)理想主義,被再次定義為技術(shù)草莽時(shí)期的“勝利”。但百圖生科的布局在于,它已經(jīng)構(gòu)建了一張夠的著的商業(yè)藍(lán)圖。
一年前,劉維強(qiáng)調(diào),“百圖生科研發(fā)的目標(biāo)直接錨定在“first-in-class”(全球新)藥物,對(duì)標(biāo)的醫(yī)藥巨頭基因泰克”。一年后,有人問(wèn)到“逐步開(kāi)放技術(shù)生態(tài),是否會(huì)更趨向于生命科學(xué)領(lǐng)域的OpenAI?”
他的回答是:這需要一種平衡,在技術(shù)發(fā)展初期,要愿意像OpenAI一樣俯下身來(lái)打磨產(chǎn)品。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。