0
以ChatGPT為代表的AIGC技術(shù),徹底點(diǎn)燃了市場(chǎng)熱情。
前不久,騰訊研究院發(fā)布《AIGC發(fā)展趨勢(shì)報(bào)告2023:迎接人工智能的下一個(gè)時(shí)代》指出,AIGC的商業(yè)化應(yīng)用將快速成熟,市場(chǎng)規(guī)模會(huì)迅速壯大,預(yù)測(cè)將率先在傳媒、電商、醫(yī)療等數(shù)字化程度高、內(nèi)容需求豐富的行業(yè)取得重大發(fā)展。
與此同時(shí),諸多國(guó)外商業(yè)咨詢機(jī)構(gòu)更是直接給出數(shù)據(jù):未來(lái)五年10%-30%的圖片內(nèi)容由AI參與生成,2030年AIGC市場(chǎng)規(guī)模將達(dá)到1100億美元。
星星之火,可以燎原。早在五年前,AIGC還籍籍無(wú)名。它有一個(gè)相當(dāng)拗口的名字--AI生成虛擬內(nèi)容。以2018年的視頻換臉技術(shù)Deepfake為代表,“AI偽原創(chuàng)”一詞,便從那時(shí)傳開(kāi)。
隨著深度學(xué)習(xí)的發(fā)展,AIGC逐漸滲透在圖像、視頻、CG、AI訓(xùn)練數(shù)據(jù)等各類領(lǐng)域,人們對(duì)于這一技術(shù)的期望也逐漸豐滿。
時(shí)至今日,AIGC技術(shù)能否用于計(jì)算生物領(lǐng)域的新引擎,醫(yī)療健康賽道何時(shí)迎來(lái)新型基礎(chǔ)驅(qū)動(dòng)力,成為時(shí)下產(chǎn)學(xué)研各界的共同關(guān)切。
近日,由雷峰網(wǎng)GAIR Live&《醫(yī)健AI掘金志》舉辦的《ChatGPT的一把火,能否燒到AI生命科學(xué)界?》線上圓桌論壇落幕。
本次論壇,由中國(guó)人民大學(xué)數(shù)學(xué)學(xué)院龔新奇擔(dān)任主持,中國(guó)科學(xué)院深圳理工大學(xué)(籌)計(jì)算機(jī)科學(xué)與控制工程學(xué)院院長(zhǎng)潘毅、百圖生科首席AI科學(xué)家宋樂(lè)、深圳灣實(shí)驗(yàn)室系統(tǒng)與物理生物學(xué)研究所資深研究員周耀旗、分子之心創(chuàng)始人許錦波,天壤創(chuàng)始人薛貴榮參與討論。
在上篇中,幾位嘉賓共同辨析“AIGC”這一概念,探討生命科學(xué)界中的哪些成果屬于AIGC,以及ChatGPT在生命科學(xué)領(lǐng)域中可能實(shí)現(xiàn)的任務(wù)。
在下篇中,將分別探討AIGC為生命科學(xué)帶來(lái)的可能性與其自身局限,以及中國(guó)能否在應(yīng)用場(chǎng)景上快人一步,實(shí)現(xiàn)技術(shù)落地與產(chǎn)業(yè)轉(zhuǎn)化。
“全球人工智能與機(jī)器人大會(huì)”(GAIR)始于2016年雷峰網(wǎng)與中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)合作創(chuàng)立的CCF-GAIR大會(huì),旨在打造人工智能浪潮下,連接學(xué)術(shù)界、產(chǎn)業(yè)界、投資界的新平臺(tái),而雷峰網(wǎng)“連接三界”的全新定位也在此大會(huì)上得以確立。
經(jīng)過(guò)幾年發(fā)展,GAIR大會(huì)已成為行業(yè)標(biāo)桿,是目前為止粵港澳大灣區(qū)人工智能領(lǐng)域規(guī)模最大、規(guī)格最高、跨界最廣的學(xué)術(shù)、工業(yè)和投資領(lǐng)域盛會(huì)。
GAIR Live作為雷峰網(wǎng)旗下視頻直播品牌,旨在輸出新鮮、深度、原創(chuàng)的大咖訪談與對(duì)話內(nèi)容,打造輻射產(chǎn)、學(xué)、研、投的特色線上平臺(tái)。
以下是主題論壇的現(xiàn)場(chǎng)內(nèi)容,雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))《醫(yī)健AI掘金志》做了不改變?cè)獾木庉嫼驼恚?/p>
龔新奇:繼UGC、PGC等形態(tài)之后,你們?nèi)绾慰创鼳IGC的概念?在這一概念走紅之后,不少團(tuán)隊(duì)都在宣稱入局AIGC。在各位看來(lái),AI生命科學(xué)的哪些成果,可以稱之為AIGC?
潘毅:PGC,是指專業(yè)人員隊(duì)伍產(chǎn)生的內(nèi)容;UGC,是使用者生產(chǎn)內(nèi)容;AIGC是用AI系統(tǒng)來(lái)產(chǎn)生的內(nèi)容,也就是軟件產(chǎn)生的東西。GPT,Generative Pre-trained Transformer,相當(dāng)于一個(gè)專門(mén)的、特殊的AI系統(tǒng),應(yīng)用性更廣泛的general系統(tǒng)。
比如,我們告訴它幾個(gè)關(guān)鍵詞,小橋、流水、春天、樹(shù)葉,它就能生產(chǎn)一篇美妙的文章;告訴它畫(huà)里面有古堡、城市,有橋有山有水,它就產(chǎn)生相關(guān)的畫(huà)面。因此,目前由AI生成的內(nèi)容已經(jīng)比較廣泛。
實(shí)際上,很多公司可能以前就已經(jīng)介入AIGC。
舉個(gè)例子,AlphaFold也屬于AIGC。因?yàn)锳lphaFold無(wú)非是輸入一個(gè)序列,據(jù)此生成一個(gè)預(yù)測(cè)結(jié)構(gòu),其原理與ChatGPT根據(jù)輸入的詞匯生成一篇文章是相似的。
此外,網(wǎng)絡(luò)關(guān)聯(lián)技術(shù)也屬于AIGC,比如基因與疾病的關(guān)聯(lián)、藥物與疾病的關(guān)聯(lián)、數(shù)字與target(靶標(biāo))的關(guān)聯(lián)等等,很多人就是利用圖神經(jīng)網(wǎng)絡(luò)找出其中的關(guān)聯(lián)性、規(guī)律。目前最典型的就是舊藥新用,找出舊的藥物與新的疾病之間的關(guān)聯(lián)。
其中的原因是什么?我們可以通過(guò)輸入舊數(shù)據(jù)產(chǎn)生新的圖像,使節(jié)點(diǎn)之間產(chǎn)生新的連接,這就是AIGC。
現(xiàn)在很多研究團(tuán)隊(duì)要進(jìn)入AIGC的想法是可以理解的,但是如果要利用GPT來(lái)闡釋內(nèi)容,我覺(jué)得還很多小公司還做不到,目前來(lái)看還早了一步。
因?yàn)橹挥屑夹g(shù)和算法是不夠的,還需要有“三部曲”作為支撐:大數(shù)據(jù)是否能拿到,資金是否足夠,算力是否充足。三者缺少任意一樣都無(wú)法做到。
所以我更傾向于,大家不一定馬上實(shí)現(xiàn)GPT的應(yīng)用。當(dāng)然,我們?cè)谏镄畔⒅杏矛F(xiàn)有的GPT來(lái)完成一些任務(wù)是可行的。
比如在生物信息中,我們?cè)瓉?lái)用的是text mining(文本挖掘),但是無(wú)法得知癌癥等疾病具體與哪個(gè)基因有關(guān)系,只能依賴于手工操作完成許多工作。
但使用GPT,在其中輸入一個(gè)基因詞和一個(gè)疾病的名稱,就可以挖掘出其中的關(guān)聯(lián),每一種疾病與每一個(gè)基因詞之間的關(guān)聯(lián)度都能夠在GPT中反映出來(lái)。
現(xiàn)有的ChatGPT主要是為對(duì)話服務(wù)的,暫時(shí)還做不到為專業(yè)的生物信息領(lǐng)域的問(wèn)題服務(wù),所以我們今后要研究自己的GPT,技術(shù)、算法采用GPT的idea來(lái)做,但數(shù)據(jù)范圍要縮小,專注于Bio,即BioGPT。
我們的數(shù)據(jù)要集中在疾病、蛋白質(zhì)、基因、RNA等范圍內(nèi),研發(fā)基于生物信息的算法,從而減少存儲(chǔ)器與算力的需求,降低企業(yè)的開(kāi)發(fā)門(mén)檻。
宋樂(lè):首先從模型上來(lái)說(shuō),我也同意潘老師的見(jiàn)解。很多情況下我們?cè)谧錾疃葘W(xué)習(xí)的時(shí)候,預(yù)測(cè)的是一個(gè)比較簡(jiǎn)單的分類或是一個(gè)回歸的任務(wù),也就是一個(gè)值或一個(gè)概率。
但Generative model預(yù)測(cè)的是一個(gè)更大的東西,可能是整個(gè)圖片或整個(gè)句子,而且它不僅僅是預(yù)測(cè)一張圖片、一個(gè)句子,而是通過(guò)采樣的方式生成一組圖片、一組的句子,不斷地生成新的內(nèi)容。
生成模式實(shí)際上是基于條件生成內(nèi)容,比如輸入某些元素之后,根據(jù)這些元素生成一個(gè)對(duì)應(yīng)的圖像。其特殊之處在于可以不斷地采樣,從而每次輸出不同的結(jié)果。
AIGC需要依賴大量的數(shù)據(jù)和算力,目前在生物領(lǐng)域中,成本上也達(dá)到了臨界點(diǎn)。
從數(shù)據(jù)的層面來(lái)看,我們現(xiàn)在有億級(jí)甚至更多的蛋白質(zhì)序列,可以基于十億、百億甚至千億級(jí)規(guī)模的數(shù)據(jù)進(jìn)行訓(xùn)練,同時(shí)采樣新的蛋白質(zhì),就可以生成各種各樣的蛋白質(zhì)。
同理,除蛋白質(zhì)之外,其他生物領(lǐng)域的數(shù)據(jù)也達(dá)到了這一規(guī)模,例如,單細(xì)胞測(cè)序每次能將一個(gè)細(xì)胞中的兩萬(wàn)個(gè)基因的表達(dá)量都測(cè)出來(lái),借助這一技術(shù),人們對(duì)幾億個(gè)細(xì)胞都做了測(cè)序,上億規(guī)模的數(shù)據(jù)都可以作為細(xì)胞內(nèi)基因表達(dá)的預(yù)訓(xùn)練模型。
基于預(yù)訓(xùn)練模型進(jìn)行自然語(yǔ)言等下游任務(wù)的預(yù)測(cè),甚至是基于一部分的基因表達(dá)恢復(fù)或生成另一部分的基因表達(dá),都達(dá)到了數(shù)據(jù)的臨界點(diǎn)。
剛剛我提到的這些模型,其參數(shù)也可能是億級(jí)、十億級(jí)甚至更大級(jí)別,所以需要很多的GPU,以并行訓(xùn)練的方式進(jìn)行長(zhǎng)達(dá)數(shù)周甚至數(shù)月的訓(xùn)練,模型擬合大量數(shù)據(jù)之后,生成的東西特別自然,像是原數(shù)據(jù)集里的東西,這對(duì)蛋白質(zhì)設(shè)計(jì)、細(xì)胞表征、細(xì)胞擾動(dòng)的反應(yīng)、制藥問(wèn)題等等都是很大的推進(jìn)。
從模型的提升到具體落地還有一段距離,但是我們已經(jīng)看到了曙光,看到一個(gè)清晰的前進(jìn)方向,可以將其與濕實(shí)驗(yàn)結(jié)合落地,進(jìn)行AI藥物研發(fā)。
周耀旗:我認(rèn)為AIGC其實(shí)有一個(gè)前身叫做CGC,即Computer Generated Content。
在AIGC出現(xiàn)之前,我們已經(jīng)用計(jì)算機(jī)在生物學(xué)上做了很多工作,也產(chǎn)生了很多內(nèi)容。現(xiàn)在AIGC突然之間紅火起來(lái),實(shí)際上是對(duì)CGC的重新包裝。
我們以前做分子動(dòng)力學(xué),用計(jì)算機(jī)模擬的方法研究蛋白質(zhì)的運(yùn)動(dòng)、功能等等,這些都屬于CGC的范疇。
現(xiàn)在的AIGC和以前計(jì)算機(jī)生成內(nèi)容不一樣的地方在于,AI主要是利用大數(shù)據(jù)進(jìn)行訓(xùn)練,產(chǎn)生一個(gè)新的content。這個(gè)概念可以跟以往相區(qū)分,因?yàn)锳IGC與以往用戶、專家、計(jì)算機(jī)產(chǎn)生的content有完全不同的系統(tǒng)錯(cuò)誤率和偏好。把它們區(qū)分開(kāi)有利于我們進(jìn)一步的分析和研究。
AIGC的一個(gè)特殊之處在于,它產(chǎn)生內(nèi)容的速度非???,估計(jì)其產(chǎn)生的內(nèi)容會(huì)很快超過(guò)人類產(chǎn)生的內(nèi)容。
AIGC在生物科學(xué)中的成果早在ChatGPT之前就已經(jīng)出現(xiàn)了很多,AlphaFold2可能是其中最亮眼的一個(gè)成果,它在不久前就預(yù)測(cè)了所有的蛋白質(zhì)結(jié)構(gòu),并且形成一個(gè)數(shù)據(jù)庫(kù),供大家下載和研究,我覺(jué)得這就是一個(gè)標(biāo)準(zhǔn)的AIGC,剛才潘老師也提到了。
所以在某種意義上,AlphaFold2已經(jīng)走在ChatGPT前面了,帶動(dòng)了生物領(lǐng)域的革命。
其實(shí)不僅僅是AlphaFold2,我們以前用AI方法算了很多東西,包括蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、蛋白質(zhì)功能預(yù)測(cè)等等,雖然當(dāng)時(shí)的準(zhǔn)確度還不夠高,但本質(zhì)上也是用計(jì)算機(jī)產(chǎn)生的content。AIGC剛開(kāi)始的時(shí)候準(zhǔn)確度也并不高,比如現(xiàn)在的ChatGPT的準(zhǔn)確度還不高,會(huì)有很多錯(cuò)誤的地方。
我認(rèn)為通過(guò)AI產(chǎn)生的生物學(xué)相關(guān)的科學(xué)文章、綜述報(bào)告、文章摘要,以及生物學(xué)相關(guān)的圖片、科普音頻、視頻等等,都屬于生物學(xué)領(lǐng)域。AIGC和ChatGPT等工具已經(jīng)開(kāi)始進(jìn)入生命科學(xué)這一領(lǐng)域。
由于現(xiàn)在的精確度還不夠,還沒(méi)有真正大規(guī)模地開(kāi)始,未來(lái)AIGC應(yīng)該會(huì)成為生物學(xué)方面很重要的應(yīng)用。
前幾天我測(cè)試了一下ChatGPT對(duì)生物學(xué)專業(yè)的內(nèi)容了解程度怎么樣,發(fā)現(xiàn)它對(duì)基本的知識(shí)面了解得很清楚,比如我問(wèn)它RNA的二級(jí)結(jié)構(gòu),回答是比較精準(zhǔn)的。
但是涉及到比較深入的新知識(shí)面時(shí),ChatGPT的回答就經(jīng)常出錯(cuò)。比如我問(wèn)它AlphaFold2是靠什么成功的,它要么給一個(gè)很膚淺的回答,要么給一個(gè)完全不正確的回答。
這和ChatGPT的訓(xùn)練數(shù)據(jù)中的內(nèi)容有很大的關(guān)系,因?yàn)橛?xùn)練數(shù)據(jù)中基礎(chǔ)知識(shí)比較多,ChatGPT對(duì)這方面的知識(shí)回答就會(huì)比較準(zhǔn)確;如果新的知識(shí)尚未收錄或者少量收錄到訓(xùn)練數(shù)據(jù)中,ChatGPT回答的準(zhǔn)確率就會(huì)低一些。所以在相當(dāng)長(zhǎng)一段時(shí)間里,ChatGPT在專業(yè)程度非常高的生物學(xué)等領(lǐng)域中應(yīng)用時(shí),需要小心驗(yàn)證。
薛貴榮:正如剛剛周耀旗老師所講,如果訓(xùn)練數(shù)據(jù)足夠豐富,ChatGPT就可以生成一個(gè)相對(duì)專業(yè)的答案,當(dāng)訓(xùn)練數(shù)據(jù)不夠充分時(shí),它生成的答案就不夠好了。
一方面,我認(rèn)為AIGC,特別是ChatGPT對(duì)目前已有信息的組織起到了關(guān)鍵作用,它能夠?qū)I(yè)的內(nèi)容組織起來(lái),生成一個(gè)較好的答案,但是要依賴于基礎(chǔ)庫(kù)的數(shù)據(jù)質(zhì)量與全面性。
另一方面,我認(rèn)為AIGC的優(yōu)勢(shì)在于其創(chuàng)造性,它在圖像領(lǐng)域取得的效果很令人驚訝,這表示著AI可以更具創(chuàng)造性地產(chǎn)生一些我們沒(méi)有見(jiàn)過(guò)的知識(shí),相對(duì)于更偏重組織的文本內(nèi)容,對(duì)圖像領(lǐng)域來(lái)說(shuō),創(chuàng)造性則更為重要。
就像我們做蛋白質(zhì)研究,TRDesign設(shè)計(jì)出的蛋白質(zhì)結(jié)構(gòu)中,有很多我們沒(méi)有見(jiàn)過(guò),甚至自然界中也不存在,但是借助TRDesign我們就能夠設(shè)計(jì)生成這些未知的蛋白質(zhì)。
這些功能將會(huì)使AIGC大放異彩,既能將已有的高質(zhì)量?jī)?nèi)容組織起來(lái)進(jìn)行內(nèi)容生產(chǎn),又能生產(chǎn)未知的內(nèi)容。
AIGC應(yīng)用在AI生命科學(xué)中所產(chǎn)出的成果也可以分為兩個(gè)方面,一方面是生成新的藥物或材料;另一方面則可以積累大量專家的問(wèn)診經(jīng)驗(yàn),將其組織起來(lái)形成一套尋醫(yī)問(wèn)藥系統(tǒng),解決醫(yī)療資源匱乏的問(wèn)題,為普通病人答疑解惑。
但前提是要將AI生命科學(xué)領(lǐng)域內(nèi)大量的數(shù)據(jù)組織起來(lái),才能推動(dòng)進(jìn)一步的研究。
許錦波:AIGC在生命科學(xué)領(lǐng)域中的應(yīng)用比較廣泛,比如我們做AI蛋白質(zhì)設(shè)計(jì)就是用AI設(shè)計(jì)自然界中不存在的蛋白質(zhì),所使用的底層深度學(xué)習(xí)模型與ChatGPT的底層技術(shù)是一樣的。
在這個(gè)過(guò)程中,可以將蛋白質(zhì)序列理解為一個(gè)句子,將每個(gè)物種的蛋白質(zhì)序列的集合理解為一種語(yǔ)言,所以我們也可以使用自然語(yǔ)言處理領(lǐng)域的深度學(xué)習(xí)模型來(lái)處理蛋白質(zhì)氨基酸序列。比如用現(xiàn)在大家都在用的transformer對(duì)蛋白質(zhì)序列進(jìn)行建模,生成新的蛋白質(zhì)序列。
當(dāng)然,用AI生成蛋白質(zhì)和生成自然語(yǔ)言也有不一樣的地方,比如除氨基酸序列之外,每個(gè)蛋白質(zhì)都有其特定的三維結(jié)構(gòu),所以在生成蛋白質(zhì)時(shí),要綜合考慮其序列信息與結(jié)構(gòu)信息進(jìn)行設(shè)計(jì)。
此外,ChatGPT中的強(qiáng)化學(xué)習(xí)部件目前還沒(méi)有應(yīng)用在蛋白質(zhì)設(shè)計(jì)之中,因?yàn)樽匀徽Z(yǔ)言獲得反饋的速度比較快,但蛋白質(zhì)設(shè)計(jì)的結(jié)果通常需要實(shí)驗(yàn)驗(yàn)證才能得到比較正確的反饋,因此不那么容易獲得。
除用AI設(shè)計(jì)蛋白質(zhì)以外,運(yùn)用不同的生成算法,AI技術(shù)也可以生成DNA、RNA和小分子,在這一領(lǐng)域內(nèi)也早有人在進(jìn)行研究。
龔新奇:AIGC概念與蛋白質(zhì)設(shè)計(jì)或哪些其他任務(wù)有天然的契合度?換句話說(shuō),什么樣的任務(wù)適合ChatGPT來(lái)做?
薛貴榮:從去年年底到今年年初,國(guó)外的David Baker實(shí)驗(yàn)室、Generate Biomedicines、Profluent等機(jī)構(gòu),都發(fā)布了蛋白質(zhì)設(shè)計(jì)的平臺(tái),天壤也在開(kāi)放平臺(tái)上發(fā)布了蛋白質(zhì)設(shè)計(jì)模型TRDiffusion。
蛋白質(zhì)設(shè)計(jì)已經(jīng)經(jīng)歷過(guò)幾代技術(shù)變革,從一開(kāi)始天然蛋白的改造,到蛋白質(zhì)定向進(jìn)化,再到利用大量算力擬合蛋白質(zhì)。
如今我們開(kāi)始考慮能不能從頭開(kāi)始設(shè)計(jì)蛋白質(zhì),其難點(diǎn)在于如何做到可控,是完全從頭開(kāi)始設(shè)計(jì)一個(gè)蛋白,還是根據(jù)已有的核心片段,將蛋白質(zhì)補(bǔ)全為符合一定長(zhǎng)度的結(jié)構(gòu),或是對(duì)蛋白質(zhì)序列中的某個(gè)片段進(jìn)行替換,這些任務(wù)將來(lái)都會(huì)變成與系統(tǒng)的交互。
例如將蛋白質(zhì)中某一個(gè)口袋拉大、替換某個(gè)片段、添加對(duì)稱性展示、進(jìn)行溶水性優(yōu)化等等,這些原本需要具備多年研究經(jīng)驗(yàn)的操作,都將在一個(gè)系統(tǒng)中表達(dá)出來(lái),從而進(jìn)行可編程、可控的蛋白質(zhì)設(shè)計(jì)。
其次,我們也希望從交互上做一次變革。在以往的蛋白質(zhì)設(shè)計(jì)工作中,幾個(gè)小片段的設(shè)計(jì)都需要花費(fèi)大量成本進(jìn)行濕實(shí)驗(yàn)做驗(yàn)證。將來(lái)我們可以先在計(jì)算領(lǐng)域通過(guò)干實(shí)驗(yàn)的方式進(jìn)行交互,快速迭代,改變傳統(tǒng)實(shí)驗(yàn)中復(fù)雜的驗(yàn)證方式,將蛋白質(zhì)設(shè)計(jì)需要花費(fèi)的時(shí)間從幾年、幾個(gè)月縮短為幾天、幾個(gè)小時(shí)。當(dāng)然最終還是要到實(shí)驗(yàn)室中驗(yàn)證我們?cè)O(shè)計(jì)的結(jié)果是否滿足條件。
我們希望通過(guò)交互的變革與可控的設(shè)計(jì),在未來(lái)的蛋白質(zhì)設(shè)計(jì)研究中快速、高效地生產(chǎn)更多的蛋白質(zhì),加速工業(yè)制造,為人們的生命健康做貢獻(xiàn)。
宋樂(lè):在產(chǎn)生新的蛋白質(zhì)序列、蛋白質(zhì)結(jié)構(gòu),以及對(duì)蛋白質(zhì)的可設(shè)計(jì)空間進(jìn)行探索的過(guò)程中,AI是一個(gè)非常好的工具。百圖生科做的大規(guī)模蛋白質(zhì)預(yù)訓(xùn)練模型、加速版的結(jié)構(gòu)預(yù)測(cè)模型,都是在AIGC的空間之中,這一技術(shù)起到了非常重要的作用。
但其實(shí)現(xiàn)在訓(xùn)練的這些生成模型,大多屬于非條件的生成。
例如我們使用一個(gè)模型生成一張新圖片時(shí),要求圖片滿足畫(huà)面中有三個(gè)人、兩條狗,在玩某種特定的游戲,彼此之間有特定的距離等條件,如果要將這一系列的條件生成模型,還需要額外的模型對(duì)其進(jìn)行引導(dǎo),控制生成我們想要的東西。這些工作目前還非常具有挑戰(zhàn)性。
將這些條件轉(zhuǎn)換到蛋白質(zhì)設(shè)計(jì)中后,相當(dāng)于需滿足抗體與病毒的抗原在某一個(gè)特定的位置結(jié)合、結(jié)合的親和力達(dá)到某個(gè)強(qiáng)度、蛋白質(zhì)本身比較穩(wěn)定、蛋白質(zhì)合成后的可開(kāi)發(fā)性等諸多條件,利用生成模型控制生成滿足需求的蛋白質(zhì)。
為了符合上述各項(xiàng)指標(biāo),需要有一個(gè)額外的模型對(duì)生成模型進(jìn)行訓(xùn)練,即AIGC模型除了要生成一個(gè)具備多樣性的先驗(yàn)分布之外,還需要一個(gè)給定先驗(yàn)分布到想要的屬性之間的預(yù)測(cè)模型,才能夠通過(guò)這兩個(gè)模型的疊加,控制生成一組非常好的后驗(yàn)樣本,使生成模型既具備多樣性和創(chuàng)造性,同時(shí)也能滿足對(duì)規(guī)格的要求。
這個(gè)過(guò)程中還有很多算法上的工作需要進(jìn)行,目前已經(jīng)完成了部分生成模型的模塊,以及從生成的序列和結(jié)構(gòu)連接到我們最感興趣的結(jié)構(gòu)或蛋白質(zhì)本身屬性的模型,AlphaFold2也屬于這種連接序列和結(jié)構(gòu)的模型。
還需要對(duì)每個(gè)模塊都進(jìn)行下一輪的工程與模型效果的提高,才能將其連接起來(lái),達(dá)到在AI層面設(shè)計(jì)很多不同的、滿足屬性要求的蛋白質(zhì)的效果。這些工作完成后,可以大大減少濕實(shí)驗(yàn)。
通過(guò)AI設(shè)計(jì)的模型,可以先找到最有可能滿足規(guī)格的蛋白質(zhì)進(jìn)行合成,將實(shí)驗(yàn)的數(shù)據(jù)反饋給AI模型,在進(jìn)行下一輪的迭代設(shè)計(jì),從而對(duì)蛋白質(zhì)設(shè)計(jì)進(jìn)行加速。
這是百圖生科正在前進(jìn)的方向,我們將構(gòu)建出一個(gè)非常強(qiáng)大的模型,從而減少濕實(shí)驗(yàn)的次數(shù),為蛋白質(zhì)及其相關(guān)的藥物設(shè)計(jì)提速。
周耀旗:我們課題組是世界上第一個(gè)用AI神經(jīng)網(wǎng)絡(luò)來(lái)做蛋白質(zhì)設(shè)計(jì)的,也是第一個(gè)用深度學(xué)習(xí)來(lái)改進(jìn)蛋白質(zhì)設(shè)計(jì)的,這是2014年和2018年做的工作,在當(dāng)時(shí)一直是冷門(mén),最近幾年因?yàn)锳I紅了才開(kāi)始變成熱門(mén),突然冒出來(lái)很多方法,我們的這兩篇最早的論文最近關(guān)注度也特別高。
舉個(gè)例子,新AI設(shè)計(jì)方法Progen是一個(gè)比較好的工作,但是媒體夸大了它的價(jià)值。它實(shí)際上做的事情就是從大批量的同源序列中學(xué)習(xí)到了因?yàn)榻Y(jié)構(gòu)和功能的需求而必須保留的氨基酸,生成了一個(gè)保留了這些關(guān)鍵氨基酸的新同源序列,從而有類似的功能也毫不驚奇了。
這項(xiàng)工作其實(shí)還是有很多問(wèn)題的,比如不能預(yù)測(cè)所生成的蛋白質(zhì)活性的強(qiáng)弱,以及蛋白質(zhì)的活性在不同的pH、溫度等條件下會(huì)產(chǎn)生的變化,因?yàn)檫@些變化才是我們想用定向進(jìn)化來(lái)達(dá)成目標(biāo)。
所以這一方法目前還無(wú)法代替定向進(jìn)化,而且也無(wú)法設(shè)計(jì)具有新功能的蛋白質(zhì)。蛋白質(zhì)設(shè)計(jì)的最終目標(biāo)就是要獲得新功能。
Progen與ChatGPT是很相似的方法,在蛋白質(zhì)設(shè)計(jì)上離我們理想中的能力還有一些差距,還有很多工作需要完成。
AIGC,不能夠局限在序列生成這個(gè)領(lǐng)域,在生物學(xué)中還有很多其它應(yīng)用,比如它不僅僅可以生成序列,也可以生成結(jié)構(gòu)、功能,甚至生成整個(gè)病毒、器官、物種等等,在未來(lái)都有著很大的可能性。
AIGC相當(dāng)于打開(kāi)了一個(gè)新的窗口,在未來(lái)通過(guò)大數(shù)據(jù)可以產(chǎn)生越來(lái)越多創(chuàng)新的東西,不僅僅局限于序列和蛋白質(zhì),也可以生成DNA、RNA等等,進(jìn)入到整個(gè)生命體系的方方面面,前途非常宏大。
我認(rèn)為這些工作還是挺艱巨的,并不是馬上就能成功,我們目前所看到的只是第一小步。
潘毅:我認(rèn)為軟件ChatGPT軟件功能非常強(qiáng)大,擴(kuò)展以后可以做很多的工作。
比如我們輸入一個(gè)序列后,對(duì)藥物結(jié)構(gòu)和功能進(jìn)行預(yù)測(cè)。例如剛才薛貴榮老師提到的通過(guò)幾個(gè)小片段的小功能,做一個(gè)大的不同的功能。有了數(shù)據(jù)庫(kù)里的知識(shí)儲(chǔ)備后,通過(guò)a、b、c的組合可以得到功能d。在小分子、蛋白質(zhì)等的設(shè)計(jì)方面也可以逐漸地改進(jìn)。
我們所謂的藥,target(靶標(biāo))跟小分之間的關(guān)聯(lián)有兩個(gè)問(wèn)題,一是關(guān)聯(lián)的粘合度要高,二是要有活性。
這是一個(gè)綜合的問(wèn)題,要用分子動(dòng)力學(xué)來(lái)測(cè)試活性,使藥物的能量最小、最穩(wěn)定,活性更好,惰性也更小。這其中很多參數(shù)可能有矛盾,如果將這些知識(shí)放到GPT中就可以有一個(gè)綜合的表達(dá),幫助藥物研發(fā)。
疾病預(yù)測(cè)也是GPT的拓展方向之一。癲癇癥、老年癡呆癥等疾病在MRI核磁共振圖像中顯示的是外在特征,內(nèi)在則是基因的變化,通過(guò)數(shù)據(jù)的堆積可以將這二者關(guān)聯(lián)起來(lái)。
我有同事正在研究疾病的成因,哪個(gè)基因?qū)е碌募膊?,哪個(gè)蛋白質(zhì)網(wǎng)絡(luò)在調(diào)控、關(guān)聯(lián)等等。我們將蛋白質(zhì)網(wǎng)絡(luò)輸入GPT后,就可以找到關(guān)聯(lián)度,例如在蛋白質(zhì)研究中的重要問(wèn)題——關(guān)鍵蛋白,利用GPT做疾病成因的研究。
剛剛我提到text mining(文本挖掘)原本的方式很笨,如何利用AI來(lái)挖掘就是數(shù)據(jù)挖掘的問(wèn)題。
GPT使數(shù)據(jù)之間的關(guān)聯(lián)度變得更高,我們輸入某個(gè)疾病和某幾個(gè)基因,馬上就能得到它們之間的關(guān)聯(lián)度。這些問(wèn)題得以解決的前提是有專業(yè)的數(shù)據(jù)做支撐,沒(méi)有數(shù)據(jù)支撐就無(wú)法使用這些技術(shù)。
我更希望今后的ChatGPT能夠添加專業(yè)領(lǐng)域關(guān)鍵詞,例如我們提到mining,在數(shù)據(jù)領(lǐng)域就是數(shù)據(jù)挖掘,但只提到mining時(shí)ChatGPT可能無(wú)法理解。
所以在和ChatGPT對(duì)話時(shí)要補(bǔ)充相關(guān)專業(yè)領(lǐng)域的參數(shù),以得到更精準(zhǔn)的結(jié)果。將來(lái)進(jìn)行生物預(yù)測(cè)時(shí),GPT如果能夠提供具有專業(yè)水平的生物數(shù)據(jù),就能更精準(zhǔn)地找出基因與疾病的關(guān)聯(lián)。
GPT的缺點(diǎn)在于完全依賴于歷史數(shù)據(jù),無(wú)法預(yù)測(cè)將來(lái)。顏寧院士曾經(jīng)也講過(guò)這個(gè)問(wèn)題,她認(rèn)為AI制藥中binding的預(yù)測(cè)很困難,主要原因就在于數(shù)據(jù)不充分,沒(méi)有蛋白質(zhì)、小分子等的大量數(shù)據(jù),自然無(wú)法用AI進(jìn)行預(yù)測(cè)。
但是當(dāng)我們?cè)谀硞€(gè)領(lǐng)域聚集了很多binding的數(shù)據(jù)時(shí),就能夠預(yù)測(cè)得很準(zhǔn)。
可以想象,隨著時(shí)間的推移,數(shù)據(jù)積累越來(lái)越多的情況下,預(yù)測(cè)的精度也會(huì)越來(lái)越高。而且要基于專業(yè)的知識(shí)和數(shù)據(jù)進(jìn)行預(yù)測(cè)才會(huì)準(zhǔn)確,不專業(yè)的知識(shí)還是做不到。
很多時(shí)候,只有一個(gè)好的AI算法解決不了所有的問(wèn)題,要具備算法、算力、數(shù)據(jù)三大要素才可以。我認(rèn)為專業(yè)知識(shí)更重要,只有算法框架而沒(méi)有專業(yè)知識(shí)是達(dá)不到好的效果的。
正如剛剛薛貴榮老師所言,假如蛋白質(zhì)是由100個(gè)氨基酸組成的一個(gè)序列,每個(gè)都有20種可能性,那么可能性就多達(dá)20的100次方,遠(yuǎn)遠(yuǎn)超出世界上現(xiàn)有的蛋白質(zhì)、氨基酸的數(shù)量,也就是說(shuō)有很多自然界中不存在的氨基酸需要去設(shè)計(jì)。
由于這些蛋白質(zhì)是自然界中不存在的,設(shè)計(jì)出的功能也許很好,也許會(huì)走偏,進(jìn)行濕實(shí)驗(yàn)驗(yàn)證的過(guò)程也是一筆不菲的開(kāi)支。這是一把雙刃劍,今后應(yīng)該繼續(xù)開(kāi)展研究。
許錦波:AIGC這個(gè)概念跟蛋白設(shè)計(jì)是比較吻合的,AI蛋白質(zhì)設(shè)計(jì)與ChatGPT主要的區(qū)別在于驗(yàn)證方面。
在生命科學(xué)領(lǐng)域?qū)嶒?yàn)驗(yàn)證非常重要,用AI設(shè)計(jì)蛋白質(zhì)也是如此。必須要通過(guò)實(shí)驗(yàn)驗(yàn)證才能知道設(shè)計(jì)出的蛋白質(zhì)到底是不是有功能。
目前還沒(méi)有一個(gè)很好的計(jì)算方法可以用來(lái)驗(yàn)證設(shè)計(jì)出的蛋白質(zhì)的功能,如果不做實(shí)驗(yàn)驗(yàn)證,不管展示的圖像有多好,事實(shí)上也無(wú)法確認(rèn)設(shè)計(jì)的蛋白質(zhì)是不是真的具備某種特定的功能。
不能只做一個(gè)AI算法就號(hào)稱自己能夠做大分子小分子的生成,一定要驗(yàn)證生成出來(lái)的這個(gè)分子是不是真的有功能。
從AI的角度來(lái)說(shuō),ChatGPT的出現(xiàn)是一個(gè)非常重大的技術(shù)突破,能夠與AlphaGo相提并論。但是在生命科學(xué)領(lǐng)域,尤其是蛋白質(zhì)設(shè)計(jì)方面的影響并沒(méi)有那么大,因?yàn)樵缭趦扇昵吧茖W(xué)領(lǐng)域就已經(jīng)開(kāi)始做蛋白質(zhì)結(jié)構(gòu)設(shè)計(jì)了。
由于算力和數(shù)據(jù)量的提升,現(xiàn)在的模型也許會(huì)比以前更大一些,但是在算法層面,雖然現(xiàn)在的AI算法比傳統(tǒng)方法要好很多,但和幾年前的AI蛋白質(zhì)設(shè)計(jì)算法沒(méi)有本質(zhì)的區(qū)別,并沒(méi)有看到跨越式的進(jìn)步,仍有很多方面需要繼續(xù)創(chuàng)新,進(jìn)一步提升蛋白質(zhì)設(shè)計(jì)的成功率。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。