0
過去,一個博士生直到畢業(yè),恐怕并未見過蛋白質設計出來的樣子--需要一段一段敲掉某些天然蛋白質片段,再人工設計、拼補上去?,F(xiàn)在科研人員通過AI模型一次性提交幾十個蛋白質設計需求,幾個小時后便馬上收到一份設計結果和分析報告。生命科學的下一個時代,似乎來了。
ChatGPT引發(fā)的新一輪AI浪潮,正在席卷生命科學界。
2023年初,ChatGPT大火。繼去年11月30日上線第5天用戶獲增100萬,如今短短兩個月時間,ChatGPT日活用戶已超1億,成為歷史上增長最快的消費級應用程序。直到今天,與之相關的討論仍層出不窮。
伴隨著ChatGPT的火熱,國內市場也很難平靜。
百度、阿里、騰訊、網(wǎng)易、京東、360、字節(jié)等耳熟能詳?shù)拇髲S接連入局,一度將“AI大模型”推向主流;不少小型企業(yè)借助這一概念抬高股價,就連求職榜上的算法、NLP、AIGC等相關崗位,也涌入了一波又一波的年輕人。
ChatGPT再次將AI技術推向幕前,最令人驚喜的莫過于生成式AI與生命科學的深度融合。
近日,國內AI公司天壤智能發(fā)布了基于擴散的生成模型TRDiffusion,這是一種蛋白質設計的新方法。
TRDiffusion從零開始創(chuàng)造,生成全新的蛋白質結構,而非自然界中已經(jīng)存在的天然蛋白質。在相同計算資源配置和時間內,TRDiffusion完成的設計數(shù)量提升了2倍以上,設計結果與之前方法的結果表現(xiàn)出更強的多樣性。
實際上,早在2022年9月,天壤就上線了蛋白質工作臺xCREATOR,實現(xiàn)“一鍵設計滿足描述的蛋白質”等需求。
“相比較而言,新模型將蛋白質設計周期從兩天縮減為幾小時,改變了過去‘延遲滿足’的設計模式。”
天壤創(chuàng)始人,CEO薛貴榮對雷峰網(wǎng)(公眾號:雷峰網(wǎng))&《醫(yī)健AI掘金志》表示,“換句話說,一個分秒必爭的蛋白質設計時代正在悄悄拉開帷幕。”
蛋白質是一種含有特定氨基酸序列的分子,因其空間結構的不同,決定了生物學功能的差異。
因此,當天然蛋白結構功能,不能滿足工業(yè)或醫(yī)療應用需求時,想要得到特定的功能蛋白,就需要對其結構進行設計。
然而,自20世紀80年代以來,蛋白質設計卻一直受限于人類對蛋白質折疊的理解不足而停滯不前。
苗洪江來自天壤XLab,是該實驗室的負責人。
他表示,蛋白質設計最早出現(xiàn)在20世紀80年代,共經(jīng)歷三個階段:
第一代蛋白質設計通過簡單化學原理指導二級結構片段的組裝。
第二代蛋白質設計加入了專家經(jīng)驗,通過序列-結構關系指導結構片段組裝。
第三代有了明顯突破,一方面借助更大的天然蛋白質數(shù)據(jù)庫增加結構片段多樣性,同時借助從已知結構中終結的物理及知識能量函數(shù),尋找能量最小的目標蛋白質。
苗洪江
但總體來說,前三代設計方法都存在極大限制,比如過度依賴專家經(jīng)驗或者天然蛋白質。直到21世紀,隨著蛋白質三維結構數(shù)據(jù)的快速增長,尤其是2020年底,AlphaFold2在高精度蛋白質結構預測上取得了革命性進展,獲得了蛋白質序列與結構之間的高緯關聯(lián),以AI主導的蛋白質設計也隨之爆發(fā)。
正如深圳灣實驗室周耀旗教授所言,“在后AlphaFold時代,大家自然而然地想要解決一個實用的反問題:根據(jù)某個功能的結構,設計出相應的、能夠折疊成這樣結構的蛋白質序列?,F(xiàn)在,幾乎每隔一小段時間就有一篇AI蛋白質設計的預印論文出現(xiàn)。”
2022年,AIGC繪畫爆火,普通人只要用語言給出描述、或者幾個關鍵詞,就可以用AI程序生成一張媲美專業(yè)畫師的作品。
與此同時,AIGC背后的關鍵技術--“擴散模型”也成功出圈,一度啟發(fā)了計算生物學家。
2022年12月1日,蛋白質設計領域的領軍人物David Baker、波士頓的蛋白質設計公司Generate Biomedicines,同天宣布“將AI繪畫領域的擴散模型融入蛋白質設計中”。
然而問題隨之而來,“基于擴散的蛋白質生成模型”究竟有何優(yōu)勢?
據(jù)苗洪江介紹,“相比其它模型,基于擴散的生成模型更接近人的思維模式,也是AIGC擁有開放性創(chuàng)造力的原因之一。其工作原理是通過連續(xù)添加高斯噪聲來破壞訓練數(shù)據(jù),然后通過反轉噪聲過程來學習恢復數(shù)據(jù)?!?/p>
通俗來講,在環(huán)境中,氣體分子會高濃度區(qū)域擴散到低濃度區(qū)域。這一過程也類似噪聲逐步擴散,最終導致聲場充滿噪音。如果這一原理逆用,則是不斷“去噪”,露出事物“真面目”的過程:
首先,生成一張充滿大量噪聲的圖片;
再基于 AI 能力,一邊猜測哪些對于最終的圖像而言是“噪點”,將其去除,那么剩下的便是所需的“信息”;
通過迭代,在噪聲中反復提取出“信息”,最終生成被指定的圖片。
事實上,天壤此次帶來的TRDiffusion模型,正是采用的擴散模型。
苗洪江進一步介紹,“當TRDiffusion模型生成蛋白質時,是將蛋白質中每個殘基的主鏈結構,看成可以自由移動的剛體,生成結構的初始坐標為隨機噪聲。再通過‘去噪模型’,逐步地將隨機分布的殘基,移動及組裝成合理的蛋白質三維結構?!?/p>
天壤TRDiffusion的原理圖示:不斷去噪,設計出新的蛋白質
值得一提的是,蛋白質設計是結構預測的逆向問題。有人形容道,“兩者像是「序列——結構」這道題的正反求解。已知序列、求解三維結構,是結構預測;設定某個三維結構、求解序列,便是蛋白質設計。”
因此,此前天壤自研的蛋白質結構預測模型TRFold,也順勢被TRDiffusion二次利用。
苗洪江解釋道,“TRDiffusion中的‘去噪模型’,繼承了結構預測模型TRFold的主體網(wǎng)絡結構,并利用TRFold權重作為初始化,滿足空間旋轉平移等不變性。”
目前測試結果顯示,在相同計算資源配置和時間內,TRDiffusion完成的設計數(shù)量較之前模型提升了2倍以上,設計結果與之前方法的結果表現(xiàn)出很強的多樣性,比如自由設計、復合體設計、對稱性設計、局部多樣性優(yōu)化、功能蛋白質設計、結合配體設計等設計需求,更能針對用戶設定的目標蛋白質局部或整體結構、蛋白質分類、種屬及功能標注等進行調控和設計。
天壤 TRDiffusion 生成的全新的蛋白質結構
據(jù)苗洪江介紹,該模型將在2023年2月下旬上線蛋白質工作臺xCREATOR。屆時,用戶只需在平臺輸入目標蛋白質的簡單描述,如序列長度、結構對稱性、目標功能motif、結合配體結構、化學計量等,即可“一鍵生成”滿足描述的蛋白質。
實際上,在2023年當下這個時間點,蛋白質設計領域早已暗潮洶涌。
早在去年年底,國外就有三家公司競相發(fā)布了蛋白質設計的新模型。
如前文所述,2022年12月初,華盛頓大學David Baker團隊發(fā)布了RFDiffusion,用擴散模型設計出多種與天然蛋白質截然不同的全新單鏈蛋白質及復合體,目前已制造出一種可以與甲狀旁腺激素結合的全新蛋白質。
據(jù)悉,RFDiffusion也可向多個方向擴展應用,比如該技術最近已擴展到核酸和蛋白質-核酸復合體,后續(xù)也將也擴展到設計小分子結合蛋白。
同日,由生命科學頂級風投Flagship Pioneering孵化的蛋白質設計公司Generate Biomedicines,發(fā)布擴散蛋白生成模型Chroma,可根據(jù)預設要求設計蛋白質序列和結構。
2022年1月,該公司曾一舉拿下自Amgen(安進)的5個訂單,預付款約5千萬美元,潛在合約價值超19億美元。公開資料顯示,5個靶標全部用于開發(fā)蛋白療法,預計生產達百萬量級,并透露安進將參與Generate的新一輪融資。
更為重要的是,波士頓擁有全球聞名的醫(yī)療機構,從綜合性醫(yī)院、腫瘤??漆t(yī)院到兒童醫(yī)院,以及世界Top20制藥公司,在醫(yī)療集聚方面有著巨大成就。而這層背景,或將助推Generate搶占市場先機。
在蛋白質設計領域,也不乏眾多后起之秀。
其中Meta公司的ESM2、加州伯克利的一家初創(chuàng)公司Profluent的ProGen,則是仿造“ChatGPT”背后的大型語言模型(LLM),相繼推出了蛋白質序列預訓練大模型,實現(xiàn)可編程的蛋白質從頭設計。對此,業(yè)內眾說紛紜,樂觀派稱,“這項新技術可能會‘超越諾獎’--比2018年的定向進化蛋白設計技術更加強大?!?/p>
薛貴榮
天壤創(chuàng)始人,CEO薛貴榮對此頗有感觸,“盡管這些公司的技術路徑不盡相同,但這些模型和算法的集中爆發(fā),意味著我們已經(jīng)邁入了一個可編程的生物學新時代,最快年底會有一大波蛋白質設計被驗證。”
同時他也認為,如今蛋白質設計浪潮興起,至少指出了三個可能:
一、沿用天然蛋白質設計的老路已經(jīng)沒有太大興奮感,從頭生成人工蛋白的AI系統(tǒng)已將蛋白質設計變得“可控化”、“批量化”、“廣泛化”;
二、以蛋白質設計來講,不管是在醫(yī)療應用、食品生產、工業(yè)應用、環(huán)境保護、可再生資源還是其他領域,都具備有非常廣闊的應用場景,背后的商業(yè)價值正在被更多人看到;
三、ChatGPT作為第一個消費級AI爆款,是公眾第一次親身體驗現(xiàn)代人工智能的強大功能,隨著ChatGPT應用的增長、甚至“BioGPT”、“ProtGPT”的出現(xiàn),人們會對AI產生越來越多的信任。
以上觀點不難看出,對于國內從業(yè)者而言,借助風口深扎技術,為迎接未來工業(yè)需求做準備,顯然已經(jīng)成為自身發(fā)展過程中的重要命題。
與此同時,生成式AI技術的科研和工程實施還處于發(fā)展初期,除基座模型的角逐外,能否有更多公司參與到應用級創(chuàng)新,同樣是決定生態(tài)繁榮的重要因素。
實際上,天壤并非初涉生命科學領域。早在2019年,旗下天壤XLab成立,專注于IT+BT融合發(fā)展,旨在將蛋白質開發(fā)從“機會性游戲”,轉變?yōu)楦叽_定性的、可預測的“工業(yè)化流程”,滿足醫(yī)療、材料、能源和食品等領域對功能蛋白質的需求。
2022年,公司技術數(shù)項成果并出,陸續(xù)建成TRFold(單鏈結構預測,有MSA)、TRFold-Single(單鏈結構預測,無MSA)、TRComplex(復合體結構預測)、TRDesign(蛋白質設計)四大核心能力,并在去年9月推出國內首個蛋白質設計工作臺xCREATOR。
至此,一條兼具“蛋白質結構預測+設計+開放平臺”技術閉環(huán)搭建完成。
一定程度上說,在天壤此次技術升級之后,國內蛋白質設計市場的紅利將進一步放大,后續(xù)將涌現(xiàn)出更多的“鯰魚”,引發(fā)全社會對生命科學產業(yè)的關注。
人類發(fā)現(xiàn)蛋白質的時間不過兩百年,大自然卻花了上億年形成蛋白質進化規(guī)律。直到今天,人們不能完全翻譯這些規(guī)律,但仍然期待有一天可以通過發(fā)明強大AI工具,并對它發(fā)出設計蛋白質的指令。
這種期待是美好的,蛋白質設計前景也是廣闊的,但當前,這一賽道尚處于孕育探索階段。
就技術研發(fā)和應用角度考量,如何從模型生成的大量符合需求的蛋白質中篩選出最優(yōu)的結構、如何評價這些蛋白質的功能和性質、是否有可能從模型的角度自動化進行篩選,仍然值得進一步討論。
正如苗洪江所說,“和AI繪畫、AI聊天不同,蛋白質設計的本質是科學創(chuàng)新,比如要對設計蛋白的穩(wěn)定性、親和力、寡聚性等特性進行預測及優(yōu)化,否則就是‘偽蛋白’。”
實際上,針對這一問題,天壤的一大解決思路是與高校合作,“在實際項目過程中發(fā)現(xiàn)模型和平臺存在的問題”。
去年9月,天壤公布蛋白質設計工作臺——xCREATOR,其設計初衷,即解決跨領域技術門檻高、工作流程碎片化的問題,目標是在同個工作臺上一站式地完成全部蛋白質設計項目。
目前,xCREATOR工作臺已集成了市面上優(yōu)秀的算法,包括天壤XLab自研的算法與所有外部開源和合作伙伴的算法。尤為重要的是,這款平臺供高國內外高校師生免費使用,一方面能夠提供更開放的學術環(huán)境,為前沿項目提供技術支撐;另一方面,對于尚未建設濕實驗室的天壤來說,來自各大高校的真實實驗數(shù)據(jù)反饋,也成為天壤升級蛋白質設計算法的重要基礎。
薛貴榮舉了個例子,“過去博士生做蛋白質設計,需要一段一段敲掉某些片段,再人工設計拼補上去,等到畢業(yè)了還沒有見過蛋白質設計出來的樣子。相比較而言,現(xiàn)在學生可以一次性提交幾十個蛋白質設計需求,幾個小時后馬上收到一份蛋白質設計結果和分析報告?!?/p>
站在平臺的角度上,天壤越來越明確提供工具的角色定位,追求開放化的思路。
薛貴榮提到,未來天壤要兩條腿走路,重點打造干濕一體化實驗室,從計算平臺走進實驗平臺,真正從產業(yè)端的角度推動前端的蛋白質設計工作。
據(jù)悉,目前天壤XLab團隊從頭設計了適用于多種疾病的人工蛋白質候選藥物,如新冠刺突蛋白結合劑,能夠有效阻止刺突蛋白和人體ACE2蛋白結合;以及IL-2類似物,能夠激活特定淋巴細胞,同時避免當前IL-2類藥物毒性;可用于捕捉和封存二氧化碳的碳酸酐酶,相比于天然碳酸酐酶,其長度僅為天然碳酸酐酶的1/3左右,穩(wěn)定性更高,成本低廉便于工業(yè)應用。目前,這些蛋白的計算設計工作都已完成,正在推進實驗檢驗。
這似乎又開始了讓人熟悉的劇情。場景的吸引力、模式的吸引力,本質上,都是內容和技術的原始創(chuàng)新。
“當實現(xiàn)蛋白質設計日吞吐量達到上千上萬,甚至更多時,蛋白質設計將徹底告別‘束手束腳’的日子,一個真正的生命科學時代才算到來。”
| 生物計算“奧賽”冠軍論道:當生命科學遇上史詩級AI,何去何從?
日前結束的第41屆JP摩根醫(yī)療健康大會上,科技公司Nvidia的報告指出,“或許很快,基于AlphaFold2精準解析蛋白質三維結構,再加上能從頭生成人工蛋白質設計技術,就會給生物學領域帶來一場新的變革?!?/p>
為了更加深入、系統(tǒng)地討論生命科學技術的落地,2月23日(本周四20:00),我們邀請了CASP15四支冠軍團隊,論道:《當生命科學遇上史詩級AI,何去何從?》
智峪生科董事長,CEO王晟擔任主持、密歇根大學計算醫(yī)學及生物信息學系鄭偉、浙江工業(yè)大學信息工程學院張貴軍教授、江蘇理工學院生物信息與醫(yī)藥工程研究所常珊教授、智峪生科CTO熊鵬共同參與討論。
讀者可掃描文章底部海報的二維碼,添加策劃人吳彤微信(微信號:icedagunaing),備注“姓名+職位”,后續(xù)我們會邀請您進入專家社群,并將您的問題收集、匯總,反饋給參會嘉賓,在討論環(huán)節(jié)進行解答。
關于GAIR Live
“全球人工智能與機器人大會”(GAIR)始于2016年雷峰網(wǎng)與中國計算機學會(CCF)合作創(chuàng)立的CCF-GAIR大會,旨在打造人工智能浪潮下,連接學術界、產業(yè)界、投資界的新平臺,而雷峰網(wǎng)“連接三界”的全新定位也在此大會上得以確立。
經(jīng)過幾年發(fā)展,GAIR大會已成為行業(yè)標桿,是目前為止粵港澳大灣區(qū)人工智能領域規(guī)模最大、規(guī)格最高、跨界最廣的學術、工業(yè)和投資領域盛會。
GAIR Live作為雷峰網(wǎng)旗下視頻直播品牌,旨在輸出新鮮、深度、原創(chuàng)的大咖訪談與對話內容,打造輻射產、學、研、投的特色線上平臺。
雷峰網(wǎng)雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。