0
生命科學領域迎來新故事。
最近的一段時間,很多人都在討論AI,幾乎每一個前沿科技關注者脫口而出,“ChatGPT開啟微軟谷歌對決”、“中國AI大模型之爭”、“英偉達推出核彈級顯卡”。
當這些話題湊在一起,AI便沾了一身煙火氣。業(yè)界借用2007年喬布斯發(fā)明iPhone的現(xiàn)象級事件,盛譽這是屬于“AI的iPhone時刻”。
不可否認,在這波AI浪潮中,百度搶占先機。
3月16日,百度發(fā)布大語言模型產品“文心一言”,李彥宏站臺,繼ChatGPT后推出全球首個對標產品。一周后,3月23日,李彥宏所創(chuàng)百圖生科,發(fā)布生命科學大模型驅動的“AI生成蛋白質平臺(AIGP,AI Generated Protein)”,同時發(fā)布AIGP生態(tài)合作計劃,旨在將生命系統(tǒng)與AI計算結合,在行業(yè)伙伴的加持下,為科研、環(huán)保、材料、消費等領域提供解決方案。
相比較而言,國外盡管有Meta、IBM Research、Salesforce Research等公司和機構更早推出生命科學大模型,卻仍處于“論文發(fā)表”階段。而AI技術本身就要跟場景密切結合,無論是百度還是百圖生科,都在技術落地上更進一步。
百圖生科聯(lián)合創(chuàng)始人兼CEO劉維
百圖生科聯(lián)合創(chuàng)始人兼CEO劉維,在發(fā)布會當天對雷峰網(wǎng)&《醫(yī)健AI掘金志》表示:
“這一模型早在百圖生科兩年前成立時就有醞釀,在當下時間點推出,既來自于這波AI大模型浪潮的推動,同時也說明,百圖生科已經(jīng)積攢了較高的平臺化能力,諸如世界最大規(guī)模的免疫圖譜、全球最快復合物結構預測模型、全新蛋白質藥物ImmuBot等等,到了化零為整的發(fā)展階段?!?/p>
何謂“AIGP”?
實際上,與之相近的一詞,是最近火出圈的“AIGC”(AI Generated Content),即利用人工智能技術來生成內容。AI繪畫、AI寫作等都屬于AIGC的分支。相應地,AIGP,即用AI自動生成蛋白質。
因此,盡管“AI生成類”任務千差萬別,但背后的邏輯別無二致—— 大力出奇跡,只要投喂足夠的數(shù)據(jù),AI就能夠表征人類的知識,從而實現(xiàn)從“發(fā)現(xiàn)”到“創(chuàng)造”。
因此,盡管過去十年跨模態(tài)的生物數(shù)據(jù)得到了快速的增長,但是在數(shù)據(jù)的挖掘和應用方面仍然存在著許多挑戰(zhàn)和難題。這種速度增長的數(shù)據(jù)對傳統(tǒng)的生物學或者生物信息家來說,已經(jīng)難以用小工具去分析。
得益于數(shù)據(jù)、算力、模型本身的充分發(fā)展,如今人工智能落地已經(jīng)進入“大模型”時代。
美國斯坦福大學的權威研究團隊,更是將這一類大規(guī)模預訓練模型形容為“基礎模型”(Foundation Models),意味著其會是各種行業(yè)智能應用必不可少的大型基礎設施。
在NLP、CV等多類任務上,大模型已經(jīng)展現(xiàn)出碾壓性優(yōu)勢,發(fā)展生物計算大模型正當時:人體這一多尺度的復雜網(wǎng)絡,加上多模態(tài)、高噪音的超大規(guī)模生物數(shù)據(jù),非常需要獨有的超大模型來提升研發(fā)效果。
因此,百圖生科自2020年成立以來,便開發(fā)了具有千億參數(shù)的生命科學大模型體系“xTrimo”。
據(jù)悉,百圖生科生命科學大模型“xTrimo”,全稱 Cross-modal Transformer Representation of Interactome and Multi-Omics,面向最難的生命科學問題,是全球首個、也是目前最大的生命科學領域的“超大規(guī)模多模態(tài)模型體系”。
該大模型從跨物種、跨模態(tài)的生命信息中學習蛋白質如何構成和實現(xiàn)功能、如何相互作用、如何組合和調控細胞功能的關鍵規(guī)律,從而破解生命的自然語言——蛋白質。
基于大模型,AI在一系列任務算法上取得了明顯的進展,除了更好地完成結構預測等基礎任務外,也開始可以根據(jù)不同的問題輸入,以生成的方式,設計創(chuàng)新的蛋白質,來回答各種生命科學問題。
因此,如果說千億級參數(shù)的ChatGPT掀開了語言生成式人工智能的序幕,那么正在從千億參數(shù)邁向萬億參數(shù)的“xTrimo”,則是吹響了沖擊諸多生命科學命題的號角。
百圖生科CTO宋樂博士
正如百圖生科CTO、首席AI科學家宋樂博士表示,“基于大規(guī)模預訓練模型,正在成為解決問題的一種范式。藥物發(fā)現(xiàn)等生命科學問題的社會價值和行業(yè)價值極高,比起其他任務場景,需要更多企業(yè)投身到這個趨勢中,實現(xiàn)前沿項目的加速研發(fā)?!?/p>
能在兩年時間內完成千億參數(shù)AI大模型的全部準備工作,對任何公司來說都是一個不小的難題。
對比OpenAI來說,2015年公司成立,足足等了三年才正式推出GPT-1,直到2019年2月,GPT-2版本開啟公測階段,又隔三年才終于通過ChatGPT打響AI大模型。
一定程度上,AI研發(fā)需要細水長流,即便是集齊Sam Altman(Y Combinator總裁)、Elon Musk(特斯拉CEO)、Peter Thiel(PayPal聯(lián)合創(chuàng)始人)、Reid Hoffman(LinkedIn聯(lián)合創(chuàng)始人)等一眾硅谷科技大亨的OpenAI,七年時間才讓AI技術的民主化不再是紙上談兵。
與此同時,OpenAI的爆火再次說明,中國也需要有自主“大模型”,而且在OpenAI等科技巨頭的牽制下,AI大模型已經(jīng)有明確的技術下限。
宋樂表示,“這需要在模型搭建之初,就做好頂層設計工作。主要分為三大塊:數(shù)據(jù)設計、模型設計、訓練方法設計?!?/strong>
一、數(shù)據(jù)設計
對于AI大模型來說,生成結果的質量如何,取決于灌輸了何種質量的數(shù)據(jù)。因此,AI生成蛋白質的本質問題在于,是否已經(jīng)到了“輸出即用”的程度?
在發(fā)布會現(xiàn)場,劉維也舉例道,我們能要求AI自動生成一個圓形蛋白質、胡蘿卜形蛋白質、甚至是花形蛋白質、但這些蛋白質沒有一點實用價值,只是一種技術模擬。換句話說,如果沒有大量且高質量的數(shù)據(jù)做“投喂”,AI生成只是一個“空殼”。
為此,百圖生科在過去的兩年中,主要工作放在了建立生命科學數(shù)據(jù)圖譜之上。
據(jù)悉,目前百圖生科已經(jīng)建立全球規(guī)模最大的免疫圖譜xAtlas,覆蓋66+億蛋白,超過300億蛋白互作關系,1億單細胞,以及6100+萬免疫互作關系,和6000億泛細胞共現(xiàn)關系的大規(guī)模圖譜。其中,90%的數(shù)據(jù)來自于公開或半公開的非結構化數(shù)據(jù),其余的10%則來自內部實驗室產生的私域數(shù)據(jù)。
宋樂表示,盡管這些數(shù)據(jù)聽起來很容易找到,但整理起來難度極大?!耙驗檫@些數(shù)據(jù)散落在不同的數(shù)據(jù)集,甚至是非結構化數(shù)據(jù),在各種論文、專利中。因此,如何抽取重要數(shù)據(jù),并且關聯(lián)數(shù)據(jù),比如對齊、聚類、去重、篩選等,需要大量的專業(yè)人員付出努力?!?/p>
具體來看,百圖生科的生信工程師會基于自有實驗體系,重新測量、評估數(shù)據(jù),以驗證公開數(shù)據(jù)之間的相關性或準確率,測量結果將影響模型訓練時對數(shù)據(jù)的使用權重;同時,圍繞數(shù)據(jù)對應關系的建立,百圖生科花費了一年的時間實現(xiàn)了公開數(shù)據(jù)的對齊,比如,將蛋白質與基因配對,將相互作用對應的兩個基因或蛋白質進行關聯(lián)等。
劉維表示,前期百圖生科的生物投資動作,也是如今能夠和醫(yī)藥行業(yè)伙伴在數(shù)據(jù)層充分合作的重要原因。目前全球已投資超過50家早期企業(yè)。
投資生態(tài)版圖
實際上,僅僅是以上公開數(shù)據(jù),就足以煉就生命科學領域的專有AI大模型,為何還要補充內部實驗數(shù)據(jù)?
如果拆解ChatGPT來看,這一模型之所以強大的原因,在于驗證了參數(shù)增長、訓練數(shù)據(jù)量增大,對AI模型的重要意義;其次,ChatGPT采用“小樣本+人類反饋微調監(jiān)督學習”的方法,解決了大模型數(shù)據(jù)標注工作量巨大的問題,是模型得以迅速迭代的基礎,并且顯著提升了真實性、減少了有害信息的輸出。
同理,在生命科學領域里面,加標簽的成本要高很多,比如,給一個蛋白質的序列加上標簽,往往需要大量的實驗,包括電鏡的收數(shù)據(jù)、解數(shù)據(jù)。
“因此,通過高通量實驗等產生的數(shù)據(jù),就可以直接繞過加標簽這一步,可以理解為生命科學大模型的監(jiān)督信號,讓它能夠合成有功能的蛋白。”
宋樂進一步表示,“這個就是AI從大規(guī)模預訓練模型走到具體實用的一種模式?!?/strong>
據(jù)悉,在內部數(shù)據(jù)獲取方面,為更好地實現(xiàn)引擎的干濕閉環(huán),百圖生科構建的免疫模擬和擾動實驗體系,從臨床出發(fā),開展10余個免疫治療前后的隊列項目,計劃采集樣本千余。
以組學實驗室為例,百圖生科針對10余種不同來源的組織進行樣本處理,每年可采集1000萬個單細胞測序數(shù)據(jù)。而在更后端的早期成藥性篩選環(huán)節(jié),每月可交付2000個樣品,檢項包括靶點抗原親和力,多聚性,熱穩(wěn)定性,酸堿峰分析,基于質譜的完整分子量和糖型分析。
劉維表示,為了加速推進幾十、上百個藥物管線的開發(fā),百圖生科在蘇州建立了一套完整的從抗體發(fā)現(xiàn),到蛋白打印,再到抗體工程和優(yōu)化的平臺,能夠高通量地實現(xiàn)藥物親和力、特異性、表位、功能、可開發(fā)性的全方面數(shù)據(jù)采集。
“可以說,這一套高通量實驗驗證體系,就是為了實現(xiàn)干濕數(shù)據(jù)的端到端閉環(huán),也是近兩年開始,我們這一代公司才有這樣強的需求。”
從蛋白實體、到蛋白和蛋白相互作用,從單個細胞、到多細胞系統(tǒng),這些在免疫模擬系統(tǒng)內產生的高通量私域數(shù)據(jù),加之百圖生科基于公開數(shù)據(jù)精細化加工所得到的多模態(tài)數(shù)據(jù),匯成了AI大模型的“數(shù)據(jù)基石”。
二、模型設計
搭建生命科學領域的AI大模型,同樣是一個“從無到有”的創(chuàng)新過程。正如宋樂所言,為何模型參數(shù)選定為“千億”,而非“十億”、“百億”,或者“萬億”?事實上,從性能和成本上看,千億參數(shù)是一種平衡。
首先,千億參數(shù)對于自然語言大模型來說也是非常大的量級。目前每個蛋白質長度是幾百,總體而言,蛋白質數(shù)據(jù)量級已經(jīng)能夠媲美自然語言數(shù)據(jù),數(shù)據(jù)量已經(jīng)達到千億級別,萬億或者更多。
宋樂表示,“如今的蛋白質數(shù)據(jù)已經(jīng)能夠媲美自然語言數(shù)據(jù),數(shù)據(jù)量早已達到TB Trillion級別,在擬合過程中嘗試過不同億級的參數(shù),最終發(fā)現(xiàn),參數(shù)越大,對問題理解程度和表征能力越強。而千億參數(shù)才能充分吸收蛋白質相關信息,才能精準預測蛋白質結構問題,以及denovo(從頭生成)精準度較高的蛋白。”
劉維補充道,“反過來看,是不是一定有千億參數(shù)才可以進行蛋白質結構預測和設計?”
他表示,“通過幾個輪次的模型迭代來看,如果AI做的設計出來東西,跟普及度更高的動物篩選平臺差不多,或者拉開的差距不大,那么AI就沒有優(yōu)勢可言,因此,‘一萬億倍差距’才是我們值得探索的目標。此外,我們的特長是解決行業(yè)中目前無解或者更前沿的問題。”
實際上,目前生命科學大模型仍有參數(shù)上升趨勢,但從現(xiàn)實成本考量,千億已經(jīng)算是是行業(yè)中極高的技術門檻。
宋樂指出,訓練一個千億級的大模型,可能需要上千個GPU,運行3到5個月,每年對類似xTrimo這樣級別的大模型進行幾次訓練,需要在計算資源方面花費上億元?!岸覀儽晨堪俣人懔Y源,也是能夠把生命科學大模型做出來的一個重要原因?!?/p>
此外,百圖生科與百度云聯(lián)合構建了“混合異構的生物超算中心”,能夠支持動態(tài)獲取高達幾千到幾萬個GPU,以及相應的CPU資源。
值得一提的是,目前xTrimo的下游模型,比如抗體抗原復合物的結構預測、親和力預測,單細胞在擾動下面的響應預測等等,都達到了業(yè)界的最優(yōu)水平。
劉維表示,“無論是預訓練模型設計,還是下游模型微調上看,既是對AI和生物兩種背景人才合作和碰撞的好機會,也是百圖生科對未來尖端人才融合培養(yǎng)的一次嘗試?!?/p>
同時,劉維保持著一如既往的開放態(tài)度,談到AI大模型的發(fā)展趨勢,“如今AI大模型的技術浪潮,確實帶來一種繁榮,甚至一開始還會出現(xiàn)重復造輪子,無序競爭的現(xiàn)象。某種意義也不是壞事,意味著更多人才和公司發(fā)展出來,自然會有所分化,找到適合自己的垂類方向。”
三、訓練方法設計
在發(fā)布會現(xiàn)場,“行業(yè)敬畏”是出現(xiàn)極多的一詞。
如何理解呢?
百圖生科企業(yè)發(fā)展副總裁瞿佳潤(Vicky)表示,“生命科學大模型已經(jīng)取得了很大進展,但它天然具有持續(xù)迭代的特性,因此需要不斷地去整合生命科學領域的各種數(shù)據(jù)、知識和技術。”
百圖生科企業(yè)發(fā)展副總裁瞿佳潤(Vicky)
以數(shù)據(jù)為例,因為生命體的高度復雜度,目前數(shù)據(jù)量很大,但仍然是有限的。隨著生命科學領域觀測手段和技術的發(fā)展,吸收更多的數(shù)據(jù)尤其是垂直類數(shù)據(jù),將使我們能夠更加精細精準地理解進化,理解生命。
這也就意味著,要實現(xiàn)這一目標,百圖生科需要不斷吸納新的合作伙伴,特別是那些在體外模擬體系、超精度觀測和特殊驗證體系等方面具有豐富知識和技術的生命科學家。
敬重科學的力量,并且利用成熟的商業(yè)合作推動技術具像化,正是這次AI風口的最大魅力。
但百圖生科帶來的想象力并不止于此。在生命科學行業(yè),具有通用能力的大模型成為基礎設施,在支持具體的新任務時,只需要利用該任務的標注數(shù)據(jù)進行微調即可,一般工程師就可以實現(xiàn)。
在大模型時代,所有面向生命科學的公司,都可以便捷地用最先進的AI技術來解決各自的業(yè)務問題,不同規(guī)模的企業(yè)重新站在同一起跑線上,將大幅加快生命科學的面世進程。
正如瞿佳潤所言,“百圖生科的目標,是讓更多人帶著高價值問題,零門檻或低門檻啟動起來。”
對此,全球頂尖生信專家Robert?Gentleman教授評述,“如果將這一模型視作‘idea generator‘,一切會變得更加美妙”。在百圖生科的基因里,“用科技讓復雜世界更簡單”,與之遙相呼應。
困擾AI的最大問題,是應用。
說到底,百圖生科究竟有沒有起底生命科學的實力?從目前的合作伙伴上看,百圖生科已經(jīng)贏在了起跑線上。
瞿佳潤透露,目前xTrimo體系的進展和已經(jīng)應用的具體案例,截止目前,xTrimo大模型已經(jīng)在蛋白結構預測、抗體序列生成、細胞表征等問題上實現(xiàn)SOTA,并在細胞功能預測、denovo藥物設計上取得突破性進展。
AIGP 3大功能模塊+12項核心能力示意圖
據(jù)雷峰網(wǎng)(公眾號:雷峰網(wǎng))&《醫(yī)健AI掘金志》不完全統(tǒng)計,在F2P、P2P、C2P等AICP三大能力上,典型合作伙伴有:
F2P:MBZUAI(石油污染降解酶聯(lián)合設計)、世界漸凍人日(漸凍癥調控蛋白設計)、西湖大學(and-gate蛋白設計)、STEALTH PARITNER(基因療法遞送蛋白設計);
P2P:HARBOUR BIOMEO(高性能免疫調控彈頭設計),華輝安健(難成藥靶點精準設計)、邏晟生物(定表位抗體篩選)、新景智源生物科技(可溶性TCR親和力優(yōu)化);
C2P:免疫學研究所(巨噬細胞靶點和調控蛋白發(fā)現(xiàn))、清華大學(多種自免疾病靶點和調控蛋白發(fā)現(xiàn))、北京大學腫瘤醫(yī)院(胃癌靶點和調控蛋白發(fā)現(xiàn))、中國醫(yī)學科學院腫瘤醫(yī)院(食管癌新細胞調控靶點挖掘)、索智生物(IBD協(xié)同雙靶點挖掘)。
劉維表示,目前百圖生科的AIGP平臺,可支持同時跑四十多個生命科學研發(fā)項目,如果按照傳統(tǒng)的生命科學邏輯研發(fā),這可能需要花費十億美金。
與此同時,他也坦誠表示,如今的AIGP平臺還是一款不算完美的產品。盡管前沿Denovo蛋白質預測的指標已經(jīng)達到SOTA或首創(chuàng),但原因很簡單:“這些領域原來基線太低,不意味著我們都能高質量地完成工業(yè)任務。”
因此,回過頭來看,為何百圖生科選擇與行業(yè)伙伴共同深入到原創(chuàng)藥物的設計、研發(fā)、臨床試驗等環(huán)節(jié),而非定位于“CRO”的角色,致力于外包服務?
在發(fā)布會現(xiàn)場,劉維、宋樂從經(jīng)營運作和技術發(fā)展的角度給出相似的回答:
“兩年的時間基本夠干什么呢?數(shù)據(jù)整理完成第一個階段,實驗體系完成第一個階段,大模型架構完成第一個階段,對一系列的任務評估問題達到SOTA,只能說搭起一個架子。而生命科學最大的魅力,正是在于未知問題的上限高?!?/p>
因此,如今百圖生科推出AIGP平臺的邏輯,恰恰只是一個開始。
據(jù)悉,在發(fā)布前,AIGP平臺已經(jīng)進行了一段時間的內部測試,有近20家合作伙伴和百圖生科開展了AIGP聯(lián)合研發(fā)合作。隨著這一平臺開啟“公測”新階段,行業(yè)伙伴的使用與反饋,論證模式的可行性,也會加快其后續(xù)的迭代速度。
正如劉維所言,“他們既是我們今天的第一波聯(lián)合開發(fā)者或者用戶,也是我們未來的合作伙伴,而且百圖生科跟主流的CRO企業(yè)間仍然是合作的關系?!?/p>
百圖生科AIGP平臺發(fā)展計劃
在這次的AI浪潮中,一家公司是否具有技術理想主義,被再次定義為技術草莽時期的“勝利”。但百圖生科的布局在于,它已經(jīng)構建了一張夠的著的商業(yè)藍圖。
一年前,劉維強調,“百圖生科研發(fā)的目標直接錨定在“first-in-class”(全球新)藥物,對標的醫(yī)藥巨頭基因泰克”。一年后,有人問到“逐步開放技術生態(tài),是否會更趨向于生命科學領域的OpenAI?”
他的回答是:這需要一種平衡,在技術發(fā)展初期,要愿意像OpenAI一樣俯下身來打磨產品。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。