丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
醫(yī)療AI 正文
發(fā)私信給任平
發(fā)送

0

GAIR Live|五位學者大論道:ChatGPT,能否重構(gòu)中國生命科學界的底層邏輯?|(下篇)

本文作者: 任平 2023-03-13 14:37
導語:中國生命科學的產(chǎn)研之路能否彎道超車?

前不久,騰訊研究院發(fā)布《AIGC發(fā)展趨勢報告2023:迎接人工智能的下一個時代》指出,AIGC的商業(yè)化應用將快速成熟,市場規(guī)模會迅速壯大,預測將率先在傳媒、電商、醫(yī)療等數(shù)字化程度高、內(nèi)容需求豐富的行業(yè)取得重大發(fā)展。

與此同時,諸多國外商業(yè)咨詢機構(gòu)更是直接給出數(shù)據(jù):未來五年10%-30%的圖片內(nèi)容由AI參與生成,2030年AIGC市場規(guī)模將達到1100億美元。

星星之火,可以燎原。早在五年前,AIGC還籍籍無名。它有一個相當拗口的名字--AI生成虛擬內(nèi)容。以2018年的視頻換臉技術Deepfake為代表,“AI偽原創(chuàng)”一詞,便從那時傳開。

隨著深度學習的發(fā)展,AIGC逐漸滲透在圖像、視頻、CG、AI訓練數(shù)據(jù)等各類領域,人們對于這一技術的期望也逐漸豐滿。

時至今日,AIGC技術能否用于計算生物領域的新引擎,醫(yī)療健康賽道何時迎來新型基礎驅(qū)動力,成為時下產(chǎn)學研各界的共同關切。

近日,由雷峰網(wǎng)GAIR Live&《醫(yī)健AI掘金志》舉辦的《ChatGPT的一把火,能否燒到AI生命科學界?》線上圓桌論壇落幕。

本次論壇,由中國人民大學數(shù)學學院龔新奇擔任主持,中國科學院深圳理工大學(籌)計算機科學與控制工程學院院長潘毅、百圖生科首席AI科學家宋樂、深圳灣實驗室系統(tǒng)與物理生物學研究所資深研究員周耀旗、分子之心創(chuàng)始人許錦波,天壤創(chuàng)始人薛貴榮參與討論。近期ChatGPT爆火,歡迎添加作者微信(微信號:icedaguniang),互通有無。

在上篇中,幾位嘉賓共同辨析“AIGC”這一概念,探討生命科學界中的哪些成果屬于AIGC,以及ChatGPT在生命科學領域中可能實現(xiàn)的任務。

在下篇中,將分別探討AIGC為生命科學帶來的可能性與其自身局限,以及中國能否在應用場景上快人一步,實現(xiàn)技術落地與產(chǎn)業(yè)轉(zhuǎn)化。

“全球人工智能與機器人大會”(GAIR)始于2016年雷峰網(wǎng)與中國計算機學會(CCF)合作創(chuàng)立的CCF-GAIR大會,旨在打造人工智能浪潮下,連接學術界、產(chǎn)業(yè)界、投資界的新平臺,而雷峰網(wǎng)(公眾號:雷峰網(wǎng))“連接三界”的全新定位也在此大會上得以確立。

經(jīng)過幾年發(fā)展,GAIR大會已成為行業(yè)標桿,是目前為止粵港澳大灣區(qū)人工智能領域規(guī)模最大、規(guī)格最高、跨界最廣的學術、工業(yè)和投資領域盛會。GAIR Live作為雷峰網(wǎng)旗下視頻直播品牌,旨在輸出新鮮、深度、原創(chuàng)的大咖訪談與對話內(nèi)容,打造輻射產(chǎn)、學、研、投的特色線上平臺。

下是主題論壇的現(xiàn)場內(nèi)容,雷峰網(wǎng)《醫(yī)健AI掘金志》做了不改變原意的編輯和整理:

ChatGPT,是否會成為生命科學跨越式發(fā)展的契機?

龔新奇:目前來看,ChatGPT的文本生成功能確實挺強,第一次讓我們感覺它像個人一樣,能夠自然地聊天,讀懂你的感情、還可以體會到一些細微的褒貶。而且你可以正反提問,甚至還可以夸獎它、批評它。因此,ChatGPT的出現(xiàn),能否比肩AlphaGo或是AlphaFold2的出現(xiàn),是否會成為生命科學跨越式發(fā)展的契機?

周耀旗:我不認為ChatGPT可以比肩AlphaGo或是AlphaFold2。AlphaGo當年戰(zhàn)勝了人類最好的棋手,而AlphaFold2在高精度蛋白質(zhì)結(jié)構(gòu)預測上取得了革命性進展,但ChatGPT對生命科學來講,錯誤率太高、準確度不夠,還不能算作一個跨越性的成果。

但我對它的未來版本充滿了信心,特別是當ChatGPT跟搜索引擎結(jié)合,會大幅度提高它的精確度。因為它可以出具文獻出處,還可以幫我們提供各個領域的綜述、問題解決思路、促進不同領域溝通,甚至幫助學者撰寫文章初稿。那么未來跨專業(yè)、跨語言的交叉研究就變得容易一些。

所以我認為,未來升級版本的ChatGPT完全可以成為一個創(chuàng)新樞紐??茖W家把更多精力放在提出問題上,并根據(jù)AI的建議來優(yōu)化、驗證解決問題的方法和思路。所以ChatGPT的出現(xiàn)還是有一定的意義,它推動了一個有想象力時代的到來。

潘毅:我認為今后ChatGPT很有可能成為生命科學領域跨越式的發(fā)展契機。至于它的影響力,我跟周教授有不同看法,我認為ChatGPT的影響力會大于AlphaGo和AlphaFold2。

為什么?

AlphaGo為專為圍棋而設計,AlphaFold是專為蛋白質(zhì)結(jié)構(gòu)預測而設計,所以它們是一個為專業(yè)而生的AI平臺。相比而言,ChatGPT是一款通用型AI平臺,既可以交流,又可以撰寫郵件、視頻腳本、文案、翻譯、代碼,寫論文等等,普羅大眾都可以試一試,所以ChatGPT的影響力要遠比AlphaGo和AlphaFold更廣泛、更深刻。因此,雖然ChatGPT在生命科學領域里比不上AlphaFold,AlphaFold在圍棋上比不上AlphaGo,本質(zhì)是術業(yè)有專攻。

最近我和老同學黃學東聊天,發(fā)現(xiàn)他對ChatGPT的評價很高,“微軟如今加碼ChatGPT,是因為ChatGPT之于AI,相當于芯片之于計算機這么重要。”

要知道,黃學東多年擔任微軟Azure AI技術研究員和首席技術官,前不久剛剛當選2023年美國工程院院士,此前他并未將Alphago和AlphaFold定義為一個“里程碑式”的技術突破。

當然,周教授說得很對,ChatGPT在生物領域的影響力也許還沒達到,目前ChatGPT無法處理復雜冗長或者特別專業(yè)的語言結(jié)構(gòu)。但隨著AI技術的改進,幾年以后它一定會趕上,甚至會超過AlphaGo和AlphaFold。

從另一方面考慮,如今ChatGPT作為一個通用平臺,應該如何推動生命科學發(fā)展?

一、生命科學領域的學者為其注入專業(yè)性更強的生物知識,只有進行足夠的語料“喂食”,ChatGPT才有可能生成適當?shù)幕卮?。那時候,它或?qū)⒂糜诘鞍踪|(zhì)結(jié)構(gòu)預測,蛋白質(zhì)設計、蛋白質(zhì)相互作用分析等各類任務。

二、指揮ChatGPT編寫程序,比如Java程序、HTML程序,以及各種API( 應用程序編程接口)。那么未來生物學家只需要發(fā)出指令,ChatGPT就能完成從代碼編寫、接口耦合到程序測試的一系列工作。這也意味著,盡管很多人不能完全精通各種計算機語言,但我們只需要會做一些策劃性工作,就能快速搞定項目。

宋樂:從通用人工智能的角度來說,ChatGPT確實是一個非常大的進步。因為在A I領域,過去的對話機器人很難媲美ChatGPT。因為ChatGPT除了邏輯嚴密的創(chuàng)造能力之外,還具有記憶能力,在連續(xù)的對話中不用大家提供重復信息,其語言組織和表達能力也更接近人類水平,使對話更自然流暢。

但實際上,ChatGPT的創(chuàng)造性、流暢度,多輪對話能力,依賴于多種AI技術的結(jié)合,包括它的訓練方式都和過去的AI模型不太一樣。

OpenAI使用了RLHF(Reinforcement Learning from Human Feedback,人類反饋強化學習) 技術對ChatGPT進行了訓練,且加入了更多人工監(jiān)督進行微調(diào)。因此,ChatGPT進一步提高了AI模型與人類的交互能力,對信息含義的理解能力,以及自我判斷能力。

所以,ChatGPT的本質(zhì)是對人類語言(自然語言、程序指令)反應能力的數(shù)學逼近。相比較而言,過去我們和計算機交互,要么自己打字,要么輸入非常結(jié)構(gòu)化、死板的程序語言。但現(xiàn)在就可以直接以用自然語言和計算機交互,把它視為人類助手。

最近斯坦福一位教授發(fā)現(xiàn),GPT-3.5的智力已經(jīng)和9歲的小孩相當,這是以前任何AI 程序都不可能達到的高度??傮w而言,我認為ChatGPT是可以被視為里程碑式的AI成果,而且它確實會帶來一系列的工業(yè)級應用,甚至未來基于ChatGPT衍生出更高級的AI模型。

說到這里,ChatGPT也有一些局限性,比如因為知識缺失,產(chǎn)生一些不正確或者荒謬的答案。

比如你問它“紅燒蚊子腿怎么做”,它會給你一個正了八經(jīng)的回答:先把蚊子腿洗干凈,再熬制糖漿,然后放入蔥姜蒜煮熟。”它只是把“紅燒豬肉”的做法重復了一遍,把“豬肉”換成了“蚊子腿”。

還有一些有趣的例子,比如你叫它做一些算數(shù)運算。如果只是簡單的單位數(shù)運算還好,但如果數(shù)字比較長,或者比較復雜,它就做不了。實際上,這體現(xiàn)了ChatGPT當前的訓練模式的局限性,更加偏向于基于序列的擬合,或者表征生成序列的形式去訓練。

所以ChatGPT還能朝什么方向優(yōu)化?

有三點思路:

一、未來需要向ChatGPT注入一些知識圖譜,比如數(shù)學運算能力、生物識別能力,補齊它在這些維度的智慧;

二、對于蛋白質(zhì)設計、藥物設計等細分領域而言,就可以直接“外掛”一些專業(yè)模塊,比如復合物結(jié)構(gòu)模塊、親和力模塊、蛋白質(zhì)穩(wěn)定性模塊,當“外掛”越多,它的智力更高,也會輸出更更貼合需求的結(jié)果;

三、我們也可以學習ChatGPT的算法思路和模型訓練方式,“投喂”十億級、百億級的蛋白質(zhì)序列數(shù)據(jù),訓練出一個專用于蛋白質(zhì)設計的模型。

薛貴榮:我們比較有幸,2018年做過AlphaGo的復現(xiàn),2021年我們做過AlphaFold2的復現(xiàn)。但總體來說,這些領域我們有膽量嘗試,但從來沒有嘗試過的就是語言類AI模型。

眾所周知,自然語言處理(NLP)、機器學習(ML)發(fā)展了很多年,但人機交互仍然不能做到問答自如,邏輯流暢。根本原因是建立自然語言處理模型的實用系統(tǒng),需要不同層面的知識,比如匯學、句法學、語義學和語用學等知識。

而且NLP是一個交叉學科,涉及了方方面面的知識領域,包括計算機科學(給NLP提供模型表示、算法設計、計算機實現(xiàn)的技術)、數(shù)學(給NLP提供形式化的數(shù)學模型和形式化的數(shù)學算法)、電子工程:(給NLP提供信息論的理論基礎和語言信號處理技術),以及心理學、哲學、統(tǒng)計學等等。所以從開發(fā)難度上看,ChatGPT都是當之無愧的AI界“天花板”。

另一方面,無論是AlphaGo還是AlphaFold2,都是某一領域的專業(yè)軟件,但ChatGPT更像一款平民版AI,能夠承載幾個億的用戶一起測試,因此,它在覆蓋面、影響力上,都遠超AlphaGo和AlphaFold2。未來,大家肯定希望像ChatGPT這樣的技術能夠應用在生命科學場景中。

比如,現(xiàn)在的醫(yī)療問題是大家有問題找專家,但在醫(yī)療資源分配不均、醫(yī)療供給量不足的情況下,這一問題始終得不到解決。那么ChatGPT就可以發(fā)揮出“消費級應用”的特長,滲透入看病、制藥等環(huán)節(jié),降低專家依賴,一步講清所有深奧的“病理、藥理”。而經(jīng)歷過疫情三年后,大家更關注健康問題,我們也更加期待ChatGPT能夠聯(lián)姻生命科學,實現(xiàn)跨越式發(fā)展。

許錦波:從AI的角度來說,ChatGPT的出現(xiàn)意義可以和AlphaGo、AlphaFold2相提并論。它們都是重大技術突破,激發(fā)的討論突破了業(yè)界的范疇,外溢到公眾層面,可見影響力巨大。但是從生命科學角度來講,在蛋白質(zhì)設計等方面,ChatGPT并不專精。實際上用AI進行蛋白質(zhì)設計或預測蛋白質(zhì)結(jié)構(gòu),兩年前甚至三年前就發(fā)生了,只是模型比ChatGPT更小,當時的算力也比較小。

因此,如今AI領域面臨的重要問題是,現(xiàn)在的算法跟兩年前的AI算法,到底有沒有本質(zhì)上的區(qū)別?

至少目前來說,我沒看到本質(zhì)上的區(qū)別。當然,在蛋白質(zhì)設計上,現(xiàn)在的算法相比于傳統(tǒng)算法確實取得了進步,很多人也在討論,我們是不是要研發(fā)出一個ProtGPT,大幅度提高蛋白質(zhì)設計的成功率?但要明白一點,所有通過AI設計出來的蛋白質(zhì)都要有濕實驗驗證。如果未來AI能夠大幅度降低對濕實驗的要求,降低實驗成本和時間,甚至用計算驗證來替代實驗驗證,那將是更大的進步。

技術不確定性,成為最大隱憂

當ChatGPT/AIGC大展拳腳,生命科學領域最明顯的變化會是什么?另一方面,這種概念對于生命科學行業(yè),是否有不確定性或者危機?

周耀旗:我覺得AI已經(jīng)為生命科學帶來了很大變化,特別是AlphaFold2對大部分蛋白質(zhì)結(jié)構(gòu)的預測,與真實結(jié)構(gòu)只差一個原子的寬度,達到了人類利用冷凍電鏡等復雜儀器觀察預測的水平。這一重大成果雖然沒有引起媒體和廣大民眾的關注,但生物領域的科學家反應強烈。

可以說,AlphaFold2對生物機制的理解,對藥物設計都帶來了正面影響。當然,未來AIGC一定為生命科學帶來更大的變化,比如AI設計的蛋白質(zhì)會越來越多,進一步補充PDB蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫、功能庫,推動人類對生命科學的理解進入到一個新的高度。

與此同時,ChatGPT對于生命科學行業(yè)也有很大的不確定性:

一、預測是否錯誤,錯誤率是多少,以及是否誤導用戶。因為AI是通過海量數(shù)據(jù)訓練出來的,因此這一缺點也與大數(shù)據(jù)的問題一樣:數(shù)據(jù)很精確但錯得離譜。相比而言,AlphaFold2有一個plDDT打分函數(shù),但是打分函數(shù)并不一定完全正確,有時候還是錯的;

同時,我們也不可能對每個設計結(jié)果都做驗證,所以有時候還是很受誤導,得出一些錯誤的結(jié)論。但目前我覺得是可以忍受的,因為模型訓練本身就是在糾錯,除了蛋白質(zhì)設計以外,其他生物高分子的應用也是會越來越多,不僅僅DNA、RNA、代謝組、糖等各方面都會大展宏圖。

二、鑒于ChatGPT會把原來一篇文章重新編輯,那么我認為未來最大問題是出現(xiàn)假論文、編造假實驗數(shù)據(jù)、甚至用這個技術做壞事,比如產(chǎn)生新病毒、新細菌,都是潛在風險。

所以長期來講,AIGC會隨著時間更加成熟,這種不確定性和危機也會更加隱蔽,可能十幾年、三十年左右就會來臨。我們需要在科學研究能力和風險管理上提前做好準備。

宋樂:我可以想象,隨著數(shù)據(jù)量越來越多,算力越來越強,AIGC模型本身的生成能力,以及各種外掛功能(親和力、穩(wěn)定性、表達量)的加持,或許未來非常多的蛋白質(zhì)設計工作都是在計算機里進行,后端的濕實驗數(shù)量就會大大減少。

那么當ChatGPT/AIGC大展拳腳,生命科學領域最明顯的變化,我認為有幾點:

一、實驗人員減少,要求也因此下降,未來或許也不需要那么多的人體臨床實驗;

二、實驗工作者也要學習數(shù)據(jù)分析,朝AI的方向走,以及一些高校會將計算機課程設立為藥物、生物等專業(yè)學生的基礎課;

三、一些新的工作機會也會創(chuàng)造出來,比如如何更好地銜接外掛和AIGC模型,如何真正地推動AIGC模型加速藥物設計。

但從我的感受來,生物的復雜程度各不相同,比如目前數(shù)據(jù)量最大的蛋白質(zhì)序列,那么“AIx蛋白質(zhì)設計”會最快落地,可能是未來3~5年。但是復雜度更高的領域,比如蛋白質(zhì)相互作用、細胞設計及相互作用、器官設計以及相互作用,它們需要更多的數(shù)據(jù),更大的算力、更長的時間打造AI模型。

總體來說,AI在朝著那個方向走,只不過是時間長短的問題。

薛貴榮:可能我們最快感受到的變化,是藥物研發(fā)速度大大提高,比如以前研發(fā)一款新藥究竟有多難?醫(yī)藥界有個“雙十定律”:一款新藥從研發(fā)到上市,平均需要10年時間和10億美元的投入。

那么AIGC的發(fā)展,時間、資金可能都會縮短,準確度還會有比較大幅度的提升。

當然周教授也提到,或許不同目的的人會加速制造一些病毒細菌,那么未來監(jiān)管局既要推動優(yōu)勢藥物上市,也要防范生化危機,需要盡快建立系統(tǒng)性的管控制度和規(guī)范。

潘毅:剛才幾位教授都講得非常好,那么我認為,ChatGPT/AIGC這種技術應用在生命科學領域,第一大危機是什么?

一、數(shù)據(jù)污染。

因為生命信息領域有諸多基因數(shù)據(jù)庫,假設有人放入一萬個有攻擊性的數(shù)據(jù),并將某些基因數(shù)據(jù)跟疾病關聯(lián),最終預測結(jié)果失準。目前我們還沒有看到這樣的事情,因為ChatGPT剛剛出現(xiàn),大家普遍想用它寫出“好文章”,前后銜接、邏輯連貫、辭藻優(yōu)美。但如果你的目的是生成有破壞力的內(nèi)容,就會拿“爛文章”訓練它,甚至ChatGPT也可能被引誘去做壞事。

二、巨大的算力和電力消耗量。

從技術原理來看,ChatGPT基于Transformer技術,隨著模型不斷迭代,層數(shù)也越來越多,對算力的需求也就越來越大。從運行條件來看,ChatGPT完美運行的三個條件:訓練數(shù)據(jù)+模型算法+算力,需要在基礎模型上進行大規(guī)模預訓練,存儲知識的能力來源于1750億參數(shù),需要大量算力。

要知道,一個參數(shù)要很多數(shù)據(jù)支撐,近2000億的參數(shù)中需要多少數(shù)據(jù),要消耗多少電?假如每個國家每個地區(qū)都這么做,能源可能就是一個問題。所以規(guī)模也不能這么擴大,我還是強調(diào)打造專業(yè)領域的BioGPT。

三、用戶沉湎、數(shù)據(jù)隱私、版權(quán)倫理。

用戶過分依賴于AI從事內(nèi)容創(chuàng)作,可能導致內(nèi)容非原創(chuàng),缺乏創(chuàng)造力,引發(fā)版權(quán)問題,甚至隔絕物理世界,影響身心發(fā)展,社會整體運作效率反而降低。

許錦波:ChatGPT帶來的好處,至少讓AI蛋白質(zhì)設計領域的從業(yè)者更有信心。最近一兩年,由于AI的深入發(fā)展,蛋白質(zhì)結(jié)構(gòu)及功能研究取得了巨大的突破,從傳統(tǒng)的物理和統(tǒng)計方法快速走向機器學習,乃至深度學習;分子生物學界的研究范式,也從基于序列的研究轉(zhuǎn)向基于結(jié)構(gòu)的研究,極大提高了蛋白質(zhì)從頭設計的效率。

而在產(chǎn)業(yè)界,AI蛋白質(zhì)發(fā)現(xiàn)和設計也乘勢而起,成為全球矚目的熱門賽道。

但目前來說,大家還無法確定:AI設計蛋白到底能做得多好?相比于傳統(tǒng)方法效率能提高多少?實驗要求能夠降低多少?這些都還需要繼續(xù)探索。

手握ChatGPT入場券,中國能否「彎道超車」?

龔新奇:黃民烈教授接受采訪及近年的現(xiàn)象所示,美國在AI的基礎研究上積累深厚,中國則是強于AI的場景應用。在ChatGPT之后,百度將于3月上線ChatGPT產(chǎn)品,名為文心一言。當AIGC用于生命科學領域,中國在技術落地、產(chǎn)業(yè)轉(zhuǎn)化上,是否具備“彎道超車”的機會?

薛貴榮:最近AIGC和ChatGPT的討論特別多,國內(nèi)又興起了一波AI熱潮。但就像剛才潘毅教授講到的一個關鍵問題:必須建設各領域的專業(yè)版GPT。

在各塊專業(yè)領域,中國已經(jīng)積累了大量知識庫,或許我們有機會做到彎道超車。尤其是在生命科學領域,中國的蛋白質(zhì)設計技術與國際基本上處于同一水平,已經(jīng)實現(xiàn)了核心技術的原始創(chuàng)新,為工業(yè)酶、生物材料、生物醫(yī)藥等功能蛋白的設計奠定了基礎。

舉個例子,去年12月1日,華盛頓大學David Baker團隊發(fā)布了RFDiffusion、同日波士頓蛋白質(zhì)設計公司Generate Biomedicines發(fā)布了擴散蛋白生成模型Chroma、同月Meta發(fā)布基于150億參數(shù)的ESM2語言模型,實現(xiàn)全新的非天然蛋白質(zhì)設計。今年年初,加州伯克利的一家初創(chuàng)公司Profluent也稱采用類似ChatGPT的蛋白質(zhì)工程深度學習語言模型——Progen,首次實現(xiàn)了AI預測蛋白質(zhì)的合成。目前我們也自研了一款擴散模型TRDiffusion,設計多種多樣與天然蛋白質(zhì)截然不同的全新單鏈蛋白質(zhì)及復合體,目前已進入實驗驗證階段。

實際上,無論是中國也好,美國也好,最大的優(yōu)勢是大家都能利用蛋白質(zhì)設計技術,撬開生命科學的窗口。那么后續(xù)大家會更加重視生命科學的產(chǎn)業(yè)環(huán)境,無論是創(chuàng)新藥環(huán)境、環(huán)保能源環(huán)境、食品安全環(huán)境等等,都會跟上技術研發(fā)的速度。所以我覺得,無論是科技研發(fā)、產(chǎn)業(yè)落地、還是風險投資,我們一定要對未來的產(chǎn)業(yè)環(huán)境有足夠的信心和投入。

對于天壤而言,未來在算法升級,干濕實驗室搭建、平臺開發(fā)上都需要很大的投入;

其次,大家都知道,蛋白質(zhì)被稱為“生命的基石”,在已知的天然蛋白質(zhì)的背后,蘊藏著一個隱密而巨大的“蛋白質(zhì)礦山”。大家都想最先找到那塊金礦,這方面特別考驗團隊的算力、算法、人才隊伍,以及下游的產(chǎn)業(yè)合作。所以這是一個聯(lián)動的工作,研發(fā)做快了,后面也得跟著快。

因此,回到剛才講到的中國能否彎道超車的問題,我認為這是一個非常具有挑戰(zhàn)性的事情,但最根本的一點,我們不能從一直follow別人的技術,而是要從中國本土的產(chǎn)業(yè)轉(zhuǎn)化和人民需要上找問題,這才是我們彎道超車的機會。

周耀旗:我認為如今的ChatGPT有點像新一波AI熱潮。

2020年AlphaFold2出來的時候,大家對AI的興趣特別大,很多投資方出手,但很快發(fā)現(xiàn)AI公司并沒有那么快出效果,所以去年AI熱度又降了下來。如今ChatGPT讓AI再次回熱,但也有人發(fā)現(xiàn)它距離SOTA (state-of-the-art model,最先進的模型)還有一段距離,所以我估計大部人很快又會失望。

另一方面,從公司的角度來說,OpenAI公司成立于2015年,8年時間才產(chǎn)生了ChatGPT這樣的轟動項目。但國內(nèi)有多少家投資商和公司,有耐心等8年?

有人說,中國會發(fā)展出更好的ChatGPT,認為中文內(nèi)容的廣度、深度遠遠超過英文內(nèi)容。實際上,如今即使是中國人所發(fā)表的前沿知識,大部分都是以英文的方式呈現(xiàn)。英文知識庫擴大的速度很快,而中文很慢。因此,只有把中英知識全部結(jié)合起來,才能充分利用全人類的積累的知識。

舉個例子,為什么谷歌搜索占據(jù)世界第一,國內(nèi)搜索公司的回答準確性卻很低,甚至它的應用市場只縮在中國?

這是非?,F(xiàn)實的問題,主要原因是因為很多國內(nèi)公司沒有胸懷世界的前景觀,認為專精于中國知識庫就夠了。那么,借助ChatGPT的熱潮,我們到底能不能實現(xiàn)彎道超車?

從國內(nèi)生物醫(yī)藥的政策環(huán)境來看,某種意義上我們還存在一些阻礙,特別是國內(nèi)創(chuàng)新藥市場的帶量集采模式,類似于傳統(tǒng)的統(tǒng)購統(tǒng)銷模式,導致創(chuàng)新藥價格被壓得很低,上游科研、生產(chǎn)等環(huán)節(jié)都缺乏動力。

相比較而言,全球主要國家創(chuàng)新藥市場銷售額情況,美國占比在50%以上,其他發(fā)達國家中,歐洲五國占比約16%,日本韓國占比8%,中國僅占3%,與發(fā)達國家差距較大。

這也側(cè)面反映了美國在研發(fā),轉(zhuǎn)化,市場方面具備更深厚的經(jīng)驗積累,中國還有很多的學習機會。

先不說超車,今后我們要多久才能跟上美國步伐,現(xiàn)在還是很大的挑戰(zhàn)。另外,中國在芯片方面被限制,所以盡管最近很多開源方案可以復用,但大家如果想大幅度超過國際水平,我覺得還是有一點困難。

龔新奇:周教授給我們的建議,我們先能跟跑,再是超車。2021年5月,百圖生科計劃在蘇州工業(yè)園區(qū)創(chuàng)意產(chǎn)業(yè)園建立蘇州研發(fā)中心,百度創(chuàng)始人李彥宏到場,看來是想花很大心思想引領中國的“BT+IT”的發(fā)展。宋樂老師是百圖生科在AI生命科學方面的的領導者,你覺得,你們有什么樣的規(guī)劃可以助力中國來彎路超車?

宋樂:我可以從行業(yè)現(xiàn)狀分享一些看法。我觀察一些美國大藥企和美國AI公司在合作上釋放了一個機會窗口給中國。

怎么說呢?美國很多傳統(tǒng)大藥企,更加聚焦于用一些生物手段、實驗手段做藥物篩選,研究大多以生物學家、醫(yī)學家為主導。沿用這條舊有的的研發(fā)模式,他們非常成功,很賺錢,也花費了大量的實驗成本、試驗周期。但這些公司里的IT、AI團隊都很小,只有3~5個人,很難做出大規(guī)模預訓練模型,以及更復雜的結(jié)構(gòu)預測模型。為了促進干濕實驗結(jié)合,他們只好源源不斷地引入外部公司研發(fā)的AI模型。

但這類公司囿于人力、組織結(jié)構(gòu),很多情況下他們都是處于觀望和學習的階段。而國外還有一類公司,卻是強于AI,能夠孵化出諸多世界級的前沿AI生物技術。比如Deepmind、Meta、它們強于算法迭代,頻繁在蛋白質(zhì)結(jié)構(gòu)預測和生上吊打其他公司。

比如最近Meta基于大語言模型而推出的蛋白質(zhì)設計工具,就被在Meta任職多年的首席AI科學家Yann LeCun直言:效果驚人。因此國外生命科學界的研發(fā)落地模式,屬于“頂級AI公司+Biotech公司”強強聯(lián)手,不斷擬合兩者之間的gap。

但實際上,跨公司之間的合作矛盾無可避免,成果落地也存在拉扯。截至目前,國外諸多公司只是在算法層面給了我們很多希望,離真實的實驗驗證、技術落地、產(chǎn)業(yè)轉(zhuǎn)化,以及臨床應用,還存在很遠的距離。所以總體來說,美國兩種不同的研發(fā)公司,都存在各式不一的先天性缺陷,反而給中國公司提供了一個“時間窗口”。

比如,中國走的路線是將多學科的學者集中起來,在發(fā)展之初就強調(diào)“AI+實驗”的一體化模式。盡管這種模式在AI制藥的研發(fā)、臨床等前期階段耗時長,但只要跨過死亡谷,在硬科技產(chǎn)品商業(yè)化、面向市場的階段,或超速美國。

以AI制藥為例,當一個創(chuàng)新藥物進入臨床1-3期的時候,就已經(jīng)證明了自身市場價值。至于后端的臨床、市場能否產(chǎn)生效益,實際上與資本和政策支持密不可分。換句話說,百圖生科等公司的任務是,做好產(chǎn)業(yè)最前端的算法技術升級、藥物發(fā)現(xiàn)和篩選,從而進一步縮短藥物交付時間,如此才能真正惠及患者。

總體來說,我們是有一個時間窗口做到彎道超車,但不單是公司模式要革新,投資界也要樹立一種新的視角,學習和借鑒國外“AI+Biotech”的投資理念,如此才能推動產(chǎn)學研生態(tài)繁榮。

潘毅:我們所謂的要彎道超車是什么意思?我們說基于GPT的算法做出上層應用,實現(xiàn)市場繁榮。但實際上,GPT是最底層的技術,如果我們做出適用于生物知識問答的BioGPT,蛋白質(zhì)結(jié)構(gòu)設計的ProGPT,那么我們毫無疑問將彎道超車。

但能否超越國外的算法模型,我們是沒有底氣的,如果GPT4,5...出來了,甚至算法封鎖,國內(nèi)所有應用層的東西都無法進行。

所以很重要的一點,國內(nèi)多家互聯(lián)網(wǎng)公司模式,盡管做到最大,錢賺得最多,但是底層技術卻仍然落后和依賴“拿來”的東西。這種情況下,我們國家再怎么主導、地方再怎么支持、公司再怎么運作,都無法將底層技術沉淀下來。

問題出在哪里?是我們能不能沉下心來,花上幾年時間,投入巨大的資金,做出一個震驚世界的成果。

相比較而言,做出ChatGPT的OpenAI是怎么是做到的?

2015年,OpenAI成立,核心宗旨在于“實現(xiàn)安全的通用人工智能”,使其有益于人類。創(chuàng)立3年半后,OpenAI建立了新的公司架構(gòu),現(xiàn)在的OpenAI由營利性公司OpenAI LP和非營利性母公司OpenAI Inc組成。不過,為了不與最初的使命沖突,OpenAI規(guī)定,參與首輪融資的投資者最高可獲得100倍于初始投資的收益,超出的部分都將返還給非營利組織。

2019年7月22日,微軟一擲千金,投資OpenAI 10億美元,今年1月份,微軟宣布向OpenAI追加投資數(shù)十億美元,這也是人工智能領域史上規(guī)模最大的一筆投資。據(jù)說微軟還計劃向OpenAI投資高達100億美元,同時正在討論拿到OpenAI 75%的利潤股份,直到收回投資,之后微軟將獲得OpenAI 49%的股份。

這說明,OpenAI做好了一家實驗室的使命,投資公司也完成了自己最擅長的事情。

但遺憾的是,國內(nèi)卻沒有一個公司,愿意花上千億,組建百人團隊,賭上自己的十年。這才是真正的問題。所以我們現(xiàn)在要做的,是變革“產(chǎn)學研+投”的發(fā)展模式,計劃下我們怎么彎道超車。另外,還有一種方式做到彎道超車--做出專精某一領域的GPT。

現(xiàn)在我們在關注生物信息領域,可以做出與生物有關的GPT。等這一領域的的算力、算法模型、公司實力都愈發(fā)強大,就可以將其復用在其他領域。比如法律的LawGPT,經(jīng)管的FintechGPT,以及方方面面的專有工GPT。

舉個例子,當初我的一個碩士生用半年時間做了一個AI軟件,打敗了AlphaGo。很多人可能會覺得,“你竟然打敗了AlphaGo ,太了不起了”。但這是我們是參照別人已有的AI模型做的改進,技術的復現(xiàn)并不難。難的是,我們不是第一個想到做這樣模型的人。有時候,敢想才是創(chuàng)新的第一步。

許錦波:我覺得中國是有彎道超車的機會,因為“AIGCx生命科學”也不過兩三年的時間,大家都處于發(fā)展初期。

其次,中國市場空間更大,對生命科學產(chǎn)業(yè)也愈發(fā)重視,未來隨著數(shù)據(jù)、算法、算力的升級,將極大推動技術的發(fā)展以及產(chǎn)業(yè)轉(zhuǎn)化。

但回歸到一個核心問題,目前的生物數(shù)據(jù)能否足夠訓練出生物界的“ChatGPT”?

這當然要看你的要求有多高,好消息是現(xiàn)在蛋白質(zhì)領域的數(shù)據(jù)已經(jīng)非常多,比如蛋白質(zhì)序列數(shù)據(jù)已經(jīng)有幾十億條。我們也在通過濕實驗收集針對特定任務的數(shù)據(jù)。有了蛋白質(zhì)通用的序列數(shù)據(jù)、結(jié)構(gòu)數(shù)據(jù),加上特定任務的實驗數(shù)據(jù),我很期待未來能夠訓練出更好的AI蛋白質(zhì)生成模型。

所以現(xiàn)在的關鍵問題在于大家怎么做出更好的AI蛋白質(zhì)設計算法,如何把各種各樣的數(shù)據(jù)整合在一起發(fā)揮更有效的價值。

隨著高通量技術可以產(chǎn)生更多的實驗數(shù)據(jù),相信會促進AI算法越來越好。所以總體來說,我還是很看好中國市場。

圓桌策劃人吳彤,長期關注生物信息學,AI制藥,醫(yī)療機器人。近期ChatGPT爆火,歡迎添加作者微信(微信號:icedaguniang),互通有無。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

分享:
相關文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說