丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
醫(yī)療AI 正文
發(fā)私信給任平
發(fā)送

0

專訪上海市生物醫(yī)藥技術(shù)研究院戴文韜:生信,為何是生物醫(yī)學(xué)研究的「隱秘支柱」?

本文作者: 任平 2024-04-28 10:56
導(dǎo)語:當(dāng)一個青年學(xué)者,決定把「冷板凳」坐熱。

專訪上海市生物醫(yī)藥技術(shù)研究院戴文韜:生信,為何是生物醫(yī)學(xué)研究的「隱秘支柱」?把“冷板凳”坐熱了,是當(dāng)今生信人的一大喜悅。

在科研舞臺上,生物信息學(xué)(Bioinformatics)有著雜糅而成的名字,卻僅為角落里不起眼的存在。

其原因不外乎:“太新”“太交叉”“太應(yīng)用導(dǎo)向”,以上三者使得很多人認為這一學(xué)科不成體系,沒有理論根基。

此外,生物信息學(xué)易學(xué)難精,從業(yè)人員需要生物學(xué)知識的同時,還需掌握計算機科學(xué)和統(tǒng)計學(xué)等領(lǐng)域的技能,更要融匯數(shù)學(xué)物理的抽象邏輯思維,這種跨學(xué)科的要求又限制了該領(lǐng)域的普及速度。

時至今日,國內(nèi)生信人仍處在尷尬境地:主導(dǎo)合作機會較少、長期背負著“打雜”的標(biāo)簽。

但不可否認的是,生信早已融入整個生物醫(yī)學(xué)領(lǐng)域,并推動其研究方法和思維模式的持續(xù)變革,提供了高通量跨尺度多模態(tài)數(shù)據(jù)分析挖掘、藥物設(shè)計、疾病機理系統(tǒng)研究等核心功能,是連接生命科學(xué)與計算科學(xué)、推動精準(zhǔn)醫(yī)療和轉(zhuǎn)化醫(yī)學(xué)發(fā)展的關(guān)鍵學(xué)科。

默默無聞,卻堅韌地支撐著生物醫(yī)學(xué)研究的“骨架”。

與生信的實際效用相比,其聲名處于波粒二象性,時而代表生物醫(yī)學(xué)研究走向數(shù)字化智能化的未來,時而又是所謂“水文”泛濫的助力,這既代表著大家對這個新興學(xué)科的關(guān)注,也說明全面客觀了解這一學(xué)科的必要性。

近期,2024年度「第二屆生物信息與轉(zhuǎn)化醫(yī)學(xué)大會」落下帷幕。本屆大會以 “人工智能時代的轉(zhuǎn)化醫(yī)學(xué)”為主題,由北京攜云啟源科技有限公司承辦。

來自上海市生物醫(yī)藥技術(shù)研究院的戴文韜研究員,以其在多組學(xué)整合和計算結(jié)構(gòu)分析挖掘方法領(lǐng)域的深入研究,以及在腫瘤信息學(xué)和生物大分子藥物設(shè)計優(yōu)化方面的豐富應(yīng)用實踐經(jīng)驗,成為本次會議的組織者及分論壇主持人。

借此契機,雷峰網(wǎng)與戴文韜進行了深入對話,以一位畢業(yè)十年的基層年輕科研人員視角,探討了他為何堅守在生信的道路上,以及他眼中的生信前景。

實際上,在生物信息學(xué)尚處于起步階段時,戴文韜便投身其中,成為了國內(nèi)最早一批生物信息學(xué)博士生。

在中科院生物物理研究所讀博期間,他的研究課題聚焦于蛋白質(zhì)折疊與三維結(jié)構(gòu)預(yù)測。他表示,這一領(lǐng)域在當(dāng)時雖然小眾,卻為他日后的研究打下了堅實的基礎(chǔ),比如統(tǒng)計熱力學(xué)、分子模擬和分子力場的知識儲備,以及數(shù)據(jù)挖掘和算法開發(fā)的落地實踐經(jīng)驗均起源于那時。

2014年,在面臨職業(yè)選擇的十字路口,戴文韜放棄了轉(zhuǎn)行互聯(lián)網(wǎng)或游戲設(shè)計的機會。

他解釋道,盡管互聯(lián)網(wǎng)和游戲行業(yè)當(dāng)時發(fā)展迅速,對人才求賢若渴,并且同生物信息在技能上有一定的共通之處,但他最終還是選擇了繼續(xù)在科研的道路上深耕。

如今,戴文韜的科研軌跡已經(jīng)十分明晰。他提到,受到“科學(xué)四象限”中“巴斯德象限”的啟發(fā),他將“應(yīng)用需求引起的基礎(chǔ)研究”作為自己科研工作的主導(dǎo)方向。

至于生物信息學(xué)者能否成為科研的中心力量,他也給出了自己的回答:“正如社會分工的多樣性,每個領(lǐng)域都有其不可替代的價值,不同環(huán)節(jié)共同構(gòu)成完整的產(chǎn)業(yè)鏈。我的目標(biāo)只有一個,在自己從事的細分研究領(lǐng)域,做出特色成果,解決實際問題,融入產(chǎn)業(yè)價值鏈,給為他人帶來幫助?!?/p>

以下為對話(經(jīng)編輯):

 國內(nèi)最早一批生信博士生的出路

雷峰網(wǎng):請您分享下教育背景和研究經(jīng)歷,以及這些經(jīng)歷如何塑造了您的專業(yè)技能和研究視角。

戴文韜:我是2004年進入華東師范大學(xué)生命科學(xué)學(xué)院,主修生物技術(shù)。2008年,保送至中國科學(xué)院生物物理研究所碩博連讀,加入了蔣太交教授的課題組,專注于生物信息學(xué)的研究,并于6年后畢業(yè)獲得生物信息學(xué)博士學(xué)位。

實際上,在我讀博期間,國內(nèi)生物信息學(xué)還處于起步階段。因此我也算是國內(nèi)較早一批獲得生物信息學(xué)學(xué)位的博士畢業(yè)生。

在我的博士研究中,我專注于蛋白質(zhì)折疊與結(jié)構(gòu)預(yù)測的課題,這在當(dāng)時是一個相對經(jīng)典但小眾的領(lǐng)域。但幸運的是,在我個人研究的早期階段,就與許多老師和團隊建立了聯(lián)系,得到了很多前輩的指導(dǎo)幫助和鼓勵,例如中科院計算所卜東波老師在中關(guān)村開設(shè)的算法課程我也有過旁聽,而卜老師也參加了我的博士畢業(yè)答辯。

關(guān)于研究視角,由于我所面臨的課題非常具有挑戰(zhàn)性,需要嘗試各種方法。

最初,我們嘗試采用統(tǒng)計熱力學(xué)、分子模擬和分子力場的方法進行研究。然而,到了2010年,我意識到傳統(tǒng)計算方法的局限性,開始探索機器學(xué)習(xí)方法。

盡管神經(jīng)網(wǎng)絡(luò)當(dāng)時已經(jīng)開始流行,不過不同于CNN為代表的深度神經(jīng)網(wǎng)絡(luò),效果并不好;加上數(shù)據(jù)量和其它因素的限制,我們選擇了支持向量機(SVM)。

2012年CASP10比賽中,我們團隊利用SVM融合序列、結(jié)構(gòu)拓撲和統(tǒng)計分子力場特征,進行蛋白質(zhì)三維結(jié)構(gòu)模型選擇,形成的創(chuàng)新方法,與實驗室前期主鏈和側(cè)鏈預(yù)測方法共同構(gòu)成了一套相對獨立完整的技術(shù)體系,取得不錯表現(xiàn),后續(xù)也發(fā)表了相關(guān)論文。這些研究成果現(xiàn)在依然可以在網(wǎng)上找到,代表了蔣太交課題組在蛋白質(zhì)三維結(jié)構(gòu)預(yù)測領(lǐng)域的探索和貢獻。

所以,如果要說我的專業(yè)技能和研究視角是如何塑造的,可以說困境使然,讓我不斷在限制性條件下尋找可行的解決方案。

在那個時代,由于缺乏現(xiàn)成的數(shù)據(jù)庫和工具包,我們不得不從零開始構(gòu)造模板庫并編寫許多程序,嘗試了各種可能的方法。這一過程不僅讓我掌握了生物信息學(xué)領(lǐng)域所需的專業(yè)技能,還對物理、統(tǒng)計、計算化學(xué)、機器學(xué)習(xí)與數(shù)據(jù)挖掘等多個領(lǐng)域有了比較深入的認識和理解,后來我發(fā)現(xiàn)在跨領(lǐng)域合作和解決實際問題中,這些積累很有助益。 

雷峰網(wǎng):十年前,為什么加入“上海生物信息技術(shù)研究中心”?

戴文韜:2014年博士畢業(yè)時,我面臨幾個選擇。一是出國做博士后,這是一個比較傳統(tǒng)的選擇;二是轉(zhuǎn)行,比如進入互聯(lián)網(wǎng)行業(yè),包括游戲產(chǎn)業(yè)。

之于前者,當(dāng)時經(jīng)典的蛋白質(zhì)折疊和結(jié)構(gòu)預(yù)測領(lǐng)域在國內(nèi)相對沉寂,難以找到相關(guān)的就業(yè)崗位。如果想要繼續(xù)從事計算結(jié)構(gòu)生物學(xué)研究,唯一的選擇似乎是出國。

之于后者,當(dāng)時互聯(lián)網(wǎng)及游戲行業(yè)對機器學(xué)習(xí)和幾何三維建模相關(guān)的人才需求很大,尤其在游戲領(lǐng)域,進行從3D引擎到數(shù)值優(yōu)化等多種工作,可遷移使用此類專業(yè)知識。

此外還有一層原因是,互聯(lián)網(wǎng)及游戲行業(yè)的蓬勃發(fā)展,提供了非常有競爭力的薪酬待遇和大量工作機會,促使年輕科研人員轉(zhuǎn)行尋求發(fā)展機會。

盡管如此,我仍然希望能夠投身于科研工作,能夠做一些實際應(yīng)用,為人類帶來貢獻和幫助的研究。

這時,上海生物信息技術(shù)研究中心的腫瘤精準(zhǔn)醫(yī)療方向,以產(chǎn)業(yè)化研發(fā)為導(dǎo)向,包括PDX模型與多組學(xué)和計算結(jié)構(gòu)生物學(xué)相關(guān)研究和應(yīng)用,對我而言符合興趣,從而具有了很大吸引力。

在這樣的環(huán)境中,為PDX(患者來源的異種移植模型)項目提供數(shù)據(jù)管理和分析挖掘信息化解決方案,本身就是一種典型的應(yīng)用基礎(chǔ)研究,加上該中心是當(dāng)時中國首家以生物信息為主業(yè)的獨立法人研究機構(gòu),李亦學(xué)老師擔(dān)任該中心的主任,李園園老師擔(dān)任課題組長,有這樣優(yōu)秀的前輩們推動,我便堅定了加入的決心。

我們當(dāng)時希望將生物信息學(xué),特別是多組學(xué)相關(guān)技術(shù)與PDX模型結(jié)合起來,探索腫瘤精準(zhǔn)醫(yī)療的可能性。

后來,上海生物信息技術(shù)研究中心、國家人類基因組南方研究中心、上海市計劃生育科學(xué)研究所,三家單位共同組建了“上海市生物醫(yī)藥技術(shù)研究院”,其核心職能是承擔(dān)人口健康與生物醫(yī)藥領(lǐng)域關(guān)鍵共性技術(shù)、顛覆性技術(shù)和重大產(chǎn)品研發(fā)、應(yīng)用轉(zhuǎn)化與技術(shù)服務(wù)。同時,因為腫瘤精準(zhǔn)醫(yī)療,在領(lǐng)導(dǎo)帶領(lǐng)下我便與上海交通大學(xué)附屬瑞金醫(yī)院(尤其是消化外科研究所),以及上海市胃腫瘤實驗室建立并保持了密切合作。

雷峰網(wǎng):您目前在上海市生物醫(yī)藥技術(shù)研究院的團隊規(guī)模如何?

戴文韜:我們是上海市生物醫(yī)藥技術(shù)研究院組學(xué)研究與應(yīng)用課題組,屬于上海市疾病與健康基因組學(xué)重點實驗室,課題組長是李園園老師,我作為聯(lián)合課題組組長,團隊規(guī)模目前在十人左右,比較精干。感謝上海生研院和李園園老師給了我很大的科研自由度,這對于從事探索性創(chuàng)新的研究人員非常寶貴。

李園園老師自2003年以來就一直在系統(tǒng)生物學(xué)領(lǐng)域開展研究,研究方向為復(fù)雜疾病相關(guān)的生物學(xué)系統(tǒng)大數(shù)據(jù)整合挖掘。主要從事以識別驅(qū)動因素及其信息傳遞、交互機制為目的的跨尺度、多模態(tài)、多層次數(shù)據(jù)整合挖掘方法開發(fā),比如開發(fā)DCGL等一系列有價值的計算工具;應(yīng)用于腫瘤、自身免疫病等復(fù)雜系統(tǒng)疾病的關(guān)鍵調(diào)控因子、調(diào)控模塊、失調(diào)事件挖掘,跨尺度機制探索,機制解釋性標(biāo)志物及潛在藥物靶標(biāo)識別,以及疾病關(guān)聯(lián)網(wǎng)絡(luò)研究,取得許多成果。她領(lǐng)導(dǎo)項目團隊非常有創(chuàng)造性地將一些經(jīng)典重要的比對算法,結(jié)合基因組數(shù)據(jù)應(yīng)用于食源性致病菌的檢測,成果已應(yīng)用于旺旺集團的實際生產(chǎn)。

我本人領(lǐng)導(dǎo)的小組主要針對診斷標(biāo)志物和藥物研發(fā)場景中的產(chǎn)業(yè)實際需求,發(fā)展轉(zhuǎn)錄代謝調(diào)控相關(guān)時空多組學(xué)分析技術(shù)配套數(shù)據(jù)庫和方法,研發(fā)生物大分子藥物相關(guān)設(shè)計優(yōu)化計算方法,并應(yīng)用于腫瘤精準(zhǔn)醫(yī)療相關(guān)診斷標(biāo)志物和藥物研發(fā)的轉(zhuǎn)化實踐。

因此,總的來說,有效支持轉(zhuǎn)化醫(yī)學(xué)有應(yīng)用價值的生物信息研究,將我們課題組凝聚在一起;我們對科研工作和成果轉(zhuǎn)化的期望是,能夠在產(chǎn)業(yè)鏈中打造出具有特色和價值的一環(huán)。

 如何把“腫瘤轉(zhuǎn)錄代謝多組學(xué)挖掘及應(yīng)用”做出特色?

雷峰網(wǎng):注意到您當(dāng)前的研究方向是轉(zhuǎn)錄代謝調(diào)控多組學(xué)及應(yīng)用。其中包含兩塊,一是開發(fā)數(shù)據(jù)庫和計算工具,二是診斷標(biāo)志物和藥物研發(fā)。能詳細介紹下嗎?

戴文韜:追溯起來,隨著人類基因組計劃的完成,研究重點相對集中在基因組、甲基化、轉(zhuǎn)錄組等基于NGS的組學(xué)領(lǐng)域。近年來,隨著質(zhì)譜技術(shù)的發(fā)展,蛋白組、代謝組、脂質(zhì)組及相關(guān)單細胞空間多組學(xué)研究變得越來越受關(guān)注。

近五年,我在組學(xué)領(lǐng)域的研究主要集中在適用于轉(zhuǎn)錄代謝調(diào)控的計算分析領(lǐng)域,特別是脂質(zhì)代謝和空間代謝多組學(xué)相關(guān)整合分析,同時也探索了數(shù)字病理與分子組學(xué)的跨尺度多模態(tài)學(xué)習(xí)建模,上述工作主要應(yīng)用于腫瘤及其微環(huán)境研究。

這些研究工作的共性是,針對場景需求和數(shù)據(jù)特點,靈活使用了多樣化的機器學(xué)習(xí)手段,并得益于跨學(xué)科合作者的支持,才能順利進行。例如,北京攜云啟源,吳謙副研究員等合作伙伴,在脂質(zhì)組研究領(lǐng)域給予我大力支持。跨尺度多模態(tài)學(xué)習(xí)建模得益于上海交通大學(xué)醫(yī)學(xué)院附屬瑞金醫(yī)院劉炳亞教授和上海交通大學(xué)計算機系楊旸教授支持,同時劉老師團隊還對我們挖掘到的計算結(jié)果進行了一系列實驗驗證,取得了有價值的發(fā)現(xiàn)。中國醫(yī)學(xué)科學(xué)院藥物研究所賀玖明教授、齊魯工業(yè)大學(xué)(山東省科學(xué)院)孫成龍教授,他們在空間代謝組學(xué)檢測方法領(lǐng)域的工作非常出色,同他們合作時學(xué)習(xí)收獲很大。

我們很多方法策略是為了解決診斷標(biāo)志物和藥物研發(fā)中的實際問題而發(fā)展,后續(xù)也在應(yīng)用中取得了不錯的效果。因此,對于我的研究,產(chǎn)業(yè)轉(zhuǎn)化應(yīng)用非常重要,既是下游工作場景,也是上游需求活水。

在診斷標(biāo)志物研發(fā)方面,我們基于組學(xué)領(lǐng)域的積累開發(fā)了一些基于差異調(diào)控識別具有機制解釋力診斷標(biāo)志物的計算方法,用于腫瘤伴隨診斷標(biāo)志物研發(fā)效果不錯,申請獲得了相關(guān)知識產(chǎn)權(quán),包括專利和軟件著作權(quán)。部分成果同企業(yè)合作緊密,進行了轉(zhuǎn)化探索。然而,由于大環(huán)境的影響,診斷標(biāo)志物的成果轉(zhuǎn)化目前并不算好時機。不過,我們的相關(guān)研究仍在繼續(xù),相信未來終會改觀。

在藥物開發(fā)領(lǐng)域,我有幸參與了一些抗體和特殊治療性蛋白質(zhì)藥物的結(jié)構(gòu)設(shè)計與改造優(yōu)化工作。針對研發(fā)場景中的一系列實際問題,比如調(diào)節(jié)親和力、消除非特異性脫靶、克服CMC成藥性困難等。我不僅利用專屬序列比對、深度學(xué)習(xí)、結(jié)構(gòu)模擬等計算方法挖掘序列和結(jié)構(gòu)信息,而且積極通過轉(zhuǎn)錄、蛋白、代謝等高通量組學(xué)手段獲取有效信息;更充分借助生物、化學(xué)理論、免疫信息和蛋白質(zhì)工程領(lǐng)域的經(jīng)驗知識及工具,通過視覺審查等人工手段實現(xiàn)創(chuàng)造性的決策優(yōu)化,支持實驗研究人員高效解決了相關(guān)問題。“人機結(jié)合迭代,知識數(shù)據(jù)融合”彌補了高質(zhì)量標(biāo)注數(shù)據(jù)不足和通用計算模型在具體場景不適用的短板,我們的策略方法已在scFv、TCR、VHH、T細胞抗原表位肽等多種形式的蛋白質(zhì)藥物研發(fā)中有過成功案例。雖然還沒有找到理論上的通用方案,但算是工程上有意義的實踐,達成了降本增效的目的。

雷峰網(wǎng):您和團隊也在做數(shù)據(jù)庫嗎?

戴文韜:是的,高質(zhì)量數(shù)據(jù)是計算方法的重要基石。我們?nèi)ツ昱c攜云啟源合作發(fā)表了一個名為“人類脂代謝相關(guān)脂質(zhì)和蛋白數(shù)據(jù)庫(DBLiPro)”的數(shù)據(jù)庫。

這是一個細分的專業(yè)領(lǐng)域數(shù)據(jù)庫,系統(tǒng)地收錄了與脂質(zhì)代謝相關(guān)的各種蛋白質(zhì),并提供了多種特色高質(zhì)量標(biāo)注信息,以及適合以脂質(zhì)為中心多組學(xué)整合挖掘分析工具。

我的工作往往專注于非常專業(yè)的小領(lǐng)域,這些細分領(lǐng)域往往是研發(fā)鏈條中缺少的某個細分環(huán)節(jié),我們的目標(biāo)就是補充這一環(huán)。 

雷峰網(wǎng):您在進行腫瘤多組學(xué)數(shù)據(jù)整合和分析時,采用了哪些方法和技術(shù),遇到過哪些挑戰(zhàn)?

戴文韜:在進行腫瘤多組學(xué)整合分析時,我們團隊采用了一種知識和數(shù)據(jù)融合驅(qū)動策略,靈活使用圖神經(jīng)網(wǎng)絡(luò)、隨機森林、遺傳算法、多種統(tǒng)計回歸等,研發(fā)適用于多組學(xué)數(shù)據(jù)挖掘和機制解釋性標(biāo)志物發(fā)現(xiàn)的差異調(diào)控分析方法。

目前該方法用于胃腸道腫瘤為代表的復(fù)雜疾病研究,識別具有機制解釋力的關(guān)鍵調(diào)控因子和關(guān)系,助力發(fā)現(xiàn)潛在藥靶和標(biāo)志物;得益于實驗合作伙伴,比如瑞金醫(yī)院劉炳亞教授團隊,我們共同驗證了計算發(fā)現(xiàn)的一系列新的胃癌關(guān)鍵調(diào)控基因和作用關(guān)系。上述實踐推進轉(zhuǎn)化醫(yī)學(xué)產(chǎn)生新知識的同時,驗證了我們計算方法的有效性。

在這個過程中,我面臨很多挑戰(zhàn),同時發(fā)現(xiàn)大數(shù)據(jù)和人工智能技術(shù)在生物信息學(xué)中的應(yīng)用和潛力是巨大的,不過需要同場景需求和實驗工作者密切合作,多角度相互促進,避免自我循環(huán)論證。

因為過去很多時候,生物信息學(xué)的研究可能會讓人覺得“做了肯定好,不做也沒什么”,這顯得有些尷尬。但是,高通量多組學(xué)技術(shù)天然需要大數(shù)據(jù)和AI的加持,會推動生物醫(yī)藥和生命科學(xué)進入數(shù)字化智能化時代。

在這一過程中,我認為最大的挑戰(zhàn)是,我們不能僅僅滿足于生物信息學(xué)的計算分析和挖掘,而應(yīng)該充分了解待挖掘領(lǐng)域的知識和需求,同具體領(lǐng)域?qū)<乙黄鹜苿友芯砍晒膶嶒烌炞C,并形成正向的反饋迭代。畢竟,生命科學(xué)和生物醫(yī)藥領(lǐng)域本質(zhì)上是實驗科學(xué)。

雷峰網(wǎng):在轉(zhuǎn)錄代謝調(diào)控領(lǐng)域,除了您所在的團隊,國內(nèi)外還有哪些團隊在這一領(lǐng)域做出了杰出的工作?

戴文韜:在代謝領(lǐng)域,大家可能首先會想到上海交大醫(yī)學(xué)院附屬瑞金醫(yī)院的寧光院士、武漢大學(xué)的宋保亮院士、廈門大學(xué)的林圣彩院士、大連化物所的許國旺教授等知名科學(xué)家。

我們的研究方向是腫瘤的轉(zhuǎn)錄代謝調(diào)控,更準(zhǔn)確地說是基于高通量組學(xué)的轉(zhuǎn)錄代謝調(diào)控系統(tǒng)生物學(xué),專注于腫瘤轉(zhuǎn)錄代謝調(diào)控的高通量組學(xué)分析方法研發(fā)和應(yīng)用。相對于經(jīng)典代謝領(lǐng)域,我們屬于系統(tǒng)生物學(xué)的代謝多組學(xué),是相對邊緣的新興學(xué)科。中科院北京生命科學(xué)研究院趙方慶研究員、加拿大麥吉爾大學(xué)夏建國教授、上海交通大學(xué)王卓研究員等科研人員,從不同角度通過出色工作推動了代謝多組學(xué)數(shù)據(jù)分析方法,大家共同推動該領(lǐng)域更好地發(fā)展,并服務(wù)于生物醫(yī)學(xué)。

因為我們團隊規(guī)模較小,所以希望能夠做出特色工作,與其他團隊形成互補的合作關(guān)系,通過關(guān)注應(yīng)用的成果,助力推進基礎(chǔ)研究前沿成果的產(chǎn)業(yè)轉(zhuǎn)化。 

雷峰網(wǎng)(公眾號:雷峰網(wǎng)):后續(xù)您和團隊在前沿研究和成果轉(zhuǎn)化上,有哪些規(guī)劃?

戴文韜:我希望能夠在未來幾年,圍繞自己的研究領(lǐng)域,做一些場景導(dǎo)向的、有特色應(yīng)用價值的成果。

我希望針對未滿足的生物醫(yī)藥關(guān)鍵共性場景需求,融合領(lǐng)域知識和高質(zhì)量數(shù)據(jù),研發(fā)轉(zhuǎn)錄代謝多組學(xué)分析和生物大分子藥物計算設(shè)計優(yōu)化方法,應(yīng)用于診斷標(biāo)志物和藥物的發(fā)現(xiàn),特別是新型生物大分子藥物的發(fā)現(xiàn)。

代謝組學(xué)不僅可以用于標(biāo)志物的發(fā)現(xiàn),還可以幫助解釋藥理作用,包括藥物的耐藥性、敏感性以及ADMET特性(吸收、分布、代謝、排泄、毒性)。生物大分子藥物,因其自身特點,在安全性、有效性、可成藥性等方面有著完全不同于小分子化學(xué)藥物的需求,這都對計算設(shè)計優(yōu)化提出了獨特訴求。

個人認為AI通用大模型是人類的追求,但在我所從事的應(yīng)用基礎(chǔ)和轉(zhuǎn)化研究領(lǐng)域,應(yīng)該尊重具體領(lǐng)域的已有積累和客觀規(guī)律,循序漸進,小步快跑推進落地,比如云計算和邊緣計算不是替代關(guān)系,而是互補增效關(guān)系。我希望將主要精力集中在細分領(lǐng)域上,尋找好的合作伙伴,共同推進成果轉(zhuǎn)化。

當(dāng)然,每個人內(nèi)心都有一股推動產(chǎn)業(yè)鏈發(fā)展的沖動,想要將一個產(chǎn)品從實驗室原型推向最終產(chǎn)品。但在實際工作中,我始終堅持需要克制這種沖動。

因為術(shù)業(yè)有專攻,在成果轉(zhuǎn)化方面,產(chǎn)業(yè)鏈?zhǔn)呛荛L的一環(huán),確實有杰出的人才能夠全面掌握,但坦白說,我目前并不具備這樣的能力。我只是一個年輕的基層科研人員,所以我對自己的定位是專注于產(chǎn)業(yè)鏈中的特定環(huán)節(jié)。

我的目標(biāo)是在產(chǎn)業(yè)鏈的特定環(huán)節(jié)上做出特色,創(chuàng)造出有價值的工作,成為產(chǎn)業(yè)鏈中不可或缺的一部分。至少,我希望能夠在這里打造出具有特色且對他人有幫助的一部分。

應(yīng)用VS理論、合適VS先進

雷峰網(wǎng):如果抽象來說您當(dāng)前的工作,您和團隊是否有一套科研觀念,以及您是如何在前沿基礎(chǔ)研究與技術(shù)轉(zhuǎn)化之間架起橋梁的?

戴文韜:我可以用“科學(xué)四象限”來回答這個問題。 

專訪上海市生物醫(yī)藥技術(shù)研究院戴文韜:生信,為何是生物醫(yī)學(xué)研究的「隱秘支柱」?

這個圖展示了四個象限,每個象限代表了一種研究模式??v向的兩端分別越接近理論、應(yīng)用;橫向的兩端分別越接近知識的發(fā)現(xiàn)、數(shù)據(jù)的積累(即使我們可能無法直接發(fā)現(xiàn)新知識,但我們可以有效地積累數(shù)據(jù))。

這就產(chǎn)生了區(qū)別:

第一象限側(cè)重于理論和知識發(fā)現(xiàn),這是典型的基礎(chǔ)研究,有時被稱為波爾象限或牛頓象限。

第二象限側(cè)重于理論和數(shù)據(jù)積累,被稱為整合經(jīng)驗或技能訓(xùn)練的象限,有時被稱為第谷象限或皮特森象限。

第谷是天文學(xué)家,他一生完成了當(dāng)時最完整的天文觀測資料,但他堅持地心說,因此沒有取得重大發(fā)現(xiàn)。而繼承了他所有數(shù)據(jù)資料的是開普勒,開普勒從這些資料中推斷出了行星運動,命名為開普勒三定律,這逐漸過渡到了牛頓的萬有引力定律。這就是第谷象限和牛頓象限之間的關(guān)系。

第三象限側(cè)重于經(jīng)驗、數(shù)據(jù)積累,屬于純應(yīng)用研究,典型的代表是愛迪生。他通過大量實驗找到了適合制作電燈的材料。例如,為什么白熾燈的發(fā)展會用到鎢絲,研究者可能并不關(guān)心其性能為何優(yōu)越,只知道它好用就足夠了,這是一個純應(yīng)用的象限。

第四象限側(cè)重于應(yīng)用引起的基礎(chǔ)研究,代表人物是巴斯德。

巴斯德在防止紅酒和牛奶變質(zhì)的過程中發(fā)明了巴氏消毒法,但他同時也做出了重要的科學(xué)發(fā)現(xiàn)——微生物的存在。這一過程是典型的從應(yīng)用需求出發(fā),為了更好地滿足這一需求,進而推動了知識的進步。

實際上,我從上海生物信息技術(shù)研究中心開始,個人研究方向就已經(jīng)進入了巴斯德象限,而我現(xiàn)在參與到“上海市生物醫(yī)藥技術(shù)研究院”中更是如此。

如果用一句話來概括我的研究重點,就是專注于轉(zhuǎn)錄代謝調(diào)控相關(guān)的時空多組學(xué)和生物大分子計算體系的研發(fā)及應(yīng)用。

這不是純粹的理論研究,強調(diào)以應(yīng)用需求為出發(fā)點,旨在滿足應(yīng)用目的,但同時也會帶動新知識的發(fā)現(xiàn),進而指導(dǎo)形成更有效的工程化解決方案,這其實是一個知識發(fā)現(xiàn)落地反饋迭代優(yōu)化的閉環(huán)。

因此,我對串聯(lián)前沿基礎(chǔ)研究與技術(shù)轉(zhuǎn)化的理解是:

首先要場景導(dǎo)向,明確在特定場景下我們需要什么;

其次以產(chǎn)業(yè)場景為導(dǎo)向,針對產(chǎn)業(yè)需求,將前沿基礎(chǔ)研究中的合適理論和技術(shù)應(yīng)用到問題的解決中。

合適的解決方案并不意味著它一定是最新或最先進的,但它必須是最適合當(dāng)前條件的,因為時間和資源都是有限的。

更近一步說,我對“智能”的理解在于,無論是人工智能還是其他形式的智能,其重要性在于能夠在有限的資源和時間內(nèi),為問題提供一個相對可行的解決方案。最好是能夠從這個解決方案中進行理論升級,即從應(yīng)用到知識的轉(zhuǎn)化。

雷峰網(wǎng):如果將人工智能的發(fā)展分為幾個里程碑,比如統(tǒng)計學(xué)習(xí)、機器學(xué)習(xí)、深度學(xué)習(xí)等。那么如今的大語言模型對于您目前從事的腫瘤轉(zhuǎn)錄代謝調(diào)控和生物大分子藥物計算研究有何影響?

戴文韜:在進行空間多模態(tài)數(shù)據(jù)分析時,深度學(xué)習(xí)在圖像處理方面確實帶來了新的突破。未來,對于文本相關(guān)的多模態(tài)數(shù)據(jù)分析,大語言模型將會發(fā)揮重要作用。

但大語言模型并非萬能,仍需要與數(shù)據(jù)相適配。

比如,在組學(xué)數(shù)據(jù)挖掘中,盡管我們嘗試利用了一些領(lǐng)域知識,但可用的高質(zhì)量數(shù)據(jù)仍然較少,單純依靠算法和數(shù)據(jù)驅(qū)動難以解決問題。

再比如,在生物大分子藥物研究過程中,具體藥物研發(fā)管線和案例,往往沒有足夠的高質(zhì)量標(biāo)注數(shù)據(jù)來進行訓(xùn)練,通用模型難以落地應(yīng)用。

盡管現(xiàn)在大家也在討論零樣本(zero-shot)和少樣本(few-shot)學(xué)習(xí)方法,但面對梯度爆炸等問題時,遺傳算法等技術(shù),在很多時候仍然是一個很有效的解決方案。

因此我的觀點是,研究始終應(yīng)該是場景和需求導(dǎo)向。

過去學(xué)術(shù)研究有個常見問題是“拿著錘子找釘子”,而沒有考慮到可能需要發(fā)展其他工具。

但事實上,在工業(yè)軟件中,小模型仍然占據(jù)主流,這類似于前幾年大家都在討論云計算,但最終發(fā)現(xiàn)僅有云計算是不夠的,還需要邊緣計算。

因此,對于大數(shù)據(jù)和人工智能,我認為在解決實際問題時,找到最合適的解決方法是最重要的。我們不應(yīng)該只是追隨潮流,而應(yīng)該針對具體的應(yīng)用場景和需求,找到最合適的解決方案。

當(dāng)然,我非常積極地擁抱大型語言模型。實際上,我每天都會使用國內(nèi)外的多種大型語言模型,并在研究中已經(jīng)在有所應(yīng)用。我也會告訴我的學(xué)生,在大語言模型技術(shù)領(lǐng)域,我們站在同一條起跑線上。不過,以大語言模型為代表的AI技術(shù),已形成資源需求巨大,產(chǎn)業(yè)界主導(dǎo)的趨勢,這對于更自由靈活的學(xué)術(shù)和技術(shù)團隊在該領(lǐng)域的研究和應(yīng)用構(gòu)成巨大挑戰(zhàn),長遠看會制約技術(shù)生態(tài)多樣性和實際落地,個人認為該趨勢和挑戰(zhàn)非常值得重視。

歸納一句話,在解決具體問題時,我認為“不管黑貓白貓,能抓到老鼠的就是好貓”。

雷峰網(wǎng):這次在大會上,有哪些人的報告讓你特別感興趣?

戴文韜:我對這次會議中的三個主題非常感興趣。

首先是腫瘤多組學(xué)整合研究與轉(zhuǎn)化應(yīng)用。

其次是單細胞時空多組學(xué)的應(yīng)用越來越廣泛。在這兩部分中,可以看到知識庫和數(shù)據(jù)庫發(fā)揮了重要作用。

第三部分是臨床隊列與轉(zhuǎn)化醫(yī)學(xué),這涉及到大數(shù)據(jù)的采集、管理和應(yīng)用。

簡而言之,這三個主題可以歸納為腫瘤多組學(xué)整合研究與轉(zhuǎn)化應(yīng)用、單細胞多組學(xué),以及支持這兩個領(lǐng)域的數(shù)據(jù)庫,進而是更為基礎(chǔ)源頭的自然人群和臨床大隊列。

在會議上,我的感受是生物醫(yī)藥正在迅速進入一個真正的大數(shù)據(jù)時代,包括隊列研究和組學(xué)研究,也正在從過去的靜態(tài)單點式研究進入到時空多組學(xué)的時代。

在這次會議上,公開場合的報告中還沒有看到很多關(guān)于大語言模型的工作,但在會議交流中,大家都非常關(guān)注這一領(lǐng)域。我認為在未來兩年,這類工作會逐漸增多。大家已經(jīng)廣泛地將大型語言模型作為日常助手使用。 

生信人迎來春天了嗎?

雷峰網(wǎng):您如何看待當(dāng)前中國生物信息學(xué)和轉(zhuǎn)化醫(yī)學(xué)領(lǐng)域的科研環(huán)境?您能否根據(jù)自己的經(jīng)驗,談?wù)勅绾瓮苿涌鐚W(xué)科領(lǐng)域合作,以及對于年輕人的建議?

戴文韜:關(guān)于生物信息學(xué)和轉(zhuǎn)化醫(yī)學(xué)領(lǐng)域的科研環(huán)境,每個人可能都有自己的感受。

我自己自2008年進入生物信息學(xué)領(lǐng)域,從早期開始就一直在這個環(huán)境中成長。生物信息學(xué)至今尚未沒有自己的一級學(xué)會,但在生物醫(yī)學(xué)領(lǐng)域中,它確實是一個重要的輔助學(xué)科。就像社會分工一樣,每個領(lǐng)域都有其獨特的價值。我們要做好自己的本職工作,為大環(huán)境做出貢獻。

隨著時間的推移,相比當(dāng)年,生信這個領(lǐng)域已經(jīng)得到了更多的認可。

在當(dāng)下時代,有組織的科研得到了大力提倡,這是科研范式變化的結(jié)果。在有組織科研和當(dāng)前科研環(huán)境下,自由探索型團隊越來越感受到,自由并非沒有代價。但我認為學(xué)術(shù)自由仍然是最寶貴的,對于細分特色和非共識研究領(lǐng)域尤其如此;上海市生物醫(yī)藥技術(shù)研究院和李園園老師為我提供了相對自由的學(xué)術(shù)環(huán)境,對于部分科研人員這是很難得的事情。從生態(tài)進化角度,多樣性是應(yīng)對不確定性的最佳手段[WD6] ,在當(dāng)前這個大變革的時代,個人認為這個觀點很有價值。

在跨學(xué)科合作方面,我的經(jīng)驗是首先要彼此尊重,然后是在尊重和信任的基礎(chǔ)上實現(xiàn)互補,這樣才能從彼此那里學(xué)到新的東西,有助于合作各方的利益。

我與物理、化學(xué)、藥學(xué)、醫(yī)學(xué)等不同領(lǐng)域的專家都有合作。在合作過程中,尊重不僅體現(xiàn)在對合作者的尊重,更重要的是尊重對方學(xué)科的研究歷史、脈絡(luò)和研究范式。

跨學(xué)科合作就是尋求互補共贏,比如我與生物物理領(lǐng)域的呂軍鴻教授、分析化學(xué)領(lǐng)域的賀玖明賀和孫成龍教授,以及醫(yī)學(xué)領(lǐng)域的劉炳亞教授等都有合作,我自己在合作中學(xué)習(xí)收獲很多,非常感謝他們。這種合作最重要的是,一開始的利益和動機要純正,互相信任,實現(xiàn)共贏,這樣合作才能長久。

至于對年輕人的建議,我聽了您的話后突然意識到,盡管我自認為還是年輕人,但我博士畢業(yè)已經(jīng)十年了。對于年輕人,我的建議是,十年后你在學(xué)校學(xué)到的知識可能都已過時,與時俱進是關(guān)鍵。

同時,雖然許多具體的技術(shù)模式和技能可能已經(jīng)發(fā)生了變化,但我認為十年來思考訓(xùn)練凝結(jié)成的科學(xué)思想和意識,發(fā)現(xiàn)問題、定義問題、解決問題的能力是不會過時的。

雷峰網(wǎng):多年前人們對跨學(xué)科并不感興趣,認為只有本領(lǐng)域做不下去的人才會選擇跨學(xué)科。但現(xiàn)在,隨著 AI 制藥的發(fā)展,以及像英偉達這樣的公司在芯片算力方面的推動,生物信息學(xué)變得非常有用。您自己的感受是怎樣的?

戴文韜:對,這是一個巨大的變化。一批生信領(lǐng)域的前輩從冷板凳走到聚光燈下,他們的感受頗深。

特別是周耀旗老師,我是他博客的忠實讀者。當(dāng)年在生物物理所讀書時,每年都要進行考評。有老師直接問我們生物信息專業(yè)的學(xué)生,你們整天不做實驗,就只是對著計算機敲敲打打,對學(xué)科的意義和價值如何。

當(dāng)時我們只能尷尬地笑笑,弱弱的表示我們期待未來取得進展。但現(xiàn)在,經(jīng)過了大約十年的時間,再也沒有人這樣說了。

更重要的是,這個學(xué)科的從業(yè)者大多都還活著,再次證明生信是一個非常年輕和新興而充滿未來的學(xué)科。

我可以再舉一個例子,關(guān)于我之前提到的科學(xué)四象限。

我的學(xué)術(shù)研究起步于生物物理研究所的蛋白質(zhì)折疊與結(jié)構(gòu)預(yù)測。實際上,我本科時加入實驗室和進行畢業(yè)論文研究時,最初的目標(biāo)是計算神經(jīng)生物學(xué),后來發(fā)現(xiàn)生物信息學(xué)的數(shù)據(jù)積累更為充分,加上其它原因,我就走上了現(xiàn)在的研究道路。

但說實話,無論是計算神經(jīng),還是生物信息,在當(dāng)時都是一些非常冷門和小眾的領(lǐng)域,但現(xiàn)在這兩個方向相關(guān)的腦機接口與神經(jīng)解碼、類腦智能,生物信息、精準(zhǔn)醫(yī)療、CADD/AIDD等領(lǐng)域均已成為不可忽視的熱點研究方向。

所以說,如果要給現(xiàn)在的年輕人提建議,那就是一句話:首先要選擇自己感興趣且擅長的領(lǐng)域,但不一定要選擇當(dāng)前最熱門的方向。

GPT-2.0等模型在技術(shù)圈嶄露頭角時,雖然大眾不知道,但從專業(yè)角度判斷,新的理論已經(jīng)構(gòu)建完成,后面需要工程上的突破和大量的資源。在這種時刻,除非你的目標(biāo)是進入產(chǎn)業(yè)界,否則作為一個年輕的學(xué)術(shù)人員貿(mào)然進入自然語言學(xué)習(xí)領(lǐng)域的很多方向可能都會很危險。

雷峰網(wǎng):您的分享非常有啟發(fā)性,包括談到一些從事生物信息學(xué)的人還能轉(zhuǎn)行做游戲設(shè)計,那么這兩者還有哪些關(guān)聯(lián)?

戴文韜:在當(dāng)時的環(huán)境下,生物信息學(xué)的就業(yè)非常困難,大家都在尋找出路,人總是要先吃飯。

事實上,游戲行業(yè)的發(fā)展對技術(shù)進步,尤其是GPU技術(shù)和強化學(xué)習(xí)的發(fā)展起到了推動作用。這種技術(shù)的發(fā)展對生物信息學(xué)同樣有益,因為生物信息學(xué)中的許多計算密集型任務(wù),如三維結(jié)構(gòu)模擬和數(shù)據(jù)分析,都需要強大的幾何圖形計算能力;另外游戲行業(yè)對合成數(shù)據(jù)技術(shù)的推動,對許多領(lǐng)域都非常重要。

回想我在生物物理所學(xué)習(xí)時,我最早接觸到了IBM推出的異構(gòu)計算和多線程處理技術(shù)。這種技術(shù)在當(dāng)時是非常先進的,但同時也帶來了編程上的挑戰(zhàn),因為它要求開發(fā)者自己管理浮點運算和字節(jié)存儲。

隨著時間的推移,像英偉達、谷歌、Meta等公司提供的現(xiàn)代編程庫和工具,極大地降低了異構(gòu)計算和并行化的工程化門檻。這些工具使得非專業(yè)程序員也能夠更容易地進行開發(fā)和創(chuàng)新。

有時我問00后學(xué)生,他們甚至不知道IBM是什么,這讓我感到驚訝;想來這是時代在變化,江山代有才人出的真實寫照。

所以說,在合適的時機做合適的事情,非常重要。如果無法確定合適的時機,或者沒有合適的條件,我寧愿不燒熱灶,不追風(fēng)口,選擇一個自己感興趣的小眾冷門領(lǐng)域,盡管這很有可能失敗,但也有機會做出自己的特色。

總的來說,技術(shù)的進步為各個領(lǐng)域提供了打破藩籬,相互促進的機會,比如生物信息和游戲;而個人則需要根據(jù)時代的變化和自身的興趣,爭取一專多能,做出合適的職業(yè)選擇。

本文作者 吳彤 長期關(guān)注人工智能、生命科學(xué)和科技一線工作者,歡迎同道微信交流:icedaguniang  

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說