丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
生物醫(yī)藥 正文
發(fā)私信給饒舒瑋
發(fā)送

0

專訪蘇州系統(tǒng)醫(yī)學(xué)研究所鄧立宗:醫(yī)學(xué)領(lǐng)域需要基于場景做深度的“大模型+”

本文作者: 饒舒瑋 編輯:任平 2024-04-26 11:36
導(dǎo)語:機(jī)器醫(yī)生成為現(xiàn)實(shí)?

專訪蘇州系統(tǒng)醫(yī)學(xué)研究所鄧立宗:醫(yī)學(xué)領(lǐng)域需要基于場景做深度的“大模型+”

一個機(jī)器醫(yī)生的診斷,你敢信嗎?

蘇州系統(tǒng)醫(yī)學(xué)研究所副研究員鄧立宗的研究目標(biāo),就是讓人們能夠放心地信任醫(yī)學(xué)人工智能。在他的理想場景里,醫(yī)學(xué)人工智能最后都能轉(zhuǎn)化為實(shí)際生活中可被大眾信任和日常使用的一種基礎(chǔ)醫(yī)療資源,讓權(quán)威靠譜的醫(yī)學(xué)信息查詢和獲取不再成為問題。

要想獲得人們的信任并不容易,更何況人工智能本身還存在“幻覺問題”。一邊是容不得半點(diǎn)差錯的嚴(yán)肅醫(yī)學(xué),一邊是經(jīng)常會“胡說八道”的人工智能。就算只是一些微小的語義差異,對于醫(yī)學(xué)判斷來說,差之毫厘就失之千里。

如何訓(xùn)練、調(diào)教“不聽話”的人工智能使之服務(wù)于醫(yī)學(xué)嚴(yán)肅場景,是鄧立宗博士及其團(tuán)隊(duì)的主要研究目標(biāo)。在鄧立宗博士看來,要實(shí)現(xiàn)這一目標(biāo),最核心的要素是要實(shí)現(xiàn)領(lǐng)域知識和大模型的有機(jī)融合。因此在之前的工作中,他和團(tuán)隊(duì)研發(fā)了能夠自動進(jìn)化的醫(yī)學(xué)文本數(shù)據(jù)處理算法——中文電子病歷的表型信息智能結(jié)構(gòu)化與標(biāo)準(zhǔn)化系統(tǒng)(PIAT)算法,并成功入選“2022年度中國醫(yī)學(xué)人工智能代表性算法”。

除了有面向醫(yī)學(xué)領(lǐng)域科研人員的算法平臺,鄧立宗還與團(tuán)隊(duì)開發(fā)了一款目標(biāo)用戶為醫(yī)學(xué)生的備考軟件。借由大模型與醫(yī)學(xué)數(shù)據(jù)的結(jié)合,標(biāo)注出教科書上的重點(diǎn)考點(diǎn),為用戶定制個性化的備考助手。

正如鄧立宗在與雷峰網(wǎng)的對話中所提到的,大模型的出現(xiàn)對他所在的領(lǐng)域來說是個很好的促進(jìn),能讓他不再局限于傳統(tǒng)的算法模型里,而是可以專注于“大模型+”的探索研究。

近期,2024年度「第二屆生物信息與轉(zhuǎn)化醫(yī)學(xué)大會」落下帷幕。本屆大會以 “人工智能時代的轉(zhuǎn)化醫(yī)學(xué)”為主題,由北京攜云啟源科技有限公司承辦。來自中國醫(yī)學(xué)科學(xué)院蘇州系統(tǒng)醫(yī)學(xué)研究所的鄧立宗副研究員受邀參會。

借此契機(jī),鄧立宗副研究員與雷峰網(wǎng)進(jìn)行了深入對話。以下為對話全文(經(jīng)編輯):

為什么要“大模型+”?

雷峰網(wǎng):請介紹一下您目前的您現(xiàn)在的研究方向?

鄧立宗:我主要的研究方向是醫(yī)學(xué)大數(shù)據(jù)和人工智能,尤其關(guān)注中文醫(yī)學(xué)文本大數(shù)據(jù)的處理。

舉個例子,現(xiàn)實(shí)中,我們知道醫(yī)生看病是需要先學(xué)習(xí)教科書上的知識,再到實(shí)際場景中,查看這個病人有什么癥狀,需要做什么檢查,最后下診斷、開藥,這一系列活動都要結(jié)合實(shí)際病人的情況做進(jìn)行。這些動作的產(chǎn)生,都建立在他了解這些醫(yī)學(xué)知識的基礎(chǔ)上,以及懂得如何運(yùn)用這些醫(yī)學(xué)知識。

現(xiàn)在我們的研究工作,就是要機(jī)器去學(xué)習(xí)并應(yīng)用這些醫(yī)學(xué)知識,從文本中學(xué)習(xí)這種語言、知識。但本質(zhì)上,這是一種概率式的學(xué)習(xí),而醫(yī)學(xué)是一個非常嚴(yán)肅的領(lǐng)域,我們需要在這研究過程中,盡量提高計(jì)算機(jī)學(xué)習(xí)醫(yī)學(xué)知識的精度和準(zhǔn)確度,讓它能夠在嚴(yán)肅場景中生成讓用戶覺得靠譜的內(nèi)容。

在過去的五到十年間,我們建立了一整套面向醫(yī)學(xué)文本數(shù)據(jù)的知識表征、抽取、標(biāo)化和應(yīng)用的完整技術(shù)體系,這算得上是大模型出現(xiàn)前的知識工程時代積累下來的工作基礎(chǔ)。

大模型技術(shù)的出現(xiàn),對于各行各業(yè)都是一個大的沖擊。以前,每處理一個任務(wù)都要單獨(dú)去寫一個對應(yīng)的算法或模型?,F(xiàn)在,一個大模型就能夠很好地完成很多任務(wù),不管是實(shí)體識別、還是關(guān)系抽取,甚至是直接診斷,都能夠做到。所以我們的研究方向也在發(fā)生變化。

我們現(xiàn)在主要在做的事情是:如何利用大模型技術(shù)來強(qiáng)化我們之前整個醫(yī)學(xué)文本大數(shù)據(jù)處理和加工的流程。

因?yàn)槲覀円郧暗哪切┘夹g(shù),主要還是基于一些小規(guī)模的傳統(tǒng)訓(xùn)練語言模型,而大語言模型時代,它本身就像個通才,已經(jīng)擁有很好的知識基礎(chǔ),但它可能還沒有一些專業(yè)領(lǐng)域的知識,所以我們希望能夠好好訓(xùn)練它,思考如何將我們的專業(yè)知識有效地灌入大模型中,使其能夠更好地服務(wù)于醫(yī)學(xué)領(lǐng)域。

簡單來說,我們現(xiàn)在在做的是“大模型+”的工作。大模型本身,不是我們研究的全部,但是我們肯定會順應(yīng)大模型的發(fā)展,讓大模型能夠很好地和醫(yī)學(xué)大數(shù)據(jù)的加工技術(shù),以及醫(yī)學(xué)知識的應(yīng)用技術(shù)整合在一起。

雷峰網(wǎng):是什么契機(jī)讓您進(jìn)入醫(yī)學(xué)大數(shù)據(jù)這個研究領(lǐng)域?

鄧立宗:進(jìn)入醫(yī)學(xué)大數(shù)據(jù)這個領(lǐng)域主要還是受師承的影響。大約2013年,我的導(dǎo)師蔣太交教授去美國訪問,當(dāng)時他接觸到了一些關(guān)于醫(yī)學(xué)大數(shù)據(jù)研究方向的前沿進(jìn)展。這些進(jìn)展都共同提到了美國哈佛醫(yī)學(xué)院開展的一個醫(yī)學(xué)信息化項(xiàng)目i2b2(Informatics for Integrating Biology and the Bedside,由美國國家醫(yī)學(xué)圖書館搭建的集成生物學(xué)及內(nèi)部的信息共享平臺),主要致力于發(fā)展先進(jìn)信息技術(shù)將醫(yī)學(xué)大數(shù)據(jù)轉(zhuǎn)化為臨床應(yīng)用。

在那幾年國外也成立了很多醫(yī)學(xué)大數(shù)據(jù)公司,醫(yī)學(xué)大數(shù)據(jù)這個概念在當(dāng)時非?;馃?。受此啟發(fā)和指引,我們也邁入了這個看起來前景光明的領(lǐng)域。在我博士畢業(yè)后,蔣教授來到了中國醫(yī)學(xué)科學(xué)院,并作為創(chuàng)始人之一創(chuàng)建了蘇州系統(tǒng)醫(yī)學(xué)研究所,我也因此跟隨蔣教授來到了蘇州。

在那時候我面臨著一個研究方向上的選擇。

第一個是繼續(xù)此前的研究方向——蛋白質(zhì)結(jié)構(gòu)預(yù)測、病毒序列、結(jié)構(gòu)的分析,

第二個選擇是利用當(dāng)時醫(yī)科院的數(shù)據(jù)優(yōu)勢,發(fā)展醫(yī)學(xué)大數(shù)據(jù)。因?yàn)樯鲜鲈?,我選擇了后者,醫(yī)學(xué)大數(shù)據(jù)和人工智能方向。

我們當(dāng)時的最終目標(biāo)是想把這種醫(yī)學(xué)文本知識給充分利用起來,去發(fā)展機(jī)器醫(yī)生這么一個場景。

雷峰網(wǎng):從您的學(xué)術(shù)生涯來看,您從本科到碩博是經(jīng)歷了一次專業(yè)的轉(zhuǎn)換,這種跨學(xué)科的教育背景對您現(xiàn)在的研究方法和角度有什么影響嗎?

鄧立宗:是有影響的,我相當(dāng)于是跨了領(lǐng)域。我的本科在中科大學(xué)習(xí)生命科學(xué),之后在中科院攻讀生物信息學(xué)的碩士和博士學(xué)位,當(dāng)時主要是利用AI技術(shù)和學(xué)習(xí)算法進(jìn)行蛋白質(zhì)結(jié)構(gòu)的分析和預(yù)測。而我后來從事的其實(shí)是醫(yī)學(xué)信息學(xué)(正確)這方面的內(nèi)容。這兩個學(xué)科的發(fā)展差異是非常大的。

因?yàn)楫?dāng)時我在生物信息學(xué)專業(yè)學(xué)習(xí)階段,整個生信領(lǐng)域數(shù)據(jù)的規(guī)范性和成熟度都要遠(yuǎn)遠(yuǎn)高于醫(yī)學(xué)信息學(xué)領(lǐng)域,特別是中文醫(yī)學(xué)信息學(xué)領(lǐng)域,所以后來在醫(yī)學(xué)信息學(xué)領(lǐng)域我們借用了很多生物信息學(xué)的理念。

比如說,蛋白質(zhì)序列或者基因序列,其實(shí)也是一種語言,只不過它們更規(guī)范——就像蛋白質(zhì)就是20種氨基酸,提到基因組就是ATGC。他們通過這些不同的符號組成了很多這種排列組合的生物學(xué)語言。后來我們做醫(yī)學(xué)大數(shù)據(jù)的時候,主要處理人類語言。如果你把它想象成是很多單詞或者文字的組合,從語言學(xué)的角度來看,處理生物符號和人類語言之間,其實(shí)差別也不大,所以我們當(dāng)時把整個生物信息學(xué)的方向遷移過來使用了。

就像當(dāng)初處理蛋白質(zhì)結(jié)構(gòu)預(yù)測的理念是,從序列出發(fā),我搭建一個識別語言的建構(gòu),基于這樣的語言結(jié)構(gòu)、知識單元,再去做智能化的抽取,形成一個知識圖譜,最后讓機(jī)器利用起來。我把學(xué)習(xí)到的兩種東西以這種方式融合起來。

雷峰網(wǎng):您和團(tuán)隊(duì)對大模型所帶來的改變有什么看法?

鄧立宗:它的出現(xiàn),給我們指明了未來技術(shù)發(fā)展的方向。剛開始出來的時候,我們確實(shí)非常受到震撼,當(dāng)時以為會像蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域一樣,直接被顛覆,但是后來其實(shí)并不像我們所想的那樣。它只不過是打開了一個新的口子,讓科研人員可以順著這個方向,進(jìn)一步去做更多事情。

在大模型落地醫(yī)學(xué)場景的時候,我們也發(fā)現(xiàn)了各種各樣的問題。

因?yàn)榇竽P驮诒举|(zhì)上是世界知識的一個壓縮器,屬于概率化的模型。而醫(yī)學(xué)場景是非常嚴(yán)肅的,它對可解釋性和精確性的要求極高。但是大模型有時候可能會胡說八道,要怎樣消除這種幻覺問題,讓它真正地能夠落地。比如,用積累的知識圖譜、醫(yī)學(xué)知識去強(qiáng)化大模型,降低大模型的幻覺率。這是我們在探索和思考的方向。

整體來說,我覺得大模型的出現(xiàn),對我們這個領(lǐng)域有非常大的促進(jìn)作用。它讓我們從以前各種各樣的模型里解脫出來,現(xiàn)在我們只需要專注于“大模型+”就好了,它成為了我們整個技術(shù)體系的重要拼圖。

雷峰網(wǎng):針對大模型落地產(chǎn)生的幻覺問題,現(xiàn)在有什么解決辦法嗎?

鄧立宗:對于這樣的一個對話模型,我們所要解決的問題就是,希望大模型在醫(yī)學(xué)場景回答的時候能夠更準(zhǔn)確、更可溯源,不容易胡說八道,避免給患者或者醫(yī)生帶來困擾。現(xiàn)在有一些新的技術(shù),比如在檢索增強(qiáng)方面進(jìn)行改進(jìn),但我們通過實(shí)驗(yàn)發(fā)現(xiàn),其實(shí)還是沒有辦法有效避免幻覺問題的出現(xiàn)。

通過深入分析發(fā)現(xiàn),要解決幻覺問題,對醫(yī)學(xué)知識的精準(zhǔn)表征很重要。

舉個例子,像醫(yī)學(xué)的同義詞,比如發(fā)熱、發(fā)燒、體溫39度等,這些都指向相同的概念,但其中發(fā)熱有分高熱和低熱,腹痛也分為上腹痛、下腹痛。這些微小的語義差異對于醫(yī)學(xué)判斷來說,差之毫厘就失之千里,因?yàn)樗赡芡耆珜?dǎo)向不同的疾病。所以現(xiàn)在我們正在通過把這些知識規(guī)范化,使大模型能夠大幅度地提升知識檢索的精度。

為了驗(yàn)證這一說法,我們當(dāng)時做了一個大海撈針式的實(shí)驗(yàn)。先是一個精準(zhǔn)的信息檢索,模擬醫(yī)生翻書看病的過程,也就是檢索咨詢的過程。我們發(fā)現(xiàn),通過目前這種向量化的表征方式,大模型的檢索質(zhì)量并不好。而知識規(guī)范化后,其檢索精度就能發(fā)生顯著改變。

所以我覺得,在未來要思考,怎么樣讓大模型這樣的類人智能在類似醫(yī)學(xué)的垂直領(lǐng)域成為專家。我們不能夠那些知識通過字符串憑空生成,而是要讓它能基于很精確的知識基礎(chǔ)發(fā)揮作用。不管是在大模型生成之前就進(jìn)行精準(zhǔn)化提高,還是在其生成中間或者之后,我認(rèn)為都有和精準(zhǔn)知識基礎(chǔ)結(jié)合的必要。

雷峰網(wǎng):您團(tuán)隊(duì)所開發(fā)的基于中文電子病歷的表型信息智能結(jié)構(gòu)化與標(biāo)準(zhǔn)化系統(tǒng)(PIAT)是如何解決這一問題的?

鄧立宗:PIAT(Phenotype Information Annotation Tool)系統(tǒng)是我們團(tuán)隊(duì)開發(fā)的一個醫(yī)學(xué)文本數(shù)據(jù)處理的自我進(jìn)化平臺。它能夠自動精準(zhǔn)標(biāo)注醫(yī)學(xué)新知識和醫(yī)學(xué)信息,還能夠自動對其進(jìn)行規(guī)范化表達(dá)和統(tǒng)一表征。這個系統(tǒng)不僅能夠識別術(shù)語型和數(shù)值型表達(dá),還能將它們映射到國外醫(yī)學(xué)語言系統(tǒng),從而實(shí)現(xiàn)醫(yī)學(xué)文本數(shù)據(jù)的結(jié)構(gòu)化、標(biāo)準(zhǔn)化。

此外,該系統(tǒng)還有專家?guī)椭鷻C(jī)器進(jìn)行校對。如果計(jì)算機(jī)識別有誤,專家則予以修正,所累積的錯誤信息可用以更新底層知識庫和模型。通過這種方式,系統(tǒng)就能不斷地提高處理效果,所獲得的數(shù)據(jù)也能夠?yàn)楹罄m(xù)的智慧醫(yī)學(xué)應(yīng)用開發(fā)提供參考。

在實(shí)際應(yīng)用上,PIAT系統(tǒng)此前也用于和北大人民醫(yī)院合作的一次課題中。我們利用PIAT系統(tǒng)對類風(fēng)濕、關(guān)節(jié)炎進(jìn)行亞型分析,還基于這種結(jié)構(gòu)化、標(biāo)準(zhǔn)化的電子病歷數(shù)據(jù)做了輔助診斷模型。目前,PIAT系統(tǒng)主要在科研層面與專家合作。我們也希望未來能與醫(yī)學(xué)信息化方向的企業(yè)合作,因?yàn)樗麄兙哂袑⑿畔⑾到y(tǒng)打通的能力。

對于PIAT這個平臺,我投入比較多。因?yàn)樗皇菃渭兊目茖W(xué)研究,我不像以前只是做算法的評估和技術(shù)。在開發(fā)過程中,需要協(xié)調(diào)很多資源,包括IT開發(fā)、算法開發(fā),并做好統(tǒng)籌規(guī)劃,包括涉及到整體的交互設(shè)計(jì),需要去研究如何讓這個界面對用戶更友好,還有一些底層的進(jìn)化設(shè)計(jì),我由此收獲了工程化思想的體驗(yàn)和技能。

以進(jìn)化式思維對待從0到1的挑戰(zhàn)

雷峰網(wǎng):現(xiàn)在國內(nèi)醫(yī)學(xué)大數(shù)據(jù)分析領(lǐng)域現(xiàn)在發(fā)展到什么程度?主要面臨什么樣的挑戰(zhàn)?

鄧立宗:相較于十年前,現(xiàn)在國內(nèi)醫(yī)學(xué)大數(shù)據(jù)領(lǐng)域進(jìn)步得特別快。從國家層面提出大數(shù)據(jù)戰(zhàn)略之后,各種產(chǎn)學(xué)研的目光都被吸引過來了,我們這個領(lǐng)域也獲得了很多關(guān)注,大家開始在這個賽道上發(fā)力,現(xiàn)在在應(yīng)用層面算是百花齊放。

但就整體而言,這個領(lǐng)域好像還沒有深入地影響到整個社會層面,還不能夠在深度診療環(huán)節(jié)發(fā)揮核心作用,真正地解放醫(yī)生的工作量。舉個簡單的例子,就像是現(xiàn)在,我們還沒辦法完全信任一個機(jī)器醫(yī)生給出的診療結(jié)果。

就挑戰(zhàn)而言,我覺得第一,尤其在中文領(lǐng)域,它的整個標(biāo)準(zhǔn)化體系相對來說比較缺乏。國際上有很多成熟的醫(yī)學(xué)術(shù)語標(biāo)準(zhǔn),比如SNOMED這樣統(tǒng)一的語言體系。第二就是在發(fā)展算法的時候,我們會面臨訓(xùn)練數(shù)據(jù)比較稀缺,導(dǎo)致其泛化能力不夠強(qiáng)的問題。這好比我們在做學(xué)術(shù)研究的時候,訓(xùn)練題做得很好,但并不意味著在真正實(shí)踐時就能做得好。

后來我們解決這個問題的思路是,用進(jìn)化式的思想來做。按目前的程度,肯定不可能一下做到完美,做到90分都很難。就像互聯(lián)網(wǎng)公司經(jīng)常提到的“數(shù)據(jù)飛輪”,先建立一個體系,讓用戶用的時候給你反饋。而這個反饋能夠反映到底層模型的迭代更新上,不管是知識庫的積累還是模型的更新,最后它會變得逐漸進(jìn)化。抱有這樣的學(xué)習(xí)系統(tǒng)或者進(jìn)化系統(tǒng)的理念,才有可能不斷地從60分做到90分。

雷峰網(wǎng):說到醫(yī)學(xué)術(shù)語標(biāo)準(zhǔn)化體系,現(xiàn)在我們國內(nèi)的醫(yī)學(xué)術(shù)語標(biāo)準(zhǔn)化體系有哪些團(tuán)隊(duì)在做?大概處于什么樣的水平?

鄧立宗:就如我剛剛提到的SNOMED系統(tǒng),應(yīng)該是目前世界上最大的醫(yī)學(xué)術(shù)語標(biāo)準(zhǔn)化體系,它是美國國立圖書館在做。我們中國其實(shí)也有不少這類標(biāo)準(zhǔn)化機(jī)構(gòu),影響大的就是國家衛(wèi)健委所組織的。他們非常重視標(biāo)準(zhǔn),同時也在陸陸續(xù)續(xù)發(fā)布很多常用的臨床醫(yī)學(xué)術(shù)語。我還聽說還有個企業(yè)也在做這類標(biāo)準(zhǔn)化業(yè)務(wù),浙江的OMAHA公司,做的也非常好。

整體來說,這種標(biāo)準(zhǔn)化系統(tǒng)的建立和推廣都需要很多力量投入,所以不管是對于學(xué)校還是研究組,都是一個龐大的工程。

我們國內(nèi)的標(biāo)準(zhǔn)化體系發(fā)展起步相對比較晚。當(dāng)年我的導(dǎo)師蔣太交研究員2013年在國外接觸到i2b2的時候,其實(shí)那時候他們已經(jīng)研究了很多年,也發(fā)了很多的文章,進(jìn)行了各種應(yīng)用。而那個時候,國內(nèi)才剛注意到這樣的概念,才開始對這塊領(lǐng)域有所研究。

我們也有嘗試過在醫(yī)院里實(shí)際治理過一些數(shù)據(jù),當(dāng)時發(fā)現(xiàn)挑戰(zhàn)非常大,因?yàn)檎麄€流程體系都沒有建立起來。后來通過各方的努力,才慢慢把標(biāo)準(zhǔn)化的鏈條理順。從0到1走完之后,從1到100就相對好一點(diǎn)了。

雷峰網(wǎng):那您覺得要推進(jìn)中文醫(yī)學(xué)術(shù)語標(biāo)準(zhǔn)化系統(tǒng)的建立,應(yīng)該在哪方面發(fā)力?是從高校對于醫(yī)學(xué)生的教育開始,還是從醫(yī)院的實(shí)際應(yīng)用上開始?

鄧立宗:我們確實(shí)注意到,有些醫(yī)院也在做結(jié)構(gòu)化、標(biāo)準(zhǔn)化的病歷數(shù)據(jù)處理,并且做得特別好。但是醫(yī)護(hù)人員需要花比較多的時間進(jìn)行填寫,開發(fā)這個系統(tǒng)本身投入巨大,填寫這項(xiàng)工作還需要很多的投入。

這個病歷系統(tǒng)在醫(yī)院運(yùn)行多年,要改造肯定會傷筋動骨,包括像醫(yī)學(xué)指南或者教科書,也不可能進(jìn)行結(jié)構(gòu)化處理,不然人就看不懂了。

所以這種情況下,我們覺得未來的很長一段時間,還是非結(jié)構(gòu)化、非標(biāo)準(zhǔn)化會占主導(dǎo),因?yàn)楹茈y去約束人們的使用習(xí)慣。就像我們講話一樣,人在講話時就不會在意語言。如果在意語言語法的規(guī)范性,反而會限制正常交流。

我們能夠做的就是,第一個在技術(shù)層面上能夠怎么樣去改進(jìn)、第二個在當(dāng)前的數(shù)據(jù)和技術(shù)條件下,我們怎么樣能夠最大程度地把醫(yī)學(xué)數(shù)據(jù)發(fā)揮出它應(yīng)有的價(jià)值。

把問題作為導(dǎo)向,可能會比單純地去思考要怎么樣改變現(xiàn)有系統(tǒng)、把這些東西都進(jìn)行結(jié)構(gòu)化處理會更加有效率且成本更低。

雷峰網(wǎng):在研究成果轉(zhuǎn)化應(yīng)用方面,您還有哪些案例可以分享?

鄧立宗:我們團(tuán)隊(duì)開發(fā)了一款名為“文心醫(yī)考通”的智慧醫(yī)學(xué)應(yīng)用,用來幫助醫(yī)學(xué)生怎么樣快速地看書、背書和備考,讓他們能夠更好地去掌握醫(yī)學(xué)知識。

當(dāng)時我們開發(fā)這個應(yīng)用時,就是希望把“大模型+知識”融入一個具體的場景里,去幫助學(xué)生背書、考試。最開始的時候,我們想讓大模型去形成學(xué)習(xí)計(jì)劃類的內(nèi)容,但是發(fā)現(xiàn)它不可控,學(xué)生也因?yàn)樗粔蚓_,吐槽得多。

后來,我們通過各種各樣的技術(shù)融合手段,比如知識增強(qiáng)和知識融合,把大模型嵌進(jìn)去,相當(dāng)于是一個混合的系統(tǒng)。在適當(dāng)?shù)牡胤?,知識與大模型互為補(bǔ)充,以這種方式融合在一起后,就能夠完成醫(yī)學(xué)生看書背書的一整套流程,如同把一個學(xué)霸的思維工具化,提高學(xué)習(xí)效率。

因?yàn)獒t(yī)學(xué)是一個以知識記憶為主的學(xué)科,像內(nèi)外婦兒這幾本書動輒幾百萬字,比四大名著還要厚。而醫(yī)學(xué)生要復(fù)習(xí)的第一步就是要抓住重點(diǎn)考點(diǎn),這個應(yīng)用就可以通過大模型的知識融合技術(shù),基于真題,抓出教科書里的重點(diǎn)。

如果一段文字過長,應(yīng)用還能將這段文字變成問答型的小卡片整理出來,方便用戶助學(xué)助記。另外,在刷題時產(chǎn)生的錯題,應(yīng)用會基于學(xué)習(xí)記錄,去為用戶定制更有針對性的強(qiáng)化訓(xùn)練。用戶可以和大模型進(jìn)行交互,讓它成為個性化定制的備考助手。

下一步,我們會想,能不能利用這個AI去學(xué)習(xí)?比如利用歷年的真題出題規(guī)律來押題。這是一個很有挑戰(zhàn)性的任務(wù)。但本質(zhì)上,就是讓大模型去學(xué)習(xí)規(guī)律,再進(jìn)行知識分析,融合起來,最后提高押題的命中率。

這個應(yīng)用推出還不到一年的時間。目前APP的注冊用戶大約是2萬多人。就使用頻率而言,一周內(nèi)大概有四五千名醫(yī)學(xué)生會使用我們的APP。

我們的APP并沒有與高校進(jìn)行正式合作,主要通過公眾號平臺、小紅書等渠道進(jìn)行推廣,所以會吸引到各個院校、地區(qū)的醫(yī)學(xué)生。現(xiàn)在整體用戶體驗(yàn)不錯,至少不會再有關(guān)于出現(xiàn)事實(shí)性錯誤的吐槽。

抓住“文心”

雷峰網(wǎng):您對于這個領(lǐng)域發(fā)展成熟后的理想落地場景是什么樣的?

鄧立宗:我理想中的場景,就像在科幻時代大家所暢想的,大數(shù)據(jù)最終轉(zhuǎn)化為醫(yī)學(xué)人工智能,在我們生活中發(fā)揮作用。比如變成我們可以非常信任的健康助手。當(dāng)我們身體出現(xiàn)什么小毛病時,可以通過手機(jī)或者別的設(shè)備直接線上問診,馬上獲得很準(zhǔn)確很靠譜的醫(yī)學(xué)信息,先讓自己心里對這個疾病有個底。這個東西暫時肯定是沒法取代醫(yī)生的,特別是無法取代醫(yī)生的核心診療作用,但作為日常的院外咨詢和自我管理還是可以的。

雷峰網(wǎng)(公眾號:雷峰網(wǎng)):您認(rèn)為,在未來幾年,您所在的領(lǐng)域會有哪些趨勢?

鄧立宗:在我們這個領(lǐng)域,首先問題導(dǎo)向肯定不會變,也就是怎樣做好醫(yī)學(xué)人工智能,讓它去幫助臨床場景。

大模型在未來是一個繞不開的基座,但在這個基座之上,我們怎么樣能夠讓大模型和醫(yī)學(xué)領(lǐng)域有更好的交叉融合,精準(zhǔn)知識這一環(huán)少不掉。但受制于大模型本身的原理,幻覺問題避免不了。如果大模型是用于創(chuàng)作,比如講笑話、講段子,出現(xiàn)這種幻覺問題沒什么所謂??墒菍τ卺t(yī)學(xué)這種嚴(yán)肅場景,未來肯定要進(jìn)行精細(xì)的打磨和強(qiáng)化。

雷峰網(wǎng):您現(xiàn)在的團(tuán)隊(duì)大概是有多少人?蘇州系統(tǒng)醫(yī)學(xué)研究所有給您和團(tuán)隊(duì)在科研上提供過什么樣的幫助?

鄧立宗:我們團(tuán)隊(duì)的人不多,包括我在內(nèi)的話是5、6個人。我所在的蘇州系統(tǒng)醫(yī)學(xué)研究所,是中國醫(yī)學(xué)科學(xué)院19個二級單位之一。我覺得我所在的環(huán)境“地利人和”。首先是所里的領(lǐng)導(dǎo)很重視人工智能及轉(zhuǎn)化方向,尤其重視我們這個方向的醫(yī)學(xué)人工智能;同時也會運(yùn)用一些人脈幫我們進(jìn)行推廣。其次因?yàn)槲覀兊难芯啃枰芏嗟乃懔?,研究所建有一個高性能平臺,正好能夠滿足我們研究所需的算力資源。

雷峰網(wǎng):團(tuán)隊(duì)現(xiàn)在的主要合作對象和合作醫(yī)院有哪些?

鄧立宗:我們所合作的醫(yī)院主要還是醫(yī)科院體系內(nèi)的。我們現(xiàn)在正通過醫(yī)科院的創(chuàng)新工程,在和協(xié)和醫(yī)院的專家合作,處理他們的數(shù)據(jù),以此發(fā)展一些關(guān)于人工智能的輔助診斷,比如涉及早篩早診早治的一些應(yīng)用。

雷峰網(wǎng):在近日結(jié)束的第二屆生物信息與轉(zhuǎn)化醫(yī)學(xué)大會上您做了什么樣主題的報(bào)告?參會后有什么感受和收獲?

鄧立宗:在大會上,我主要圍繞醫(yī)學(xué)文本數(shù)據(jù)處理這個主題做了報(bào)告。我當(dāng)時用了個詞“文心雕龍”,意思是我們做的所有事情,就是為了怎樣抓住文本,文本的核心就是那個“心”,如何把“心”抓出來,然后再用高質(zhì)量數(shù)據(jù)去“雕刻”智慧醫(yī)學(xué)應(yīng)用。抓住這個文心是最關(guān)鍵的,接下來的雕刻、應(yīng)用反而沒那么難。

所以我們所有的技術(shù)都放在知識的精準(zhǔn)表征上,也就是高效的抽取、規(guī)范化和標(biāo)準(zhǔn)化,然后通過算法,建立出體系。

我參加這次大會,主要是想去和不同領(lǐng)域的人進(jìn)行交流。因?yàn)槲覀冞@領(lǐng)域是個交叉領(lǐng)域,領(lǐng)域跨度越大,帶來的靈感和碰撞也就越多,交流也更有意義。不然有時候容易陷入閉門造車,反而解決不了問題。


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說