劍指臨床試驗(yàn)的設(shè)計(jì)難題！達(dá)摩院提出新模型EBM-Net，比最強(qiáng)基線模型準(zhǔn)確率高9.6%

本文作者：李雨晨

2020-11-30 10:37

導(dǎo)語(yǔ)：這項(xiàng)工作的意義在于，幫助醫(yī)學(xué)研究工作者更好地選擇醫(yī)學(xué)臨床試驗(yàn)。

雷鋒網(wǎng)消息，日前，AI領(lǐng)域頂會(huì)EMNLP 2020落下帷幕。

今年全球僅有754篇論文被接受，接收率為24%，阿里巴巴憑借28篇論文成為入選論文數(shù)最多的中國(guó)科技公司。

據(jù)雷鋒網(wǎng)了解，阿里相關(guān)研究成果覆蓋情感分析、文本生成及醫(yī)療NLP等領(lǐng)域。

在今年疫情的大環(huán)境下，醫(yī)療領(lǐng)域的研究與成果產(chǎn)出也不斷提速。

在名為《Predicting Clinical Trial Results by Implicit Evidence Integration》的論文中，達(dá)摩院研究團(tuán)隊(duì)設(shè)計(jì)了針對(duì)醫(yī)學(xué)臨床試驗(yàn)的進(jìn)一步預(yù)訓(xùn)練任務(wù)，并提出全新的模型，幫助醫(yī)學(xué)研究工作者更好地選擇醫(yī)學(xué)臨床試驗(yàn)，以更快地找到有效的治療方案。

研究團(tuán)隊(duì)在COVID-evidence數(shù)據(jù)集上完成了試驗(yàn)，并證明了模型的有效性。

論文鏈接：https://www.aclweb.org/anthology/2020.emnlp-main.114/

為此，該論文作者、達(dá)摩院算法專家譚傳奇進(jìn)行了解讀。

劍指臨床試驗(yàn)的設(shè)計(jì)難題！達(dá)摩院提出新模型EBM-Net，比最強(qiáng)基線模型準(zhǔn)確率高9.6%

自18年谷歌BERT橫空出世以來(lái)，預(yù)訓(xùn)練語(yǔ)言模型一躍成為自然語(yǔ)言處理領(lǐng)域的研究熱點(diǎn)，“Pre-training + Fine-tune”也成為NLP任務(wù)的新范式，將自然語(yǔ)言處理由原來(lái)的手工調(diào)參、依靠機(jī)器學(xué)習(xí)專家的階段，進(jìn)入到可以大規(guī)模、可復(fù)制的大工業(yè)施展的階段。

這篇論文在BioBERT（在醫(yī)學(xué)數(shù)據(jù)上訓(xùn)練的BERT模型）的基礎(chǔ)上，設(shè)計(jì)了針對(duì)醫(yī)學(xué)臨床試驗(yàn)的進(jìn)一步預(yù)訓(xùn)練任務(wù)（Post-Pre-training），最終在真實(shí)醫(yī)學(xué)臨床試驗(yàn)數(shù)據(jù)上微調(diào)（Fine-tune）后，取得了超過(guò)10個(gè)百分點(diǎn)的結(jié)果提升。

而這項(xiàng)工作的意義在于，幫助醫(yī)學(xué)研究工作者更好地選擇醫(yī)學(xué)臨床試驗(yàn)，特別在COVID-19疫情下，更好的醫(yī)學(xué)臨床試驗(yàn)或許就意味著能更快地找到有效的治療方案。

劍指臨床試驗(yàn)的設(shè)計(jì)難題

在循證醫(yī)學(xué)的時(shí)代，任何的治療都要有相應(yīng)的臨床證據(jù)支持。證據(jù)往往來(lái)自于高質(zhì)量的臨床試驗(yàn)。然而，實(shí)施臨床試驗(yàn)耗時(shí)耗力，需要大量資源支持。

并且，設(shè)計(jì)有缺陷或者難以成功的臨床試驗(yàn)占用了寶貴的病人資源，可能會(huì)使亟待實(shí)施的臨床試驗(yàn)因招募不到足夠的患者而被迫終止。

新冠肺炎疫情中的瑞德西韋臨床試驗(yàn)就是一個(gè)例子：

因其他設(shè)計(jì)有缺陷或者難以成功的臨床試驗(yàn)占用了不少病人資源，該試驗(yàn)沒(méi)有招募到足夠的病人資源，而沒(méi)有得到統(tǒng)計(jì)學(xué)上顯著的結(jié)果。

所以，研究者需要在設(shè)計(jì)階段就去預(yù)測(cè)臨床試驗(yàn)的結(jié)果，并優(yōu)先進(jìn)行成功概率較高的臨床試驗(yàn)。

提出新的臨床試驗(yàn)需要過(guò)往臨床證據(jù)的支持，比如WHO為新冠肺炎推薦優(yōu)先檢測(cè)氯喹/羥氯喹，瑞德西韋，干擾素和洛匹那韋/利托那韋四種藥物優(yōu)先進(jìn)行臨床試驗(yàn)。

推薦的理由就是，這些藥物在過(guò)往的實(shí)驗(yàn)室或人體試驗(yàn)中對(duì)相關(guān)冠狀病毒有效。然而，人類綜合過(guò)往臨床證據(jù)的能力有限。

譚傳奇引用了一個(gè)數(shù)據(jù)：一項(xiàng)研究發(fā)現(xiàn)大概86.2%的臨床試驗(yàn)最終會(huì)失敗，WHO專家推薦的某些新冠肺炎治療方法，如氯喹/羥氯喹，也沒(méi)有得到好的結(jié)果。

臨床試驗(yàn)設(shè)計(jì)難題的核心是臨床試驗(yàn)的結(jié)果無(wú)法準(zhǔn)確預(yù)測(cè)。

所以，如果能準(zhǔn)確地預(yù)測(cè)臨床試驗(yàn)的結(jié)果，就可以有針對(duì)性地進(jìn)行成功概率的臨床試驗(yàn)，從而大大提高臨床試驗(yàn)實(shí)施的效率。

因此，譚傳奇團(tuán)隊(duì)表示，在本工作中，我們的貢獻(xiàn)就在于：

第一、創(chuàng)新地從NLP的角度重新定義了臨床試驗(yàn)結(jié)果預(yù)測(cè)任務(wù)；

第二、提出了一種基于大規(guī)模隱式臨床證據(jù)預(yù)訓(xùn)練的模型EBM-Net（Evidence-Based Medicine Network）用以解決該任務(wù)，EBM-Net在各種指標(biāo)上遠(yuǎn)超醫(yī)學(xué)大規(guī)模語(yǔ)言模型BioBERT，如在標(biāo)準(zhǔn)數(shù)據(jù)集上有10.7%的相對(duì)F1提升，并且在新冠肺炎相關(guān)的臨床試驗(yàn)上也被證明有效。

劍指臨床試驗(yàn)的設(shè)計(jì)難題！達(dá)摩院提出新模型EBM-Net，比最強(qiáng)基線模型準(zhǔn)確率高9.6%

在上面這張圖中，參考醫(yī)學(xué)臨床試驗(yàn)在填報(bào)提案時(shí)需要的基本信息，輸入是自然文本的形式的：

臨床試驗(yàn)背景B，如“最新研究發(fā)現(xiàn)瑞德西韋在體外對(duì)新冠肺炎病毒有效……”；
要研究的人群P，如“重癥新冠肺炎病人”；
治療方法I，如“靜脈注射瑞德西韋”；
對(duì)照方法C，如“與瑞德西韋相匹配的安慰劑”；
測(cè)量指標(biāo)O，如“死亡率”
輸出是其結(jié)果R，即在研究人群P中，治療組I和對(duì)照組C的測(cè)量結(jié)果O的比較關(guān)系，有升高、降低和不變?nèi)N。

EBM-Net

劍指臨床試驗(yàn)的設(shè)計(jì)難題！達(dá)摩院提出新模型EBM-Net，比最強(qiáng)基線模型準(zhǔn)確率高9.6%

為了解決上述臨床試驗(yàn)結(jié)果預(yù)測(cè)任務(wù)，達(dá)摩院的團(tuán)隊(duì)提出了針對(duì)循證醫(yī)學(xué)的EBM-Net模型，其結(jié)構(gòu)如圖2所示，具體分為三步進(jìn)行：

首先，用啟發(fā)式方法收集隱式證據(jù)；

然后，用隱式證據(jù)預(yù)訓(xùn)練比較語(yǔ)言模型；

最后，用預(yù)訓(xùn)練的模型進(jìn)行臨床試驗(yàn)結(jié)果預(yù)測(cè)。

收集隱式證據(jù)

臨床證據(jù)常常以一種比較的形式表達(dá)，如“瑞德西韋比對(duì)照組有更好的治療新冠肺炎的療效”，而找到這些證據(jù)就可以為我們提供訓(xùn)練文本。

研究團(tuán)隊(duì)發(fā)現(xiàn)，PubMed和PubMed Central是一個(gè)提供生物醫(yī)學(xué)方面的論文搜尋以及摘要，文獻(xiàn)資源中就包含需要的證據(jù)文本（注：醫(yī)學(xué)領(lǐng)域最好的大規(guī)模語(yǔ)言模型BioBERT的訓(xùn)練數(shù)據(jù)即來(lái)自PubMed）。

這篇論文提出用關(guān)鍵詞匹配的方法，收集PubMed和PubMed Central中所有含有比較語(yǔ)義的句子：

為尋找表達(dá)升高和降低的語(yǔ)義，匹配含有“than”的句子，再進(jìn)一步匹配形容詞或副詞的比較級(jí)，如“higher”，“smaller”等，同時(shí)含有“than”和一個(gè)或更多比較級(jí)的句子被收集；為尋找表達(dá)相似的語(yǔ)義，匹配含有“no difference between”和“similar to”模式的句子。

這些句子被稱為隱式證據(jù)，因?yàn)樗鼈兺[式地含有臨床證據(jù)所需要的PICO組分。他們還收集這些句子對(duì)應(yīng)的文章摘要里的背景和方法的部分，作為隱式證據(jù)的背景B。

這種方法可以從PubMed和PubMed Central中提取出1180萬(wàn)條隱式證據(jù)，其中240萬(wàn)條表達(dá)結(jié)果降低，350萬(wàn)條表達(dá)結(jié)果相似，590萬(wàn)條表達(dá)結(jié)果升高。

預(yù)訓(xùn)練比較語(yǔ)言模型

將收集到的隱式證據(jù)中提示結(jié)果語(yǔ)義的詞去除，就構(gòu)造了一個(gè)類似語(yǔ)言模型訓(xùn)練的問(wèn)題，通過(guò)給定上下文信息，預(yù)測(cè)去除的比較詞。

論文中改進(jìn)語(yǔ)言模型，提出用比較語(yǔ)言模型預(yù)訓(xùn)練一個(gè)Transformer編碼器模型，即EBM-Net，以獲取預(yù)測(cè)臨床試驗(yàn)結(jié)果的能力。具體地，兩組樣本被用于預(yù)訓(xùn)練：

1、用正序的隱式證據(jù)預(yù)測(cè)其結(jié)果；

2、用反序的隱式證據(jù)預(yù)測(cè)相反的結(jié)果。

加入反序的例子有利于模型學(xué)到治療組和對(duì)照組之間的比較，而不是語(yǔ)言模型里的共現(xiàn)關(guān)系。

臨床試驗(yàn)結(jié)果預(yù)測(cè)

在微調(diào)和測(cè)試時(shí)，團(tuán)隊(duì)將一個(gè)新臨床試驗(yàn)要研究的PICO要素拼接成E，將E和其研究背景B輸入到上述預(yù)訓(xùn)練好的EBM-Net模型中，輸出其預(yù)測(cè)的比較結(jié)果，從而預(yù)測(cè)臨床試驗(yàn)的結(jié)果。

標(biāo)準(zhǔn)數(shù)據(jù)集的試驗(yàn)結(jié)果

EBM-Net在臨床試驗(yàn)結(jié)果預(yù)測(cè)任務(wù)的標(biāo)準(zhǔn)數(shù)據(jù)集Evidence Integration試驗(yàn)結(jié)果如圖3所示：

劍指臨床試驗(yàn)的設(shè)計(jì)難題！達(dá)摩院提出新模型EBM-Net，比最強(qiáng)基線模型準(zhǔn)確率高9.6%

從結(jié)果中可以看出：

1、EBM-Net相比其他方法，包括隨機(jī)預(yù)測(cè)、詞袋+邏輯回歸、利用MeSH知識(shí)圖譜、信息檢索+閱讀理解模型以及目前生物醫(yī)學(xué)NLP領(lǐng)域的SOTA模型BioBERT，都有很大的提高：BioBERT作為最強(qiáng)的基線模型，也比EBM-Net低了10.7%的相對(duì)macro-F1和9.6%的準(zhǔn)確率；

2、EBM-Net相比其他方法在對(duì)抗攻擊下更魯棒：用|Δ||Δ|，即在對(duì)抗數(shù)據(jù)集上的accuracy的相對(duì)減少的值來(lái)衡量模型的魯棒性，|Δ||Δ|越大表示模型越易受攻擊。

BioBERT的|Δ||Δ|幾乎是EBM-Net的兩倍（5.1%比2.7%），說(shuō)明EBM-Net遠(yuǎn)比BioBERT魯棒；

EBM-Net用于新冠肺炎相關(guān)臨床試驗(yàn)

達(dá)摩院團(tuán)隊(duì)還基于COVID-evidence數(shù)據(jù)庫(kù)提取了截止5月12日前完成的22篇臨床試驗(yàn)的結(jié)果，以本工作定義的臨床試驗(yàn)結(jié)果預(yù)測(cè)的格式構(gòu)建了一個(gè)小型數(shù)據(jù)集。

達(dá)摩院團(tuán)隊(duì)提出的EBM-Net模型在該數(shù)據(jù)集上進(jìn)行留一法驗(yàn)證得到的macro-F1和accuracy都遠(yuǎn)高于BioBERT，分別是45.5%比36.1%和59.1%比50.0%，再一次驗(yàn)證了EBM-Net的有效性。

總結(jié)

為了優(yōu)化臨床試驗(yàn)的設(shè)計(jì)過(guò)程，本文從NLP的角度定義了臨床試驗(yàn)結(jié)果預(yù)測(cè)任務(wù)，并且提出了一種基于大規(guī)模隱式證據(jù)預(yù)訓(xùn)練的EBM-Net模型來(lái)解決這個(gè)任務(wù)。

EBM-Net在標(biāo)準(zhǔn)數(shù)據(jù)集和新冠肺炎相關(guān)臨床試驗(yàn)上都有較好的表現(xiàn)，大幅超過(guò)生物醫(yī)學(xué)NLP的SOTA模型BioBERT。

未來(lái)，臨床試驗(yàn)可以在EBM-Net等相關(guān)模型的協(xié)助下進(jìn)行設(shè)計(jì)：

當(dāng)我們固定了想要研究的疾病人群（P）和觀察指標(biāo)（O）后，可以固定以現(xiàn)有的標(biāo)準(zhǔn)治療為對(duì)照（C），遍歷每種可能的新型治療方式（I）以及其相關(guān)的背景介紹（B），用模型預(yù)測(cè)其成功的概率，優(yōu)先選取所有可能的治療方式中成功概率高的做臨床試驗(yàn)。

當(dāng)然，模型在技術(shù)上還需要進(jìn)一步地提高才能更好地輔助臨床試驗(yàn)設(shè)計(jì)。后續(xù)，我們可以把團(tuán)隊(duì)構(gòu)建的大規(guī)模醫(yī)學(xué)知識(shí)圖譜集成在模型中，使其擁有更準(zhǔn)確和魯棒的預(yù)測(cè)能力。雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章