0
雷鋒網(wǎng) AI 源創(chuàng)評(píng)論按:目前,新型冠狀病毒(COVID-19)仍在全球范圍內(nèi)蔓延。在這樣的情況下,除開(kāi)奮戰(zhàn)在前線的醫(yī)護(hù)人員們,小到個(gè)人、大到國(guó)家,都在努力做好防疫工作。
而計(jì)算機(jī)科學(xué)家、機(jī)器學(xué)習(xí)研究者群體,也在以他們的方式來(lái)應(yīng)對(duì)該病癥,包括:編譯數(shù)據(jù)集,并構(gòu)建從中學(xué)習(xí)的算法等。盡管目前大部分人無(wú)法參與到研發(fā)過(guò)程中,但我們可以見(jiàn)證他們的成果并為之喝彩。
因此,雷鋒網(wǎng) AI 源創(chuàng)評(píng)論整理了部分?jǐn)?shù)據(jù)集與算法論文如下,并向所有為疫情做出貢獻(xiàn)的人致以敬意。
圖片來(lái)源: Sompong Rattanakunchon/Getty Images
COVID-19 病例數(shù)據(jù)集
目前,Google 的數(shù)據(jù)科學(xué)競(jìng)賽平臺(tái) Kaggle 上已公開(kāi)了一個(gè) COVID-19 病例數(shù)據(jù)集,并且每天都會(huì)更新。
其中包含的數(shù)據(jù),包括患者的年齡、位置、何時(shí)開(kāi)始出現(xiàn)癥狀、何時(shí)暴露、何時(shí)進(jìn)入醫(yī)院等等,均基于實(shí)際情況錄入,具有可靠性。據(jù)統(tǒng)計(jì),已有近 300 人在自己的分析中使用了該數(shù)據(jù)。
數(shù)據(jù)集地址:
https://www.kaggle.com/sudalairajkumar/novel-corona-virus-2019-dataset
covid-chestxray 數(shù)據(jù)集
蒙特利爾大學(xué)的一位研究人員收集并發(fā)布了包含數(shù)十個(gè) CT 掃描和胸部 X 射線圖像的數(shù)據(jù)庫(kù)。這些圖像取自公開(kāi)的 COVID-19 疾病研究數(shù)據(jù)。
數(shù)據(jù)集地址:
全球感染分布圖
約翰·霍普金斯大學(xué)建立了一個(gè)令人印象深刻的「儀表盤(pán)」,詳細(xì)展示了全球 COVID-19 病例數(shù)據(jù)。這些數(shù)據(jù)會(huì)定期更新,從而使大家能對(duì)疾病的傳播及其死亡率有了全球視野。
目前,該項(xiàng)目已在 GitHub 上開(kāi)源代碼,可以自行復(fù)制和修改。
開(kāi)源地址:
大型新冠肺炎開(kāi)放數(shù)據(jù)集
艾倫人工智能(AI)研究所、陳扎克伯格基金會(huì)(CZI)、喬治敦大學(xué)安全與新興技術(shù)中心(CSET)、微軟、美國(guó)國(guó)立衛(wèi)生研究院國(guó)家醫(yī)學(xué)圖書(shū)館(NLM),以及 OSTP 今日聯(lián)合發(fā)布了「新冠肺炎開(kāi)放研究數(shù)據(jù)集」。
據(jù)介紹,該數(shù)據(jù)集包含與新冠肺炎、新型冠狀病毒及冠狀病毒組有關(guān)的 29000 多篇學(xué)術(shù)文獻(xiàn),其中超過(guò) 13000 篇是完整文獻(xiàn)。
這一數(shù)據(jù)集是迄今可用于數(shù)據(jù)和文本挖掘研究的最廣泛的機(jī)器可讀冠狀病毒文獻(xiàn)合集,將主要用于醫(yī)學(xué)和機(jī)器學(xué)習(xí)等相關(guān)領(lǐng)域研究,幫助人們更快更好地應(yīng)對(duì)新冠肺炎疫情。
全球疫情信息實(shí)時(shí)查詢網(wǎng)站:
地區(qū)資源網(wǎng)站數(shù)據(jù)集
還有一些數(shù)據(jù)集則直接來(lái)自治療患者的醫(yī)院,以及部分地區(qū)的數(shù)據(jù)資源網(wǎng)站,例如:
北京市政務(wù)數(shù)據(jù)資源網(wǎng)開(kāi)放但由市衛(wèi)生健康委員會(huì)提供的數(shù)據(jù)集「新型冠狀病毒感染的肺炎病例信息」。(https://data.beijing.gov.cn/)
山東公共數(shù)據(jù)開(kāi)放網(wǎng)在平臺(tái)首頁(yè)的「疫情防控」欄目下開(kāi)放了由省衛(wèi)生健康委員會(huì)提供的 5 個(gè)數(shù)據(jù)集。(http://data.sd.gov.cn/ )
針對(duì) COVID-19 病例研究,截至目前也出現(xiàn)了一些算法,以下是其中部分論文:
基于肺部 CT 的 COVID-19 診斷準(zhǔn)確性評(píng)估
該論文是近日科亞醫(yī)療的原創(chuàng)性研究成果,也是在世界頂級(jí)期刊《Radiology》首個(gè)發(fā)表的基于人工智能的新冠診斷準(zhǔn)確性評(píng)估論文。
該方法采用了前沿的深度學(xué)習(xí)技術(shù),開(kāi)發(fā)了針對(duì)新冠肺炎 COVID-19 的 3D 檢測(cè)神經(jīng)網(wǎng)絡(luò) --- COVNet,使其從肺部 CT 中提取各類(lèi)影像特征用于鑒別新冠肺炎。
最終,在獨(dú)立測(cè)試集中驗(yàn)證表明,COVNet 對(duì)新冠肺炎的鑒別靈敏度和特異性分別高達(dá) 89.76%和 95.77%,ROC(受試者工作特征)曲線下面積 AUC 為 0.96。同時(shí)驗(yàn)證了模型對(duì)社區(qū)獲得性肺炎的鑒別準(zhǔn)確性(靈敏度 86.85%,特異性 92.28%,AUC 為 0.95)。
深度學(xué)習(xí)對(duì) CT 圖像中 COVID-19 的肺部感染定量研究
上海研究人員設(shè)計(jì)了一種系統(tǒng),該系統(tǒng)可以與人工檢查結(jié)果配合,從而將 CT 圖像的分析時(shí)間從數(shù)小時(shí)減少到大約 4 分鐘。
具體而言,研究人員開(kāi)發(fā)了基于深度學(xué)習(xí)(DL)的分割系統(tǒng),訓(xùn)練 VB-Net 神經(jīng)網(wǎng)絡(luò)對(duì) CT 掃描圖像中的 COVID-19 感染區(qū)域進(jìn)行分割。
通過(guò)在 300 例 COVID-19 患者的胸部 CT 掃描中,比較自動(dòng)分段的感染區(qū)域與手動(dòng)劃定的感染區(qū)域,從而評(píng)估系統(tǒng)的性能。
而為了加快數(shù)據(jù)標(biāo)注的速度,該方法采用了人機(jī)回圈 (Human-in-the-loop) 優(yōu)化的方法對(duì)每個(gè)病例進(jìn)行注解,從而大大減少總分割時(shí)間。
最終,該系統(tǒng)在自動(dòng)分割和手動(dòng)分割之間的戴斯相似系數(shù)為 91.6%±10.0%,感染百分比(POI)的平均預(yù)測(cè)誤差為 0.3%。
論文地址:
異常的呼吸模式分類(lèi)器助力大規(guī)模篩查 COVID-19
在這里,研究人員通過(guò)分析人的呼吸速度,尋找一種篩查 COVID-19 的聽(tīng)覺(jué)方法。這項(xiàng)研究不是結(jié)論性的,但它是一種以較少侵入性方式測(cè)試病毒的新思路。
根據(jù)最新臨床研究,COVID-19 的呼吸模式與流感和普通感冒的呼吸模式不同;感染 COVID-19 的人有呼吸暫?,F(xiàn)象,并且呼吸更快。
對(duì)呼吸模式進(jìn)行分類(lèi)的 BI-AT-GRU 模型
因此,論文提出根據(jù)呼吸特征對(duì)新型冠狀病毒的患者進(jìn)行篩查。具體而言,研究人員使用了深度相機(jī)和深度學(xué)習(xí)來(lái)完成這項(xiàng)篩查任務(wù)。
但基于實(shí)際情況中的數(shù)據(jù)量不足以進(jìn)行深度模型訓(xùn)練,論文中首先提出了一種新的呼吸模擬模型,來(lái)彌補(bǔ)訓(xùn)練數(shù)據(jù)不足的問(wèn)題。
隨后該論文首次利用雙向注意力機(jī)制的 GRU 模型來(lái)對(duì) 6 種臨床上重要的呼吸模式進(jìn)行分類(lèi),這一方法可以拓展到大型的應(yīng)用場(chǎng)景中,對(duì)現(xiàn)有的篩查方法形成補(bǔ)充。
論文地址:
使用深度學(xué)習(xí) CT 圖像分析進(jìn)行自動(dòng)檢測(cè)和患者監(jiān)測(cè)的初步結(jié)果
由于非對(duì)稱(chēng)胸部 CT 已被證明是檢測(cè)、量化和追蹤該疾病的有效工具,因此可以開(kāi)發(fā)深度學(xué)習(xí)算法,來(lái)幫助分析大量的胸部 CT 圖像。
因此,研究人員開(kāi)發(fā)了該基于 AI 的自動(dòng) CT 圖像分析工具,并證明它們可以將冠狀病毒患者與未患該疾病的人區(qū)分開(kāi)。
論文提出的系統(tǒng)具有輸入胸部 CT 圖像并標(biāo)記懷疑具有 COVID-19 病例的功能。此外,對(duì)于分類(lèi)為陽(yáng)性的病例,系統(tǒng)會(huì)輸出肺部異常定位圖和測(cè)量值。
最終,胸部 CT 冠狀病毒與非冠狀病毒的分類(lèi)結(jié)果為 0.996 AUC(95%CI:0.989-1.00),這是在中國(guó)控制和感染患者的數(shù)據(jù)集上的結(jié)果。實(shí)際使用的結(jié)果:靈敏度為 98.2%,特異性為 92.2%。
目前,該研究正在擴(kuò)展到更大的人群,證明基于 AI 的圖像分析可以在檢測(cè)冠狀病毒以及量化和跟蹤疾病方面取得高精度的結(jié)果。
論文地址:
三種臨床特征預(yù)測(cè)重度 COVID-19 患者但危急程度
在當(dāng)前階段,對(duì)疾病的嚴(yán)重程度進(jìn)行快速、準(zhǔn)確和早期的臨床評(píng)估至關(guān)重要。在尚無(wú)確定的生物標(biāo)志物作為標(biāo)準(zhǔn)的情況下,這個(gè)方法,能夠?qū)π鹿诟呶;颊哌M(jìn)行快速檢測(cè)、早期干預(yù)并有可能降低他們的死亡率。
在此研究中,研究人員運(yùn)用最先進(jìn)的機(jī)器學(xué)習(xí)框架,選擇了 3 種生物標(biāo)志物來(lái)預(yù)測(cè)個(gè)體患者的生存率:LDH(乳酸脫氫酶)、淋巴細(xì)胞和 hs-CRP(超敏 C-反應(yīng)蛋白)。
研究人員開(kāi)發(fā)了基于 XGBoost 機(jī)器學(xué)習(xí)的預(yù)后模型,并采用來(lái)自中國(guó)武漢的近 3,000 例患者的電子健康記錄。最終,該模型使用患者最新血樣樣本能夠以 90%以上的準(zhǔn)確度預(yù)測(cè) COVID-19 重癥患者是否存活;使用其他血液樣本則能達(dá)到 90%的預(yù)測(cè)準(zhǔn)確度。
這也表明三種生物標(biāo)記物可以準(zhǔn)確預(yù)測(cè)疾病的嚴(yán)重程度,因此可大大減輕臨床參數(shù)監(jiān)測(cè)的壓力和其他相關(guān)的醫(yī)療負(fù)擔(dān)。
論文地址:
XGBoost 機(jī)器學(xué)習(xí)算法流程圖
原文參考:https://onezero.medium.com/computer-scientists-are-building-algorithms-to-tackle-covid-19-f4ec40acdba0
雷鋒網(wǎng) AI 源創(chuàng)評(píng)論
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。