丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
醫(yī)療科技 正文
發(fā)私信給AI掘金志
發(fā)送

0

騰訊天衍實驗室鄭冶楓:AI抗疫的核心技術(shù)復盤丨公開課回顧

導語:科技抗疫急先鋒

近期,雷鋒網(wǎng)AI掘金志邀請騰訊天衍實驗室主任鄭冶楓,做客雷鋒網(wǎng)公開課,以“騰訊抗疫故事”為題,對騰訊兩個月相繼做出的健康小程序、新冠肺炎CT輔助診斷、肺炎疫情趨勢三個產(chǎn)品做出了技術(shù)分享。

后續(xù)將有更多課程上線,添加微信公眾號   醫(yī)健AI掘金志   報名聽課,或收看本節(jié)課程視頻回放

過去兩個月,騰訊作為國內(nèi)互聯(lián)網(wǎng)行業(yè)第一梯隊,在抗擊疫情中付出了諸多努力,其中騰訊健康小程序提供實時疫情展示、線上問診AI自查服務(wù),累計有3億用戶使用。

鄭冶楓表示,騰訊健康小程序抗疫專區(qū)上線的15個工具中,天衍實驗室參與了5項,包括疫情知識問答、患者同小區(qū)、發(fā)熱自查、發(fā)熱門診、口罩攻略。在疫情問答中,天衍實驗室利用自研LTD-BERT模型識別用戶意圖,把推理速度提高了40倍,滿足上線大流量需求,理解用戶意圖以后做問答匹配,精準地給用戶提供疫情信息。

而在新冠肺炎CT輔助診斷產(chǎn)品的研發(fā)上,克服數(shù)據(jù)量不足、標注力量不夠等問題,天衍實驗室采用魔方自監(jiān)督學習方式訓練模型,在小數(shù)據(jù)集上進行微調(diào),就肺炎、非肺炎、病毒性肺炎和非病毒性肺炎做分類。

針對疫情的宏觀防控,天衍實驗室還利用深度學習對“傳統(tǒng)傳染病動力學模型”進行優(yōu)化,為政府做了國內(nèi)各省份和海外國家“肺炎趨勢預測”。預測效果上,實際情況跟模型預測非常吻合,在3月3號發(fā)布的武漢預測模型中,后續(xù)實際證明誤差小于千分之一。

以下為鄭冶楓的演講全文內(nèi)容,雷鋒網(wǎng)做了不改變原意的編輯。

天衍實驗室是騰訊內(nèi)部,專注于醫(yī)療AI的實驗室, 覆蓋醫(yī)療大數(shù)據(jù)、醫(yī)療自然語言理解、醫(yī)療影像等等。我們的使命是“全面支持公司醫(yī)療線的應(yīng)用”。2019年我們實驗室提交了將近100個專利,有6個頂會論文發(fā)表,參加多項競賽,取得5項醫(yī)療AR競賽的冠軍。

過去兩個月對全國人民來說都是不尋常的兩個月。今天我跟大家分享我們的一些工作。

騰訊天衍實驗室鄭冶楓:AI抗疫的核心技術(shù)復盤丨公開課回顧

今天公開課,首先介紹天衍實驗室,然后分享實施的三個項目:

1、騰訊健康小程序抗疫專區(qū),這是to C的產(chǎn)品,依托于騰訊微信平臺,目前是給大家做疫情知識科普,加強防疫意識;

2、新冠狀肺炎CT輔助診斷,這是to B的項目,最終是部署到醫(yī)院,目標是幫助影像科醫(yī)生提高診斷準確率;

3、肺炎趨勢預測,是政府部門合作項目,為下一步疫情防控提供參考,三個項目覆蓋了to C、to B和to G。

騰訊健康小程序

新冠肺炎從2019年12月份爆發(fā)以來進展非常迅速,1月20號,鐘南山院士宣布新冠病毒存在人傳人,1月23號武漢開始封城,疫情在全國全面爆發(fā)。

中國花了一個多月時間,完全控制疫情的傳播,當時覺得疫情就像當年SARS一樣,過去了,病毒就完全消失了,后來發(fā)現(xiàn)情況比我們想象的要嚴重。

新冠肺炎已經(jīng)在歐洲和美國已經(jīng)全面爆發(fā),最近幾天確診患者數(shù)量上漲非??臁S行<翌A言病毒可能會跟流感病毒一樣,每年冬季爆發(fā),會跟人類長期生存。

騰訊作為中國頭部互聯(lián)網(wǎng)公司,過去兩個月也積極投身國內(nèi)抗疫工作。在3月18號,騰訊發(fā)布2019年財報和2019年第4個季度財報上,專門有章節(jié)介紹抗疫期間的工作,列下來大概有6點,其中兩點是跟天衍實驗室密切相關(guān)。比如,騰訊的15億抗疫基金中,捐贈6臺CT掃描儀搭載新冠CT影像診斷算法,部署到武漢抗疫前線;給鐘南山院士團隊捐贈3000萬,用于新冠治療方法研究,建立聯(lián)合實驗室,天衍實驗室是騰訊內(nèi)部專門負責對接的的技術(shù)團隊。

另外相關(guān)的是騰訊健康。騰訊健康小程序提供實時疫情展示、線上問診AI自查服務(wù),累計有3億用戶使用。

騰訊天衍實驗室鄭冶楓:AI抗疫的核心技術(shù)復盤丨公開課回顧

騰訊健康抗疫專區(qū)

雷鋒網(wǎng)在3月3號發(fā)表了“我們對「騰訊戰(zhàn)疫」實情一無所知”,講述了騰訊健康抗疫專區(qū)背后的故事,主要采訪了產(chǎn)品,前臺開發(fā)、小程序開發(fā)同事,里面的故事非常感人,有很多細節(jié)也是我們讀了文章才知道,因為我們很多人是在家一直加班。

天衍實驗室屬于后臺算法開發(fā),更多是在幕后,用人工智能技術(shù)幫助抗疫專區(qū)項目推進,所以今天,我會從天衍實驗室的角度闡述抗疫工具后面的黑科技。

騰訊天衍實驗室鄭冶楓:AI抗疫的核心技術(shù)復盤丨公開課回顧

大家讀這份報告的時候可以看到,想法最初是來自1月20號鐘南山院士宣布疫情全面爆發(fā)以后,我們醫(yī)療線同事就在想我們能做什么,當時就決定在騰訊健康上開辟抗疫專區(qū),產(chǎn)品的同事花了一天多的時間加班加點,22號凌晨8:00上線了抗疫專區(qū),開發(fā)出很多抗疫工具。

騰訊天衍實驗室鄭冶楓:AI抗疫的核心技術(shù)復盤丨公開課回顧

天衍實驗室參與更多的是抗疫工具研發(fā)。微信同事也非常給力,在“我-支付-騰訊服務(wù)”的九宮格里給我們上線了醫(yī)療健康頂級入口,幫助工具做快速傳播??偣?5個工具中,天衍實驗室參與了其中5項,包括疫情小助手、患者小區(qū)、發(fā)熱自查、發(fā)熱門診、口罩攻略等。

智能知識問答

這個產(chǎn)品主要目的有兩個,“抑制謠言傳播”,“助力權(quán)威信息傳播”,權(quán)威信息傳播了,謠言自然就沒有生存空間。

在疫情開始初期,大家都希望能得到權(quán)威解答,比如,懷疑自己是否得了新冠肺炎會問新冠肺炎癥狀等,但是網(wǎng)上的信息良莠不齊,甚至有些是故意編造的謠言。

騰訊天衍實驗室鄭冶楓:AI抗疫的核心技術(shù)復盤丨公開課回顧

我們希望通過一個工具,把權(quán)威信息集中起來,有效地給公眾傳播。雖然衛(wèi)健委以及中國頭部醫(yī)療機構(gòu)會在官網(wǎng)上放出權(quán)威信息及問答,但這種官網(wǎng)信息最大的問題是流量小、文件篇幅長、難以檢索。

通過不斷積累,我們工具的數(shù)據(jù)來源包括衛(wèi)健委在內(nèi)23個權(quán)威網(wǎng)站,保證信息權(quán)威性,庫里所有問答最后都是通過中華預防醫(yī)學會專家校驗,通過多輪迭代以后,我們的問答覆蓋率已經(jīng)達到超過97%。

騰訊天衍實驗室鄭冶楓:AI抗疫的核心技術(shù)復盤丨公開課回顧

這是我們產(chǎn)品的展示,進入這個界面可以看到先推薦幾個最熱點問題,假設(shè)用戶感興趣可以直接點擊,如果不感興趣,可以問全新的問題,比如新冠肺炎患者臨床表現(xiàn),程序會到數(shù)據(jù)庫匹配,找到最相關(guān)答案展示,回答完這一輪問題以后,會預估用戶可能還存在的問題,進行自推薦。

騰訊天衍實驗室鄭冶楓:AI抗疫的核心技術(shù)復盤丨公開課回顧

技術(shù)總體框架分4層:數(shù)據(jù)層、技術(shù)層、功能層和應(yīng)用層

數(shù)據(jù)層最重要是數(shù)據(jù)來源,依托互聯(lián)網(wǎng)信息,用爬蟲技術(shù)爬取,當然我們也有醫(yī)療知識庫,對這些信息校對。第一個版本上線,我們覆蓋率并不高,可能只覆蓋到50%的問題,所以我們會每天分析日志數(shù)據(jù),找到里面高頻、沒有很好回答的問題進行補充;

在技術(shù)層,我們用爬蟲技術(shù)、數(shù)據(jù)庫技術(shù)、人工智能技術(shù);在功能層;輔用我們以前做的工作,包括拼寫糾錯、意圖識別等;在應(yīng)用層,就是展現(xiàn)給用戶能看到的體驗,包括問答系統(tǒng)、個性化推薦系統(tǒng)等。

騰訊天衍實驗室鄭冶楓:AI抗疫的核心技術(shù)復盤丨公開課回顧

信息采集模塊主要有兩塊,一是權(quán)威信息爬取,用自動爬蟲工具去爬取數(shù)據(jù)來源,最終達到23個,每個數(shù)據(jù)來源的問答很大部分是重疊的,所以我們做了一些去重的工作,還有每個網(wǎng)站格式可能不太一樣,我們需要做格式歸一化,最后清洗完將問題入庫。

第一個版本上線,很多熱點問題沒有覆蓋到,后續(xù)設(shè)置了熱點問題挖掘模塊,發(fā)現(xiàn)新問題沒有回答就用搜索引擎搜索,自動從網(wǎng)上找到答案,這些答案可能來源參差不齊,我們會做一個質(zhì)量評估區(qū)分,是來源于權(quán)威網(wǎng)站還是來歷不明網(wǎng)站,只采用權(quán)威網(wǎng)站信息,格式可能跟我們不太一樣,需要做人工改寫。所有改寫完的問答,都會找中華預防醫(yī)學會專家做人工校對,確保無誤以后入庫。

騰訊天衍實驗室鄭冶楓:AI抗疫的核心技術(shù)復盤丨公開課回顧

智能問答

首先對輸入層做了很多工作,比如拼寫糾錯、因為輸入可能是同音字會有拼寫錯誤,還有標準化改寫,因為新冠是新疾病,在統(tǒng)一名稱之前,不同時期有不同叫法。

我們還做了意圖識別,建立三級意圖體系,第一級意圖有九個,包含口罩、新冠知識、發(fā)熱門診之類等,接著不斷細分。到第三級有329個意圖,比如,口罩細分層就有購買渠道、價格、口罩配套、口罩是否可以重復使用等。

我們是采用最新BERT模型做意圖識別,把輸入的用戶意圖分類到意圖體系里,但是BERT模型速度比較慢,我們進行了模型壓縮,最終用自研LTD-BERT模型把推理速度提高了40倍,滿足上線大流量需求,我們理解用戶意圖以后,會做問答匹配,精準給用戶提供答案。

騰訊天衍實驗室鄭冶楓:AI抗疫的核心技術(shù)復盤丨公開課回顧

還有個性化問題推薦功能,根據(jù)用戶輸入,可以做一些推薦,比如,根據(jù)用戶過往問題做相關(guān)后續(xù)追問,或者推薦一些熱點。

用戶甚至可以制定意圖,比如他想知道所有跟口罩相關(guān)的科普知識,我們會通過意圖分析,把數(shù)據(jù)庫里信息做分類處理,把口罩相關(guān)信息推送給用戶,讓用戶自由閱覽。

騰訊天衍實驗室鄭冶楓:AI抗疫的核心技術(shù)復盤丨公開課回顧

秉承開放的態(tài)度,除了在騰訊健康上線之外,我們還對外輸出,比如服務(wù)了17個省區(qū)40個衛(wèi)計委和疾控中心,還服務(wù)了近100家醫(yī)院。

甚至還做了一個接入指南,幫助他們?nèi)ジ焖俚亟尤?,可以把我們的工具嵌入到他們的小程序里,做智能問答;也開放給行業(yè)合作伙伴,有30多家行業(yè)合作伙伴最終接入了我們的系統(tǒng)。

患者小區(qū)查詢

嚴格意義上這是患者蹤跡查詢,有些地方會公布患者蹤跡,去過哪些餐館,哪些公開場所,只要這些信息權(quán)威來源公布,我們就會納入查詢范圍。

騰訊天衍實驗室鄭冶楓:AI抗疫的核心技術(shù)復盤丨公開課回顧

目的是讓信息能夠透明,信息越透明越可以避免民眾恐慌,可以增加政府的公信力,民眾可以更好地理解和配合政府抗疫措施。

因為我們平臺觸及用戶比較多,展現(xiàn)也比較靈活,所以可以更方便把不同來源的信息,包括是官網(wǎng)、微信公眾號、微博信息集成起來,在一個平臺上集中展現(xiàn)。

信息可以展現(xiàn)在地圖上,用戶實時交互,得到比較好的用戶體驗,我們最終覆蓋城市232個,城市覆蓋率超過70%。覆蓋小區(qū)數(shù)目超過8000個。

騰訊天衍實驗室鄭冶楓:AI抗疫的核心技術(shù)復盤丨公開課回顧

這是我們產(chǎn)品的展示效果,可以根據(jù)用戶地理位置,可以把周圍小區(qū)都覆蓋在地圖上,以確診患者小區(qū),畫三公里半徑圓,用戶可以很清楚看到患者小區(qū)距離,也可切換到列表模式,給出小區(qū)名字、地址、距離等信息。

騰訊天衍實驗室鄭冶楓:AI抗疫的核心技術(shù)復盤丨公開課回顧

每個信息我們還注明截止日期、從哪公布,也有訂閱功能,如果你周圍小區(qū)有情況更改,會自動推送。我們還有一些科普的知識,比如小區(qū)出現(xiàn)患者該怎么辦。

騰訊天衍實驗室鄭冶楓:AI抗疫的核心技術(shù)復盤丨公開課回顧

制作工具的難點主要有三個:

第一個難點:信息滯后。最笨的方法是人工直接尋找信息,做一次就上線,可這個方法最大問題是源于信息更新,因為疫情高峰時期,每天都會有新的小區(qū)出現(xiàn),有信息更改,所以希望越自動化越好。

我們是采用自動定時爬取的方法,每天爬取2到3次,對爬取的信息用自然語言理解模型,提取小區(qū)名字、信息發(fā)布來源、信息發(fā)布時間等信息;提取出信息以后,跟數(shù)據(jù)庫里已有信息做比對去重,比如小區(qū)不同名稱,最后,所有數(shù)據(jù)都要做人工校驗確保來源準確。

第二個難點:信息來源欠缺權(quán)威性。我們的受眾比較廣,能力越大責任就越大,所以當時設(shè)計產(chǎn)品的時候,最重要的考慮就是數(shù)據(jù)來源必須官方渠道。

所以我們就開創(chuàng)性地提出,一種正向反向溯源方法提高數(shù)據(jù)質(zhì)量,因為開始冷啟動的時候,沒有權(quán)威信息來源列表,最開始的爬蟲方法信息質(zhì)量沒有保證,所以一旦提取到小區(qū)發(fā)現(xiàn)確診病例,就會用這個小區(qū)名字反向搜索,可能出現(xiàn)幾十個信息來源,最后去定位最權(quán)威來源(一般來源于官方的發(fā)布)。

找到權(quán)威來源之后,我們才把信息放到工具上,沒找到就放在內(nèi)部數(shù)據(jù)庫不會上線。發(fā)現(xiàn)權(quán)威來源以后,不在我們的白名單里,我們會把這些來源加入到我們白名單。

第三個難點:小區(qū)信息未關(guān)聯(lián)具體地址或地理坐標。一般官方發(fā)布都只給小區(qū)名字,很難做交互,體驗也不好,所以我們跟騰訊地圖合作,他們開放API給我們,拿小區(qū)名字去搜索,然后得到經(jīng)緯度,名稱也做歸一化。

名稱歸一化很重要,官方發(fā)布的小區(qū)名字和騰訊地圖直接做匹配,30%小區(qū)不能匹配,我們花了很多功夫做人工審核、做數(shù)據(jù)清洗保證數(shù)據(jù)準確性。

騰訊天衍實驗室鄭冶楓:AI抗疫的核心技術(shù)復盤丨公開課回顧

這里我只展示一個技術(shù),利用BERT模型做小區(qū)信息抽取,抽取的信息包括小區(qū)名稱、發(fā)布時間、數(shù)據(jù)來源等。對BERT模型來說,輸入有兩塊,一塊是段落文本,一塊選取信息,假如,想抽取小區(qū)信息就輸入患者小區(qū)4個字,就會做詞向量的空間embedding,再加上位置信息,模型會自動告訴我們,提取的信息起始位置、終止位置,做到非常自動化,減少人力尋找。

新冠CT輔助診斷

這個項目的初衷是提高診斷準確性。現(xiàn)在新冠診斷有兩條技術(shù)路線,一個是核酸檢測,核酸陽性就代表攜帶病毒,只要不是操作失誤,就非常準確,但是有假陰率的情況。核酸檢測還有供應(yīng)量不足、檢測時間長等其他問題,最終確診需要一天或兩天時間。

另外一種方法是CT檢測,CT普及率高,一般縣級醫(yī)院甚至鄉(xiāng)鎮(zhèn)醫(yī)院都有CT掃描儀,掃描速度也很快,5分鐘就可以,假如現(xiàn)場有放射科醫(yī)生閱片,再需要15分鐘左右,就可以知道肺部CT是否有新冠肺炎癥狀,比核酸檢測更快,敏感性也比較高,根據(jù)鐘南山的論文中76%的患者肺部CT會出現(xiàn)異常,敏感度超過核酸。

騰訊天衍實驗室鄭冶楓:AI抗疫的核心技術(shù)復盤丨公開課回顧

國家衛(wèi)建委第5版新冠肺炎診斷指南里,把CT作為一個臨床診斷標準(僅限湖北省份)。以后,2020年2月13日,湖北省確診病例單日增加將近15000例,其中大部分是基于CT影像確診的,意味那批核酸陰性的病人,得到了真正的確診,后續(xù)可以更加合理的治療。

騰訊天衍實驗室鄭冶楓:AI抗疫的核心技術(shù)復盤丨公開課回顧

CT上可以看到肺炎病人還是有比較明顯的癥狀,當然早期、進展期、重癥期癥狀是有區(qū)別的。在早期主要是磨玻璃狀陰影,不是完全實心,可以看到后面的血管,跟正常肺組織差異比較小,到進展期、重癥期會慢慢實化,最嚴重時候可能變白肺。

騰訊天衍實驗室鄭冶楓:AI抗疫的核心技術(shù)復盤丨公開課回顧

對CT的診斷,無論對醫(yī)生、還是AI算法都是非常巨大的挑戰(zhàn)。

首先新冠肺炎是新疾病,對醫(yī)生來說,特別是初級醫(yī)生,都沒見過這種疾病,準確診斷是很大的挑戰(zhàn)。早期階段表征是磨玻璃狀,背景對比度不夠強,此外磨玻璃本身就存在同狀異病的情況,診斷準確率會受影響。

對于武漢一線醫(yī)生,做CT檢查人特別多,工作量特別大,每天都是超負荷工作,一個薄層CT掃描會產(chǎn)生300張左右的影像,肉眼閱讀可能需要5到15分鐘,對醫(yī)生來說確實需要一個能夠幫助提高診斷準確率,加快閱片速度的助手。

對AI算法來說,也是非常巨大的挑戰(zhàn),因為疫情爆發(fā)初期,很難獲得大量數(shù)據(jù)。我們第一個版本只用一周時間就要開發(fā)、迭代,最終落地。還有標注的問題,因為前線醫(yī)生都非常忙,我們不想打擾前線醫(yī)生抗疫工作,也不可能讓前線醫(yī)生給我們標很多數(shù)據(jù)。 

但好在我們團隊過去兩年一直關(guān)注小樣本學習問題,最終用自研小樣本學習技術(shù),在數(shù)據(jù)量不是特別大情況得到比較滿意的準確率。

騰訊天衍實驗室鄭冶楓:AI抗疫的核心技術(shù)復盤丨公開課回顧

我們醫(yī)學影像團隊過去幾年技術(shù)積累還是非常好的,比如通用技術(shù),2019年我們參加的醫(yī)學影像競賽,其中拿到5個競賽的冠軍,光在競賽總獎金上就達到35萬,里面包括檢測、分割和分類,覆蓋醫(yī)學影像大部分任務(wù)。

當然我們也有很多相關(guān)技術(shù)積累,比如肺結(jié)節(jié)篩查,雖然病例可能不是肺炎但可以作為負例去訓練分類器。

還有更相關(guān)的項目是,我們跟國內(nèi)頂尖的傳染病醫(yī)院,在免疫抑制人群肺炎(PCP)和普通人群肺炎這兩個分類上做了很多科研工作,這個工作跟現(xiàn)在新冠肺炎的項目非常像,也積累了很多數(shù)據(jù)。

最后相關(guān)的是小樣本學習,我們在小樣本學習上也有很好的技術(shù)積累,去年我們開源了一個MedicalNet預訓練模型,通過預訓練,在小樣本上做微調(diào),可以提高分類準確率,同時也研究了很多自監(jiān)督學習和半監(jiān)督學習技術(shù),相關(guān)工作也發(fā)表在去年的一些頂會上。

騰訊天衍實驗室鄭冶楓:AI抗疫的核心技術(shù)復盤丨公開課回顧

在落地方面,騰訊走了一套跟別人完全不一樣的落地路線,采用車載CT+AI+遠程篩查整套方案,項目背景是騰訊基金會從15億抗疫基金里拿出一部分,捐贈了6臺CT掃描儀。

前期主要是捐獻給廣東醫(yī)療隊,當他們到需要到武漢去,幫助前線抗疫。所以對這些醫(yī)生來說,他們就像個戰(zhàn)士,走的時候必須有武器,沒有CT掃描儀,就沒法做很多檢查,所以我們捐贈了6臺設(shè)備。

騰訊天衍實驗室鄭冶楓:AI抗疫的核心技術(shù)復盤丨公開課回顧

這是當時發(fā)車的照片,可以看到這是集裝箱,里面裝載了CT掃描儀和AI服務(wù)器。部署到醫(yī)院以后把集裝箱放下來,通過一兩天連調(diào)就可以上線,開始工作,過程非常快速。

除了捐贈6臺CT掃描儀以外,我們也捐贈了7臺AI服務(wù)器,其中6臺,搭配著車載CT一起部署到醫(yī)院。

騰訊天衍實驗室鄭冶楓:AI抗疫的核心技術(shù)復盤丨公開課回顧

這是我們產(chǎn)品的迭代的路線,大概分幾個步驟,更新4個版本。

第1個版本時,時間非常緊,只有一周時間,因為第1臺捐贈CT發(fā)車時間是2020年2月16號,我們拿到數(shù)據(jù)已經(jīng)是2月初,后面還要跟CT廠家聯(lián)調(diào),留給算法開發(fā)的時間只有一個星期,當時也是頂著壓力讓同事們一起加班加點,最后順利的完成任務(wù)。

我們分類任務(wù)是進行一個三分類,輸入一個CT圖像以后,首先分析是不是肺炎,因為也可能是肺結(jié)節(jié)、其他肺部疾病、正常無疾病。確定是肺炎之后,還需要區(qū)分是病毒性肺炎(新冠肺炎),還是其他肺炎(細菌引起抗細菌引起感染引起的肺炎)。

第2個版本我們又加了肺炎區(qū)域分割,可以統(tǒng)計病灶數(shù)目、病灶體積、病灶占肺部區(qū)域的百分比等,后面又加了肺葉定位和隨訪功能。

騰訊天衍實驗室鄭冶楓:AI抗疫的核心技術(shù)復盤丨公開課回顧

談到分類任務(wù),因為第1個版本時間非常緊,數(shù)據(jù)量又非常少,所以我們用自監(jiān)督學習方法,也就是魔方自監(jiān)督,這是我們?nèi)ツ暝卺t(yī)療影像AI頂會(MICCAI)上發(fā)表的論文。

自監(jiān)督學習就是給原始圖像額外標簽去設(shè)計任務(wù),任務(wù)可以從原始圖像中拿到(自己定義)一些標簽來監(jiān)督我們網(wǎng)絡(luò)的訓練。

騰訊天衍實驗室鄭冶楓:AI抗疫的核心技術(shù)復盤丨公開課回顧

當時我們設(shè)計任務(wù)是將三維CT圖像切分成一些模塊,比如2×2×2的8個模塊,拿到這8個模塊以后,我們隨機打亂它順序,每個模塊可以沿著不同的軸做隨機旋轉(zhuǎn),就像一個打亂的魔方。我們的神經(jīng)網(wǎng)絡(luò)就是試圖去恢復這個魔方,給每一個模塊找到原來的位置,然后判斷模塊是不是被旋轉(zhuǎn)過。

神經(jīng)網(wǎng)絡(luò)被訓練出來以后,我們采用遷移學習方法,在特定任務(wù)上微調(diào),因為這種預訓練方法不需要標簽,可以在大量甚至幾萬例數(shù)據(jù)上做預訓練,得到非常穩(wěn)定的結(jié)果。

然后我們在小數(shù)據(jù)上微調(diào)做分類,就肺炎、非肺炎、病毒性肺炎和非病毒性肺炎分類,可以有效放大有限樣本量的效率,大家要感興趣的話可以參考我們那篇論文。

騰訊天衍實驗室鄭冶楓:AI抗疫的核心技術(shù)復盤丨公開課回顧

肺炎分割是一個比較難的問題,特別早期肺炎,因為是磨玻璃狀的病變,輪廓并不清晰,即使醫(yī)生標注也有很大的方差,可以比較一下肺炎分割和實性腫瘤分割的情況。

騰訊天衍實驗室鄭冶楓:AI抗疫的核心技術(shù)復盤丨公開課回顧

這是腦膠質(zhì)瘤分割,比較規(guī)則,形狀近似于橢圓形,當然也有離群點,但是肺炎離群點更多,即使大塊的肺炎區(qū)域形狀都特別不規(guī)則。

騰訊天衍實驗室鄭冶楓:AI抗疫的核心技術(shù)復盤丨公開課回顧

我們用的三維卷積神經(jīng)網(wǎng)絡(luò),能夠充分利用層與層之間的信息,得到更有效的結(jié)果。對于這種三維圖像分割,我們還是比較有經(jīng)驗的,去年在肝臟分割上拿到了第1名,肺部多器官分割上我們也拿了第1名,所以可以很快就上線功能。

騰訊天衍實驗室鄭冶楓:AI抗疫的核心技術(shù)復盤丨公開課回顧

這是我們落地的效果,總體來說靈敏度比較高,自測至少95%以上,假陽率也是可以接受的范圍。

這是部署到前線以后的第1例案例,我們當時也非常緊張,因為我們也不知道系統(tǒng)部署到前線后的實際表現(xiàn),患者是武漢醫(yī)院醫(yī)生,在之前患了新冠肺炎,等他痊愈之后,就負責主持我們公司捐贈醫(yī)院的感染控制。當時他自告奮勇做第1次掃描,我們AI診斷結(jié)果肺部影像是正常的,也符合當時他的情況。

右邊是比較難的案例,已經(jīng)變大白肺,通常認為大白肺可能就已經(jīng)是新冠肺炎晚期,初級醫(yī)生認為是新冠肺炎而高年資醫(yī)生復核認為是細菌感染引起肺水腫,不是新冠病人,最后檢測結(jié)果確實是細菌性肺水腫,和我們AI診斷結(jié)果一致。

肺炎疫情趨勢預測騰訊天衍實驗室鄭冶楓:AI抗疫的核心技術(shù)復盤丨公開課回顧

這是和政府合作的項目,疫情防控部門給我們要求,想知道武漢或者湖北放開管控以后,會不會形成反彈,海外輸入風險有多大,哪些國家對我們風險最大等。

針對這些題目,我們又做了專題研究,構(gòu)造模型,把結(jié)果跟他們做定期匯報,為政府決策提供依據(jù)。對民眾來說,只要了解中長期趨勢也是有幫助的,因為每天數(shù)值都在變,假如他們知道中長趨勢就會保持更平和的心態(tài),更好的規(guī)劃工作和生活。

對于肺炎趨勢預測來說,大概有兩種方法:

第一種,傳統(tǒng)傳染病動力學模型,這個方法對參數(shù)非常敏感,非常難調(diào),因為參數(shù)一改變它結(jié)果就出現(xiàn)很大差異,特別是R0參數(shù)(病毒基本傳播數(shù)),表示平均下來一個病人會傳染多少正常的人;


第二種是機器學習模型,純數(shù)據(jù)驅(qū)動,這種方法的問題是數(shù)據(jù)訓練量比較少,做復雜的模型很有點難度。

騰訊天衍實驗室鄭冶楓:AI抗疫的核心技術(shù)復盤丨公開課回顧

里面有幾個創(chuàng)新,一個是改造傳統(tǒng)傳染病模型,傳統(tǒng)的SEIR模型中S代表易感人群,E代表潛伏期,I代表你發(fā)病了,R代表你在康復。這個模型更多是用于流感病人,比如到醫(yī)院確診流感,醫(yī)生給你開藥回家了,康復期還在社會上自由活動,就有一定傳染概率。

新冠整個管控方法是不一樣的,一旦發(fā)現(xiàn)是確診病人就會被隔離,所以在康復期就不會在社會上自由走動,所以把模型最后狀態(tài)改成了Q,變成了SEIQ。

這個模型整個來說就是說不同狀態(tài)之間有一個轉(zhuǎn)化速度,所以有幾個參數(shù):β、γ1、γ2等。第1個改進是我們加我們把R替代成Q;第2個改進就是基本傳播參數(shù)。

剛才提到這個參數(shù)非常敏感,另外參數(shù)還隨時間變化,隨著病例的不斷增加,政府可能會采取更加強力的措施,把R0這數(shù)值字降下來。所以我們認為R0是隨時間轉(zhuǎn)化的數(shù),不是固定值,基本假設(shè)是指數(shù)下降的,有基本、初始的和最終的參數(shù),中間是指數(shù)下降的過程。

模型的參數(shù)有些是新引入,有些是原來就有。對于參數(shù),我們不是直接去指定,而是給一個預定范圍,根據(jù)參考文獻或其他途徑,知道預定范圍,比如R0,我們認為在2到7之間比較好。

用機器學習的方法把模型擬合到實際觀測數(shù)據(jù)中,找到最優(yōu)的一組參數(shù),模型訓練好之后就可以做預測。

騰訊天衍實驗室鄭冶楓:AI抗疫的核心技術(shù)復盤丨公開課回顧

這是我們幾個案例,一個是全國(非湖北),實際情況跟我們的模型非常吻合,因為全國大概是1月20號鐘南山院士宣布肺炎人傳人以后,就開始有數(shù)據(jù)出來。

我們用1月20號到1月27號這8天數(shù)據(jù),藍色是我們訓練樣本,黃色是后續(xù)實際每天確診人數(shù),紅色是我們的模型預測結(jié)果。

可以看到27號就開始很好的預測未來一個月的變化,隨著訓練樣本量越來越多,時間往前推進,可以看到模型越來越準確。

騰訊天衍實驗室鄭冶楓:AI抗疫的核心技術(shù)復盤丨公開課回顧

第2個是湖北(非武漢)的數(shù)據(jù),更難一些,因為開始湖北的一些數(shù)據(jù)不符合傳染病規(guī)律,在2月4號之后,才能夠比較準確的預測。

騰訊天衍實驗室鄭冶楓:AI抗疫的核心技術(shù)復盤丨公開課回顧

這是武漢的數(shù)據(jù),2月13號湖北改變了診斷策略,把CT診斷加入標準之后,那天增加了很多病人。所以我們也提出一種方法,把病人往前折算到每天,根據(jù)疑似病例和確診病例的比例折算回去,灰色代表折算以后的病例數(shù)目,到2月中旬模型就可以得到不錯的結(jié)果。

后面下降期我們預算很準確,上升期確實很難,因為出現(xiàn)的數(shù)據(jù)偏離傳染病特征,很多病人還在社區(qū)沒有被篩查出來,實際數(shù)據(jù)不夠真實。

2月底,負責項目的孫繼超博士在內(nèi)部論壇上介紹了我們的算法,回溯性的給了部分結(jié)果,他在3月3號發(fā)布了一個預測,雖然當時全國很多地方新增變成0,但是武漢每天還在有很多新增數(shù)字。

他預測武漢一周以后累積數(shù)字,什么時候降到個位數(shù),什么時候歸零。我們后來用實際數(shù)據(jù)驗證來看,預測的準確率還是比較不錯的。

比如,模型預測3月18號到20號之間,武漢的新增最后會歸零,實際確實是3月18號新增數(shù)字歸零,還有預測了武漢最終確診病例會是49941,最終是50005,兩者非常接近,只有千分之一的誤差。

R0隨時間的變化曲線,可以看到確實在疫情初期,武漢的傳播系數(shù)非常大,遠遠高于全國和湖北非武漢城市,隨著政府管控力度加大,R0的系數(shù)也在不斷減少,最終收斂到0.2左右。

海外疫情爆發(fā)以后,我們的合作單位也希望對海外的疫情做預測,希望得到接下去半個月之內(nèi),哪些國家對我國海外輸入風險最大。

騰訊天衍實驗室鄭冶楓:AI抗疫的核心技術(shù)復盤丨公開課回顧

這是還在飛速發(fā)展的幾個國家,主要是歐洲的意大利、西班牙和德國,在星期一做的預測,預測之后一個月的變化情況。

預測意大利即將到達拐點,新增病例達到頂峰,之后,新增病例量開始往下走,預計在4月2號、3號左右達到達拐點,一個月以后總確診病例數(shù)達到24萬。

模型預測西班牙的拐點比意大利晚3到5天,會在4月6號左右,最終確診數(shù)目可能跟意大利差不多。德國會更晚一點,要到4月20號才能夠達到高峰,然后接下去就往下走。

所有模型預測都有很多不確定因素,我們現(xiàn)在放出來,就是想看看,最終實際情況是不是和模型預測一致。

騰訊天衍實驗室鄭冶楓:AI抗疫的核心技術(shù)復盤丨公開課回顧

今天又做了美國的預測,還是比較難的,可以看到模型預測美國每天發(fā)病的數(shù)目和實際有很大偏差,主要是因為美國基本輕癥患者,就不做核酸測試,只有滿足重癥住院要求,才做核酸測試。

所以看到早期美國數(shù)據(jù)增長非常慢,然后幾天突然增加,原因可能是疫情爆發(fā),或者是補償性行為。前期被隱藏的病人,開始放開做檢測,確診量開始補償性增加。我們對這個預測的信心不是特別足,根據(jù)模型預測,估計在4月17號左右,會達到高峰,接下來緩慢下降。

此外,假如美國不采取更強力的措施,我們估計5月15號,確診病例會超過100萬,希望不要發(fā)生這個情況,這需要他們的政府采取更強硬的管控措施。

騰訊天衍實驗室鄭冶楓:AI抗疫的核心技術(shù)復盤丨公開課回顧

我們跟合作單位還做了另外的課題,是湖北放開管控以后的反彈情況,這個模型比較受限,參數(shù)比較少,最主要是R0參數(shù)。

假如用其他模型,比如深度學習,很多參數(shù)可以直接輸入,比如確診人數(shù),當?shù)厝丝诿芏?,當?shù)厣钏?,醫(yī)院數(shù)目,平均活動范圍(代表管控力度),當?shù)貧夂驕囟鹊龋@些都可以作為參數(shù)輸入,所以深度學習模型,就是這里展示的LSTM模型,會非常靈活,對平均活動范圍非常敏感。

管控最大的體現(xiàn)就在平均范圍,因為管控力度大,待在家里每天活動范圍就很小,放開到處跑,平均活動范圍就大,所以我們發(fā)現(xiàn)模型,對平均活動范圍非常敏感,所以用LSTM模型做了訓練和預測。

騰訊天衍實驗室鄭冶楓:AI抗疫的核心技術(shù)復盤丨公開課回顧

這是當時和合作單位匯報的結(jié)果,2月17號做的預測,藍線是真實,連續(xù)光滑的曲線是我們預測結(jié)果,17號做預測,預測2月21日、22日、23號放開后會出現(xiàn)反彈。

放開有兩種模式,一種全面放開,比如武漢1月22號封城前的情況,人的平均活動半徑從1.8公里增長到22公里,確實會出現(xiàn)反彈,但是反彈不是特別致命,假如政府保持發(fā)現(xiàn)即隔離的管控措施會逐漸下降。

我們又做了不完全放開的預測,用武漢2月24號的數(shù)據(jù),人群平均活動范圍,可以看到不會反彈,但是下降速度會稍微慢一點。

騰訊天衍實驗室鄭冶楓:AI抗疫的核心技術(shù)復盤丨公開課回顧對鄂州做預測

我們對鄂州做了一個預測,它是非常小的地級市,緊鄰武漢,人口在100萬左右,在27號做預測的時候,疫情還不夠穩(wěn)定,剛剛過了拐點,還在上下波動時期。當時是按照完全放開進行預測,出現(xiàn)較大反彈,超過歷史峰值,人數(shù)從50多反彈到180,接近三倍,而不完全放開,保持一定管控力度,反彈力度會小一些,不過還是會接著反彈。

最后感謝天衍實驗室大數(shù)據(jù)組、自然語言理解組和影像組的同事,他們過去兩個月非常辛苦,加班加點,利用人工智能技術(shù)快速上線和落地新的功能,希望我們所做的事情,可以為全國人民的抗疫事業(yè)做出應(yīng)有的貢獻。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

分享:
相關(guān)文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說