0
本文作者: 任平 | 2021-12-23 10:23 | 專題:GAIR 2021 |
近日,第六屆全球人工智能與機器人大會(GAIR 2021)在深圳正式啟幕,140余位產(chǎn)學(xué)領(lǐng)袖、30位Fellow聚首,從AI技術(shù)、產(chǎn)品、行業(yè)、人文、組織等維度切入,以理性分析與感性洞察為軸,共同攀登人工智能與數(shù)字化的浪潮之巔。
在醫(yī)療科技高峰論壇上,AIMBE Fellow、深圳理工大學(xué)計算機科學(xué)與控制工程院院長潘毅以《人工智能在生物醫(yī)療學(xué)工程中的應(yīng)用》為題,分別講述了醫(yī)藥研究中的數(shù)據(jù)特征、AI應(yīng)用生物醫(yī)學(xué)的研究案例,以及知識和數(shù)據(jù)對醫(yī)療AI的重要性。
今年2月,潘毅教授當(dāng)選為美國醫(yī)學(xué)與生物工程院院士。
他同時是英國皇家公共衛(wèi)生學(xué)院院士、烏克蘭國家工程院外籍院士、英國工程技術(shù)學(xué)會會士,在計算機和生物信息領(lǐng)域已發(fā)表250多篇SCI期刊論文,其中100多篇發(fā)表于頂尖期刊。
潘毅教授表示,當(dāng)大家關(guān)注到事物之間的關(guān)系,用萬物互聯(lián)的思路解決問題,用AI探索萬物互聯(lián),不僅能輸出定量化病理診斷和疾病預(yù)后,還能推動病理研究向著更加自動化、更加精準(zhǔn)的方向發(fā)展。
“今天很多的醫(yī)藥進步,已經(jīng)不僅是通過臨床實驗做出來的,還是用數(shù)據(jù)分析出來的。人工智能的解釋是逆向工程,這個工作非常復(fù)雜,但是非常值得研究。如果可以實現(xiàn),那么,我們就可以找到壓抑癌癥、壓抑肺病的某一個蛋白質(zhì),從而以靶標(biāo)精準(zhǔn)用藥?!?/p>
以下為潘毅的現(xiàn)場演講內(nèi)容,雷峰網(wǎng)(公眾號:雷峰網(wǎng))&《醫(yī)健AI掘金志》作了不改變原意的編輯及整理。
今天,我的演講題目是《人工智能在生物醫(yī)療學(xué)工程中的應(yīng)用》。人工智能是個大課題,生物醫(yī)療工程也很大。話題縮小一點,我們來談?wù)凙I制藥。
生物醫(yī)學(xué)進入大數(shù)據(jù)時代,但是很多人處理數(shù)據(jù)的水平不高。原因在于計算機專家不懂生物,生物學(xué)家不懂編程,成果都不是很好。
對研究人員來說,常常面臨工程上的“夠用”和研究上的“低智”的矛盾。比如剛開始花了五百萬提高到97%,如果還要再花五百萬推進1%的進步,就會面臨技術(shù)邊際效應(yīng)遞減的問題。
很多人就放棄了,這是研究界很頭痛的問題。
歸根溯源,是什么在阻撓技術(shù)的進步?首先是數(shù)據(jù)。
計算機數(shù)據(jù)的結(jié)構(gòu)巨大,我們耗用了大量的硬件和軟件。大家熟知的超算中心、云計算平臺、存儲器,因為存儲數(shù)量大、運算速度快、可以共享資源。
國家基因庫里面放了很多基因數(shù)據(jù),現(xiàn)在深圳理工大學(xué)也成為國家的生物中心之一(北上深各有一個)。
這個基因庫不光是存儲,還要提供很多工具和軟件,即平臺庫,輸入一個數(shù)據(jù)就出來結(jié)果,無需下載軟件。
數(shù)據(jù)量大不是難題,難題是數(shù)據(jù)的異構(gòu)性、多樣性、增加速度快。
什么叫異構(gòu)性?
在醫(yī)療數(shù)據(jù)里,有影像數(shù)據(jù)、特征數(shù)據(jù)、醫(yī)生診斷報告數(shù)據(jù)、病歷數(shù)據(jù),它們不僅是多模態(tài)數(shù)據(jù),也是非結(jié)構(gòu)化數(shù)據(jù)。
另外,醫(yī)學(xué)數(shù)據(jù)還存在天然的不完整性、保密性、冗余性、時許性、多態(tài)性等特征。如何在浩瀚的數(shù)據(jù)原油里提煉轉(zhuǎn)化,是非常重要的一點。
人工智能在大數(shù)據(jù)領(lǐng)域已經(jīng)有很廣泛的應(yīng)用,比如用基因組學(xué)預(yù)測疾病,研究新冠病毒變異。
我的一位學(xué)生創(chuàng)立了一家公司,可以用一滴血或者唾液,預(yù)測人一輩子將會發(fā)生的疾病。
此外,在智能化時代,精準(zhǔn)醫(yī)藥也變得十分重要,今天的主題是藥,我著重講一下AI在制藥方面的應(yīng)用,比如針對每個人的個體特征而控制藥量。
回溯一下AI在醫(yī)療方面的應(yīng)用。2017年,斯坦福大學(xué)教授做了一個研究,給皮膚照相來預(yù)測皮膚癌癥,這也是今后我們要做疾病預(yù)測的一個方向。
2020年,哈佛大學(xué)成功用機器學(xué)習(xí)實現(xiàn)藥物篩選,帶動深圳幾個藥物篩選的AI公司發(fā)展起來。
我們的魏彥杰團隊與藥物所萬曉春團隊,與深圳市三院劉映霞團隊合作,針對RdRp靶點,用人工智能技術(shù)篩選新冠病毒藥物,發(fā)布了論文并應(yīng)用到社區(qū)疫情預(yù)防中。
同樣在疫情期間,尹凌研究員團隊研發(fā)傳染病時空預(yù)測與精準(zhǔn)防控系統(tǒng),基于大數(shù)據(jù)做疫情防控研究,形成了十余份內(nèi)參文檔和政策建議,為政府決策提供依據(jù)。
他們團隊的方法是基于大規(guī)模手機信令數(shù)據(jù)、居民出行調(diào)查記錄等多源時空大數(shù)據(jù),對傳染病時空傳播過程進行城市級別的高分辨率模擬與預(yù)測,得出病毒的變種歸規(guī)律、傳播規(guī)律、感染規(guī)律等等。
? 新型冠狀病毒2019-nCoV動物宿主朔源、及分子遺傳變異規(guī)律研究
? 本地家庭、社區(qū)人群中傳播效能、傳播規(guī)律和驅(qū)動因素研究
? 人群大樣本感染水平研究,確定病例隔離周期、評估隱性感染情況
所以,我們總是能夠看到很多人工智能技術(shù)發(fā)揮醫(yī)學(xué)價值的例子。但說到人工智能,Artificial intelligence,它到底是什么?
“假智能”?“偽智能”?還是“人造的智能”?
不管大家如何定義,我要說的一點是,我們不要神化AI。
第一代人工智能出現(xiàn)在三、四十年前。
在我求學(xué)時,我學(xué)習(xí)的“專家系統(tǒng)”是一個最典型的AI例子。它和中醫(yī)診斷系統(tǒng)中的“因果說”很相似。比如說舌苔發(fā)黃,眼睛發(fā)紅,很可能是得了感冒。專家系統(tǒng)也是一樣的邏輯,就是用知識驅(qū)動知識。
那么,專家的知識從何而來?從老師那學(xué),從書本上學(xué),從經(jīng)驗里學(xué)。
那時候的AI技術(shù)為什么不成功?原因很簡單,它只是一個很小的“玩具”。專家們只能搞點小玩意兒,發(fā)點小文章。在60年代到90年代,如果你說你是搞人工智能,是找不到的工作的。
那么,為什么現(xiàn)在的人工智能會被大家熟知?關(guān)鍵節(jié)點是出現(xiàn)了第二代AI系統(tǒng)。
如果說第一代AI系統(tǒng)是“照葫蘆畫瓢”,那么第二代AI系統(tǒng)是“無師自通”。
第二代系統(tǒng)由數(shù)據(jù)驅(qū)動,無需闡明數(shù)據(jù)之間的邏輯性,只需要放進大量的數(shù)據(jù),利用深度學(xué)習(xí)就能找到數(shù)據(jù)背后的統(tǒng)計規(guī)律。
說得好聽一點是深度學(xué)習(xí),說得不好聽就是算法,算法里面就是統(tǒng)計規(guī)律。
但是這時候的AI系統(tǒng)沒有邏輯、也沒有可解釋性。
舉個例子,AlphaGo第一次在圍棋上打敗人類,掀起了人工智能研究的熱潮,但其實AlphaGo只是把五千年來所有的棋譜輸入系統(tǒng),然后在博弈的時候搜索最可能獲勝的招數(shù),以數(shù)據(jù)、算力和算法獲勝。
當(dāng)時我們也推出了一款新產(chǎn)品,命名為ShouZhuo,成功打敗了AlphaGo,并嘗試?yán)^續(xù)迭代算法,一舉寫出一篇好論文。不幸的是,兩周以后Alpha Zero出來了。它不斷跟自己對弈,不需要五千年的棋譜,練到最后棋法越來越好,把所有人類都打敗了。
我們的想法是類似的,但是我們?yōu)槭裁床荒艹晒δ兀课覀儼l(fā)覺,假如我們的算法也像Alpha Zero這樣無休止對弈、訓(xùn)練,憑借我們實驗室的硬件,大概要用1000多年的時間,1000多年之后這個算法肯定就沒用了。
說到底,人工智能還不聰明,還是依靠“數(shù)據(jù)+硬件”驅(qū)動。在拼設(shè)備的年代,還能拼什么?
所以,這時出現(xiàn)了第三代AI系統(tǒng)。它將知識和數(shù)據(jù)結(jié)合起來,融匯了第一代AI系統(tǒng)和第二代AI系統(tǒng)。
舉個例子,什么叫知識驅(qū)動?我女兒兩歲的時候被蜜蜂蟄了一個大包,以后再見到蜜蜂就會跑開,這是數(shù)據(jù)驅(qū)動。什么是知識驅(qū)動呢?從小你家里人告訴你,貓不能碰、狗不能碰、蜜蜂不能碰、蛇不能碰,以后你見到這些東西就會遠(yuǎn)離。
但是知識驅(qū)動是有缺點的,因為圖片是有限的,以后你遇到老虎、遇到大象還是會碰,因為沒有先驗知識。數(shù)據(jù)驅(qū)動也是有問題的,需要通過大量的數(shù)據(jù)完成“原始學(xué)習(xí)”,過程很慢。
如何將兩種學(xué)習(xí)方式結(jié)合起來,將知識嵌入到機器腦中,這是第三代AI系統(tǒng)的問題。
舉個例子,假如現(xiàn)在用100萬張貓和狗圖像訓(xùn)練好了一個神經(jīng)網(wǎng)絡(luò),也就是設(shè)置好了參數(shù),它會很輕松地分辨貓還是狗,但是準(zhǔn)確性如何升高,如何再調(diào)整參數(shù)?
這時候就要用到梯度調(diào)節(jié),這就是神經(jīng)網(wǎng)絡(luò)的概念。但是如何通過知識驅(qū)動,就是嵌入一個概念:比如我把“狗的耳朵比較大,貓的鼻子比較小”的概念放進去,這個算法就可以學(xué)得更好、更快。
所以,如何將知識圖譜注入神經(jīng)網(wǎng)絡(luò)是很重要的課題。
舉個例子,用神經(jīng)網(wǎng)絡(luò)摳出圖片中的人。左邊的圖為無監(jiān)督分隔,沒有嵌入足夠的知識圖譜,所以分隔得十分粗糙。而右邊的圖為半監(jiān)督分隔,事先學(xué)習(xí)了天是藍(lán)的、云是白的、人臉是黃的,人的衣服是黑色的知識,圖像識別的效果非常好。
同樣的知識學(xué)習(xí)還體現(xiàn)在AI識別手寫0—9這10個數(shù)字的實驗中。
盡管每個人的筆跡都不同,寫字風(fēng)格千差萬別,但假如我事先編寫一組規(guī)則:有圓圈就是0、6、8、9,有一豎的就是1、4、7等等,這樣AI的識別結(jié)果會好很多。
另一個方法是融合多模態(tài)數(shù)據(jù),是把所有數(shù)據(jù)融合起來決策。
要預(yù)測什么菜好吃,我們說聞起來很香,炒起來看著很好吃,味道很甜美,口感很滑,顏色很漂亮,這就是好菜。
但是我要給你一個融合的算法,告訴你這個菜是臭的(臭豆腐),吃起來是很香的,顏色也是很糟糕的,你說是好還是不好?這個決策就很難了。
所以,這里面的融合,要決定哪個因素有多少的比例,大家投票說臭豆腐好不好,來訓(xùn)練這個神經(jīng)網(wǎng)絡(luò)。
比如應(yīng)用在自閉癥預(yù)測時,多模態(tài)融合的分析方法診斷率極高。
具體來說是三管齊下:
第一管,行為學(xué)分析;
第二管,基因分析,抽點血找到生物標(biāo)記;
第三管,建立MRI影像,找到病灶。
我們現(xiàn)在講三管齊下,實際上不止三管,比如行為學(xué)可以一管分成三、四管,細(xì)分為表情、語調(diào)、動作姿勢、腦信號。最近我們又做了一個眼珠轉(zhuǎn)動的研究,發(fā)現(xiàn)自閉癥的孩子,眼珠轉(zhuǎn)動也不一樣。
但復(fù)雜問題是,各種模態(tài)的確診率不一致,如何判斷可信模態(tài),如何用算法融合,是前融合、中融合還是后融合
例如,后融合就是每個人決定做好了,再來做預(yù)測;中融合是中間算法加了東西,前融合是數(shù)據(jù)結(jié)合起來一起融合。這就很難,因為每個數(shù)據(jù)都不一樣。
下面我們講到這個三步曲,第一步是行為觀察,這是不用花錢的,第二步是抽血,花500到1000塊錢,第三步是照影像,大概1000到3000塊錢。
我們希望在3年到5年時間,我們預(yù)測疾病能達(dá)到90%的可能性,這樣就比醫(yī)生的水平高了,當(dāng)然這里面就涉及到倫理和法律問題。
現(xiàn)在看起來,我們好像對人工智能不信任。但其實我們以前已經(jīng)在相信機器了,比如說10年前你看個肺病,就是用X光掃描,X光不準(zhǔn)怎么辦,醫(yī)生就那么準(zhǔn)嗎?
所以今后就是這個方向——如何健全法律,讓使用者可以在使用AI的時候沒有后顧之憂。
我們最近還做了一個癲癇實驗,也是三步走:腦影像中的特征、磁共振影像(MRI、三維),功能性磁共振影像。
具體來說,先對大腦做MRI成像,摳出來51個小特征,并結(jié)合SVM(支持向量機,support vector machines)分析腦成像中的灰色地帶等特征。比如說,如果灰色面積較大,則有可能是癲癇。
第二步,MRI建立三維神經(jīng)網(wǎng)。第三步加入時間軸,建立四維fMRI圖。考慮到診斷效率和算力水平,我們所用的四維方法是加入LSTM(長短期記憶,Long short-term memory)的三維圖像,以便減少訓(xùn)練時間。雖然減少一點精度,但是實際應(yīng)用效果還是很不錯。
最后,在第三代AI系統(tǒng)中,還有一個方法是結(jié)果解釋,這是一項逆向工程。
舉個例子,如何讓AI識別男女,我們經(jīng)常是輸入男性和女性的特征,比如頭發(fā)的長短、身體的胖瘦、個子的高矮。但是從結(jié)果回溯,我們需要知道,AI到底基于什么比例做出的判斷?
80%是因為你的頭發(fā)比較長,10%的原因是你的個子比較矮小,1%的原因是你比較苗條。
為什么結(jié)果解釋在醫(yī)學(xué)中這么重要呢?
因為這是找到“靶標(biāo)”的過程。
我來舉個AlphaFold的例子。
大家知道氨基酸有20個字母,形成一個序列即氨基酸序列,這個序列可以產(chǎn)生一個結(jié)構(gòu)。在生物界,蛋白質(zhì)序列是很容易得到的,蛋白質(zhì)結(jié)構(gòu)是很難的?,F(xiàn)在很容易基于氨基酸序列給出所有的預(yù)測結(jié)果,但如果由結(jié)果回溯,AI能不能得出序列?
如果可以實現(xiàn),那么我們就可以找到壓抑癌癥、壓抑肺病的某一個蛋白質(zhì),從而以靶標(biāo)精準(zhǔn)用藥。
人工智能的解釋是逆向工程,這個工作非常復(fù)雜,但是非常值得研究。
說到這,大家會問,為什么要用人工智能做藥物篩選呢?人工智能技術(shù)在藥物篩選流程中的哪一個環(huán)節(jié)?
在美國的藥庫中,目前有三萬種藥,在藥物和小分子結(jié)構(gòu)的耦合中,如果用生物實驗來做匹配,至少要做3萬多次實驗,時間成本是多少?
人工智能能夠用最快速的辦法做篩選,最后排列出耦合度最高的前100種藥物,再由人工實驗選擇出排名前幾位的幾種藥物,極大降低研究人員的實驗難度,縮小時間成本。
而在實際情況中,從藥物篩選到藥物上市,中間還要有經(jīng)過生物實驗、動物實驗、一期、二期、三期臨床,以便證明藥的效果好,并且沒有副作用。
如果我們在最初始階段卡了脖子,整個過程將十分漫長。醫(yī)療濟世,就會道阻且長。
可解釋AI最近是個研究熱點,而我們16年以前已經(jīng)把可解釋AI成功地應(yīng)用于生物信息領(lǐng)域,有效指導(dǎo)了生物學(xué)家進行有選擇性的生物實驗,大大減少了生物實驗成本。
之所以要用到可解釋AI,是因為生物學(xué)家當(dāng)時需要知道哪種氨基酸的變化引起了蛋白質(zhì)結(jié)構(gòu)的調(diào)整,以便下一步做有選擇性的實驗。
以上過程中能夠看出,很多問題,如可解釋AI,來自于實踐,最后結(jié)果又用之于實踐。
在2006年,我們發(fā)表了兩篇可解釋AI相關(guān)論文,一篇為《基于支持向量機和決策樹的蛋白質(zhì)二級結(jié)構(gòu)預(yù)測的規(guī)則生成》、另一篇為《基于支持向量機和決策樹的跨膜片段預(yù)測與理解》。
兩篇文章用到了關(guān)聯(lián)規(guī)則和決策樹來記錄人工智能的決策過程,以便回溯和解釋整個決策的過程。
感興趣的讀者,可以閱讀下面兩篇文章:
https://ieeexplore.ieee.org/abstract/document/1603533
https://www.sciencedirect.com/science/article/pii/S0957417405002411
大家會提到基因組學(xué)、蛋白質(zhì)組學(xué)、轉(zhuǎn)錄組學(xué)、微生物組學(xué)、代謝組學(xué)、病理組學(xué)、放射組學(xué)等等,組學(xué)研究越來越多。
之所以產(chǎn)生這些組學(xué)詞語,是人們發(fā)現(xiàn)單純研究某一方向(基因組、蛋白質(zhì)組、轉(zhuǎn)錄組等)無法解釋全部生物醫(yī)學(xué)問題,開始從整體的角度出發(fā)去研究人類組織細(xì)胞結(jié)構(gòu),基因,蛋白及其分子間相互的作用。
通過整體分析反映人體組織器官功能和代謝的狀態(tài),為探索人類疾病的發(fā)病機制提供新的思路。
當(dāng)大家關(guān)注到事物之間的關(guān)系,用萬物互聯(lián)的思路解決問題,用AI探索萬物互聯(lián),不僅能輸出定量化病理診斷和疾病預(yù)后,還能推動病理研究向著更加自動化、更加精準(zhǔn)的方向發(fā)展。
總之,今天很多的醫(yī)藥進步,已經(jīng)不僅是通過臨床實驗做出來的,還是用數(shù)據(jù)分析出來的。
隨著科學(xué)的發(fā)展,醫(yī)療行業(yè)正在不斷創(chuàng)新,科研力量的進步與醫(yī)學(xué)界的需求,將共同促進醫(yī)療人工智能的發(fā)展。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章