0
本文作者: 任平 | 2021-12-23 10:23 | 專題:GAIR 2021 |
近日,第六屆全球人工智能與機器人大會(GAIR 2021)在深圳正式啟幕,140余位產學領袖、30位Fellow聚首,從AI技術、產品、行業(yè)、人文、組織等維度切入,以理性分析與感性洞察為軸,共同攀登人工智能與數字化的浪潮之巔。
在醫(yī)療科技高峰論壇上,AIMBE Fellow、深圳理工大學計算機科學與控制工程院院長潘毅以《人工智能在生物醫(yī)療學工程中的應用》為題,分別講述了醫(yī)藥研究中的數據特征、AI應用生物醫(yī)學的研究案例,以及知識和數據對醫(yī)療AI的重要性。
今年2月,潘毅教授當選為美國醫(yī)學與生物工程院院士。
他同時是英國皇家公共衛(wèi)生學院院士、烏克蘭國家工程院外籍院士、英國工程技術學會會士,在計算機和生物信息領域已發(fā)表250多篇SCI期刊論文,其中100多篇發(fā)表于頂尖期刊。
潘毅教授表示,當大家關注到事物之間的關系,用萬物互聯的思路解決問題,用AI探索萬物互聯,不僅能輸出定量化病理診斷和疾病預后,還能推動病理研究向著更加自動化、更加精準的方向發(fā)展。
“今天很多的醫(yī)藥進步,已經不僅是通過臨床實驗做出來的,還是用數據分析出來的。人工智能的解釋是逆向工程,這個工作非常復雜,但是非常值得研究。如果可以實現,那么,我們就可以找到壓抑癌癥、壓抑肺病的某一個蛋白質,從而以靶標精準用藥?!?/p>
以下為潘毅的現場演講內容,雷峰網(公眾號:雷峰網)&《醫(yī)健AI掘金志》作了不改變原意的編輯及整理。
今天,我的演講題目是《人工智能在生物醫(yī)療學工程中的應用》。人工智能是個大課題,生物醫(yī)療工程也很大。話題縮小一點,我們來談談AI制藥。
生物醫(yī)學進入大數據時代,但是很多人處理數據的水平不高。原因在于計算機專家不懂生物,生物學家不懂編程,成果都不是很好。
對研究人員來說,常常面臨工程上的“夠用”和研究上的“低智”的矛盾。比如剛開始花了五百萬提高到97%,如果還要再花五百萬推進1%的進步,就會面臨技術邊際效應遞減的問題。
很多人就放棄了,這是研究界很頭痛的問題。
歸根溯源,是什么在阻撓技術的進步?首先是數據。
計算機數據的結構巨大,我們耗用了大量的硬件和軟件。大家熟知的超算中心、云計算平臺、存儲器,因為存儲數量大、運算速度快、可以共享資源。
國家基因庫里面放了很多基因數據,現在深圳理工大學也成為國家的生物中心之一(北上深各有一個)。
這個基因庫不光是存儲,還要提供很多工具和軟件,即平臺庫,輸入一個數據就出來結果,無需下載軟件。
數據量大不是難題,難題是數據的異構性、多樣性、增加速度快。
什么叫異構性?
在醫(yī)療數據里,有影像數據、特征數據、醫(yī)生診斷報告數據、病歷數據,它們不僅是多模態(tài)數據,也是非結構化數據。
另外,醫(yī)學數據還存在天然的不完整性、保密性、冗余性、時許性、多態(tài)性等特征。如何在浩瀚的數據原油里提煉轉化,是非常重要的一點。
人工智能在大數據領域已經有很廣泛的應用,比如用基因組學預測疾病,研究新冠病毒變異。
我的一位學生創(chuàng)立了一家公司,可以用一滴血或者唾液,預測人一輩子將會發(fā)生的疾病。
此外,在智能化時代,精準醫(yī)藥也變得十分重要,今天的主題是藥,我著重講一下AI在制藥方面的應用,比如針對每個人的個體特征而控制藥量。
回溯一下AI在醫(yī)療方面的應用。2017年,斯坦福大學教授做了一個研究,給皮膚照相來預測皮膚癌癥,這也是今后我們要做疾病預測的一個方向。
2020年,哈佛大學成功用機器學習實現藥物篩選,帶動深圳幾個藥物篩選的AI公司發(fā)展起來。
我們的魏彥杰團隊與藥物所萬曉春團隊,與深圳市三院劉映霞團隊合作,針對RdRp靶點,用人工智能技術篩選新冠病毒藥物,發(fā)布了論文并應用到社區(qū)疫情預防中。
同樣在疫情期間,尹凌研究員團隊研發(fā)傳染病時空預測與精準防控系統,基于大數據做疫情防控研究,形成了十余份內參文檔和政策建議,為政府決策提供依據。
他們團隊的方法是基于大規(guī)模手機信令數據、居民出行調查記錄等多源時空大數據,對傳染病時空傳播過程進行城市級別的高分辨率模擬與預測,得出病毒的變種歸規(guī)律、傳播規(guī)律、感染規(guī)律等等。
? 新型冠狀病毒2019-nCoV動物宿主朔源、及分子遺傳變異規(guī)律研究
? 本地家庭、社區(qū)人群中傳播效能、傳播規(guī)律和驅動因素研究
? 人群大樣本感染水平研究,確定病例隔離周期、評估隱性感染情況
所以,我們總是能夠看到很多人工智能技術發(fā)揮醫(yī)學價值的例子。但說到人工智能,Artificial intelligence,它到底是什么?
“假智能”?“偽智能”?還是“人造的智能”?
不管大家如何定義,我要說的一點是,我們不要神化AI。
第一代人工智能出現在三、四十年前。
在我求學時,我學習的“專家系統”是一個最典型的AI例子。它和中醫(yī)診斷系統中的“因果說”很相似。比如說舌苔發(fā)黃,眼睛發(fā)紅,很可能是得了感冒。專家系統也是一樣的邏輯,就是用知識驅動知識。
那么,專家的知識從何而來?從老師那學,從書本上學,從經驗里學。
那時候的AI技術為什么不成功?原因很簡單,它只是一個很小的“玩具”。專家們只能搞點小玩意兒,發(fā)點小文章。在60年代到90年代,如果你說你是搞人工智能,是找不到的工作的。
那么,為什么現在的人工智能會被大家熟知?關鍵節(jié)點是出現了第二代AI系統。
如果說第一代AI系統是“照葫蘆畫瓢”,那么第二代AI系統是“無師自通”。
第二代系統由數據驅動,無需闡明數據之間的邏輯性,只需要放進大量的數據,利用深度學習就能找到數據背后的統計規(guī)律。
說得好聽一點是深度學習,說得不好聽就是算法,算法里面就是統計規(guī)律。
但是這時候的AI系統沒有邏輯、也沒有可解釋性。
舉個例子,AlphaGo第一次在圍棋上打敗人類,掀起了人工智能研究的熱潮,但其實AlphaGo只是把五千年來所有的棋譜輸入系統,然后在博弈的時候搜索最可能獲勝的招數,以數據、算力和算法獲勝。
當時我們也推出了一款新產品,命名為ShouZhuo,成功打敗了AlphaGo,并嘗試繼續(xù)迭代算法,一舉寫出一篇好論文。不幸的是,兩周以后Alpha Zero出來了。它不斷跟自己對弈,不需要五千年的棋譜,練到最后棋法越來越好,把所有人類都打敗了。
我們的想法是類似的,但是我們?yōu)槭裁床荒艹晒δ??我們發(fā)覺,假如我們的算法也像Alpha Zero這樣無休止對弈、訓練,憑借我們實驗室的硬件,大概要用1000多年的時間,1000多年之后這個算法肯定就沒用了。
說到底,人工智能還不聰明,還是依靠“數據+硬件”驅動。在拼設備的年代,還能拼什么?
所以,這時出現了第三代AI系統。它將知識和數據結合起來,融匯了第一代AI系統和第二代AI系統。
舉個例子,什么叫知識驅動?我女兒兩歲的時候被蜜蜂蟄了一個大包,以后再見到蜜蜂就會跑開,這是數據驅動。什么是知識驅動呢?從小你家里人告訴你,貓不能碰、狗不能碰、蜜蜂不能碰、蛇不能碰,以后你見到這些東西就會遠離。
但是知識驅動是有缺點的,因為圖片是有限的,以后你遇到老虎、遇到大象還是會碰,因為沒有先驗知識。數據驅動也是有問題的,需要通過大量的數據完成“原始學習”,過程很慢。
如何將兩種學習方式結合起來,將知識嵌入到機器腦中,這是第三代AI系統的問題。
舉個例子,假如現在用100萬張貓和狗圖像訓練好了一個神經網絡,也就是設置好了參數,它會很輕松地分辨貓還是狗,但是準確性如何升高,如何再調整參數?
這時候就要用到梯度調節(jié),這就是神經網絡的概念。但是如何通過知識驅動,就是嵌入一個概念:比如我把“狗的耳朵比較大,貓的鼻子比較小”的概念放進去,這個算法就可以學得更好、更快。
所以,如何將知識圖譜注入神經網絡是很重要的課題。
舉個例子,用神經網絡摳出圖片中的人。左邊的圖為無監(jiān)督分隔,沒有嵌入足夠的知識圖譜,所以分隔得十分粗糙。而右邊的圖為半監(jiān)督分隔,事先學習了天是藍的、云是白的、人臉是黃的,人的衣服是黑色的知識,圖像識別的效果非常好。
同樣的知識學習還體現在AI識別手寫0—9這10個數字的實驗中。
盡管每個人的筆跡都不同,寫字風格千差萬別,但假如我事先編寫一組規(guī)則:有圓圈就是0、6、8、9,有一豎的就是1、4、7等等,這樣AI的識別結果會好很多。
另一個方法是融合多模態(tài)數據,是把所有數據融合起來決策。
要預測什么菜好吃,我們說聞起來很香,炒起來看著很好吃,味道很甜美,口感很滑,顏色很漂亮,這就是好菜。
但是我要給你一個融合的算法,告訴你這個菜是臭的(臭豆腐),吃起來是很香的,顏色也是很糟糕的,你說是好還是不好?這個決策就很難了。
所以,這里面的融合,要決定哪個因素有多少的比例,大家投票說臭豆腐好不好,來訓練這個神經網絡。
比如應用在自閉癥預測時,多模態(tài)融合的分析方法診斷率極高。
具體來說是三管齊下:
第一管,行為學分析;
第二管,基因分析,抽點血找到生物標記;
第三管,建立MRI影像,找到病灶。
我們現在講三管齊下,實際上不止三管,比如行為學可以一管分成三、四管,細分為表情、語調、動作姿勢、腦信號。最近我們又做了一個眼珠轉動的研究,發(fā)現自閉癥的孩子,眼珠轉動也不一樣。
但復雜問題是,各種模態(tài)的確診率不一致,如何判斷可信模態(tài),如何用算法融合,是前融合、中融合還是后融合
例如,后融合就是每個人決定做好了,再來做預測;中融合是中間算法加了東西,前融合是數據結合起來一起融合。這就很難,因為每個數據都不一樣。
下面我們講到這個三步曲,第一步是行為觀察,這是不用花錢的,第二步是抽血,花500到1000塊錢,第三步是照影像,大概1000到3000塊錢。
我們希望在3年到5年時間,我們預測疾病能達到90%的可能性,這樣就比醫(yī)生的水平高了,當然這里面就涉及到倫理和法律問題。
現在看起來,我們好像對人工智能不信任。但其實我們以前已經在相信機器了,比如說10年前你看個肺病,就是用X光掃描,X光不準怎么辦,醫(yī)生就那么準嗎?
所以今后就是這個方向——如何健全法律,讓使用者可以在使用AI的時候沒有后顧之憂。
我們最近還做了一個癲癇實驗,也是三步走:腦影像中的特征、磁共振影像(MRI、三維),功能性磁共振影像。
具體來說,先對大腦做MRI成像,摳出來51個小特征,并結合SVM(支持向量機,support vector machines)分析腦成像中的灰色地帶等特征。比如說,如果灰色面積較大,則有可能是癲癇。
第二步,MRI建立三維神經網。第三步加入時間軸,建立四維fMRI圖。考慮到診斷效率和算力水平,我們所用的四維方法是加入LSTM(長短期記憶,Long short-term memory)的三維圖像,以便減少訓練時間。雖然減少一點精度,但是實際應用效果還是很不錯。
最后,在第三代AI系統中,還有一個方法是結果解釋,這是一項逆向工程。
舉個例子,如何讓AI識別男女,我們經常是輸入男性和女性的特征,比如頭發(fā)的長短、身體的胖瘦、個子的高矮。但是從結果回溯,我們需要知道,AI到底基于什么比例做出的判斷?
80%是因為你的頭發(fā)比較長,10%的原因是你的個子比較矮小,1%的原因是你比較苗條。
為什么結果解釋在醫(yī)學中這么重要呢?
因為這是找到“靶標”的過程。
我來舉個AlphaFold的例子。
大家知道氨基酸有20個字母,形成一個序列即氨基酸序列,這個序列可以產生一個結構。在生物界,蛋白質序列是很容易得到的,蛋白質結構是很難的。現在很容易基于氨基酸序列給出所有的預測結果,但如果由結果回溯,AI能不能得出序列?
如果可以實現,那么我們就可以找到壓抑癌癥、壓抑肺病的某一個蛋白質,從而以靶標精準用藥。
人工智能的解釋是逆向工程,這個工作非常復雜,但是非常值得研究。
說到這,大家會問,為什么要用人工智能做藥物篩選呢?人工智能技術在藥物篩選流程中的哪一個環(huán)節(jié)?
在美國的藥庫中,目前有三萬種藥,在藥物和小分子結構的耦合中,如果用生物實驗來做匹配,至少要做3萬多次實驗,時間成本是多少?
人工智能能夠用最快速的辦法做篩選,最后排列出耦合度最高的前100種藥物,再由人工實驗選擇出排名前幾位的幾種藥物,極大降低研究人員的實驗難度,縮小時間成本。
而在實際情況中,從藥物篩選到藥物上市,中間還要有經過生物實驗、動物實驗、一期、二期、三期臨床,以便證明藥的效果好,并且沒有副作用。
如果我們在最初始階段卡了脖子,整個過程將十分漫長。醫(yī)療濟世,就會道阻且長。
可解釋AI最近是個研究熱點,而我們16年以前已經把可解釋AI成功地應用于生物信息領域,有效指導了生物學家進行有選擇性的生物實驗,大大減少了生物實驗成本。
之所以要用到可解釋AI,是因為生物學家當時需要知道哪種氨基酸的變化引起了蛋白質結構的調整,以便下一步做有選擇性的實驗。
以上過程中能夠看出,很多問題,如可解釋AI,來自于實踐,最后結果又用之于實踐。
在2006年,我們發(fā)表了兩篇可解釋AI相關論文,一篇為《基于支持向量機和決策樹的蛋白質二級結構預測的規(guī)則生成》、另一篇為《基于支持向量機和決策樹的跨膜片段預測與理解》。
兩篇文章用到了關聯規(guī)則和決策樹來記錄人工智能的決策過程,以便回溯和解釋整個決策的過程。
感興趣的讀者,可以閱讀下面兩篇文章:
https://ieeexplore.ieee.org/abstract/document/1603533
https://www.sciencedirect.com/science/article/pii/S0957417405002411
大家會提到基因組學、蛋白質組學、轉錄組學、微生物組學、代謝組學、病理組學、放射組學等等,組學研究越來越多。
之所以產生這些組學詞語,是人們發(fā)現單純研究某一方向(基因組、蛋白質組、轉錄組等)無法解釋全部生物醫(yī)學問題,開始從整體的角度出發(fā)去研究人類組織細胞結構,基因,蛋白及其分子間相互的作用。
通過整體分析反映人體組織器官功能和代謝的狀態(tài),為探索人類疾病的發(fā)病機制提供新的思路。
當大家關注到事物之間的關系,用萬物互聯的思路解決問題,用AI探索萬物互聯,不僅能輸出定量化病理診斷和疾病預后,還能推動病理研究向著更加自動化、更加精準的方向發(fā)展。
總之,今天很多的醫(yī)藥進步,已經不僅是通過臨床實驗做出來的,還是用數據分析出來的。
隨著科學的發(fā)展,醫(yī)療行業(yè)正在不斷創(chuàng)新,科研力量的進步與醫(yī)學界的需求,將共同促進醫(yī)療人工智能的發(fā)展。
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。