1
本文作者: 張利 | 2017-05-11 18:31 |
AI掘金志(公眾號):雷鋒網(wǎng)旗下只專注于報道AI商業(yè)化與落地的垂直內容頻道。助力“AI技術輸出者”尋找商業(yè)潛力大的落地場景,服務“AI技術消費者”選擇適合自身的技術供應商。
AI掘金志主要推送兩類文章:
1.深入挖掘AI公司與傳統(tǒng)機構的合作案例。
2.剖析各地醫(yī)院、銀行、制造企業(yè)、零售商、政府部門等傳統(tǒng)機構對AI的需求與實際應用情況。
雷鋒網(wǎng)按:本文轉載于肖恩大俠的個人公眾號:肖恩大俠(ID:xiaoendaxia1)。
人工智能,路在何方?今天,帶來某醫(yī)療行業(yè)人工智能創(chuàng)業(yè)公司的部分思考。供大家參考。
最近幾個月,無論是媒體中人工智能第N次戰(zhàn)勝人類醫(yī)生,跨國科技巨頭挺進醫(yī)療人工智能,AI創(chuàng)業(yè)公司宣布高額融資,還是政府發(fā)文鼓勵人工智能相關的醫(yī)療器械發(fā)展,醫(yī)療人工智能方面的新聞鋪天蓋地襲來。
單以醫(yī)學圖像為例,CT、核磁、超聲、病理、內窺鏡、眼底等,都可以開發(fā)人工智能。醫(yī)療圖像的計算機處理向來是一個很大的產(chǎn)業(yè),計算機輔助診斷(CAD)也不是一個新概念,只是人工智能技術手段的進步賦予了這個行業(yè)更多可能性。當然,我們要承認20世紀60年代發(fā)展的模式識別技術其實也解決了一些醫(yī)學圖像計算機輔助診斷方面的問題。
由于新聞報道的真實性不好評估,我們僅在學術論文層面來討論醫(yī)學圖像人工智能的臨床價值。過去幾個月以來比較受人矚目的學術成果,也就是在高分學術期刊上發(fā)表的醫(yī)學圖像人工智能的部分論文有:
1. 《美國醫(yī)學會雜志》,谷歌:糖尿病視網(wǎng)膜病變的定級
《Development and Validation of a Deep Learning Algorithm for Detection of Diabetic Retinopathy in Retinal Fundus Photographs》, 發(fā)表于2016年12月的美國醫(yī)學會期刊JAMA上。作者使用12.8萬張的眼底照片訓練了模型,主要的測試數(shù)據(jù)是來自4997名病人的9963張眼底照片集EyePACS-1。敏感度為90.3%時特異度為98.1%,敏感度為97.5%時特異度為93.4%。
2. 《自然》,斯坦福:兩種皮膚病變的診斷
《Dermatologist-level classification of skin cancer with deep neural networks》, 發(fā)表于2017年1月的Nature期刊。作者使用12.9萬張含有兩千多種病灶的臨床皮膚照片訓練出模型,在分類上皮癌變和黑色素瘤兩種目標的任務上與21位皮膚病專家的表現(xiàn)一致。與病理結果比較,作者分別測試了200-1000+張照片,獲得的敏感度與特異度繪制的ROC曲線的AUC均大于0.94 (AUC是曲線下面積,敏感度和特異度均逼近100%時,AUC逼近1)。
當然還有其他領域的科研進展,我在這里就不逐一分析了。
無論是識別病灶還是判斷癌變程度,最基本的,是要同時討論敏感度和特異度,前者代表正確的識別陽性的能力,反映了系統(tǒng)的漏診率;后者代表正確的判定陰性的能力,反映了系統(tǒng)的誤報率。當然,醫(yī)學論文也經(jīng)常直接使用平均每幀誤報數(shù)這個指標來反映系統(tǒng)的特異度。
這和計算機工程領域的精確率Precision和召回率Recall說的是一個事情,并非是醫(yī)學界特有的評價指標,但是偏偏在很多軟文中有一些嘩眾取寵的表達,比如“精確率已經(jīng)達到了95%,完美PK掉了人類醫(yī)生”。那么我們讓一個初中生寫一段程序,對所有的輸入都報陽性,精確率肯定是100%。所以,任何單談敏感度或者特異度的成果發(fā)布,都是在耍流氓。
由于筆者早些年對谷歌的深入密切了解和在斯坦福的經(jīng)歷,對這兩家機構領先的技術和嚴謹?shù)膽B(tài)度非常認可,這兩篇學術成果的發(fā)表也是實至名歸。然而,具體到臨床思考,這兩項人工智能輔助診斷的成果并沒有涉及能讓人完全信服的臨床驗證。
谷歌,“Further research is necessary to determine the feasibility of applying this algorithm in the clinical setting”;斯坦福,“Further research is necessary to evaluate performance in a real-world, clinical setting, in order to validate this technique across the full distribution and spectrum of lesions encountered in typical practice.” 這兩篇頂級學術文章的自謙雖說有些客套,筆者認為臨床驗證的確可以在下述方向上努力。
更大的測試規(guī)模
谷歌和斯坦福的兩篇論文都使用了接近13萬張的訓練樣本,分別測試了不到一萬張和一千張左右。前者看似絕對數(shù)量不少,但實際上比起訓練樣本數(shù)量,僅僅不到8%。計算機輔助診斷的臨床驗證是要證明算法具有推斷力,至少應該滿足測試集與訓練集規(guī)模相當,這樣才能規(guī)避算法過擬合的風險。
從商業(yè)的角度思考,醫(yī)生標注了近13萬張訓練樣本數(shù)據(jù),那么做出的成果至少應該在更大規(guī)模的測試集上驗證有效,才能說明人工智能的開發(fā)成本與醫(yī)生勞動付出在商業(yè)上是可以打平的。筆者認為,臨床的測試集是幾倍于訓練樣本時,會很有說服力。
百度百科:前瞻性研究(prospective study)是把研究對象選定,研究方式預定好,相關的影響因素納入統(tǒng)計范圍,在這些條件下,根據(jù)這些因素去做持續(xù)的追蹤研究,分析判斷,最后在原訂計劃的時間內做出評估,把符合原來設計的方法的所有例子都要列入統(tǒng)計,(這個階段,不只是選有效的來統(tǒng)計),全部結果都要呈現(xiàn)出。最終,選擇的結果經(jīng)過計算,得出納入統(tǒng)計范圍中,相關影響波動有效的因素構成重點目標,繼而對這些因素進行深入研究,這就是前瞻性研究。
這兩篇論文都不是前瞻性研究,驗證人工智能算法的效果,采用前瞻性研究的方法并不會增加多少成本和復雜度,但臨床意義將凸顯。從計算機工程的角度出發(fā),很多人工智能算法成果的開發(fā),包括谷歌在上述科研中,是預先選定了測試集,然后不停的增加訓練樣本數(shù)量,直至得出在測試集上優(yōu)秀的表現(xiàn)。這個方法在實際操作層面與前瞻性研究是有一定距離的。
臨床產(chǎn)品化的現(xiàn)實可行性
谷歌該團隊的產(chǎn)品經(jīng)理在一次公開演講中表示,“現(xiàn)在的瓶頸主要在硬件層面,如何做一個輕量級的模型可以放在硬件設備里”(而不是靠云計算)。斯坦福論文中展望了未來在手機等移動終端應用的場景,但是從公開資料上看,這個團隊并沒有像谷歌一樣從產(chǎn)品角度繼續(xù)工作。
總之,人們腦補的人工智能替代醫(yī)生,哪怕僅僅是輔助,在產(chǎn)品層面尚未出現(xiàn)。
認識深度學習本身的局限性。
神經(jīng)網(wǎng)絡不是“神經(jīng)”,那只是一個個節(jié)點的分段線性函數(shù);深度學習也不是“學習”,那只是一個強大的擬合函數(shù)。從數(shù)學角度去看,卷積神經(jīng)網(wǎng)絡是一組表達能力很強的函數(shù),它可以用來擬合很多數(shù)據(jù)對象,當然,包括圖像。
1. 什么是擬合?
百度百科:所謂擬合是指已知某函數(shù)的若干離散函數(shù)值{f1,f2,…,fn},通過調整該函數(shù)中若干待定系數(shù)f(λ1,λ2,…,λn),使得該函數(shù)與已知點集的差別(最小二乘意義)最小。比如平面中有幾個點,可以用直線來擬合,可以用二次函數(shù)來擬合,當然也可以用五角星,甚至用奧特曼來擬合。
擬合函數(shù)的解釋(直線-曲線.-五角星)
選擇不同函數(shù)來擬合這些已知點集,會產(chǎn)生完全不同的結果,而這個選擇就是在揭示問題的抽象本質;反觀現(xiàn)在很多論調,用深度學習來解決一切問題,其實是做了一個很不科學的假設:所有問題的本質都可以用分層網(wǎng)絡結構的擬合函數(shù)來表達,而且這個網(wǎng)絡的每個節(jié)點都是簡單的分段線性函數(shù)。
2. 是不是數(shù)據(jù)量足夠就一定可以擬合出好用的模型?
答案當然是否定的,否則就不會有一個概念:過擬合(overfitting)。擬合一個特定的函數(shù),會有對應的數(shù)據(jù)量區(qū)間能夠比較準確的呈現(xiàn)這個函數(shù)。而函數(shù)本質還不確定的時候,比如不清楚擬合目標是線性函數(shù)、拋物線還是奧特曼,完全靠擬合來生成一種函數(shù)表達,過擬合的風險是普遍存在的。
與過擬合相對,還有個概念叫欠擬合(underfitting),很多所謂人工智能的從業(yè)者其實并沒有能力判斷欠擬合和過擬合,所以往往在識別結果不達預期的時候,唯一的判斷是,需要加訓練樣本數(shù)據(jù)量(欠擬合)。而當隨著訓練樣本增多,識別效果不升反降的時候,他們會說,是訓練樣本的標注質量出了問題(過擬合了一些錯誤樣本)。殊不知,是擬合本身的問題。
3. 正確對待深度學習這種擬合函數(shù)
揭示事物的本質、并用以計算機工程實現(xiàn)為有價值的產(chǎn)品離不開數(shù)學建模。并非所有的數(shù)學工具都是擬合,也并非所有表達能力強的函數(shù)都是深度學習。真正的算法開發(fā)在于剖析問題本質來設計數(shù)學模型,而不是在深度學習這個擬合函數(shù)的范疇內去調參數(shù)。
我們不妨可以把深度學習叫做“深度擬合”,這樣可以減少大家對“學習”這兩個字的錯覺。
從“學習”的角度說開去,一個三歲小孩學習辨別男女,識別貓狗,以及認出七大姑八大姨,是很正常的;這個孩子長到十幾歲的時候,一眼分辨出奔馳和寶馬應該不難,也許可以一眼分辨奧迪A6和A8;可如果成長為一名優(yōu)秀的醫(yī)生,他需要接受若干年的知識學習和臨床實踐,拿下博士學位并在崗訓練幾年,也許才能夠算合格。
識別貓狗,辨別車輛,和做醫(yī)學判斷,這個學習的過程是有本質區(qū)別的,前兩者都可以通過不斷重復來訓練(可能分辨奧迪A6和A8需要一點點知識);而醫(yī)學,本身就是有強知識結構的學科,醫(yī)科專業(yè)不是誰都能考上的,也不是誰都能輕易拿到醫(yī)學博士的,這個過程必然不是靠機械重復的訓練。醫(yī)學知識相關的抽象思維體系的建立是臨床實踐的前提。
1. 醫(yī)學問題的難度和縱深
如果說深度學習神經(jīng)網(wǎng)絡是一定程度模擬了人的視神經(jīng)構造,那也只在純視覺領域,比如識別人臉貓狗等,取得了不錯的識別效果。同樣的邏輯并不適合其它一切識別對象。對醫(yī)學對象性質的判別,包含非常復雜的邏輯分析和對抽象概念的理解,與判別貓狗等所需的對視覺特征的統(tǒng)計歸納有本質區(qū)別。受過良好基礎訓練的醫(yī)生,并不需要多么海量的病例就能準確判別。而基礎比較差的醫(yī)生,并不能靠接觸病例多而提高其判別的準確率。
脫離醫(yī)學的邏輯知識體系,即使人的神經(jīng)也無法正確擬合經(jīng)驗對象從而達到正確的預測,更不要說幾層分段線性函數(shù)了。醫(yī)學識別的是對象的性質,而非對象的外觀的相似性,大量的情況是外觀形態(tài)相似但性質迥異,或外觀差距很大但性質一致。例如如何讓計算機時而精確地抓住顯著的視覺特征,時而忽略那些顯著特征而抓住細節(jié),就不是單純照搬識別貓狗的方法論能夠實現(xiàn)的。
2. 醫(yī)學數(shù)據(jù)的相對稀缺性
與人臉、貓狗、車輛動輒幾十萬上百萬的訓練樣本相比較,如果考慮了醫(yī)學問題的難度和復雜的維度,即使是在中國這樣的醫(yī)療數(shù)據(jù)大國,拿出的數(shù)據(jù)量恐怕也是不夠一根筋的深度學習神教來揮霍的。這個過程中,獲得大量精確標注也是耗時費力的事情,而沒有依照合適的數(shù)學模型設計的標注工作,其實也浪費了大量的醫(yī)療資源。
從問題本身入手,發(fā)掘其內在邏輯,而不是手里拿著一個榔頭的時候,看什么都像釘子。若干年以后,大家回望深度學習的感覺,也許就像現(xiàn)在看待模式識別。開發(fā)醫(yī)學圖像的人工智能輔助診斷的算法和系統(tǒng)要尊重臨床指南,將具體問題中知識邏輯的部分和統(tǒng)計擬合的部分區(qū)分開,讓深度學習去完成它最擅長的工作。
讓上帝的歸上帝,凱撒的歸凱撒。
更多關于人工智能升級傳統(tǒng)行業(yè)的文章,請關注雷鋒網(wǎng)AI商業(yè)化垂直微信公眾號:AI掘金志(ID:HealthAI)。
雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉載。詳情見轉載須知。