0
2020年,醫(yī)療AI的第一個大新聞屬于谷歌。
1月2日,Google Health聯(lián)合公司旗下DeepMind、倫敦大學學院、劍橋大學、英國吉爾福德皇家薩里郡醫(yī)院、初創(chuàng)公司Verily Life Sciences、斯坦福醫(yī)療中心、英國皇家馬斯登醫(yī)院等多個機構在《Nature》雜志上發(fā)表了一篇論文,介紹了一種新型的深度學習鉬靶影像系統(tǒng)。
這個系統(tǒng)的核心亮點是,與之前的模型相比,該模型有效減少了乳腺癌被錯誤識別或遺漏的情況,將乳腺癌檢測的假陽性率降低了5.7%,假陰性率也降低了9.4%,并號稱擊敗了6名全日制的放射科醫(yī)生。
谷歌經(jīng)常會在某些領域“超越”醫(yī)生。
在此之前,2017年,谷歌醫(yī)療AI在乳腺癌診斷中表現(xiàn)超過人類專業(yè)病理檢驗師。次年,谷歌發(fā)布一款針對晚期乳腺癌的人工智能檢測系統(tǒng),可以在99%的情況下正確區(qū)分轉移性癌癥。
但是,昨天的這條消息熱度還沒持續(xù)48個小時,就有大牛站出來質疑。
深度學習三巨頭之一的LeCun首先站了出來。
他糾結的一個點在于,谷歌這篇論文的結果,紐約大學的團隊在2019年10月就已經(jīng)做過了。如果谷歌要發(fā)表這篇文章,就應該引用NYU的研究內容。
雷鋒網(wǎng)查看了一下LeCun的賬號,直到1月3日中午11點半,LeCun還在轉發(fā)帖子,看來對這件事有著一股深深的執(zhí)念。
當然,這個事兒錯不在谷歌。
DeepMind的負責人Hassabis回復LeCun說,我們引用了這篇論文,LeCun 應該先看清結果再噴。后面LeCun也解釋了,這個確實沒看到。
不過,圍繞這篇論文的爭論卻沒有散去,有學者站出來公開支持LeCun,質疑這篇論文的實際價值。(后期,雷鋒網(wǎng)將對紐約大學的這篇論文進行編譯和解讀)
Hugh Harvey說到,雖然我們要向谷歌表示祝賀,但是不要忘了,去年紐約大學的團隊就取得了更好的結果,有更多的數(shù)據(jù)驗證,和更多的放射科醫(yī)生進行了對比。并且,紐約大學的代碼和數(shù)據(jù)都開源了。
上面的這些話都還算客氣,不過Hugh Harvey最后一句可就不留情面了:“只是紐約大學的學者們沒有PR團隊來引起公眾的注意罷了。”
當然,有人反對,也就有人支持。
巴塞羅那大學機器學習和CV領域的教授Gabriel Oliveira就表示,如果我們不能訪問數(shù)據(jù)集或代碼,我們應該如何重現(xiàn)結果或驗證它?盡管如此,任何在幫助抗擊癌癥方面取得的進展和付出的努力都是受歡迎的,所以祝賀谷歌這個團隊。
2019年,LeCun與Hinton教授以及Bengio教授三人共同獲得了2019年圖靈獎,將共同拿到100萬美元的獎金。
雖然名譽加深,不過LeCun一直以來就是一個批判者,經(jīng)常會公開發(fā)表不同的意見。
在去年ISSCC(國際固態(tài)電路會議)學術會議上發(fā)言時,這位“敢說、敢懟”的AI大牛就順便批判了英特爾神經(jīng)形態(tài)計算實驗室主任Mike Davies在搞的神經(jīng)形態(tài)計算,后面自然引起了一場“隔空對戰(zhàn)”。
不過,作為深度學習領域的領軍人物,對于人工智能的未來,LeCun的措辭一向很謹慎,“AI離我們的目標還非常遠,還達不到我們想要的效果”。
所以,對于谷歌能夠擊敗擊敗了6名放射科醫(yī)生,相信LeCun也會有自己的看法。
準備率99%靠譜嗎?
拆臺“知名”醫(yī)療AI論文的現(xiàn)象一直存在。
雷鋒網(wǎng)了解到,2017年12月,吳恩達團隊就宣布,利用CNN算法識別肺炎的準確率上超越了人類專業(yè)醫(yī)師。緊接著,阿德萊德大學的放射科在讀博士Luke Oakden-Rayner就發(fā)表文章,質疑吳恩達團隊醫(yī)學影像數(shù)據(jù)集的可用性問題。
要知道,當時的ChestX-ray14 已經(jīng)是最大的開放式胸透照片數(shù)據(jù)集,包含 14 種疾病的 10 萬張前視圖 X-ray 圖像。
為了證明自己的觀點,Luke Oakden-Rayner博士依次對“標簽的準確度”、“標簽的醫(yī)學意義”、“標簽對于圖像分析的重要性”等三個問題進行了論述。
除了數(shù)據(jù)集,AI如何能夠按照人類尤其是醫(yī)生的思維來得出結論,其實更加重要。斯坦福大學皮膚科的 Novoa 博士也舉了一個例子討論過這個問題:
當皮膚科醫(yī)生查看一種可能是腫瘤的病變時,他們會借助一把尺子——就是你在小學時用的那種——來準確測量它的大小。皮膚科醫(yī)生這樣做是為了查看病灶。因此,在一組活檢圖像中,如果圖像中有尺子,算法更可能將其判斷為惡性腫瘤,因為尺子的存在與病癥癌變的可能性相關。
不幸的是,Novoa 強調,該算法不知道為什么這種相關性是有道理的,所以很容易誤解為一把隨機的尺子是診斷癌癥的根據(jù)。
而就在上文中,谷歌此前提到的“晚期乳腺癌的人工智能檢測系統(tǒng),可以在99%的情況下正確區(qū)分轉移性癌癥”,也存有疑問。
我們要知道,計算機工程界常用的評價指標有兩個:
Accuracy (準確率):判斷正確的樣本數(shù)與總樣本數(shù)之間的比例。計算方法為,系統(tǒng)正確判斷為陽性與正確判斷為陰性的數(shù)量之和除以總樣本數(shù)量。
Precision (精確率):系統(tǒng)判斷為陽性的情況中正確的比例。計算方法為,系統(tǒng)正確的判斷為陽性的數(shù)量除以系統(tǒng)判斷為陽性的總數(shù)量。
Recall (召回率):等同于敏感度。
可以發(fā)現(xiàn),準確率Accuracy和精確率Precision嚴重依賴于樣本總數(shù)里陽性和陰性的配比,舉個極端的案例,設計一個系統(tǒng),對于所有的輸入都報陽性,即敏感度為100%,特異度為0,這就是個沒有實際用處的系統(tǒng),那么此時取100個測試樣本中,99個為陽性,1個為陰性,此時計算出的準確率為99%,精確率也是99%。
因此,現(xiàn)實中,做出一個敏感度高特異度不高,或者反之的系統(tǒng)是很容易的,可以輕松的調整測試樣本的陽性陰性比例來優(yōu)化其準確率和精確率值。
醫(yī)學是講證據(jù)的學科,如何證明一項臨床成果的先進性,實用性和穩(wěn)定性,需要工程團隊給出充分的理由。就“擊敗醫(yī)生”這件事而言,在目前看來還很遙遠。“窺一斑而見全豹”這樣的方式,并不適用于以“循證”為特征的醫(yī)學領域。
而數(shù)據(jù)集、思維方式、評價指標,這些都是醫(yī)療AI繞不開的問題。
所以,以后對于類似的“準確率超過99%”、“超過醫(yī)生水平”的話術,我們看看就好。畢竟,AI想要達到或者超過醫(yī)生的水平,還有很多事情要做。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。