0
本文作者: 李雨晨 | 2020-01-05 17:12 |
2020年,醫(yī)療AI的第一個(gè)大新聞屬于谷歌。
1月2日,Google Health聯(lián)合公司旗下DeepMind、倫敦大學(xué)學(xué)院、劍橋大學(xué)、英國(guó)吉爾福德皇家薩里郡醫(yī)院、初創(chuàng)公司Verily Life Sciences、斯坦福醫(yī)療中心、英國(guó)皇家馬斯登醫(yī)院等多個(gè)機(jī)構(gòu)在《Nature》雜志上發(fā)表了一篇論文,介紹了一種新型的深度學(xué)習(xí)鉬靶影像系統(tǒng)。
這個(gè)系統(tǒng)的核心亮點(diǎn)是,與之前的模型相比,該模型有效減少了乳腺癌被錯(cuò)誤識(shí)別或遺漏的情況,將乳腺癌檢測(cè)的假陽(yáng)性率降低了5.7%,假陰性率也降低了9.4%,并號(hào)稱擊敗了6名全日制的放射科醫(yī)生。
谷歌經(jīng)常會(huì)在某些領(lǐng)域“超越”醫(yī)生。
在此之前,2017年,谷歌醫(yī)療AI在乳腺癌診斷中表現(xiàn)超過(guò)人類專業(yè)病理檢驗(yàn)師。次年,谷歌發(fā)布一款針對(duì)晚期乳腺癌的人工智能檢測(cè)系統(tǒng),可以在99%的情況下正確區(qū)分轉(zhuǎn)移性癌癥。
但是,昨天的這條消息熱度還沒(méi)持續(xù)48個(gè)小時(shí),就有大牛站出來(lái)質(zhì)疑。
深度學(xué)習(xí)三巨頭之一的LeCun首先站了出來(lái)。
他糾結(jié)的一個(gè)點(diǎn)在于,谷歌這篇論文的結(jié)果,紐約大學(xué)的團(tuán)隊(duì)在2019年10月就已經(jīng)做過(guò)了。如果谷歌要發(fā)表這篇文章,就應(yīng)該引用NYU的研究?jī)?nèi)容。
雷鋒網(wǎng)查看了一下LeCun的賬號(hào),直到1月3日中午11點(diǎn)半,LeCun還在轉(zhuǎn)發(fā)帖子,看來(lái)對(duì)這件事有著一股深深的執(zhí)念。
當(dāng)然,這個(gè)事兒錯(cuò)不在谷歌。
DeepMind的負(fù)責(zé)人Hassabis回復(fù)LeCun說(shuō),我們引用了這篇論文,LeCun 應(yīng)該先看清結(jié)果再噴。后面LeCun也解釋了,這個(gè)確實(shí)沒(méi)看到。
不過(guò),圍繞這篇論文的爭(zhēng)論卻沒(méi)有散去,有學(xué)者站出來(lái)公開支持LeCun,質(zhì)疑這篇論文的實(shí)際價(jià)值。(后期,雷鋒網(wǎng)將對(duì)紐約大學(xué)的這篇論文進(jìn)行編譯和解讀)
Hugh Harvey說(shuō)到,雖然我們要向谷歌表示祝賀,但是不要忘了,去年紐約大學(xué)的團(tuán)隊(duì)就取得了更好的結(jié)果,有更多的數(shù)據(jù)驗(yàn)證,和更多的放射科醫(yī)生進(jìn)行了對(duì)比。并且,紐約大學(xué)的代碼和數(shù)據(jù)都開源了。
上面的這些話都還算客氣,不過(guò)Hugh Harvey最后一句可就不留情面了:“只是紐約大學(xué)的學(xué)者們沒(méi)有PR團(tuán)隊(duì)來(lái)引起公眾的注意罷了。”
當(dāng)然,有人反對(duì),也就有人支持。
巴塞羅那大學(xué)機(jī)器學(xué)習(xí)和CV領(lǐng)域的教授Gabriel Oliveira就表示,如果我們不能訪問(wèn)數(shù)據(jù)集或代碼,我們應(yīng)該如何重現(xiàn)結(jié)果或驗(yàn)證它?盡管如此,任何在幫助抗擊癌癥方面取得的進(jìn)展和付出的努力都是受歡迎的,所以祝賀谷歌這個(gè)團(tuán)隊(duì)。
2019年,LeCun與Hinton教授以及Bengio教授三人共同獲得了2019年圖靈獎(jiǎng),將共同拿到100萬(wàn)美元的獎(jiǎng)金。
雖然名譽(yù)加深,不過(guò)LeCun一直以來(lái)就是一個(gè)批判者,經(jīng)常會(huì)公開發(fā)表不同的意見。
在去年ISSCC(國(guó)際固態(tài)電路會(huì)議)學(xué)術(shù)會(huì)議上發(fā)言時(shí),這位“敢說(shuō)、敢懟”的AI大牛就順便批判了英特爾神經(jīng)形態(tài)計(jì)算實(shí)驗(yàn)室主任Mike Davies在搞的神經(jīng)形態(tài)計(jì)算,后面自然引起了一場(chǎng)“隔空對(duì)戰(zhàn)”。
不過(guò),作為深度學(xué)習(xí)領(lǐng)域的領(lǐng)軍人物,對(duì)于人工智能的未來(lái),LeCun的措辭一向很謹(jǐn)慎,“AI離我們的目標(biāo)還非常遠(yuǎn),還達(dá)不到我們想要的效果”。
所以,對(duì)于谷歌能夠擊敗擊敗了6名放射科醫(yī)生,相信LeCun也會(huì)有自己的看法。
準(zhǔn)備率99%靠譜嗎?
拆臺(tái)“知名”醫(yī)療AI論文的現(xiàn)象一直存在。
雷鋒網(wǎng)了解到,2017年12月,吳恩達(dá)團(tuán)隊(duì)就宣布,利用CNN算法識(shí)別肺炎的準(zhǔn)確率上超越了人類專業(yè)醫(yī)師。緊接著,阿德萊德大學(xué)的放射科在讀博士Luke Oakden-Rayner就發(fā)表文章,質(zhì)疑吳恩達(dá)團(tuán)隊(duì)醫(yī)學(xué)影像數(shù)據(jù)集的可用性問(wèn)題。
要知道,當(dāng)時(shí)的ChestX-ray14 已經(jīng)是最大的開放式胸透照片數(shù)據(jù)集,包含 14 種疾病的 10 萬(wàn)張前視圖 X-ray 圖像。
為了證明自己的觀點(diǎn),Luke Oakden-Rayner博士依次對(duì)“標(biāo)簽的準(zhǔn)確度”、“標(biāo)簽的醫(yī)學(xué)意義”、“標(biāo)簽對(duì)于圖像分析的重要性”等三個(gè)問(wèn)題進(jìn)行了論述。
除了數(shù)據(jù)集,AI如何能夠按照人類尤其是醫(yī)生的思維來(lái)得出結(jié)論,其實(shí)更加重要。斯坦福大學(xué)皮膚科的 Novoa 博士也舉了一個(gè)例子討論過(guò)這個(gè)問(wèn)題:
當(dāng)皮膚科醫(yī)生查看一種可能是腫瘤的病變時(shí),他們會(huì)借助一把尺子——就是你在小學(xué)時(shí)用的那種——來(lái)準(zhǔn)確測(cè)量它的大小。皮膚科醫(yī)生這樣做是為了查看病灶。因此,在一組活檢圖像中,如果圖像中有尺子,算法更可能將其判斷為惡性腫瘤,因?yàn)槌咦拥拇嬖谂c病癥癌變的可能性相關(guān)。
不幸的是,Novoa 強(qiáng)調(diào),該算法不知道為什么這種相關(guān)性是有道理的,所以很容易誤解為一把隨機(jī)的尺子是診斷癌癥的根據(jù)。
而就在上文中,谷歌此前提到的“晚期乳腺癌的人工智能檢測(cè)系統(tǒng),可以在99%的情況下正確區(qū)分轉(zhuǎn)移性癌癥”,也存有疑問(wèn)。
我們要知道,計(jì)算機(jī)工程界常用的評(píng)價(jià)指標(biāo)有兩個(gè):
Accuracy (準(zhǔn)確率):判斷正確的樣本數(shù)與總樣本數(shù)之間的比例。計(jì)算方法為,系統(tǒng)正確判斷為陽(yáng)性與正確判斷為陰性的數(shù)量之和除以總樣本數(shù)量。
Precision (精確率):系統(tǒng)判斷為陽(yáng)性的情況中正確的比例。計(jì)算方法為,系統(tǒng)正確的判斷為陽(yáng)性的數(shù)量除以系統(tǒng)判斷為陽(yáng)性的總數(shù)量。
Recall (召回率):等同于敏感度。
可以發(fā)現(xiàn),準(zhǔn)確率Accuracy和精確率Precision嚴(yán)重依賴于樣本總數(shù)里陽(yáng)性和陰性的配比,舉個(gè)極端的案例,設(shè)計(jì)一個(gè)系統(tǒng),對(duì)于所有的輸入都報(bào)陽(yáng)性,即敏感度為100%,特異度為0,這就是個(gè)沒(méi)有實(shí)際用處的系統(tǒng),那么此時(shí)取100個(gè)測(cè)試樣本中,99個(gè)為陽(yáng)性,1個(gè)為陰性,此時(shí)計(jì)算出的準(zhǔn)確率為99%,精確率也是99%。
因此,現(xiàn)實(shí)中,做出一個(gè)敏感度高特異度不高,或者反之的系統(tǒng)是很容易的,可以輕松的調(diào)整測(cè)試樣本的陽(yáng)性陰性比例來(lái)優(yōu)化其準(zhǔn)確率和精確率值。
醫(yī)學(xué)是講證據(jù)的學(xué)科,如何證明一項(xiàng)臨床成果的先進(jìn)性,實(shí)用性和穩(wěn)定性,需要工程團(tuán)隊(duì)給出充分的理由。就“擊敗醫(yī)生”這件事而言,在目前看來(lái)還很遙遠(yuǎn)?!案Q一斑而見全豹”這樣的方式,并不適用于以“循證”為特征的醫(yī)學(xué)領(lǐng)域。
而數(shù)據(jù)集、思維方式、評(píng)價(jià)指標(biāo),這些都是醫(yī)療AI繞不開的問(wèn)題。
所以,以后對(duì)于類似的“準(zhǔn)確率超過(guò)99%”、“超過(guò)醫(yī)生水平”的話術(shù),我們看看就好。畢竟,AI想要達(dá)到或者超過(guò)醫(yī)生的水平,還有很多事情要做。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。