0
本文作者: 天諾 | 2017-01-03 16:25 |
雷鋒網(wǎng)按:本文作者 Luke Oakden-Rayner 是澳大利亞知名學(xué)府阿德萊德大學(xué)的在讀醫(yī)學(xué)博士生,曾發(fā)表過多篇醫(yī)療人工智能方面的文章。雷鋒網(wǎng)對全文做了編譯,未經(jīng)許可不得轉(zhuǎn)載。
在我最近發(fā)表的一篇博文里,探討了如何帶著批判的眼光去理解人工智能在醫(yī)學(xué)領(lǐng)域里的應(yīng)用和研究,并且將研究重點(diǎn)放在了這些人工智能試驗(yàn)與臨床應(yīng)用的相關(guān)性上。但在此后,我想到一個(gè)問題,即有些研究已經(jīng)取得了進(jìn)步,而有些研究還遠(yuǎn)未達(dá)到臨床應(yīng)用的階段,對于這一過程,還沒有一種簡單清晰的方式可以討論。
從事醫(yī)學(xué)研究的人,可能會認(rèn)同這種觀點(diǎn),因?yàn)獒t(yī)學(xué)界已經(jīng)解決了這個(gè)問題。
事實(shí)上在醫(yī)學(xué)領(lǐng)域,根據(jù)實(shí)驗(yàn)結(jié)果會對臨床應(yīng)用產(chǎn)生多大作用,臨床試驗(yàn)可以被分為三大類。業(yè)內(nèi)將這些類別稱為醫(yī)學(xué)研究的不同階段,它們反映了從前期準(zhǔn)備到轉(zhuǎn)化為臨床應(yīng)用這一過程的常規(guī)路徑。這些類別也恰恰是臨床創(chuàng)新獲得醫(yī)生和監(jiān)管機(jī)構(gòu)接納的必由之路,籠統(tǒng)地說,大多數(shù)與人有關(guān)的醫(yī)學(xué)研究都不外乎分為這三大類(或三個(gè)階段)。
第一階段是首次安全性檢查。最開始,需要在一小群受試者身上試用藥品,保證沒有任何可怕的后果。在這個(gè)階段中,我們甚至很少去考慮試驗(yàn)的藥品是否有藥效(即受試者服藥之后的效果怎樣),只希望確認(rèn)試驗(yàn)不會造成服藥者死亡。如果我們從中得到了不錯(cuò)的反饋,顯示藥品的確效果不錯(cuò),那固然很好,但是那并不是試驗(yàn)一期的主要目標(biāo)和動機(jī)。
第二階段則要更全面地評估試驗(yàn)安全性。到這個(gè)階段中,需要擴(kuò)大受試人群的規(guī)模,這么做是要查明藥品是否會出現(xiàn)比較罕見的副作用。因?yàn)樵囼?yàn)樣本的數(shù)量更大,可能發(fā)現(xiàn)更多和藥效有關(guān)的信息證據(jù),但即便如此,這一階段也永遠(yuǎn)不足以證明臨床應(yīng)用可行。
第三階段是成本最高、難度最大、但又十分重要的一個(gè)階段。主要目標(biāo),是要去查清藥品究竟能夠發(fā)揮多大作用,這通常意味著,一大批受試者必須要試用某種藥物很長時(shí)間,而且試驗(yàn)所采用的方法和分析都要能經(jīng)得起美國食品藥品監(jiān)督管理局(FDA)或者類似政府監(jiān)管部門的嚴(yán)格審核。
除此之外,如果從技術(shù)角度來看,其實(shí)還有臨床前期試驗(yàn)(動物實(shí)驗(yàn)?zāi)P停┖偷谒碾A段臨床試驗(yàn)(新藥推出后進(jìn)行的后續(xù)試驗(yàn))。不過,上述的三個(gè)階段是將某個(gè)醫(yī)療想法變成實(shí)際治療藥物所必須經(jīng)歷的過程。
我認(rèn)為,醫(yī)療人工智能研究的推進(jìn)過程,其實(shí)和常規(guī)醫(yī)學(xué)臨床試驗(yàn)過程非常相似,因?yàn)槲夷慷玫膸缀跛嗅t(yī)療人工智能研究都可以歸入、或明確界定到已知的這三個(gè)階段之中。至于這一系統(tǒng)是否很嚴(yán)格,有沒有涵蓋足夠多的尖端研究,我也不能給出百分百肯定的答案,但本文至少能夠在設(shè)計(jì)、或理解醫(yī)療人工智能領(lǐng)域研究時(shí),對形成實(shí)用的思路框架提供一些幫助。
讓醫(yī)療人工智能試驗(yàn)的框架能夠映射其他臨床試驗(yàn)架構(gòu),是合理的做法。所以,將其也分為三個(gè)階段是直觀且常見的思路,當(dāng)然,這可能也需要做些額外工作,才能讓醫(yī)學(xué)研究者和人工智能研究者相互理解。假設(shè)你的新型醫(yī)學(xué)人工智能系統(tǒng)已經(jīng)做好了隨時(shí)為病人服務(wù)的準(zhǔn)備,相比之下,可能說服醫(yī)生和監(jiān)管機(jī)構(gòu)相信反而更容易一些。
實(shí)際上,醫(yī)學(xué)臨床試驗(yàn)和醫(yī)學(xué)人工智能試驗(yàn)的關(guān)鍵區(qū)別,主要是第一和二階段人工智能系統(tǒng)不用怎么考慮安全性。因?yàn)橹钡诫A段三,才會應(yīng)用于患者。這種研究叫做“可忽略風(fēng)險(xiǎn)型研究”。
請注意,以下框架僅適用于軟件系統(tǒng),并不適合外科手術(shù)機(jī)器人等實(shí)物系統(tǒng)。此外,不同的軟件系統(tǒng)可能會有類似的框架,只是各自的細(xì)節(jié)有天壤之別。
簡介:這一階段會設(shè)法明確哪些醫(yī)療人工智能試驗(yàn)任務(wù)是不可行的,或所啟用的模型前景并不太好,不足以保證未來的研究能夠深入下去。有前景的試驗(yàn)會決定模型設(shè)計(jì)選擇的方向,為下一階段研究的選擇提供有用的信息。
研究設(shè)計(jì):以經(jīng)過測試的小型回顧性陣列,訓(xùn)練醫(yī)療人工智能試驗(yàn)系統(tǒng)。這意味著,人工智能系統(tǒng)所使用的數(shù)據(jù),都是過去出于其它原因而收集的,研究人員用這些數(shù)據(jù)去查明,這一階段是否存在和他們所希望解決的任務(wù)有相關(guān)因素。在機(jī)器學(xué)習(xí)領(lǐng)域里,通常的做法是用公共數(shù)據(jù)集。
陣列的規(guī)模通常在二十人到幾百人不等,這一階段預(yù)計(jì)不會有太大的規(guī)模,因?yàn)椴恍枰獪?zhǔn)確刻畫模型表現(xiàn)的特征,也不需要得出效果方面的具體結(jié)論。
陣列類似于目標(biāo)群體,不過并非完全一樣。這時(shí)要做些選擇,簡化試驗(yàn)過程,這也讓研究人員無法得出更寬泛的結(jié)論。比如,可以使用住院患者的數(shù)據(jù),因?yàn)檫@類數(shù)據(jù)隨時(shí)可用,即使研究目標(biāo)是應(yīng)用到更大眾的人群(如非住院患者)。做這些設(shè)計(jì)選擇的人,常常不是經(jīng)過專門訓(xùn)練的人員,即很多是計(jì)算機(jī)科學(xué)家,而不是生物統(tǒng)計(jì)學(xué)家、流行病學(xué)家、或是醫(yī)學(xué)研究人員。
醫(yī)療人工智能任務(wù)本身會簡化,從而進(jìn)行更加高效的分析。比如會使用代理,而非真正的患者來進(jìn)行研究。一個(gè)例子是:某項(xiàng)研究評估縫針有多高的精確度時(shí),會用手術(shù)機(jī)器人,而不會用真正的患者。前一種任務(wù)即使表現(xiàn)的再優(yōu)異,也不能作為系統(tǒng)勝任人類任務(wù)的直接證據(jù)。任何醫(yī)療試驗(yàn)最終還是需要應(yīng)用在病患身上。
成本:第一階段試驗(yàn)的大部分成本是研究人員為設(shè)計(jì)和訓(xùn)練模型投入的時(shí)間。
轉(zhuǎn)化時(shí)間:在臨床試驗(yàn)中,從第一階段試驗(yàn)成功到推出消費(fèi)類醫(yī)療產(chǎn)品,可能預(yù)計(jì)需要大概十年。
實(shí)例:歷次醫(yī)學(xué)領(lǐng)域的深度學(xué)習(xí)試驗(yàn)(只有一次例外)。目前,公開發(fā)表的醫(yī)療人工智能試驗(yàn)論文數(shù)量每周都有好幾篇,作者從一流研究人員到在讀學(xué)生不等,甚至大數(shù)據(jù)競賽平臺Kaggle組織的那些臨床靶區(qū)分析競賽、以及所涉及的部分醫(yī)療數(shù)據(jù)都能被算在內(nèi)。
簡介:這一階段將會識別醫(yī)療人工智能試驗(yàn)理念是否值得在第三階段研究中繼續(xù),由于第三階段成本昂貴,而耗費(fèi)的時(shí)間也很久,所以第二階段試驗(yàn)的主要目標(biāo),是要探索最有前途的模型架構(gòu)、目標(biāo)、以及患者陣列。
研究設(shè)計(jì):人工智能醫(yī)療系統(tǒng)會被一個(gè)更大規(guī)模的患者陣列來測試,規(guī)模要大到能帶來最高性能的預(yù)期。不僅如此,數(shù)據(jù)還需要更緊密地反映出受眾目標(biāo)人群,盡管依然會不同。在此,主要的混雜變量應(yīng)該被明確地認(rèn)知,并知道何時(shí)會不受控制。在第二階段,陣列的選擇往往要求研究設(shè)計(jì)專家的幫助,這其中就包括生物統(tǒng)計(jì)學(xué)家和流行病研究學(xué)家。
第二階段里,患者陣列很可能會達(dá)到數(shù)萬人(有時(shí)甚至更多),這一數(shù)字相比于傳統(tǒng)的第二階段醫(yī)療臨床試驗(yàn)要大得多,因?yàn)殛嚵幸獫M足機(jī)器學(xué)習(xí)訓(xùn)練和測試。如果你不明白,只需記住至少是傳統(tǒng)醫(yī)療臨床試驗(yàn)數(shù)量的2倍。
第二階段數(shù)據(jù)還是回顧性的,但任務(wù)本身會和要自動化的臨床任務(wù)非常相似。
成本:第二階段醫(yī)療人工智能試驗(yàn)的主要成本,將會是收集、標(biāo)簽、以及處理海量訓(xùn)練數(shù)據(jù)集合。在這一階段里,模型設(shè)計(jì)成本將會有所不同,這主要依賴于你采用什么樣的機(jī)器學(xué)習(xí)方法。
轉(zhuǎn)化時(shí)間:從第二階段到實(shí)際醫(yī)療產(chǎn)品,整個(gè)過程可能需要五到八年。
實(shí)例:谷歌對糖尿病視網(wǎng)膜病變的研究。實(shí)際上,這是目前我所知唯一稱得上是第二階段醫(yī)療人工智能試驗(yàn)。谷歌用了 1 萬個(gè)案例,和1.3 億圖片訓(xùn)練這套系統(tǒng)。谷歌的人工智能系統(tǒng)的表現(xiàn),和醫(yī)學(xué)專家?guī)缀鯚o異,而且在臨床表現(xiàn)上也足夠準(zhǔn)確(誤差在可允許范圍之內(nèi)),也只有這樣的系統(tǒng)才有資格進(jìn)入到第三階段醫(yī)療試驗(yàn)。
簡介:第三階段試驗(yàn),是為了證明臨床效果。其目的,也是為了展示人工智能系統(tǒng)在可控環(huán)境下處理臨床治療任務(wù)的時(shí)候,究竟是否能夠起作用。
研究設(shè)計(jì):系統(tǒng)經(jīng)過大型前瞻性患者陣列研究,且能準(zhǔn)確代表目標(biāo)受眾。前瞻性意味著在系統(tǒng)被實(shí)際應(yīng)用前,試驗(yàn)對象就已經(jīng)被聚集起來,然后進(jìn)行足夠長的效果評估。主要目標(biāo)是展示醫(yī)療指標(biāo)的變化,比如患者治療效果是否得到改善,或者臨床護(hù)理的成本是否有所下降。
在第三階段中,患者陣列的選擇最為關(guān)鍵,因?yàn)榕R床只接受一致的患者對象。研究設(shè)計(jì)是非常重要的一項(xiàng)工作,往往需要好多專家一起協(xié)同工作好幾個(gè)月。
另外,在患者陣列規(guī)模也會產(chǎn)生更多變化,在某種程度上,這主要取決于第二階段研究中發(fā)現(xiàn)的研究成果規(guī)模。第二階段所創(chuàng)建的人工智能模型,在第三階段試驗(yàn)中可能效果并沒有那么好。在我個(gè)人看來,首個(gè)第三階段臨床試驗(yàn)要克服醫(yī)療研究中的保守偏見*(見文末注釋)。
任務(wù)選擇將會反映出系統(tǒng)用例。當(dāng)這套系統(tǒng)完成部署之后(這是一個(gè)監(jiān)管點(diǎn)),針對同一個(gè)治療任務(wù),臨床驗(yàn)收和監(jiān)管驗(yàn)收必須要提供實(shí)際證明。再次需要重點(diǎn)提醒的是,這些工作也需要進(jìn)行大量規(guī)劃和專家研討。
成本:在第三階段最主要的成本來自于研究設(shè)計(jì)、陣列人數(shù)、以及管理、數(shù)據(jù)分析和出版支出。實(shí)際上,絕大多數(shù)計(jì)算機(jī)系統(tǒng)設(shè)計(jì)已經(jīng)在第二階段試驗(yàn)中完成了,因此到了第三階段,盡管工程成本可能會略高一些,但機(jī)器學(xué)習(xí)的成本應(yīng)該會有所減少。
由于這些研究都是具有前瞻性的,因此隨訪患者時(shí)間必須足夠長,這樣才能發(fā)現(xiàn)臨床結(jié)果中是否真的會出現(xiàn)問題。比如像心臟病這種病癥,往往需要隨訪患者好幾年時(shí)間才能夠被發(fā)現(xiàn),所以在這方面所耗費(fèi)的成本會比較高。
轉(zhuǎn)化時(shí)間:從第三階段到醫(yī)療產(chǎn)品,可能是兩到五年時(shí)間。監(jiān)管機(jī)構(gòu)的審批真的會很長!
實(shí)例:目前沒有任何使用深度學(xué)習(xí)系統(tǒng)的第三階段醫(yī)療人工智能試驗(yàn)。
可能也有些不同看法,有人認(rèn)為過去有計(jì)算機(jī)輔助診斷(CAD)在第三階段試驗(yàn)中使用,特別是在乳房 X 線攝影應(yīng)用。事實(shí)上,這些系統(tǒng)都是較老的機(jī)器學(xué)習(xí),而且完整性也不夠。它們也會讓深度學(xué)習(xí)系統(tǒng)的轉(zhuǎn)型變得更加困難,因?yàn)镃AD在第四階段(后期部署)試驗(yàn)的表現(xiàn)令人非常失望。
在我本人看來,本文所描述的這種三階段架構(gòu)可能對解決一些問題有所幫助,當(dāng)然,這些問題我之前也有提到,公眾和媒體也做了一定的科學(xué)傳播。這些簡單的分類,能夠預(yù)先識別出一個(gè)人工智能系統(tǒng)距離臨床應(yīng)用有多遠(yuǎn)(或多近),也能夠幫助醫(yī)療研究人員更輕松地理解自己所做的相關(guān)研究。
此外,本文中所提供的這些方法也有助于矯正我們一些不切實(shí)際的期望。事實(shí)上,幾乎沒有任何人工智能醫(yī)療臨床研究能夠通過這三個(gè)階段,不過應(yīng)該會有類似的淘汰流程。如果我們嘗試追蹤試驗(yàn)結(jié)果就會發(fā)現(xiàn),能夠通過第二階段的臨床試驗(yàn)只有 18%,而在所有進(jìn)入到第三階段的臨床試驗(yàn)中,成功的不到 50%(具體可參見下圖)。
所以對于人工智能系統(tǒng)而言,結(jié)果可能會更糟糕,而且我們還需要考慮到第一階段研究的門檻(特別是利用公共數(shù)據(jù))其實(shí)非常的低。如果有一千個(gè)醫(yī)療人工智能系統(tǒng)進(jìn)入到第一階段試驗(yàn),那么最終能夠成功通過的可能不會超過一家。在人工智能領(lǐng)域里,我們看到現(xiàn)在每周都有五到十篇醫(yī)療人工智能論文發(fā)表出來,但是卻幾乎沒有進(jìn)入到第二階段。
再潑一點(diǎn)冷水,一般來說,一款藥物從實(shí)驗(yàn)室到市場投放,通常需要十年,成本高達(dá)十億美元。人工智能系統(tǒng)可能更簡單也更便宜,但是到目前為止,還沒有任何證據(jù)能夠證明切實(shí)有效,因?yàn)闆]有任何人工智能醫(yī)療試驗(yàn)?zāi)軌蜃叩降谌A段。
最后,像本文中所描述的這樣一個(gè)框架,其實(shí)也給了研究人員提供了一個(gè)清晰的路線圖。從這些試驗(yàn)開始,然后慢慢熟悉,最后,你也會擁有一個(gè)能夠解決醫(yī)生和監(jiān)管機(jī)構(gòu)問題的系統(tǒng)。以我的經(jīng)驗(yàn),如果讓計(jì)算機(jī)專家和工程師進(jìn)行醫(yī)療研究設(shè)計(jì)通常不是個(gè)明智之舉,而在最初想法到最終醫(yī)療成品的過程中,如果有一個(gè)大致指導(dǎo)方針,則會給你帶來很多幫助。
雷鋒網(wǎng)注:保守偏見其實(shí)是一種試驗(yàn)特點(diǎn),而不能被看作是一個(gè) bug。相比于后期驗(yàn)收,醫(yī)療創(chuàng)新實(shí)例往往需要面臨更高的門檻,這主要是因?yàn)獒t(yī)療行業(yè)的預(yù)防原則所導(dǎo)致的。所做的測試越多,我們就能對該方法有更好的理解,繼而能夠預(yù)測后續(xù)可能產(chǎn)生的風(fēng)險(xiǎn)。對于未經(jīng)測試的方法, 我們會表現(xiàn)的慎之又慎。
VIA lukeoakdenrayner
【兼職召集令!】
如果你對未來充滿憧憬,喜歡探索改變世界的科技進(jìn)展,look no further!
我們需要這樣的你:
精通英語,對技術(shù)與產(chǎn)品感興趣,關(guān)注人工智能學(xué)術(shù)動態(tài)的蘿莉&萌妹子&技術(shù)宅;
文字不求妙筆生花,但希望通俗易懂;
在這里,你會收獲:
一群來自天南地北、志同道合的小伙伴;
前沿學(xué)術(shù)科技動態(tài),每天為自己充充電;
更高的生活品質(zhì),翻翻文章就能掙到零花錢;
有意向的小伙伴們把個(gè)人介紹/簡歷發(fā)至 guoyixin@leiphone.com,如有作品,歡迎一并附上。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。