0
本文作者: 天諾 | 2017-01-03 16:25 |
雷鋒網(wǎng)按:本文作者 Luke Oakden-Rayner 是澳大利亞知名學府阿德萊德大學的在讀醫(yī)學博士生,曾發(fā)表過多篇醫(yī)療人工智能方面的文章。雷鋒網(wǎng)對全文做了編譯,未經(jīng)許可不得轉(zhuǎn)載。
在我最近發(fā)表的一篇博文里,探討了如何帶著批判的眼光去理解人工智能在醫(yī)學領域里的應用和研究,并且將研究重點放在了這些人工智能試驗與臨床應用的相關性上。但在此后,我想到一個問題,即有些研究已經(jīng)取得了進步,而有些研究還遠未達到臨床應用的階段,對于這一過程,還沒有一種簡單清晰的方式可以討論。
從事醫(yī)學研究的人,可能會認同這種觀點,因為醫(yī)學界已經(jīng)解決了這個問題。
事實上在醫(yī)學領域,根據(jù)實驗結果會對臨床應用產(chǎn)生多大作用,臨床試驗可以被分為三大類。業(yè)內(nèi)將這些類別稱為醫(yī)學研究的不同階段,它們反映了從前期準備到轉(zhuǎn)化為臨床應用這一過程的常規(guī)路徑。這些類別也恰恰是臨床創(chuàng)新獲得醫(yī)生和監(jiān)管機構接納的必由之路,籠統(tǒng)地說,大多數(shù)與人有關的醫(yī)學研究都不外乎分為這三大類(或三個階段)。
第一階段是首次安全性檢查。最開始,需要在一小群受試者身上試用藥品,保證沒有任何可怕的后果。在這個階段中,我們甚至很少去考慮試驗的藥品是否有藥效(即受試者服藥之后的效果怎樣),只希望確認試驗不會造成服藥者死亡。如果我們從中得到了不錯的反饋,顯示藥品的確效果不錯,那固然很好,但是那并不是試驗一期的主要目標和動機。
第二階段則要更全面地評估試驗安全性。到這個階段中,需要擴大受試人群的規(guī)模,這么做是要查明藥品是否會出現(xiàn)比較罕見的副作用。因為試驗樣本的數(shù)量更大,可能發(fā)現(xiàn)更多和藥效有關的信息證據(jù),但即便如此,這一階段也永遠不足以證明臨床應用可行。
第三階段是成本最高、難度最大、但又十分重要的一個階段。主要目標,是要去查清藥品究竟能夠發(fā)揮多大作用,這通常意味著,一大批受試者必須要試用某種藥物很長時間,而且試驗所采用的方法和分析都要能經(jīng)得起美國食品藥品監(jiān)督管理局(FDA)或者類似政府監(jiān)管部門的嚴格審核。
除此之外,如果從技術角度來看,其實還有臨床前期試驗(動物實驗模型)和第四階段臨床試驗(新藥推出后進行的后續(xù)試驗)。不過,上述的三個階段是將某個醫(yī)療想法變成實際治療藥物所必須經(jīng)歷的過程。
我認為,醫(yī)療人工智能研究的推進過程,其實和常規(guī)醫(yī)學臨床試驗過程非常相似,因為我目睹的幾乎所有醫(yī)療人工智能研究都可以歸入、或明確界定到已知的這三個階段之中。至于這一系統(tǒng)是否很嚴格,有沒有涵蓋足夠多的尖端研究,我也不能給出百分百肯定的答案,但本文至少能夠在設計、或理解醫(yī)療人工智能領域研究時,對形成實用的思路框架提供一些幫助。
讓醫(yī)療人工智能試驗的框架能夠映射其他臨床試驗架構,是合理的做法。所以,將其也分為三個階段是直觀且常見的思路,當然,這可能也需要做些額外工作,才能讓醫(yī)學研究者和人工智能研究者相互理解。假設你的新型醫(yī)學人工智能系統(tǒng)已經(jīng)做好了隨時為病人服務的準備,相比之下,可能說服醫(yī)生和監(jiān)管機構相信反而更容易一些。
實際上,醫(yī)學臨床試驗和醫(yī)學人工智能試驗的關鍵區(qū)別,主要是第一和二階段人工智能系統(tǒng)不用怎么考慮安全性。因為直到階段三,才會應用于患者。這種研究叫做“可忽略風險型研究”。
請注意,以下框架僅適用于軟件系統(tǒng),并不適合外科手術機器人等實物系統(tǒng)。此外,不同的軟件系統(tǒng)可能會有類似的框架,只是各自的細節(jié)有天壤之別。
簡介:這一階段會設法明確哪些醫(yī)療人工智能試驗任務是不可行的,或所啟用的模型前景并不太好,不足以保證未來的研究能夠深入下去。有前景的試驗會決定模型設計選擇的方向,為下一階段研究的選擇提供有用的信息。
研究設計:以經(jīng)過測試的小型回顧性陣列,訓練醫(yī)療人工智能試驗系統(tǒng)。這意味著,人工智能系統(tǒng)所使用的數(shù)據(jù),都是過去出于其它原因而收集的,研究人員用這些數(shù)據(jù)去查明,這一階段是否存在和他們所希望解決的任務有相關因素。在機器學習領域里,通常的做法是用公共數(shù)據(jù)集。
陣列的規(guī)模通常在二十人到幾百人不等,這一階段預計不會有太大的規(guī)模,因為不需要準確刻畫模型表現(xiàn)的特征,也不需要得出效果方面的具體結論。
陣列類似于目標群體,不過并非完全一樣。這時要做些選擇,簡化試驗過程,這也讓研究人員無法得出更寬泛的結論。比如,可以使用住院患者的數(shù)據(jù),因為這類數(shù)據(jù)隨時可用,即使研究目標是應用到更大眾的人群(如非住院患者)。做這些設計選擇的人,常常不是經(jīng)過專門訓練的人員,即很多是計算機科學家,而不是生物統(tǒng)計學家、流行病學家、或是醫(yī)學研究人員。
醫(yī)療人工智能任務本身會簡化,從而進行更加高效的分析。比如會使用代理,而非真正的患者來進行研究。一個例子是:某項研究評估縫針有多高的精確度時,會用手術機器人,而不會用真正的患者。前一種任務即使表現(xiàn)的再優(yōu)異,也不能作為系統(tǒng)勝任人類任務的直接證據(jù)。任何醫(yī)療試驗最終還是需要應用在病患身上。
成本:第一階段試驗的大部分成本是研究人員為設計和訓練模型投入的時間。
轉(zhuǎn)化時間:在臨床試驗中,從第一階段試驗成功到推出消費類醫(yī)療產(chǎn)品,可能預計需要大概十年。
實例:歷次醫(yī)學領域的深度學習試驗(只有一次例外)。目前,公開發(fā)表的醫(yī)療人工智能試驗論文數(shù)量每周都有好幾篇,作者從一流研究人員到在讀學生不等,甚至大數(shù)據(jù)競賽平臺Kaggle組織的那些臨床靶區(qū)分析競賽、以及所涉及的部分醫(yī)療數(shù)據(jù)都能被算在內(nèi)。
簡介:這一階段將會識別醫(yī)療人工智能試驗理念是否值得在第三階段研究中繼續(xù),由于第三階段成本昂貴,而耗費的時間也很久,所以第二階段試驗的主要目標,是要探索最有前途的模型架構、目標、以及患者陣列。
研究設計:人工智能醫(yī)療系統(tǒng)會被一個更大規(guī)模的患者陣列來測試,規(guī)模要大到能帶來最高性能的預期。不僅如此,數(shù)據(jù)還需要更緊密地反映出受眾目標人群,盡管依然會不同。在此,主要的混雜變量應該被明確地認知,并知道何時會不受控制。在第二階段,陣列的選擇往往要求研究設計專家的幫助,這其中就包括生物統(tǒng)計學家和流行病研究學家。
第二階段里,患者陣列很可能會達到數(shù)萬人(有時甚至更多),這一數(shù)字相比于傳統(tǒng)的第二階段醫(yī)療臨床試驗要大得多,因為陣列要滿足機器學習訓練和測試。如果你不明白,只需記住至少是傳統(tǒng)醫(yī)療臨床試驗數(shù)量的2倍。
第二階段數(shù)據(jù)還是回顧性的,但任務本身會和要自動化的臨床任務非常相似。
成本:第二階段醫(yī)療人工智能試驗的主要成本,將會是收集、標簽、以及處理海量訓練數(shù)據(jù)集合。在這一階段里,模型設計成本將會有所不同,這主要依賴于你采用什么樣的機器學習方法。
轉(zhuǎn)化時間:從第二階段到實際醫(yī)療產(chǎn)品,整個過程可能需要五到八年。
實例:谷歌對糖尿病視網(wǎng)膜病變的研究。實際上,這是目前我所知唯一稱得上是第二階段醫(yī)療人工智能試驗。谷歌用了 1 萬個案例,和1.3 億圖片訓練這套系統(tǒng)。谷歌的人工智能系統(tǒng)的表現(xiàn),和醫(yī)學專家?guī)缀鯚o異,而且在臨床表現(xiàn)上也足夠準確(誤差在可允許范圍之內(nèi)),也只有這樣的系統(tǒng)才有資格進入到第三階段醫(yī)療試驗。
簡介:第三階段試驗,是為了證明臨床效果。其目的,也是為了展示人工智能系統(tǒng)在可控環(huán)境下處理臨床治療任務的時候,究竟是否能夠起作用。
研究設計:系統(tǒng)經(jīng)過大型前瞻性患者陣列研究,且能準確代表目標受眾。前瞻性意味著在系統(tǒng)被實際應用前,試驗對象就已經(jīng)被聚集起來,然后進行足夠長的效果評估。主要目標是展示醫(yī)療指標的變化,比如患者治療效果是否得到改善,或者臨床護理的成本是否有所下降。
在第三階段中,患者陣列的選擇最為關鍵,因為臨床只接受一致的患者對象。研究設計是非常重要的一項工作,往往需要好多專家一起協(xié)同工作好幾個月。
另外,在患者陣列規(guī)模也會產(chǎn)生更多變化,在某種程度上,這主要取決于第二階段研究中發(fā)現(xiàn)的研究成果規(guī)模。第二階段所創(chuàng)建的人工智能模型,在第三階段試驗中可能效果并沒有那么好。在我個人看來,首個第三階段臨床試驗要克服醫(yī)療研究中的保守偏見*(見文末注釋)。
任務選擇將會反映出系統(tǒng)用例。當這套系統(tǒng)完成部署之后(這是一個監(jiān)管點),針對同一個治療任務,臨床驗收和監(jiān)管驗收必須要提供實際證明。再次需要重點提醒的是,這些工作也需要進行大量規(guī)劃和專家研討。
成本:在第三階段最主要的成本來自于研究設計、陣列人數(shù)、以及管理、數(shù)據(jù)分析和出版支出。實際上,絕大多數(shù)計算機系統(tǒng)設計已經(jīng)在第二階段試驗中完成了,因此到了第三階段,盡管工程成本可能會略高一些,但機器學習的成本應該會有所減少。
由于這些研究都是具有前瞻性的,因此隨訪患者時間必須足夠長,這樣才能發(fā)現(xiàn)臨床結果中是否真的會出現(xiàn)問題。比如像心臟病這種病癥,往往需要隨訪患者好幾年時間才能夠被發(fā)現(xiàn),所以在這方面所耗費的成本會比較高。
轉(zhuǎn)化時間:從第三階段到醫(yī)療產(chǎn)品,可能是兩到五年時間。監(jiān)管機構的審批真的會很長!
實例:目前沒有任何使用深度學習系統(tǒng)的第三階段醫(yī)療人工智能試驗。
可能也有些不同看法,有人認為過去有計算機輔助診斷(CAD)在第三階段試驗中使用,特別是在乳房 X 線攝影應用。事實上,這些系統(tǒng)都是較老的機器學習,而且完整性也不夠。它們也會讓深度學習系統(tǒng)的轉(zhuǎn)型變得更加困難,因為CAD在第四階段(后期部署)試驗的表現(xiàn)令人非常失望。
在我本人看來,本文所描述的這種三階段架構可能對解決一些問題有所幫助,當然,這些問題我之前也有提到,公眾和媒體也做了一定的科學傳播。這些簡單的分類,能夠預先識別出一個人工智能系統(tǒng)距離臨床應用有多遠(或多近),也能夠幫助醫(yī)療研究人員更輕松地理解自己所做的相關研究。
此外,本文中所提供的這些方法也有助于矯正我們一些不切實際的期望。事實上,幾乎沒有任何人工智能醫(yī)療臨床研究能夠通過這三個階段,不過應該會有類似的淘汰流程。如果我們嘗試追蹤試驗結果就會發(fā)現(xiàn),能夠通過第二階段的臨床試驗只有 18%,而在所有進入到第三階段的臨床試驗中,成功的不到 50%(具體可參見下圖)。
所以對于人工智能系統(tǒng)而言,結果可能會更糟糕,而且我們還需要考慮到第一階段研究的門檻(特別是利用公共數(shù)據(jù))其實非常的低。如果有一千個醫(yī)療人工智能系統(tǒng)進入到第一階段試驗,那么最終能夠成功通過的可能不會超過一家。在人工智能領域里,我們看到現(xiàn)在每周都有五到十篇醫(yī)療人工智能論文發(fā)表出來,但是卻幾乎沒有進入到第二階段。
再潑一點冷水,一般來說,一款藥物從實驗室到市場投放,通常需要十年,成本高達十億美元。人工智能系統(tǒng)可能更簡單也更便宜,但是到目前為止,還沒有任何證據(jù)能夠證明切實有效,因為沒有任何人工智能醫(yī)療試驗能夠走到第三階段。
最后,像本文中所描述的這樣一個框架,其實也給了研究人員提供了一個清晰的路線圖。從這些試驗開始,然后慢慢熟悉,最后,你也會擁有一個能夠解決醫(yī)生和監(jiān)管機構問題的系統(tǒng)。以我的經(jīng)驗,如果讓計算機專家和工程師進行醫(yī)療研究設計通常不是個明智之舉,而在最初想法到最終醫(yī)療成品的過程中,如果有一個大致指導方針,則會給你帶來很多幫助。
雷鋒網(wǎng)注:保守偏見其實是一種試驗特點,而不能被看作是一個 bug。相比于后期驗收,醫(yī)療創(chuàng)新實例往往需要面臨更高的門檻,這主要是因為醫(yī)療行業(yè)的預防原則所導致的。所做的測試越多,我們就能對該方法有更好的理解,繼而能夠預測后續(xù)可能產(chǎn)生的風險。對于未經(jīng)測試的方法, 我們會表現(xiàn)的慎之又慎。
VIA lukeoakdenrayner
【兼職召集令!】
如果你對未來充滿憧憬,喜歡探索改變世界的科技進展,look no further!
我們需要這樣的你:
精通英語,對技術與產(chǎn)品感興趣,關注人工智能學術動態(tài)的蘿莉&萌妹子&技術宅;
文字不求妙筆生花,但希望通俗易懂;
在這里,你會收獲:
一群來自天南地北、志同道合的小伙伴;
前沿學術科技動態(tài),每天為自己充充電;
更高的生活品質(zhì),翻翻文章就能掙到零花錢;
有意向的小伙伴們把個人介紹/簡歷發(fā)至 guoyixin@leiphone.com,如有作品,歡迎一并附上。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。