0
“作為一個研究人工智能二十多年,同時在醫(yī)學影像處理方向耕耘八年的過來人。我認為現階段醫(yī)療人工智存在的一大挑戰(zhàn)是,從業(yè)者們既沒捋順流程,也沒想清模式。單純覺得我有AI技術,有幾家合作醫(yī)院,就能大干一場?,F在風口的確很火,很多基金也愿意投錢。但醫(yī)療與其他行業(yè)不同,它是一個文火慢燉的過程,不見得那么容易?!?/p>
在與微軟亞洲研究院副院長張益肇博士對話的一個多小時里,他不斷在強調人工智能在醫(yī)療領域的長期價值,但也有存在一些短期的擔憂。
張益肇博士現任微軟亞洲研究院副院長,負責技術戰(zhàn)略部。他于1999年7月加盟微軟亞洲研究院,從事語音方面的研究工作,曾任微軟亞洲工程院副院長,是2003年工程院的創(chuàng)建者之一。
微軟之前,張益肇博士是全球最大語音識別公司Nuance Communications研究部創(chuàng)始人之一。張博士畢業(yè)于麻省理工學院,獲電氣工程和計算機科學學士、碩士和博士學位。
以下是雷鋒網與張益肇博士的談話內容:
雷鋒網:您怎么看待今年醫(yī)學影像+AI大熱的現象?
當然是好事。
我經常談一個觀點,人類如果想要健健康康活到100歲,技術,將扮演著非常重要的角色。近幾年我也看到不少計算機界精英投入大量人力財力到醫(yī)療領域,如此大規(guī)模的醫(yī)工交叉大潮讓人非常激動人心。
這里我也不得不提醒大家,在醫(yī)療領域,無論是創(chuàng)業(yè)者也好,投資人也罷,必須要有愿意長期投入和投資的心態(tài),切勿焦躁,保持平常心。
我個人研究人工智能二十幾年,其中八年時間在專攻醫(yī)療,我不覺得這個領域很容易出成果。
醫(yī)學技術的落地,不僅要千辛萬苦找對場景,還要說服政策制定者、監(jiān)管部門、醫(yī)院采購者、科室主任、臨床醫(yī)生、病人等無數當事人證明技術的有效性、安全性和可行性。最后,你還要明白你的產品誰來買單。
現階段行業(yè)存在的一個挑戰(zhàn)在于,很多時候,大家這三大關都沒有想清楚。單純覺得我有AI技術,找到一些合作對象,就能大干一場了。
現在醫(yī)療+AI的確很火,很多創(chuàng)投也愿意投這個錢。但從長久來看,不見得那么容易,也沒那么快,大家一定要沉下心多調研、多思考、多學習。
美國很多新藥研發(fā)公司可以獲得大量的融資,有些甚至不盈利也能夠上市。大家期待它所研發(fā)的新藥品最終能通過FDA,并且在藥效達到預期后,公司市值能夠上漲5倍、10倍甚至更多。當然,面臨一文不值的風險也非常巨大。
大家在投資時明知道風險很大,明知短時間內賬面并不可觀,但仍舊愿意投資、愿意長期等待,因為他們能夠真正理解風險。
國內醫(yī)療人工智能大潮中,我最擔心的是國內醫(yī)療人工智能創(chuàng)業(yè)者和投資者并沒有真正理解風險,就開始投入大量資源在其中,這很可怕。
雷鋒網:微軟目前在醫(yī)療AI方向有哪些研究?
微軟其實在醫(yī)療領域投入很多,在世界各地的研究院里有不少同事在做相關方面的工作。
醫(yī)學影像處理這塊,微軟亞洲研究院和微軟劍橋研究院都有在做。不過微軟亞洲研究院聚焦在病理切片,英國劍橋研究院專攻CT。
我們微軟亞洲研究院近幾年開始鉆研腦腫瘤病理切片的識別和判斷,通過細胞的形態(tài)、大小、結構等,去輔助分析和判斷病人所處的癌癥階段。近兩年在該領域我們基于“神經網絡+深度學習”的模式取得了兩大突破:
首先,實現了對大尺寸病理切片的圖片處理。通常圖片的尺寸為224*224像素,但腦腫瘤病理切片的尺寸卻達到了20萬*20萬、甚至40萬*40萬像素。對于大尺寸病理切片影像的識別系統,我們沒有沿用業(yè)內常用的數字醫(yī)學圖像數據庫,反而在ImageNet的基礎之上利用盡可能多的圖片,通過自己搭建的神經網絡和深度學習算法不斷進行大量訓練而成,最終實現了對大尺寸病理切片的圖片處理。
對大尺寸病理切片圖片通過神經網絡與深度學習算法進行處理的流程
其次,在解決了細胞層面的圖像識別之后,又實現了對病變腺體的識別。
對病變腺體的識別,主要是基于醫(yī)學角度三個可以衡量癌細胞擴散程度和預后能力的指標:細胞的分化能力,腺體的狀況和有絲分裂水平。我們針對這三個角度,通過多渠道(Multi-Channel)的數據采集和分析,希望在未來幫助醫(yī)生實現對病人術后、康復水平乃至復發(fā)的可能性做出預估和判斷。
腺體圖像經過計算機處理后被抽象成不同的結構,以便于計算機進一步識別與判斷
不同種類的惡性腫瘤切片經過算法處理后進行分類
該研究結果也可以擴展至其他疾病的二維醫(yī)學影像的識別和判斷,例如我們正在研究的腸癌等。此外,我們還在研究肝腫瘤患者的CT三維影像。
除了醫(yī)學圖像外,我們在醫(yī)學文獻的處理和理解上也有所研究。
全球平均每年有將近50多萬篇醫(yī)學研究文獻發(fā)表,這種情況下,醫(yī)生在查詢所需文獻時,不可能覆蓋到位。
我們微軟亞洲研究院具體是如何解決這一問題的呢?比如醫(yī)生在尋找遺傳基因的研究與哪幾篇文章相關,我們會通過算法自動對相關文獻進行關聯。另外也在做不少與醫(yī)學相關的自然語言處理,比如不同病人想要問相關的醫(yī)療問題,可能有很多不同的方法來表達。而在話語里又有像阿莫西林等藥物在不同醫(yī)院里有幾十種、上百種叫法。
我們的工作就是用AI技術讓這些話語和詞匯的不同表達,轉換為機器可以理解的統一信號。最終以AI系統的形態(tài)解答各種醫(yī)學問題。
雷鋒網:團隊研究醫(yī)學影像處理這8年間,相比于過去有哪些大的進步?
深度學習算是一個比較大的跨越,坦白講,2013、2014年前后,深度學習開始被應用到醫(yī)學影像分析當中。按照傳統方式,很多醫(yī)學影像分析題目要做特征提取,這個特征甚至可能是細胞,過程較為復雜。
而深度學習可以自己學習并提取特征,節(jié)省了很多設計特征的時間。
其次就是遷移學習,我們在ImageNet上訓練出一個深度學習模型,以它作為基礎做醫(yī)學影像分析,雖然ImageNet上的圖像為自然圖片,但從中訓練出來的特征提取能力,對醫(yī)學影像也相當有用。
雷鋒網:這個過程中您發(fā)現了哪些新的思路,并走過哪些彎路?
2012年我們團隊開始用弱監(jiān)督學習來更好地使用數據,這是一個對我們意義很大的方向。
大家也都知道醫(yī)生的時間非常寶貴,如果你沒辦法盡量節(jié)省他們的精力與時間,相比而言,你獲得數據的能力會更弱。用更優(yōu)秀的算法去填部分數據的坑,這是一個很好的思路,而不是單純想著從醫(yī)院拿更多數據。
弱監(jiān)督學習在醫(yī)學影像中的應用會是一個好的開始,也是一個值得長期投入的方向。
找到好的場景,再找到好的數據庫,其實比大家想的要耗時。很多時候,找到一個優(yōu)質數據庫外,還要找到一個既懂技術,又能幫忙做標注的醫(yī)生。
對于我們走過的彎路,更多是認知和思維上的彎路吧:過早覺得我們已較好地解決了醫(yī)學問題。
包括我們在內的很多公司用Kaggel數據做基礎訓練,但這種研究僅是長期研究的起步,而且這個起步往往并不見得特別有用,所以大家應理性看待從Kaggle中訓練出的結果。
在醫(yī)療+AI方向,大家不要迷信短時間內得到的數字結果,一定要做好長期投入的準備。
語音識別從1960年代就開始萌芽,直到1970也還是所謂的非連續(xù)性語音識別,離絕大部分使用場景很遠。盡管語音識別在今天已經解決得很好,但在復雜環(huán)境和語境下的識別率仍舊不是特別理想。
人工智能在醫(yī)學中的應用亦是如此。
雷鋒網:像您剛提到的深度學習和遷移學習讓醫(yī)療人工智能大跨步發(fā)展,但這兩者的不可解釋性使得很多醫(yī)學問題無法詢證,這個難題目前微軟亞洲研究院有沒有一個標準對其進行參考?
深度學習的可解釋性確實是一個很熱的題目。
算法可解釋性通??梢杂每催吔绾皖伾卣鱽砼袛嗾?,偏統計學方法,但也很難說出具體原因。
其實很多醫(yī)學任務也是靠統計來做。之前有醫(yī)生提到說,假如一個腫瘤小于5厘米和大于5厘米該各應怎么判斷。大家提到“5厘米”這個單位也憑經驗去描述,為什么是5,而不是5.1或4.9。
我的意思是,醫(yī)學本身很多判斷是依照經驗來做,這些經驗里,也存在一些無法解釋的因素,因此不能完全否定“不可解釋性”。
很多AI功能尤其像靠深度學習訓練出來的系統,除了給你一個明確的判斷外,還會生成百分比形式的“程度值”做參考,這個程度值體現機器對判斷的“自信”與否。
現階段我們希望只做輔助醫(yī)生的工具,最后的結論還是需要醫(yī)生自己判斷。
任何系統都多多少少會產生一定的誤差和偏差,哪怕簡單的血壓儀也可能存在偏差,所以最終還需讓醫(yī)生把所有信號整合起來判斷機器給出的結果是否合理。
雷鋒網:也確實因為深度學習存在的弊病,最近Hinton提出要“拋棄”反向傳播,您怎么看待這件事的?
反向傳播也有幾十年的歷史了,這期間陸續(xù)有人提出不同的想法、不同的算法。
人的學習能力很強,無需很多數據,往往通過一兩個樣本就能學習、分類,但現在機器沒有辦法靠少量不同樣本進行驅動。
所以人工智能在算法層面可提升的空間很大,所以要有新的學習方法來做,尤其像可供使用數據量較小的醫(yī)療領域。
雷鋒網:相比于醫(yī)學影像處理,語音電子病歷錄入服務各方面的條件更為成熟,Nuance和訊飛都已在醫(yī)院落地,微軟亞洲研究院目前有沒有切入這個方向?
推出這類產品,需要做的事情就比較專比較細了。
我加入微軟之前在Nuance Communications做語音識別,你提到的語音電子病歷錄入是Nuance的主要業(yè)務之一。
但國內很多人可能有所不知,Nuance的業(yè)務里,語音轉錄系統只是一方面,另一方面Nuance還需雇人把機器轉好的文字,進行人工整理。所以Nuance提供的是一整套服務,而非單一的語音識別這一環(huán)節(jié)的產品。與此同時,Nuance針對不同場景、不同科室做不同的產品優(yōu)化和服務。
所以如果做這類產品,研究之外的任務和工作相對來說會比較多。
雷鋒網:您此前一直研究語音,是什么原因致使您開始做跨度很大的醫(yī)學影像?
從研究角度講,無論是語音還是影像,兩者之間有很多相通點,都是基于機器學習作為發(fā)動機,數據作為汽油來建模、判斷。
當然了,醫(yī)學影像也確實有很多專業(yè)知識需要學習,更具挑戰(zhàn)性,同時也更有意思。因為你需要跟很多不同領域的人一起學習,這個過程非常有意思。
另一方面,那時候我母親得了癌癥,我當時心想醫(yī)學如果借助計算機技術一定會找到更多新的方法和新的應用場景。作為普通民眾,我覺得這對身邊人,對社會非常有意義。作為研究人員,這個研究方向會非常有前景。
雷鋒網:微軟亞洲研究院的醫(yī)學影像數據來自哪些地方?與哪些機構有合作?
主要還是來自于公開數據集,首先這類公開數據標注經過很多人審核。其次,你要發(fā)表結果的話,同一類數據集上大家才有可比性。
在某些特定領域,我們與浙江大學前副校長來茂德團隊合作探索病理切片分析,來校長在大腸癌方向有著很多積淀。大腸之外也有研究肺癌等國內常見的幾個方向。除此之外,生活習慣和飲食健康也所有探究。
雷鋒網:提到肺癌等國內常見的方向,上次我跟訊飛陶曉東博士交流時,他講到其實目前選擇做眼底、肺結節(jié)這類常見的、公開數據較多的領域,可以反映出大家創(chuàng)新力不足的現狀。微軟亞洲研究院在布局常見的方向之外,還在探索哪些挑戰(zhàn)性特別大的方向?
我們現在做病理切片的一大原因,就是因為病理切片分析極具挑戰(zhàn)性。
首先病理切片單個數據很大,一張圖最大可達40萬×40萬像素,面對這么大的數據該怎么分析?要怎么才能把這個系統應用得很好?這是很有趣的問題。
如此大的圖像,單是傳輸就已是一項很大的挑戰(zhàn),在此基礎上還進行分析,計算量會非常巨大。
好在微軟亞洲研究院也有很多同事是系統方面的專家,研究高速運算,基于此,我們可以通過整合研究院不同團隊的專長來做這件事。
雷鋒網:這個過程當中微軟亞洲研究院各個技術部門之間如何打配合?
各部門之間的合作其實蠻多。
2015年我們視覺計算組發(fā)明的ResNet大家都很熟悉了,它就是一個特別好的圖像特征提取方法,有了它之后,我們就在考慮如何用ResNet提取醫(yī)學影像特征。
微軟亞洲研究院已經在做一些通過看一張圖然后對它進行標注的技術,當機器可以給一張圖自動標注的話,這就表明機器在一定程度上理解這張圖,不僅知道里面有哪些物體,同時也知道里面物體及場景之間的關系。
這屬于更高層次的理解。
回到肺結節(jié)上,通常情況我們只是去判斷某塊小區(qū)域是不是肺結節(jié)。其實有時候通過分析肺本身以及人體的構造,也可以得出其他有用信息,而這些肺結節(jié)之外的信息,往往對診斷起到非常重要的作用。
目前大部分系統并沒有有效利用到這些“其他”信息,但影像科醫(yī)生與機器不同,他們在讀片時,肯定會對這些信息有宏觀的認知。所以我也經常在講,人工看一張圖片時,他不會只看一小部分,而是會形成一個整體的認知去判斷。
所以,無論是一張普通海景照片中船和海的關系,還是醫(yī)學影像中肺結節(jié)和其他組織信息的關聯度,很多方面是相通的。我們希望把對常規(guī)圖像的認知和理解,遷移到醫(yī)學影像中,這是一項非常重要的工作。
雷鋒網:如果還要判斷其他組織信息,那么在對眾多非目標對象的分割上,是否有產生更多更復雜的新問題?
確實如此,我再舉個例子,正常人的心臟在左邊,因此做內臟分割時,會有這樣的預知。但是也不排除少數人心臟長在右邊的可能性,類似這種情況容易讓機器產生誤判和混淆,因此需要有更高層面的的知識理解。
但總體而言,現在在做的機器學習研究,無論是檢測、識別還是分割也罷,很多地方都是相通的。
雷鋒網:除了影像和語音語義之外,微軟還有哪些醫(yī)療人工智能方面的研究?
我們在大數據處理上探索也非常多。
負責管理微軟全球研究院的Eric Horvitz,他既是醫(yī)學博士,也是哲學博士。Eric Horvitz做了很多非常有趣的研究,通過用戶在互聯網上的搜索詞,來判斷你是否有一些疾病和癥狀。
雷鋒網:那么這個研究的最終形態(tài)是以一個什么樣的終端功能或者服務去呈現?
我們有一項服務叫微軟Health,就是用一些功能,來提供insight,這些insight一方面給用戶看,一方面提供給醫(yī)生參考。
比如通過系統收集到很多人的血糖、血壓甚至睡眠和運動量數據后,存儲起來進行長期的追蹤和分析?;诖?,把這些信息全部整合起來后更好地幫助醫(yī)生、幫助用戶自身。
我們也與美國匹斯堡大學醫(yī)學中心UPMC合作,探討用AI挖掘有效健康信息。
一方面我們在做很多基礎研究,另外一方面,微軟也希望尋找更多合作伙伴,探討可以著陸的場景。
雷鋒網:“長期”大概是多久?
取決于場景本身。
我們與蓋茨基金會的合作中,在非洲用機器來判斷一個人是否有得瘧疾,同時得出病癥的嚴重程度。
在國內大家談機器與醫(yī)生的對比,但非洲這些地方連醫(yī)院醫(yī)生都沒有,相對來講,有一個工具給病人診斷,已經是一個很大的醫(yī)療進步。
這個例子,我相信在未來短期三五年之內,會有著很大的幫助,現在有些產品已經在一些相對落后的國家試用。
但在比較發(fā)展的國家,醫(yī)生已經有比較成熟、習慣的工作方式,供應商的系統要進入到醫(yī)院,需要想清楚整個環(huán)節(jié)才有辦法幫助到醫(yī)生。因為多種客觀因素,會致使過渡時間更長。
當然了,如果找好場景的話,最快兩三年之內就可以安全著陸。
雷鋒網:您覺得哪幾個場景前景相比而言會比較明朗?
目前市場上很多企業(yè)在做診斷,其實我覺得可以往前探一步:做好分割。
一個醫(yī)生在做放射性療法之前,要先把不同放射性療法所影響到的這些不同區(qū)域標出來,并進行分割。分割工作的人力和時間成本很高,如果現在有一個工具能夠自動進行分割,再讓醫(yī)生去確認,需求會比較大。
當一個系統先對影像做標注,醫(yī)生去看的時候已經有90%完成地很好,沒做好的地方醫(yī)生再去修改,最后一關由醫(yī)生來把守,這種輔助工具醫(yī)生也很樂意接受。
雷鋒網:談談未來微軟醫(yī)療人工智能的展望?
我們希望能從人一出生開始便了解你的整個健康情況,通過收集身體信息,實時分析你生活和機體哪些地方需要改進,如飲食、睡眠、運動、病痛等等。
我覺得在未來應該會演進為這種形式,每個人都有一個專門屬于他的醫(yī)療人工智能健康助理。
雷鋒網:產品形態(tài)是2C的形式嗎?
這個倒不見得是2C,更多是2B2C模式,產品在面向終端用戶時也要有醫(yī)生的參與。像美國就有很多家庭醫(yī)生,可通過家庭醫(yī)生把系統推向病人。
雷鋒網:哪些新的人工智能技術將會對醫(yī)療行業(yè)帶來巨大變革?
其實“如何把不同的信息在不同層次進行整合”這一認知層面的課題,整個行業(yè)仍舊存在很多不足,現階段單是把知識結構化就是一項很復雜的任務。如果解決了上述問題則對技術體系和行業(yè)的推動力將非常大。
我們先以機器翻譯為例,大部分機器翻譯還是單句單句翻,但一段段翻跟一句句翻就很不一樣了,它涉及到“理解”。再以圖像識別為例,機器識別出圖像中有藍色的天空和藍色的海和帆船,但如果突然出現圖像中的天空為紅色,而它過去的訓練集中沒有對紅色天空進行標注,那機器能懂得紅色的天空代表是晚霞嗎?
因此我們要讓機器建立起一個對故事、對世界、對環(huán)境的認知能力。
這里的難點在于,它有很多很多參數的變化,你不可能讓機器學習把整個世界的種種元素挨個看一遍才能理解。而是應該創(chuàng)建一種新的方法,把不同地方學到的知識給整合起來,從而解釋出圖像看起來是合理的。
醫(yī)學影像的解釋同樣如此,醫(yī)生在看MRI影像時,基于經驗判斷某個人是女性,但有一些地方卻不像女性(如變性人等)。這時候要有更高層的知識能力、知識架構,也就是用Mental Mode去解釋去理解,這會是一個很大的挑戰(zhàn),同時也是一個很大的機會。
雷鋒網:當前很多像醫(yī)院等傳統機構對AI處于觀望狀態(tài),市場還需教育。企業(yè)應該如何讓各行各業(yè)的人更快了解人工智能?
為什么互聯網興起后能迅速影響到各行各業(yè)?因為那時候大家即便不懂互聯網,但至少有瀏覽器產品供我們使用,雖然有別于可觸摸的實體物品,但我們可以看到互聯網產品的界面,也可在上面進行操作和交互,這才使得人們對互聯網的認知建立的如此之快。
人工智能普及進度慢,一大原因就是沒有一些典型的終端產品讓大家直接感受。要想教育一個市場,最好的方式就是讓他們去體驗AI的能力。
雷鋒網:您在微軟亞洲研究院任職18年,談談這里留住您最大的一個原因是什么?
在這18年里,我最大感觸是微軟亞洲研究院為很多優(yōu)秀的研究員創(chuàng)建了能夠長期鉆研細分領域課題的極佳環(huán)境。在微軟亞洲研究院這樣的基礎研究機構里,好比在MIT、斯坦福,我們在長時間探索各式各樣的有趣題目。
近兩年量子計算很火,但很多人所有不知,我們研究院從十幾年前便開始做量子計算了。除此之外,也有美國的同事在探索用DNA來存儲信息,人體中一個DNA大概有4GB內存,你想想,一個細胞大小的體積便能存儲4GB的內容,密度遠高于我們用的SD卡。
像這種看得很遠的方向,只有在研究院才有機會去接觸,這對任何一位研究者都極具吸引力。
蓋茨早在26年前便建立微軟研究院,并且在同期啟動三大研究組:自然語言處理組、語音組、計算機視覺組。
這些研究在當時來看,離落地非常遙遠。
但微軟今天能夠站在人工智能最頂端,不是因為我們體量多大,也不是我們人才夠多,而在于研究院和熱愛研究的這一批批人早已為此準備26年之久。
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。
本專題其他文章