訊飛醫(yī)療劉洋：“簡單粗暴”的AI系統(tǒng)已成為過去

本文作者：李雨晨

2020-04-28 18:32

導(dǎo)語：應(yīng)用才是王道，場景選擇有時比技術(shù)選擇更加重要。

近期，雷鋒網(wǎng)醫(yī)健AI掘金志邀請科大訊飛醫(yī)療市場與解決方案部負責(zé)人劉洋，做客雷鋒網(wǎng)公開課，以“訊飛語音技術(shù)在疫情中的創(chuàng)新應(yīng)用”為題，詳細介紹了訊飛醫(yī)療在語音技術(shù)在感知智能、認知智能層面的探索與最新成果。

后續(xù)將有更多課程上線，添加微信公眾號醫(yī)健AI掘金志在公眾號聊天框回復(fù)“聽課”，進群可收看本節(jié)課程視頻回放。

劉洋認為，AI技術(shù)的應(yīng)用才是王道，場景選擇有時比技術(shù)選擇更加重要。其次，在切入各個應(yīng)用時，要避免傳統(tǒng)的、簡單粗暴的端到端解決方案；最后，創(chuàng)新醫(yī)學(xué)和人工智能結(jié)合的路上，應(yīng)該跳出單純的技術(shù)或者算法創(chuàng)新。除了選擇場景，選擇什么樣的數(shù)據(jù)，用什么樣的方式獲取數(shù)據(jù)，這也是構(gòu)建各種人工智能醫(yī)學(xué)應(yīng)用需要深入思考的問題。

在演講中，劉洋圍繞智醫(yī)助理電話機器人、智能醫(yī)學(xué)語音錄入、放從醫(yī)院隔離點智能管理三大方面，分享了訊飛醫(yī)療在實際應(yīng)用成果。

以下為劉洋演講全文內(nèi)容，醫(yī)健AI掘金志做了不改變原意的編輯

我是訊飛醫(yī)療的劉洋，感謝雷鋒網(wǎng)的邀請，今天分享的主題是《訊飛語音技術(shù)在疫情中的創(chuàng)新應(yīng)用》。在進入正題之前，我分享一下自己對于醫(yī)療AI應(yīng)用的觀點：應(yīng)用才是王道，場景選擇有時比技術(shù)選擇更加重要。

其次，在切入各個應(yīng)用時，要避免傳統(tǒng)的、簡單粗暴的端到端解決方案。

深度學(xué)習(xí)在很多領(lǐng)域里都發(fā)揮了巨大效能，例如人臉識別、語音識別，但是在醫(yī)療領(lǐng)域，可能還要更加謹慎。醫(yī)學(xué)的出發(fā)點之一就是保障患者免受傷害。

所以在訓(xùn)練模型，包括選擇具體的切入點時，一定要注意，系統(tǒng)一定不能過于簡單粗暴。否則，市場會給我們非常嚴酷的教訓(xùn)。

第三，我們在創(chuàng)新醫(yī)學(xué)和人工智能結(jié)合的路上，應(yīng)該跳出單純的技術(shù)或者算法創(chuàng)新。除了選擇場景之外，選擇什么樣的數(shù)據(jù)，用什么樣的方式獲取數(shù)據(jù)，這也是構(gòu)建各種人工智能醫(yī)學(xué)應(yīng)用需要深入思考的。一些傳統(tǒng)的數(shù)據(jù)可能不適合深度學(xué)習(xí)算法。

首先看一下，訊飛從成立到現(xiàn)在走過的歷程。

訊飛醫(yī)療劉洋：“簡單粗暴”的AI系統(tǒng)已成為過去

現(xiàn)在是訊飛醫(yī)療的第4個年頭，我們是2016年在訊飛內(nèi)部孵化的一個獨立團隊，目前秉承著兩條技術(shù)主線。

第一條主線是圍繞訊飛的主賽道——智能語音層面，主打是面向智慧醫(yī)院、便于醫(yī)生使用的工具。

第二條主線是圍繞認知智能層面——如何去構(gòu)建基于醫(yī)學(xué)認知智能的輔助診斷系統(tǒng)。2017年，我們較早地與中科大第一附院共同建設(shè)智慧醫(yī)院，將語音應(yīng)用到診療的各個環(huán)節(jié)，例如導(dǎo)醫(yī)、語音病歷還有智能隨訪。

此外，2017年，我們參加了國家執(zhí)業(yè)醫(yī)師考試的筆試測試，得到一個非常不錯的成績。

基于這兩條路線，最近三年，我們在產(chǎn)業(yè)和應(yīng)用上不斷探索。

2018年，我們把基于醫(yī)考的技術(shù)，嘗試在基層開展人工智能輔助診斷應(yīng)用，從一個社區(qū)做到一個縣，2019年，我們已經(jīng)覆蓋了50個縣。

截止2019年底，在人工智能基層輔診方面，我們已在全國超過100多個區(qū)縣得到應(yīng)用，覆蓋將近4萬的基層醫(yī)生。

在語音交互層面，我們也從早期的單點語音識別，包括語音電子病歷，慢慢向綜合的門診解決方案擴展。

現(xiàn)在，訊飛醫(yī)療有300多名員工，10%的員工都是具有臨床背景的醫(yī)生，也正是在臨床和技術(shù)兩方面的儲備下，我們才有今年的成績。

在醫(yī)學(xué)和人工智能結(jié)合的道路上，不能只看技術(shù)。我們一直和醫(yī)院、主管部門還有客戶學(xué)習(xí)，也達成了很多的戰(zhàn)略合作。

另外，訊飛也承建了很多國家的平臺，包括唯一一個認知智能的國家重點實驗室，也入選科技部的新一代人工智能五大創(chuàng)新平臺。

我們積極跟醫(yī)療、衛(wèi)生行業(yè)的各種協(xié)會、聯(lián)盟合作，共同推進人工智能在行業(yè)良性的發(fā)展。

訊飛的技術(shù)積累

我分享一下訊飛在語音層面的技術(shù)積累。

訊飛醫(yī)療劉洋：“簡單粗暴”的AI系統(tǒng)已成為過去

隨著深度學(xué)習(xí)技術(shù)的發(fā)展，可能會有人認為語音識別的門檻沒有以前高，實際上不完全是這樣。

對于通用場景下的語音識別，大家確實可以用一些開源工具，包括一些開源模型，很快地構(gòu)建起來。

但是，應(yīng)用場景現(xiàn)在越來越復(fù)雜，客戶對于語音識別的要求越來越復(fù)雜。比如如何在遠場識別做到比較好的收音、降低混響，以及嘈雜環(huán)境下，如何去提高收音效果？

這些是目前語音識別的主流方向，訊飛擁有十幾年的技術(shù)積累，每年也會參加一些國際知名的語音識別大賽。

可以看到訊飛對于復(fù)雜場景下的語音識別已經(jīng)做的很好。也正是因為有這樣的技術(shù)積累，我們能夠比較快地在各種應(yīng)用場景下快速構(gòu)建相適應(yīng)的模型。

我也會跟大家分享一下，為什么在醫(yī)學(xué)場景里面，抗干擾的能力以及遠場識別是如此重要。

第二個領(lǐng)域是語音合成，合成，就是讓機器像人一樣發(fā)音。如果是不追求情感，不追求自然、連續(xù)的話，快速構(gòu)建這樣的能力并不是很難。但在現(xiàn)在的場景下，越來越要求我們能夠?qū)崿F(xiàn)很好的自然度，還有連貫、柔和的合成效果，讓聲音聽起來更具情感，技術(shù)挑戰(zhàn)非常高。

所以，如果大家對語音合成感興趣，希望大家能夠技術(shù)選擇和工程實踐時，更多去考慮怎么讓聲音更加有特色。

現(xiàn)在，像高德地圖里各個明星的聲音，都是訊飛利用公開的語料自動合成的，效果已經(jīng)可以做得非常自然。

在醫(yī)學(xué)領(lǐng)域，很多患者、居民在聽到語音服務(wù)時，也越來越要求聲音更加個性化，而且具有關(guān)懷感。這就對語音合成的效果提出非常高的挑戰(zhàn)。

訊飛醫(yī)療劉洋：“簡單粗暴”的AI系統(tǒng)已成為過去

這是在國際知名的Blizzard Challenge比賽里面，我們也是連續(xù)14年全球的冠軍。

訊飛醫(yī)療劉洋：“簡單粗暴”的AI系統(tǒng)已成為過去

除了語音領(lǐng)域之外，訊飛醫(yī)療團隊在其他一些醫(yī)學(xué)領(lǐng)域的AI技術(shù)積累上，也一直保持領(lǐng)先的的狀態(tài)，包括每年也會參加一些國際上知名的公開數(shù)據(jù)集測試，包括像LUNA、IDRiD，也包括像肝臟分割等等。

最后一部門，也是比較難的領(lǐng)域——認知智能的突破。

訊飛醫(yī)療劉洋：“簡單粗暴”的AI系統(tǒng)已成為過去

前段時間，獲得圖靈獎的LeCun，還有英特爾幾位大咖，他們都表示，人工智能的未來，一定屬于實現(xiàn)認知智能突破的機構(gòu)和團隊。訊飛很早加入這個領(lǐng)域，在自然語言理解、認知智能推理等領(lǐng)域，我們都有非常強的技術(shù)積累。

我覺得，認知智能在醫(yī)學(xué)中的應(yīng)用，有非常好的應(yīng)用前景。醫(yī)生進行臨床學(xué)習(xí)時，要通過大量閱讀醫(yī)學(xué)文獻，這給機器在知識圖譜構(gòu)建，還有自然語言理解的基礎(chǔ)上帶來挑戰(zhàn)。如果有一些突破的話，對于構(gòu)建輔助醫(yī)生工作的虛擬助手，是一個非常好的技術(shù)積累。

訊飛醫(yī)療劉洋：“簡單粗暴”的AI系統(tǒng)已成為過去

基于上述的技術(shù)積累，我們才有可能在2017年通過這項考試。這件事對我們最大的幫助是，讓我們看到人工智能在很多領(lǐng)域的巨大作用。

但是，我們依然認為，現(xiàn)有的人工智能還處于弱人工智能狀態(tài)。

當(dāng)然，這次醫(yī)考也給了我們非常強的信心：基于現(xiàn)有的NLP技術(shù)，我們有可能去打造一個具備全科醫(yī)生潛質(zhì)的AI系統(tǒng)。

訊飛醫(yī)療劉洋：“簡單粗暴”的AI系統(tǒng)已成為過去

訊飛醫(yī)療在構(gòu)建產(chǎn)品時的一個基本思路是，通過人機耦合的方式，一方面讓機器承擔(dān)更多的事務(wù)性工作，讓醫(yī)生把更多的時間留給需要人文關(guān)懷和專業(yè)知識的患者；

另一方面，我們讓機器去學(xué)習(xí)、沉淀臨床專家的知識，通過可計算的方法，去賦能基層醫(yī)生。

因為今天的主題是訊飛醫(yī)療語音在醫(yī)學(xué)，尤其是在疫情防控中的一些應(yīng)用，所以我選了三個題。

過去4年，我們在醫(yī)學(xué)語音交互與臨床結(jié)合過程中，曾經(jīng)探索過非常多的方向，有些方向沉淀下來，還有一些方向，我們認為可能是一些偽需求，或者是技術(shù)上還不可達的需求。

訊飛醫(yī)療劉洋：“簡單粗暴”的AI系統(tǒng)已成為過去

第一個，電話機器人。電話機器人可以歸類到聊天機器人，從業(yè)務(wù)邏輯上看，電話機器人并不難，無非就是有一個人工智能的后臺，可以自動響應(yīng)居民、客戶的問題。

如果是基于這樣一個命題，我們?nèi)?gòu)建模型，很大概率會因為搜索空間的“爆炸”導(dǎo)致產(chǎn)品或者算法的不可解。

如果想把這個產(chǎn)品真正給居民服務(wù)的話，需要把這個題降維：

第一，先從呼出做起，不要考慮很復(fù)雜的呼入場景，因為呼入場景的問題非常開放。對于開放場景的聊天機器人來說，Siri或者是Cortana做的都不是特別好，最后有可能會答非所問。如果在醫(yī)療場景下進行這樣的嘗試，很可能會誤導(dǎo)我們的患者。

所以，重新定義這個問題非常重要。

所以，我們做的第一個降維就是把“呼入”這個場景優(yōu)化掉。因為“呼出”可以讓機器人去主導(dǎo)聊天，讓人類去做機械式響應(yīng)。這樣可以把問題的復(fù)雜度降到系統(tǒng)、算法、資源可達的程度。

第二、呼出覆蓋哪一種場景？是做一個通用型的呼出，還是基于決策樹的細分場景呼出，我們要考慮到哪些場景能夠真正可行。

第二，居民在聽的時候，不會輕易地掛斷電話，所以我會結(jié)合這兩個問題，帶大家看一看，訊飛是如何進行選擇的。

按照目前的實驗方法，我們設(shè)計了一套大概能夠覆蓋80%業(yè)務(wù)的話術(shù)。醫(yī)生在選擇外呼服務(wù)之前，是通過話術(shù)模板來定義一個或n個推廣方案，然后選擇被隨訪的人群，剩下的事情由機器進行自動化地執(zhí)行和并發(fā)執(zhí)行，這也是我之前提到的人機耦合的方式。

人做人類擅長的部分，機器做機器擅長的部分，實現(xiàn)好用的同時，進而實現(xiàn)商業(yè)轉(zhuǎn)化。

講一講在電話機器人這個領(lǐng)域里，我們需要關(guān)注的技術(shù)。

訊飛醫(yī)療劉洋：“簡單粗暴”的AI系統(tǒng)已成為過去

第一、語音合成。我之前提到，如果想做到好用，這里面，那么語言合成要盡可能自然、生動，這里可以用很多方法，可以用TTS的方法，然后調(diào)優(yōu)，也可以用錄音拼接的方式。我覺得這都不是絕對的，關(guān)鍵是看你最終要做成的產(chǎn)品，它所面對的場景是什么？

比如說一個簡單的通知，你沒有必要用TTS的方法去做，因為有可能自然度不高。如果是需要多輪對話、自定義字段比較多的話，用拼接方法可能就不經(jīng)濟。那么，應(yīng)該考慮選擇一個比較合適的TTS模型進行語音合成。

第二、需要考慮的是電話信道下的語音識別，考慮到成本問題，大家在選擇外呼電話時，優(yōu)選的話是基于 VIP的方式，但是它本身信號的采樣率會非常低，會導(dǎo)致進行語音識別的原始音頻信號是壓縮的，可能會有大量損失。

對人來說沒有太多的問題，因為人耳已經(jīng)經(jīng)過幾萬年進化，具有很強的容錯能力，但是對于機器來講，這樣一種音頻就找不到相應(yīng)的邊界；其次，相關(guān)算法不能適應(yīng)這種高壓縮的音頻信號。

第三個就是語義理解，為什么這點非常重要？

做一些復(fù)雜場景的電話交流時，要考慮上下文。而且非常關(guān)鍵的問題在于接聽的居民或者患者，對于同一個問題的回答，會有多種表述方式。比如問是否去過武漢？包括去過湖北，用戶可能會說，好像是路過一下。

在這些情況下，要對不同的回答具備相應(yīng)的語義理解能力。所以在制定電話機器人時，對于語義的理解和識別，要考慮針對不同的場景，如何做到高效的配置。對于企業(yè)來說，要考慮到每個產(chǎn)品或者模塊的研發(fā)成本的，

第三個就是多輪對話，對于外呼場景來講，這點可能還好。但是我們要考慮的問題是多輪對話的管理。此外，在這個過程中，如何去引導(dǎo)居民快速實現(xiàn)信息或者數(shù)據(jù)的獲取。

總結(jié)下來，如果這些技術(shù)都能實現(xiàn)，我們就能做到更好的智能交互，根據(jù)用戶的不同類型，選擇不同的語音合成模型，也包括通過認知智能技術(shù)進行話術(shù)、語義的理解。

我也分享一點經(jīng)驗。早些年我們測試時，也用過播音員的語音合成模型，也用年輕或者年老的聲音。

但是，真正在提供外呼服務(wù)時，我們給客戶更多的選擇，可以選根據(jù)不同的采訪對象，選擇不同的聲音。比如，對于老年人，采用輕快的聲音，他可能聽不懂，因為老年人的反應(yīng)跟理解能力會有欠缺。因此，第一，發(fā)音要慢。其次，受訪者會有很多反問的場景，比如他說“沒聽清，你再說一遍?！?/p>

所以，后續(xù)在設(shè)計多人對話時，要多考慮這些問題，這是技術(shù)層面。解決了這些技術(shù)層面的問題，只是做了這件事情的第一步。從科研角度來看，這是沒問題的。但是，如果把這樣的技術(shù)變成產(chǎn)品推向市場，還有很多問題需要解決。

此外，對話可能會被打斷、可能會被掛掉、有可能答非所問、有可能延遲，都有可能導(dǎo)致語音識別的錯誤，使得聊天沒有更好的辦法進行下去，我們要從功能還有產(chǎn)品的交互設(shè)計角度去考慮。

訊飛醫(yī)療劉洋：“簡單粗暴”的AI系統(tǒng)已成為過去

電話機器人一旦上線，就像核武器一樣，它是個大規(guī)模殺傷性武器。

但是，如果你們沒有和運營商或者電話標(biāo)注的團隊進行很好的合作，那么群呼號碼可能會被標(biāo)志成一個騷擾電話。即使你的技術(shù)做的再好、合成效果也很棒，但是變成了一個騷擾電話，這樣依然沒辦法觸達我們的客戶。

另外，主管部門會考慮，當(dāng)電話機器人具備上千次的并發(fā)量時，發(fā)布的內(nèi)容要帶有一定的責(zé)任感，尤其要避免違法違紀的信息。還想再提的一點是人機協(xié)同。人機協(xié)同主要是什么？就是說，即使現(xiàn)在機器人的能力已經(jīng)很好，但是依然存在不能解決、不能回答的問題。

怎么辦呢？最好的方法就是增加轉(zhuǎn)人工的方式，遇到解決不了的問題，可以跳轉(zhuǎn)到人工。比如說，方言的普通話的支持?；谖覀?nèi)珖鴰浊f通的電話統(tǒng)計分析，如果機器人說的是普通話，接聽人大部分也都會用普通話回答，但是很難避免帶有口音的普通話。

這就需要你的系統(tǒng)，尤其是語音識別的引擎，支持多方言場景下的高效識別。

下面我簡單列舉一下我們之前做過的場景。

訊飛醫(yī)療劉洋：“簡單粗暴”的AI系統(tǒng)已成為過去

這是2018年的語音合成模型，聲音聽起來還是有些太正式，剛才是在基本公共衛(wèi)生隨訪的場景下，大家能從實際錄音中聽出來，患者比較配合。

但是居民的回答情況有非常多不相關(guān)的內(nèi)容，尤其是語音合成越好，這種情況就會越明顯。我們的系統(tǒng)在識別語音之后要進行結(jié)果的提取。

這是我們從大年臘月27、28，就開始積極準備疫情防控的電話語音機器人。從1月份到疫情高發(fā)的2月底，我們的團隊都沒有休息，也保障了全國將近30個省和直轄市的智能疫情防控工作。

訊飛醫(yī)療劉洋：“簡單粗暴”的AI系統(tǒng)已成為過去

對于六大人群，尤其是返程人員、居家隔離、重點人群等，我們在非常短的時期內(nèi)一共上線100多套話術(shù)。

為什么上線這么多話術(shù)？這也是我前面提到的，如何去降維這個過程。如果把所有的話術(shù)揉在一起，耦合的太緊，產(chǎn)品的設(shè)計、算法的設(shè)計會具有非常大的風(fēng)險。不同的話術(shù)，對應(yīng)的就是一個典型的應(yīng)用場景。

在疫情之前，我們也一直在做常態(tài)化的應(yīng)用，目前，與家庭醫(yī)生簽約、基本公共衛(wèi)生相關(guān)的一些應(yīng)用，我們可以覆蓋80%以上、需要人類打電話完成的工作，我們有上百個話術(shù)模板。這些模板也可以供基層醫(yī)生應(yīng)用。

訊飛醫(yī)療劉洋：“簡單粗暴”的AI系統(tǒng)已成為過去

這是我們疫情提前應(yīng)用的情況。截止上周末的數(shù)據(jù)，我們每周都會新增近100萬的外呼量，也可以看到最近時間輸入型疫情更多，從地圖上能看出來。

像黑龍江、內(nèi)蒙、新疆，是最近這段時間疫情電話活躍的地方。我們的平臺在疫情期間承諾免費提供給客戶，讓機器人覆蓋更多場景，幫助客戶減少簡單機械的勞動。

這個場景我講的時間多一點，這是一個非常典型、綜合的場景，包含了語音識別、語音合成、語義理解等多項技術(shù)。

現(xiàn)在，除了臺灣省還有香港外，全國所有省份都在用我們的智能語音外呼服務(wù)。

智能醫(yī)學(xué)語音錄入

智能醫(yī)學(xué)語音錄入很好理解，相當(dāng)于我們做了一個醫(yī)學(xué)版本的語音輸入法。

訊飛醫(yī)療劉洋：“簡單粗暴”的AI系統(tǒng)已成為過去

很多研究機構(gòu)都做過相關(guān)的統(tǒng)計：醫(yī)生在職業(yè)生涯里面，有80%以上的時間是進行醫(yī)學(xué)文書的整理和錄入工作。丁香園也做過一些調(diào)研，國內(nèi)的一些住院醫(yī)師每天要花4小時以上的時間寫病歷。

如何去降低醫(yī)生的工作強度，提高文書的錄入質(zhì)量，這也是擺在各級醫(yī)護人員面前的難題。

從邏輯和業(yè)務(wù)上，這個問題很好理解，做一個語音識別就好了。但是實際上在國內(nèi)很多的地方，發(fā)達地區(qū)或好一些。但是在更多的情況下，全國中西部地區(qū)的很多醫(yī)院還做不到。左邊這張圖是我們經(jīng)常遇到的就診場景，這種場景顯而易見，不適合用語音錄入。一是，無法保證隱私；二是，現(xiàn)場環(huán)境會有大量雜音錄入系統(tǒng)。。

我們面對的第一個問題是，如何降噪，尤其在開放環(huán)境下如何去降噪。第二個問題，醫(yī)學(xué)語音錄入只能解決轉(zhuǎn)寫的問題，也就是“所說即所得”。但對于醫(yī)生來說，他要的不是“所說即所得”。

例如，大家平時使用轉(zhuǎn)寫服務(wù)，會發(fā)現(xiàn)有很多廢話，還有語氣詞、助詞，這些詞不適合直接寫到專業(yè)的醫(yī)學(xué)系統(tǒng)如電子病歷里。

這就需要我們把與診療無關(guān)、不規(guī)范的表述進行調(diào)整。

這是我們最早做的一個場景，在口腔領(lǐng)域做語音電子病歷。除了過濾閑聊的內(nèi)容，系統(tǒng)還要做到醫(yī)學(xué)專業(yè)表述的自動替換，像一些牙位圖、計量單位、體征數(shù)據(jù)，都要轉(zhuǎn)換成臨床醫(yī)生習(xí)慣、符合臨床管理要求的文書。

因此，語音錄入只解決了信號輸入和轉(zhuǎn)換的問題，真正要在臨床上有價值，還是需要做語義理解。

訊飛醫(yī)療劉洋：“簡單粗暴”的AI系統(tǒng)已成為過去

第一步，解決降噪的問題。通用的方法大家都知道，做麥克風(fēng)陣列，再加語義層面上的內(nèi)容整理，我們做過很多版本，可以提一下我們新的應(yīng)用模式：基于4G模塊的麥克風(fēng)即插即用，不用裝任何軟件，就可以實現(xiàn)類似于醫(yī)學(xué)云的輸入。

它可以應(yīng)用于各種場景，麥克風(fēng)除了降噪，還有很強的指向性，只收錄醫(yī)生的語音。

軟件層面，在語音識別引擎里，訊飛輸入法會把大量語氣詞進行優(yōu)化，這是一個基本的解決方法。相對復(fù)雜的模式，基于我們的硬件和語音識別能力，我們可以多往前走一步，跟具體的業(yè)務(wù)系統(tǒng)結(jié)合起來。這就是我們早期在做門診語音電子病歷等事情的邏輯。

訊飛醫(yī)療劉洋：“簡單粗暴”的AI系統(tǒng)已成為過去

一開始做醫(yī)學(xué)語音錄入時，很多人的想法是我講的簡單的端到端方式。但是，做到一定程度之后，你會發(fā)現(xiàn)這種方式并不能完整解決用戶的問題。除了病歷本身所要具備的功能之外，這里有非常多的問題。

例如，語音識別出來的結(jié)果，怎么達到電子病歷規(guī)范的管理要求。這里面有一個非常明顯的例子：醫(yī)生問患者，還有什么地方不舒服嗎？

患者會說一些詞不達意的話，怎么把患者的語言從醫(yī)生聲音里面剔出去。其次，怎么能夠把醫(yī)生錄入的信息自動匹配到電子病歷的具體位置上，比如哪些話應(yīng)該錄在主訴的位置，哪些話錄入檢驗、檢查，而且匹配到具體的位置，這需要與業(yè)務(wù)系統(tǒng)進行深度融合。

大家可能會想到一種方式，做接口就好了，這是一種方法。但是對于第三方的廠商，做電子病歷比較厲害的，像嘉和還有其他大廠，他們的版本不容易為你的語音識別進行定制化改造。

因此，雖然你可以給他提供相應(yīng)的API和接口，但是他們獲取到的也只是前面提到的轉(zhuǎn)寫數(shù)據(jù)，對于這些廠商來講，需要一個翻譯的過程，就是把轉(zhuǎn)寫的東西匹配到具體位置，再上傳到電子病歷的具體位置。

基于我的經(jīng)驗來看，很多廠商做的并不是特別好。因此，就需要考慮自己做一套更適合語音的電子病歷。

當(dāng)你去基于我們的某種技術(shù)去解決一個具體的應(yīng)用場景，一定要考慮，符合人工智能應(yīng)用的數(shù)據(jù)如何整理、采集、呈現(xiàn)？

為什么我們會做一個相對完整版的語音電子病歷？因為識別之后，怎么把這些信息上傳到病歷里，這里有非常多的細節(jié)，需要我們在應(yīng)用過程中打磨。

訊飛醫(yī)療劉洋：“簡單粗暴”的AI系統(tǒng)已成為過去

這是另外一個場景，把語音識別匹配到一個超聲報告的具體位置上。例如，產(chǎn)科醫(yī)生在檢查時，并不會按照報告模板上的位置來寫，他可能先看到胎心，也會先寫羊水深度。

因此，我們就要自動去匹配相關(guān)的位置，然后填到相應(yīng)的模板里去。

前面講了通用場景下的語音識別和轉(zhuǎn)寫，包括把語音識別轉(zhuǎn)寫的結(jié)果和一些具體的應(yīng)用系統(tǒng)融合的解決方案。這次疫情期間，我們也給一線醫(yī)生帶來一些簡便的應(yīng)用，幫助他們減少醫(yī)學(xué)文書工作。

訊飛醫(yī)療劉洋：“簡單粗暴”的AI系統(tǒng)已成為過去

左邊是在武漢的某一家方艙醫(yī)院應(yīng)用場景，右邊是湖北另一家醫(yī)院影像科醫(yī)生寫報告的場景。

方艙醫(yī)院隔離點智能管理

基于我們的移動醫(yī)生護理系統(tǒng)，我們做了一個輕量版的應(yīng)用，幫助各級方艙醫(yī)院的醫(yī)生去進行更好的管理。

訊飛醫(yī)療劉洋：“簡單粗暴”的AI系統(tǒng)已成為過去

患者從醫(yī)院出院之后，要到方艙醫(yī)院隔離14天，如果檢測結(jié)果呈陰性，還要回到家中再康復(fù)14天。按照疫情管理的規(guī)范，臨床醫(yī)生需要從頭到尾管理患者的健康。

訊飛醫(yī)療劉洋：“簡單粗暴”的AI系統(tǒng)已成為過去

這就給醫(yī)護人員帶來非常多的工作量，每天需要去看一下患者在家隔離的數(shù)據(jù)?；谶@樣的場景，我們拿相對成熟的云醫(yī)生的移動醫(yī)護助理，然后改成一個康復(fù)智能護航系統(tǒng)，主要就是為了解決移動查房，包括患者體征數(shù)據(jù)手機和健康宣教。

目前，這個產(chǎn)品覆蓋湖北全省17個地市，539個隔離監(jiān)測點。醫(yī)生要給居民下達一些健康處方、醫(yī)囑，可以用語音的方式錄入?；颊呱蠄篌w征，也可以用語音錄入。

訊飛醫(yī)療劉洋：“簡單粗暴”的AI系統(tǒng)已成為過去

最后提兩個其他應(yīng)用，一個是在全國近百個區(qū)縣做的基于醫(yī)學(xué)認知的基層全科CDSS系統(tǒng)，這也是訊飛醫(yī)療非常重要的一個方向，我們堅信人工智能具備全科醫(yī)生的潛質(zhì)，對于國家醫(yī)改、提升全民健康素養(yǎng)是非常重要的。

這次疫情中，我們也發(fā)現(xiàn)很多基層醫(yī)療機構(gòu)，因為缺乏必要的檢查工具，也缺乏新冠肺炎臨床診療指南的能力。除了沖在一線的醫(yī)生，基層的醫(yī)療力量沒有最大化。

在疫情爆發(fā)前，我們的智醫(yī)助理就按照臨床指南上線了這種新冠肺炎的診斷模型，讓幾百名醫(yī)生具備早期篩查新冠肺炎的能力。

除了提高診斷的合理率之外，還可以從源頭上去規(guī)范電子病歷，提高臨床數(shù)據(jù)質(zhì)量。

訊飛醫(yī)療劉洋：“簡單粗暴”的AI系統(tǒng)已成為過去

這是我們醫(yī)學(xué)多模態(tài)和多場景下的語音工具在全國的應(yīng)用情況。目前北、上、廣還有浙江一些頂級醫(yī)院在應(yīng)用，也非常歡迎大家通過我們這個平臺，一起去為客戶打造更好的醫(yī)療AI應(yīng)用。

這就是今天我分享的主要內(nèi)容，謝謝大家。雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

專題

雷鋒網(wǎng)公開課 | 醫(yī)療 AI 云課堂

本專題其他文章

李雨晨

新智駕主編

專注蔚小理等造車新勢力的原創(chuàng)報道 |微信：Gru1993

發(fā)私信

當(dāng)月熱門文章