丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
AI+ 正文
發(fā)私信給張利
發(fā)送

0

如何利用大數(shù)據(jù)做遺傳病智能化診斷?| 雷鋒網(wǎng)公開課

本文作者: 張利 2017-03-14 19:36 專題:雷峰網(wǎng)公開課
導(dǎo)語:二代測序技術(shù)的劣勢是什么?智能診斷的思路是怎樣的?如何智能起來?你所有的疑問在這里都會得到解答,因為本文很長……

據(jù)OMIM數(shù)據(jù)庫(人類孟德爾病數(shù)據(jù)庫)數(shù)據(jù),單基因遺傳病的病種數(shù)量約有7000種,其中約4000多種致病基因和發(fā)病機制比較明確。單基因遺傳病單個發(fā)病率低,但單基因病種類極多,所以總體發(fā)病率高,且具有先天性、致死致殘性的特點。

就診斷而言,單基因遺傳病涉及多個學(xué)科,臨床癥狀復(fù)雜,且由于基因的突變具有多樣性,每種突變都可能導(dǎo)致不一樣的臨床癥狀,而突變的臨床意義也相當(dāng)復(fù)雜,故診斷較為困難。而且,許多遺傳病都及其罕見,屬于罕見病,對于一名醫(yī)生來說,診斷經(jīng)驗不足,根據(jù)癥狀極易誤診。

所以對于臨床醫(yī)生而言,這些問題顯得頗有挑戰(zhàn)性:根據(jù)患者癥狀如何快速鑒別其是否為遺傳???患者表現(xiàn)為某些特定癥狀時,哪種基因突變的概率最大?

如今,隨著基因測序成本的大幅下降,隨之而來的是基因大數(shù)據(jù)的出現(xiàn),在這種形勢下,基于基因型和表型的關(guān)系,建立輔助診斷系統(tǒng)和臨床知識庫看起來是一條容易且有效的路徑。那么,具體搭建過程是怎樣的呢?會遇到什么意想不到的挑戰(zhàn)呢?這種方式做遺傳病診斷,遇到最大的瓶頸是什么呢?

雷鋒網(wǎng)邀請了發(fā)布國內(nèi)首款遺傳病智能問診系統(tǒng)的北京金準基因公司副總裁孫雋回答這些問題。

嘉賓簡介:

孫雋,北京金準基因科技有限公司副總裁,2008年博士畢業(yè)于中科研昆明動物研究所,主攻細胞生物學(xué),畢業(yè)后在美國康奈爾大學(xué)營養(yǎng)系繼續(xù)進行基礎(chǔ)研究,2011年回國后希望能夠從基礎(chǔ)科學(xué)走出來向應(yīng)用方面轉(zhuǎn)化。2013年加入天津華大進行遺傳病相關(guān)基因檢測產(chǎn)品開發(fā)工作,2016年加入專注遺傳病基因檢測的北京金準基因負責(zé)產(chǎn)品研發(fā)。

如何利用大數(shù)據(jù)做遺傳病智能化診斷?| 雷鋒網(wǎng)公開課

雷鋒網(wǎng)對其演講內(nèi)容做了不改變原意的編輯:

我來自北京精準科技有限公司,這三個詞可以概括我們公司做的事情:基因檢測;遺傳病基因檢測;專注于遺傳病基因檢測。我本人也一直從事遺傳病基因檢測相關(guān)產(chǎn)品的研發(fā)工作,今天主要和大家分享的是遺傳病基因檢測的原理和目前的一些進展,以及隨著大數(shù)據(jù)而來的智能診斷。

(公開課視頻如下,孫老師聲音甜美、循循善誘……強烈建議先看視頻?。?/strong>

基因、表型、疾病與診斷

事實上,疾病就是人體表現(xiàn)出表型的一種,即每一個人表現(xiàn)出的樣子,這些表型中有些不是疾病,只是體現(xiàn)出人體的多樣性,比如膚色、發(fā)色、智商、身高和運動能力等,這些差異不是疾病。但是有一些表型就是疾病,比如說智力障礙、先天性白內(nèi)障等,這些嚴重地影響到正常生活,就稱之為疾病。我們可以說每個個體表現(xiàn)出的樣子幾乎都和遺傳相關(guān),疾病也不例外。

同時凡事都有兩面性,無論疾病還是其他表型都受環(huán)境和遺傳因素兩方面影響,環(huán)境因素包括營養(yǎng)因素、理化因素、社會因素和感染外傷等,遺傳因素包括染色體異常、單基因缺陷等。但是疾病與環(huán)境和遺傳的相關(guān)程度不同,有些疾病受遺傳因素影響的比較多,比如說染色體病、單基因病、孤獨癥、一些先天性的缺陷和障礙等。一些疾病受環(huán)境影響比較多,比如理化因素的損傷、外傷等,這些疾病完全受環(huán)境調(diào)控;一些疾病既受環(huán)境影響,也有遺傳因素影響,比如身高矮小癥,我們知道一個人的身高,即受到環(huán)境影響,也受父母遺傳影響。

一、所謂的遺傳因素是什么呢?遺傳因素的本質(zhì)什么呢?

要從人的細胞說起,細胞是生命的基本單位,遺傳物質(zhì)蘊藏在細胞核和線粒體中。人類的細胞核中有23對染色體,細胞核中可行使功能的基因約2萬多個。染色體展開是DNA雙鏈,基因就是排布在DNA雙鏈上,基因如何行使功能呢?

人體除水分外,蛋白質(zhì)是最主要組成部分,同時是支撐我們生命活動最關(guān)鍵成分。那蛋白質(zhì)從哪里來?

蛋白質(zhì)是由基因編碼而來?;蛲ㄟ^中心法則,先轉(zhuǎn)錄成RNA,在蛋白質(zhì)工廠核糖體加工,以其為模板,合成不同的蛋白質(zhì)。合成的蛋白質(zhì)到人體的各個部位行駛各種各樣的功能,包括血紅蛋白、皮膚膠原蛋白等,另外非常重要的一組是各種各樣的生物酶。

這時,若有些DNA變化,破壞雙鏈結(jié)構(gòu),蛋白沒辦法正常行使功能。比如眼睛晶體蛋白的可溶性既不能過高也不能過低,過高將無法支撐眼球的形狀,過低則會使得蛋白沉積,改變眼球的透光性,導(dǎo)致白內(nèi)障。編碼蛋白必須按照正常的程序來做。如果編碼蛋白程序不正常了,那會影響到正常生命活動,就構(gòu)成了遺傳病。我們可以說:遺傳病就是遺存物質(zhì)發(fā)生了破壞,正?;蚬δ芨淖兌鸬募膊 ?/strong>

二、遺傳病分為哪些種類?基因檢測通常是指哪種類型的遺傳病?

我們常見的遺傳病分為這些種類:染色體病;單基因?。欢嗷虿?。

如何利用大數(shù)據(jù)做遺傳病智能化診斷?| 雷鋒網(wǎng)公開課

我們目前了解比較清楚、遺傳關(guān)系和疾病關(guān)聯(lián)很明確是染色體病和單基因病,我們所說的基因檢測多半在這個領(lǐng)域,多基因病目前還停留在科研階段。

三、單基因病和染色體病

  • 單基因病

單基因病是單個基因缺陷所導(dǎo)致的疾病,有些人可能會想到罕見病,罕見病指那些發(fā)病率極低疾病。(關(guān)于罕見病,雷鋒網(wǎng)對此曾有詳細解讀:《基因療法應(yīng)對罕見病的進階之路》)中國沒有明確的罕見病定義,根據(jù)世界衛(wèi)生組織的定義,罕見病是患病人數(shù)占總?cè)丝诘?.65‰到1‰的疾病。80%的罕見病是單基因遺傳病,目前單基因遺傳病總共有8000多種,單基因遺傳病并不意味著罕見,雖然單個疾病發(fā)病率低,但其數(shù)量繁多,累積起來可達到這個全球出生人口數(shù)的1%。另外,一些單基因遺傳病,其本身的發(fā)病率就很高,比如馬凡綜合征、藥物性耳聾等。

如何利用大數(shù)據(jù)做遺傳病智能化診斷?| 雷鋒網(wǎng)公開課

  • 染色體病

不同于單基因遺傳病,染色體疾病比我們想象危害更為嚴重,染色體異常包括染色體數(shù)目和結(jié)構(gòu)異常。其中,大家經(jīng)常聽說的唐氏綜合癥、貓叫綜合征等,均屬于染色體數(shù)目異常。

數(shù)據(jù)表明:幾乎所有的染色體都有發(fā)生非整體疾病的可能,單為什么平常所見的大多為21三體綜合征呢?

那是因為在所有的染色體中,21號染色體的數(shù)目最小,故畸變后活胎率較高,其他染色體發(fā)生畸變后可能根本就沒有活胎。除此之外,染色體畸變與自然流產(chǎn)也密切相關(guān)。

我們知道任何事情都有其原因所在,我們看見的是他表現(xiàn)出的樣子,背后的原因是什么,進一步的分析才可能進行下一步防控。

四、那我們怎么樣發(fā)現(xiàn)遺傳物質(zhì)的變異呢?

遺傳病基因診斷流程大致是:樣本收集,DNA提取和處理,然后測序,或者進行一些實驗操作之后,對詞其數(shù)據(jù)進行分析,后由專家團隊根據(jù)數(shù)據(jù)分析結(jié)果進行疾病關(guān)聯(lián)性分析,最后出報告進行遺傳咨詢。

當(dāng)前情況是,不管你用什么樣的技術(shù),診斷無外乎就是這些流程,只不過在數(shù)據(jù)產(chǎn)出階段,存在不同平臺和不同策略,即做不一樣的調(diào)整和組合。

如何利用大數(shù)據(jù)做遺傳病智能化診斷?| 雷鋒網(wǎng)公開課

什么阻礙了我向前?——遺傳病檢測和診斷最大的瓶頸

遺傳病的檢測和診斷,目前它最大的瓶頸和挑戰(zhàn)是什么呢?

  • 據(jù)歐美數(shù)據(jù)庫統(tǒng)計,目前已知的單基因遺傳病總數(shù)有8000多種,那明確基因的疾病有4828種,即41%疾病的機理是不明確的。我們做檢測,首先需要知道:哪個基因出問題了?之后我們才可以把它給測出來。如果對一種遺傳病的致病基因不明確,之后的測序分析過程也無從下手,所以這是它的第一個缺陷。

  • 限制遺傳病檢測和診斷的另一個瓶頸是:即使是已知的基因,也有一些由于其序列特點以及一些其它的困難,用目前的手段沒辦法檢測,因此,明確的42%的基因,也有一些缺乏有效的基因檢測手段。

目前,單基因病的總體檢出率在50%以下。整體看來,可以分為四個部分:8000余種單基因病中有4000多種致病基因是明確的,理論上這些疾病可以檢測,但其中有一部分由于技術(shù)局限性的限制沒辦法檢測,意思是雖然明確具體哪個基因有缺陷,但測不出來。

如何利用大數(shù)據(jù)做遺傳病智能化診斷?| 雷鋒網(wǎng)公開課

常見檢測技術(shù)有哪些?

所謂檢測/測序,就需要借助各種檢測技術(shù),目前常見的檢測技術(shù)整體來說是兩個思路:

第一,是把DNA一個個測出來,之后明確致病基因是什么。

第二,是借助芯片和探針,其上帶有熒光信號,之后通過熒光信號分析以及一些定量分析確定致病基因的有無。

我們測序的技術(shù)分為一代測序、二代測序和三代測序。一代測序的優(yōu)點是準確,但其限制是通量很低;二代測序,又稱高通量測序法,特點是多快好省。在人類基因組剛啟動時,數(shù)個大國一起花費了幾十億美金,才完成了一個人的基因組全測序。在現(xiàn)有的測序技術(shù)條件下,只需幾天功夫,花費幾千元就能得到一個人的基因組數(shù)據(jù)。

二代測序技術(shù)應(yīng)用的常規(guī)檢測流程包括:樣本收集、數(shù)據(jù)產(chǎn)出到信息分析。我們知道,二代測序結(jié)果都是一些短序列,需要把成千上萬短序列列起來,與參考基因組比對,之后進入信息分析流程,檢測變異,進行注釋,得到一個待解讀變異列表,之后分析團隊對這些突變進行分類,并進行一個疾病相關(guān)性分析,以確定該疾病的突變,最后還有進行驗證和報告。無論二代測序技術(shù)應(yīng)用于疾病基因檢測或其它,一般流程都是這個。

但盡管二代測序多塊好省,但它也有不足,就是:數(shù)據(jù)量特別多,是最大的難點。

如何利用大數(shù)據(jù)做遺傳病智能化診斷?| 雷鋒網(wǎng)公開課

如何從海量數(shù)據(jù)中找出真正與疾病相關(guān)突變呢?

一、找致病突變兩步走

做一個全外顯子組測序,可以產(chǎn)生10萬個以上的突變,怎樣在10萬個突變中找出致病突變呢?分為兩步:

第一步,對變異進行分類,分類過程中有游戲規(guī)則。目前業(yè)內(nèi)人都是遵照ACMG解讀分類規(guī)則這個標準,這個標準是,美國遺傳學(xué)會對突變分類設(shè)定了嚴格的條件,其中包括致病性的證據(jù)、突變是否屬于劣性、是否已經(jīng)發(fā)生過、突變發(fā)生的位置等。第一步相對在整個遺傳分析的過程中較為簡單,真正的難點是表型相關(guān)性的分析。

第二步,做完分類以后,已知的和臨床意義不明的基因都可能和疾病相關(guān),接下來就需要從這些突變中找出和病人表型相關(guān)的部分,在這些突變中尋找這個基因和什么疾病相關(guān)。

在以前報道的數(shù)據(jù)庫中尋找,已經(jīng)報道的病人都是什么表型,與我的病人的表型是否相符。最終確定一個突變是不是某種疾病的原因。用二代測序技術(shù)測基因序列之后,我們發(fā)現(xiàn)了大量的突變,但僅靠人工去收集那些判斷突變的證據(jù),幾乎是一個不可能完成的任務(wù),因此,需要用到信息分析流程進行處理。

二、信息分析在做什么?

信息分析主要會產(chǎn)生這幾方面的信息:

  • 首先是引發(fā)突變的基本信息,即突變發(fā)生在哪個DNA上?哪個位置?

  • 另外是疾病信息,這對于后續(xù)要進行的表型關(guān)聯(lián)性分析非常重要。

  • 還有在人群中的頻率,我們知道單基因遺傳病相對罕見,因此它在正常人群中的出現(xiàn)頻率不能過高。

  • 軟件預(yù)測的結(jié)果。目前有許多軟件可以預(yù)測突變有沒有可能破壞到蛋白結(jié)構(gòu)?

  • 最后是數(shù)據(jù)庫收錄的情況。主要收錄的是病人,即以往的各種研究機構(gòu)、檢測機構(gòu)、發(fā)表的文獻等中報道過的突變和疾病的關(guān)聯(lián)情況。如果該突變已經(jīng)在一個病人中被檢出過,并且明確為致病原因,那么我們檢測自己的病人時,可以相對明確的去確定它是否和病人的表型相關(guān)。

總體來說,信息分析的方式就是將解讀一個突變所需要的基本信息整合起來。那信息分析后的結(jié)果呢?

三、表型相關(guān)性判斷是智能化診斷的難點

做完信息分析后,會發(fā)現(xiàn)大堆的已知疑似和臨床意義不明的突變。

在這種情況下,需要人工分析每個突變,確定其是否與病人的表型相關(guān),如果相關(guān),會進行報告,后續(xù)的會進行各種各樣的驗證以該突變和疾病的關(guān)系。如果只測了一個基因,那產(chǎn)生的突變數(shù)量有限,人工可以完成表型相關(guān)性分析。但如今的測序技術(shù)飛速發(fā)展,能多快好省地測越來越多的基因,相應(yīng)地就有更多需要人工分析其表型相關(guān)性分析的需求。在全外顯子組測序中,大約會有200到300個突變分析人員做表型相關(guān)性分析。其實這種做法的效率很低。那既然有分類規(guī)則、有規(guī)律可循,可不可以讓計算架來幫我們做這些事情呢?

做智能化診斷有多難?

與智能化相伴隨的另一個詞是大數(shù)據(jù)。

事實上,人工智能這個概念70年代就已經(jīng)被提出了,所謂神經(jīng)網(wǎng)絡(luò)算法以及一些公式在那個時候就已經(jīng)有了,但近些年來,它忽然大熱,就是因為大數(shù)據(jù)的出現(xiàn)。沒有大數(shù)據(jù)支撐的智能化運算,就像汽車沒有輪子一樣。反過來也是一樣的,如果有大數(shù)據(jù),還需要相應(yīng)計算能力幫助實現(xiàn)智能診斷。

剛才我們說過了,如果要做病人基因數(shù)據(jù)、測序數(shù)據(jù)的分析,人工的做法是:第一步,把突變進行分類,將那些良性或疑似良性的扔掉;第二步,用剩余的突變?nèi)リP(guān)聯(lián)該疾病的表型,并與重點對象的表型進行比對。

一、突變評級

突變評級有游戲規(guī)則,故突變評級相對簡單,相對來說也是可自動化操作的。評級無外乎就是參考一些數(shù)據(jù)庫。

1、正常人群數(shù)據(jù)庫

首先是正常人群的數(shù)據(jù)庫,這個是一個非常重要的參考依據(jù),如果要看頻率,一定是數(shù)據(jù)量越大越好,所以,我們常用的正常人群數(shù)據(jù)庫的趨勢是越來越大。正常人群數(shù)據(jù)庫的作用主要有2點:

  • 分析一個突變是否有害。通過其在人群中頻率的高低,除去那些人群中非常高頻的變異。

  • 通過頻率進一步排除掉有可能是良性的變異。

2、軟件預(yù)測

另外,軟件預(yù)測的結(jié)果也可作突變評級的參考。

其中有保守性預(yù)測的軟件,所謂保守性預(yù)測,是指如果一種蛋白比較重要,那在不同物種中都有該蛋白的同源物。如果其存在不同物種中,甚至在人類的進化中,它都一直在,一只保持不變,那么可能意味著,這個蛋白非常重要。如果它發(fā)生突變,相應(yīng)的個體就會被淘汰掉,這是保守性預(yù)測的一個依據(jù)。保守性預(yù)測是借助于其他物種的全基因組合蛋白數(shù)據(jù),而這是非常大的數(shù)據(jù)量,所以遺傳分析離不開數(shù)據(jù)。

另外還有綜合性預(yù)測軟件,除保守性預(yù)測之外,還要參考人群頻率,參考氨基酸的生化性質(zhì)等等數(shù)據(jù),這種方法需要多個的數(shù)據(jù)以證明方法是可靠的,并且是一個不斷修正的過程。

3、疾病人群數(shù)據(jù)庫

在突變分分歧時,需要考慮:這個突變是否在過往的有類似表型的人身上出現(xiàn)過。如果有,并且確定它是致病的,那對突變評級是一個非常有力的支持因素。因此,分析也需要非常龐大量的疾病人群數(shù)據(jù)庫。一般疾病人群數(shù)據(jù)庫無外乎包含這些信息:病人的信息:男女、年齡,表型信息;基因型以及數(shù)據(jù)的來源等。

這些數(shù)據(jù)庫和軟件預(yù)測,這些證據(jù)可以用于突變評級,是我們分析的第一步。綜合多種游戲規(guī)則寫出一個公式,就可以相對方便的,對所得的突變進行分級。

二、真正的難點——癥狀關(guān)聯(lián)分析

但上述工作做完之后,才遇到智能診斷真正的一個難點——也就是癥狀關(guān)聯(lián)分析。

傳統(tǒng)關(guān)聯(lián)分析的做法是挑出所有需要解讀的突變的基因,然后到數(shù)據(jù)庫里看,找到基因關(guān)聯(lián)的是什么疾病,表型是什么。之后,基于之前的受檢人信息,人工進行比對。那對于智能化診斷的智能化癥狀關(guān)聯(lián),思路是怎樣的呢?

如何利用大數(shù)據(jù)做遺傳病智能化診斷?| 雷鋒網(wǎng)公開課

具體過程是這樣的:對病人進行臨床癥狀的分析,之后進行臨床癥狀的標準化,然后根據(jù)標準化的這個詞,搜索基因疾病表型數(shù)據(jù)庫,然后得到疾病和基因列表,根據(jù)其與和病人表型的相關(guān)度進行排序。其中,關(guān)聯(lián)的關(guān)鍵是需要把表達同一個意思、關(guān)聯(lián)同一種異常的不同詞關(guān)聯(lián)起來,通過前期的數(shù)據(jù)積累關(guān)聯(lián)起來,然后才可以把疾病和病人進行關(guān)聯(lián)

1、做這個的難點是什么呢?

在整個過程中,無論用什么算法,無外乎是一種匹配和關(guān)聯(lián)的。但實踐落地的時候會碰到真正的難點。

  • 首先是臨床信息不規(guī)范。一種表型有多種表述方法。比如智力障礙,那可以說腦子有問題、遲鈍、傻、呆、笨等,表述方法是多種多樣的。這種不規(guī)范的表述導(dǎo)致沒有辦法用標準化的語言,意思就是雞同鴨講,輸入的表型信息算法沒辦法識別,

  • 第二是病人的臨床信息不完整。人工分析的時候,也常常遇到這樣的情況:送檢單上根本沒有完整地呈現(xiàn)出病人的完整信息。比如有一些病人只有一些發(fā)現(xiàn)時的信息,但像某些細菌性疾病、代謝性疾病,早期與后期的癥狀是非常不同的。所以,這些情況下, 在標準化數(shù)據(jù)庫中進行搜索,關(guān)聯(lián)的常常是不準確的。

  • 第三,單遺傳病常常具有臨床抑制性,相同的基因所關(guān)聯(lián)的疾病很多,且即使同一個突變位點,不同的病人表型也是不一樣的,那么這樣也給智能化檢索帶來了很大的難度。

  • 第四,表型不完全外顯,即基因突變所導(dǎo)致的表型沒完整展現(xiàn)出來,這種情況下,表型本事不能代表典型的性狀。

我們在做智能化檢索時,在疾病表型數(shù)據(jù)庫方面,目前還存在很大提升空間。其中存在這樣的問題:

  • 第一,單基因病數(shù)目很多,有8000多種,目前還沒有一個非常完善的數(shù)據(jù)庫,能收錄所有疾病所關(guān)聯(lián)表型。

  • 第二,目前遺傳病數(shù)據(jù)分散于世界各地,如果能整合起來,那我們就可以得到一個相對全面準確的數(shù)據(jù)庫。但是多機構(gòu)數(shù)據(jù)的整合常常存在各種各樣的困難。

如何應(yīng)對這些問題?

對于這些問題,金準基因怎么做的呢?

首先,相對來講,臨床信息不規(guī)范的問題目前解決得比較好。我這里給大家介紹的是HPO——臨床癥狀定義、分級。HPO,創(chuàng)建描述人類疾病中異常表型的標準詞條,每一個詞條都能精確描述一種人類異常表型,并且組成一個樹狀結(jié)構(gòu)。也就是說,目前所能想到的所有疾病體現(xiàn)出的所有表型,全都標準化了。

它的特點是沒有含義是唯一的,很精細,關(guān)系明確,計算機可識別。

目前,HPO數(shù)據(jù)庫總共包含了11000種表型,并且其與疾病關(guān)聯(lián)到了一起。也就是說,這4000種疾病分別都有哪些表型,這個數(shù)據(jù)庫已經(jīng)進行了基本的關(guān)聯(lián)。中國對HPO數(shù)據(jù)庫進行了一個標準用語的翻譯,即所謂CHPO。截至2016年10月,已翻譯詞條11896種。

下面這張圖清晰地呈現(xiàn)了其構(gòu)架:呈樹狀結(jié)構(gòu);根部是眼部異常,往下走是眼部形態(tài)異常,之后眼球異常,眼前節(jié)異常、晶狀體異常到白內(nèi)障,最后關(guān)聯(lián)到一個最底下一個單獨的ID是先天性白內(nèi)障。

如何利用大數(shù)據(jù)做遺傳病智能化診斷?| 雷鋒網(wǎng)公開課

有了HPO以及注釋出來的數(shù)據(jù)庫以后,就可以就是做一些智能化表型關(guān)聯(lián)的嘗試。北京精準科技有限公司推出了國內(nèi)首款單基因遺傳病輔助軟件——明鑒系統(tǒng),我們的做法,也如前面所介紹的。

三個案例

案例一:“我們還沒有達到100%精確的地步”

這是一個11歲的男孩,其臨床表征是是肝硬化、門靜脈高壓、肝功能亢進、全血細胞減少??吹竭@種情況,醫(yī)生想重點關(guān)注的基因是:血色病相關(guān)4個基因(HAMP、HFE、HFE2、SLC11A3 )、多囊腎(PKD1、PKD2)、先天性肝氫氧化。但在這幾個基因上均未發(fā)現(xiàn)可疑的突變位點。

但我們通過基因檢測,在PKD1這個基因上呢,發(fā)現(xiàn)了一個已知的致病突變,所謂已知是指已經(jīng)在病人中被檢出過了,意思是其致病性應(yīng)該是非常明確的。

那這個案例在明鑒系統(tǒng)上如何操作呢?

首先呢,TERT基因?qū)?yīng)21個OMIM編號的疾病,共101種臨床表型。這個病人兩個主要的臨床表型是肝硬化和全血細胞減少,肝硬化對應(yīng)的是72個基因,全血細胞減少對應(yīng)74個基因,因此兩者對應(yīng)基因交集,理論上便是參考范圍。這是我們計算的一個原則,我們做了這個交集以后,得到了10個基因。TERT也在這10個基因中,并且排名非常靠前。這個案例中,明鑒系統(tǒng)找出一個列表,但這個列表并不是唯一的,所以我們還沒有達到100%精確的地步。

案例二:在不明確癥狀時,選擇更廣義的癥狀

第二個案例是一個11歲的女孩,雙下肢進行性運動障礙四年,肌肉活檢、電圖沒有異常,沒有吞咽困難,構(gòu)音不清等其他癥狀,僅表現(xiàn)為運動障礙,另外,否認家族史。頭MRI檢測結(jié)果為:腦白質(zhì)病變。我們對這兩個癥狀進行檢索:即輸入運動障礙和腦白質(zhì)病變,明鑒系統(tǒng)做了計算,輸出右邊框中的這些基因。

如何利用大數(shù)據(jù)做遺傳病智能化診斷?| 雷鋒網(wǎng)公開課

結(jié)合這個新列表與基因測序的數(shù)據(jù),我們發(fā)現(xiàn):排名倒數(shù)第二的EIF2B5基因,在白質(zhì)消融性腦病上出現(xiàn)過,顯出一個融合突變。就這個突變,我們也可以關(guān)聯(lián)出一系列有這樣表型的列表,進一步提高其準確性。

我們輸入運動障礙,這個詞所在的根目錄是神經(jīng)系統(tǒng)異常,之后是運動神經(jīng)異常、神經(jīng)異常、運動異常、運動障礙。但運動障礙的下游還有各種各樣的條目,再進一步,我們把他關(guān)聯(lián)到步態(tài)不穩(wěn)。同時輸入步態(tài)不穩(wěn)和白質(zhì)腦變,發(fā)現(xiàn)所關(guān)聯(lián)的基因是EIF2B5。在我們所有的計算結(jié)果中,這兩種表型的關(guān)聯(lián)結(jié)果準確性排名第一。

這個案例告訴我們,在做智能化表型關(guān)聯(lián)時,我們輸入的表型直接影響到結(jié)果,在不明確癥狀時,我們可以選擇更為廣義的癥狀,從而擴大計算出最終結(jié)果的量。

案例三:智能進化,測評失敗案例進行學(xué)習(xí)

第三個案例是一個17歲的男孩,其臨床表型是全身皮膚發(fā)黑、生殖器未發(fā)育,智力低下,口齒不清;主要病史:性激素低下、皮質(zhì)醇低下、垂體促性腺激素低下、腦垂體核磁正常、腎上腺CT未找到腎上腺;家族史是母親有智力低下病史、父親殘疾(走路不穩(wěn))。

我們在明鑒系統(tǒng)中輸入這個病人的幾個表型。

第一個表型是腎上腺皮質(zhì)腎上腺缺失、腎上腺異常;第二個表型是生殖器異常;第三個表型是皮膚色素異常。在這3個表型的引導(dǎo)下,我們生成一個基因突變列表。關(guān)聯(lián)這些基因與基因測序數(shù)據(jù),我們沒有發(fā)現(xiàn)可疑突變。但我們進一步分析發(fā)現(xiàn),這個基因有其他類型的突變。我們進一步對這個案例進行分析,在生成的結(jié)果中排名第一的NR0B1基因有一個原因未知的情況。

我們到數(shù)據(jù)庫中看這個基因,其所關(guān)聯(lián)的表型腎上腺發(fā)育不全、促性腺激素分泌不足、性腺功能減退癥,但是46種表型中并無智力低下,并沒有病人智力低下這一表型,因此其是不相符的。但我們進一步分析發(fā)現(xiàn),另外一個基因IL1RAPL1,表型為X連鎖智力低下21型、女性雜合攜帶者會出現(xiàn)輕度智力低下。

這個案例是這兩個基因共同導(dǎo)致的表型,不是一個嚴格意義上的單基因病,而且是兩種單基因病共同組成的一個復(fù)雜表型。我們對這兩個基因進行分析,發(fā)現(xiàn)他們在染色體上的位置非常接近,均有缺失/插入的疾病報道,臨床癥狀符合,之后我們就去做了臨近缺失及重復(fù)致病可能性計算。

我們不斷積累這樣的案例,不斷測評并且反饋給系統(tǒng),這個系統(tǒng)得以不斷改進。我們的愿景是,我們需要進一步提升該系統(tǒng)的表型關(guān)聯(lián)、準確性以及各方面的技能,我們能做的就是數(shù)據(jù)積累,才可以不斷測評,不斷改進。

總結(jié)一下,明鑒系統(tǒng)的特點有:

1、輔助臨床癥狀輸入:根據(jù)HPO樹狀結(jié)構(gòu),標準化語義輸入是遺傳病診斷的根本。

2、相關(guān)基因突變類型提示,即基因突變多樣性。

3、智能進化,測評失敗案例進行學(xué)習(xí),研發(fā)改進方案。

4、方便后續(xù)數(shù)據(jù)管理——下載及快速關(guān)聯(lián)。

最后總結(jié)一下,表型相關(guān)性判斷是智能診斷的難點,是做遺傳分析兩大步中非常重要的一部。難點在于,病人臨床信息不規(guī)范、臨床信息不完整是兩個相對來說比較容易解決的,我們可以使用HPO這樣的數(shù)據(jù)庫,對其不斷推廣、不斷改進。如果疾病的每一個患者都用相同的語言來描述臨床表型,那就可以很方便地進行關(guān)聯(lián)。病人信息、其臨床信息突發(fā)性和表型不完全外顯等情況是目前需要進一步改進的。我們需要完善疾病表型數(shù)據(jù)庫,該數(shù)據(jù)庫需要包括疾病的不同階段。疾病不同階段的人員越多,就可以關(guān)聯(lián)得越完整。另外,人越多越好。

疾病表型數(shù)據(jù)庫本身的構(gòu)建存在的困難也待于慢慢改進的。首先是疾病樹木很多,構(gòu)建疾病表型數(shù)據(jù)庫難難度非常大。另外,多機構(gòu)的數(shù)據(jù)整合困難。

愿景:實現(xiàn)基因組和疾病組的對話

如果說HPO是一個關(guān)聯(lián),表型的標準化可以實現(xiàn)基因組和疾病組的對話。這里有三個不同的維度:

一、基因組,我們需要覆蓋得更全面,需要測試的準確度更高;需要各種各樣的算法進行建模;需要很強的數(shù)據(jù)存儲能力;盡量多的人群。

二、表型組:進一步標準化、詞條化、統(tǒng)一化。更多進行關(guān)聯(lián),目前雖然已經(jīng)有大量的表型,但并沒有100%覆蓋人類所有的異常表型。

三、疾病組:關(guān)鍵是全和準。疾病組的全和準是遺傳病智能診斷的關(guān)鍵。

  • 全:需要更多的病人和表型,比如遺傳病有臨床抑制性,所以不同的病人常常呈現(xiàn)出不一樣的表型。只有當(dāng)病人足夠多時,才可以相對更完整地把一種疾病和其表型更完整地收錄進來;其次需要把不同年齡階段不同、發(fā)病階段的表型也更合理整合出來,以便各種發(fā)病階段的人都可以做關(guān)聯(lián)。

  • 準:一個病人的表型其實多種多樣,有時候遺傳變異的關(guān)聯(lián)性不是唯一的。

整個基因檢測流程是一個非常長的環(huán)節(jié),涉及多個領(lǐng)域,需要IT人員、醫(yī)生、病人、生物學(xué)家等多種力量的參與。對于遺傳病來說,其智能化診斷才剛剛開始,徹底推向臨床還有待時日。

相關(guān)文章:

繼DeepMind發(fā)力眼疾后,IBM的認知計算能診斷95%的早期青光眼

不放過任何蛛絲馬跡,IBM Watson 將利用醫(yī)學(xué)影像診斷心臟病

如何利用大數(shù)據(jù)做遺傳病智能診斷?| 硬創(chuàng)公開課預(yù)告

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

編輯

我是雷鋒網(wǎng)醫(yī)療科技編輯,歡迎與我交流:zhangli@leiphone.com
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄