一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

醫(yī)學(xué)遺傳學(xué)數(shù)據(jù)庫小結(jié)分析

 昵稱62030091 2019-10-11


開篇導(dǎo)論:

        醫(yī)學(xué)遺傳學(xué)研究是尋找疾病進(jìn)化演變分子機(jī)制和研發(fā)個性化精準(zhǔn)治療靶點的最有效途徑??v觀歷史,涉及遺傳學(xué)的概念和研究方式呈不斷進(jìn)化和深入。隨著數(shù)據(jù)信息的增長,醫(yī)學(xué)遺傳學(xué)相關(guān)數(shù)據(jù)庫在進(jìn)行課題挖掘和實驗細(xì)節(jié)驗證方面起到了十分重要的作用。本期將首先對醫(yī)學(xué)遺傳學(xué)數(shù)據(jù)庫的種類和主要功能進(jìn)行介紹和討論,后期將從實際應(yīng)用角度介紹如何利用從醫(yī)學(xué)遺傳學(xué)數(shù)據(jù)起始、遷移到細(xì)胞功能研究。

一、醫(yī)學(xué)遺傳學(xué)本體概念遷移史

        筆者結(jié)合文獻(xiàn)總結(jié):分為五個大的階段:
現(xiàn)象觀察——實驗初探——模型建立——低通量細(xì)胞遺傳學(xué)——高通量分子遺傳學(xué),如今蓬勃發(fā)展的醫(yī)學(xué)研究很大程度上得益于分子遺傳學(xué)技術(shù)的發(fā)展和平臺的轉(zhuǎn)化。

二、醫(yī)學(xué)遺傳學(xué)分析數(shù)據(jù)庫

        根據(jù)常規(guī)分析思路和后續(xù)個性化課題設(shè)計,筆者梳理了相關(guān)的pipeline式數(shù)據(jù)庫。

1.針對感興趣的目的基因
databaseWebsites
Genbankhttp://www.ncbi.nlm./
Genecardshttp://www./
BioGPShttp:///#goto=welcome
OMIMhttps://

        在整個研究中的核心概念是研究的對象gene(再次致謝建立基因概念的J先生),前三個數(shù)據(jù)庫主要了解相關(guān)基因的背景知識,屬于入門級背景知識庫;此處重點討論最后一個。
        OMIM 全稱叫做Online Mendelian Inheritance in Man, 是基于NIH框架的一個不斷更新的人類孟德爾遺傳病的數(shù)據(jù)庫。重點揭示人類基因變異和表型性狀之間的關(guān)系。截止目前為止,約有16118,25065 OMIM條目表示表型;所表示的基因,其中許多已知表型相關(guān)(如下圖)。

        我們也對顯示常規(guī)使用選項進(jìn)行了簡要說明:

        需要特別說明的是在實際工作中需要批量對感興趣疾病或基因信息打包下載,OMIM后臺存在兩種關(guān)鍵的對應(yīng)文件包括:mim2gene.txt【獲取所有感興趣基因的MIM number,“基因型”,開源獲取】;mobidmap.txt【相較前者獲取感興趣“基因型”對應(yīng)的疾病表型,注冊后獲取】。OMIM提供一種特殊的API檢索(https:///help/api),也有一些基于腳本語言的爬蟲下載方法。獲得OMIM所有基因及表型的ID可在在https:///downloads/下載。

2.拓展到相應(yīng)蛋白的分析和線索
databasewebsitesfunctions
SMARThttp://smart./Motif analysis
Intacthttp://www./intact/Interacting Protein
the human protein atlashttps://www./Cellular localization,integrative
EURExpresshttp://www./ee/expression validation(mouse)
Genepainhttp://www.expression validation
PDBhttps://www./primary structure visualization
Pfam/CATH/SCOPhttp://pfam./http://www./http://scop2.mrc-lmb.second structure visualization

        這里前四個層次類別數(shù)據(jù)庫不再贅述,重點討論下第四個層次的數(shù)據(jù)庫。通過可視化的形式,有利于標(biāo)定突變對三維結(jié)構(gòu)的影響。PDB可以通過輸入fasta格式預(yù)覽3D結(jié)構(gòu),并下載格式為.PDB的執(zhí)行文件,運(yùn)行需要java環(huán)境及一些必要的插件(如下圖)。
        Pfam是系統(tǒng)化的結(jié)構(gòu)圖譜的集合而CATH和SCOP會根據(jù)已有結(jié)構(gòu)序列對標(biāo)到相應(yīng)的三維圖譜。

3.NGS應(yīng)用環(huán)境相關(guān)數(shù)據(jù)庫
3.1 MAF分析
        MAF的定義是最小等位基因頻率,根據(jù)heatmap計劃的執(zhí)行經(jīng)驗,MAF>0.05為判定SNP的納入初始標(biāo)準(zhǔn),從而為后續(xù)的GWAS關(guān)聯(lián)分析奠定基礎(chǔ);
databaseWebsiterange
ExAChttp://exac./exonic
gnomADhttp://gnomad./genomic
ESPhttps://evs.gs./EVS/exonic
1000Genomeshttps://www./genomic

3.1.1 ExAC & gnomAD
       前二個數(shù)據(jù)庫的使用更為廣泛,gnomAD = Genome Aggregation Database,是一個跨國別的基因組突變標(biāo)定數(shù)據(jù)庫,包含了全基因和全外顯子組的信息,而ExAC{Exome Aggregation Consortium}可以看作是只包含外顯子組的子集。通過網(wǎng)站檢索我們可以獲得的信息主要有:
a.基因的變異位點及與前述信息的基本鏈接;
b.覆蓋度信息,并通過顏色表示全外測序和全基因組測序的差別;
c基于VEP軟件的突變詳細(xì)分析;
該數(shù)據(jù)庫重點展示了高質(zhì)量基因型的等位基因數(shù),設(shè)定的閾值較為嚴(yán)格(GQ>=20,DP>=10,heterozygous allele balance > 0.2),而且有詳細(xì)的注釋表格方便進(jìn)行特異性的數(shù)據(jù)展示和篩選。該數(shù)據(jù)庫常用語單基因遺傳病人群頻率的查詢,尤其在利用WES或WGS方法探究罕見病時常作為陰性參照旁證)

3.1.2 ESP
        ESP 即 NHLBI Exome Sequencing Project, 多機(jī)構(gòu)合作開展的一個大型的外顯子測序項目,主要目的是通過NGS技術(shù)對不同人群進(jìn)行SNP分型,重點關(guān)注心臟,肺,血液相關(guān)疾病的研究。相比起來起搜索界面友好度更高,但涵蓋的數(shù)據(jù)類型有所側(cè)重。

3.1.3 1000genome
    來源于1000 Genome Project ,其目標(biāo)是發(fā)現(xiàn)在人群中頻率大于1%的變異位點,對來自不同人群的大量樣本進(jìn)行測序進(jìn)而為人類遺傳變異的研究提供了一個綜合庫,后臺數(shù)據(jù)包含data、 release、 sequence_indices、 alignment_indices、 technical 和 changelog_details六個結(jié)構(gòu),其中sequence_indices、 alignment_indices是其中的關(guān)注重點。理論上,其后臺數(shù)據(jù)量相對較大。
    千人基因組計劃有兩個主要的 ftp 站點鏡像:

ftp://ftp.1000genomes. 

ftp://ftp-trace.ncbi./1000genomes/

需要注意的是我們這里不討論COSMIC這個數(shù)據(jù)庫,該數(shù)據(jù)庫更多專注于癌癥相關(guān)遺傳信息。

3.2 突變致病性分析

        Mutation deleterious prediction就是我們通常說的突變致病性:

Databasewebsites
PROVEANhttp://provean./index.php
Polyphen-2http://genetics.bwh./pph2/dokuwiki/downloads
SIFThttps://sift.bii.
MutationTasterhttp://www.

3.2.1 SIFT
        在導(dǎo)入FASTA結(jié)構(gòu)后,基于保守性原理預(yù)測氨基酸的變化對蛋白功能造成的影響。其中保守程度是比對進(jìn)化關(guān)系較近的蛋白序列得到,分值(SIFT-score)表示突變對蛋白序列的影響,一般選擇的cutoff為0.05 :SIFT值小于0.05為有害(D:Deleterious),大于0.05表示容忍(T:Tolerance)

3.2.2 Polyphen-2
        PolyPhen-2在預(yù)測氨基酸替換對蛋白質(zhì)的影響時,通過已有的蛋白質(zhì)注釋數(shù)據(jù)庫(如UniProtKB/Swiss-Prot),鑒定某個替換 (substitution) 是否落在某個特殊的區(qū)域/位置等因素,結(jié)合有監(jiān)督的機(jī)器學(xué)習(xí)模型,計算出氨基酸替換改變蛋白質(zhì)結(jié)構(gòu)和功能的可能性。提供了兩套用于建模的數(shù)據(jù),HumDiv和HumVar。前者適用于評估孟德爾遺傳病相關(guān)的突變位點,HumDiv適用于評估復(fù)雜疾病或者表型的突變位點。最終輸出3個參考值:蛋白質(zhì)結(jié)構(gòu)和功能發(fā)生改變的概率值,假陽性率FPR,真陽性率TPR。

3.2.3 PROVEAN
    預(yù)測SNP或者InDel是否影響蛋白質(zhì)的生物功能,可對CDS區(qū)域的非同義突變和非移碼InDel對蛋白功能的影響進(jìn)行預(yù)測,結(jié)果分為:危害、可以容忍、無害三大類層次。

    小結(jié):利用 SIFT、PolyPhen-2以及PROVEAN軟件, 預(yù)測 SNV對蛋白質(zhì)功能的影響程度,僅當(dāng)3種軟件均預(yù)測同一遺傳變異對蛋白質(zhì)的功能影響較大時,才認(rèn)定該遺傳變異具有高危害性。利用 PROVEAN軟件預(yù)測Indel對蛋白質(zhì)功能的影響。

3.3 突變相關(guān)疾病分析

    突變相關(guān)的疾病注釋也有若干流行數(shù)據(jù)庫。

DatabaseWebsites
HGMD(http://www.hgmd./ac/index.php)
ClinVarhttps://www.ncbi.nlm./clinvar/

3.3.1 HGMD
    HGMD = The Human Gene Mutation Database 該人類基因突變庫創(chuàng)立于1996年,目前包括240,269個變異,覆蓋9976個基因。收集的突變包含了SNP、InDel、CNV、SV、基因重組等,可以說是遺傳病變異檢測金標(biāo)準(zhǔn)數(shù)據(jù)庫。但是開源版釋放速度較慢。

3.3.2 ClinVar
    綜合性的已報道突變與疾病表型關(guān)聯(lián)數(shù)據(jù)庫,創(chuàng)立于2013年,數(shù)據(jù)主要來源是OMIM、dbSNP、locus specific database等開源數(shù)據(jù)庫的整合,因為數(shù)據(jù)的開源性,數(shù)據(jù)的真實性有待考量。

    小結(jié):和之前的分析致害性數(shù)據(jù)庫類似,需要多數(shù)據(jù)集聯(lián)合分析。

三、個性化分析數(shù)據(jù)

    在進(jìn)行完pipeline分析后,我們可能需要根據(jù)研究項目的具體需求深入挖掘我們研究的背景,一方面基于文獻(xiàn)內(nèi)容進(jìn)行醫(yī)學(xué)背景知識的挖掘,可嘗試自行建庫;另一方面也可以可以結(jié)合突變的意義進(jìn)行功能和下游機(jī)制研究。

    總體而言,醫(yī)學(xué)遺傳數(shù)據(jù)的體量是巨大的,活用和了解這些數(shù)據(jù)庫的特點,不僅僅是醫(yī)學(xué)科研數(shù)據(jù)挖掘的必然需求,更是分享開源知識時代的必然產(chǎn)物。

參考資料 :

  1. https://www.jianshu.com/p/5696d6204446

  2. https://www.jianshu.com/p/c7daf2290d40

  3. Wright, C.F., FitzPatrick, D.R. and Firth, H.V. Paediatric genomics: diagnosing rare disease in children.

  4. Biesecker, L.G. and Spinner, N.B. A genomic view of mosaicism and human disease.

  5. Caspar, S.M., Dubacher, N., Kopps, A.M., Meienberg, J., Henggeler, C. and Matyas, G.A.-O. Clinical sequencing: From raw data to diagnosis with lifetime value.

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    日系韩系还是欧美久久| 国产精品熟女在线视频| 国产亚洲系列91精品| 有坂深雪中文字幕亚洲中文| 国产大屁股喷水在线观看视频 | 亚洲欧美中文字幕精品| 九九热这里只有免费精品| 十八禁日本一区二区三区| 亚洲最新的黄色录像在线| 欧美野外在线刺激在线观看| 中国日韩一级黄色大片| 欧美日韩在线视频一区| 中文字幕人妻av不卡| 久久精品久久久精品久久| 日本不卡视频在线观看| 亚洲精品蜜桃在线观看| 日韩欧美综合在线播放| 99日韩在线视频精品免费| 精品日韩中文字幕视频在线| 成年女人下边潮喷毛片免费| 亚洲精品偷拍一区二区三区| 亚洲另类女同一二三区| 日韩人妻一区中文字幕| 亚洲熟女熟妇乱色一区| 午夜午夜精品一区二区| 久久99一本色道亚洲精品| 大尺度剧情国产在线视频| 日韩欧美一区二区不卡视频| 中文字幕免费观看亚洲视频| 国产精品久久三级精品| 欧美夫妻性生活一区二区| 欧美熟妇喷浆一区二区| 初尝人妻少妇中文字幕在线| 精品国产91亚洲一区二区三区| 欧美二区视频在线观看| 99久热只有精品视频最新| 欧美国产日韩在线综合| 日韩欧美三级视频在线| 国产a天堂一区二区专区| 精品一区二区三区免费看| av在线免费观看一区二区三区 |