醫(yī)學(xué)遺傳學(xué)數(shù)據(jù)庫小結(jié)分析

昵稱62030091 2019-10-11

展開全文

開篇導(dǎo)論：

醫(yī)學(xué)遺傳學(xué)研究是尋找疾病進(jìn)化演變分子機(jī)制和研發(fā)個性化精準(zhǔn)治療靶點的最有效途徑?？v觀歷史，涉及遺傳學(xué)的概念和研究方式呈不斷進(jìn)化和深入。隨著數(shù)據(jù)信息的增長，醫(yī)學(xué)遺傳學(xué)相關(guān)數(shù)據(jù)庫在進(jìn)行課題挖掘和實驗細(xì)節(jié)驗證方面起到了十分重要的作用。本期將首先對醫(yī)學(xué)遺傳學(xué)數(shù)據(jù)庫的種類和主要功能進(jìn)行介紹和討論，后期將從實際應(yīng)用角度介紹如何利用從醫(yī)學(xué)遺傳學(xué)數(shù)據(jù)起始、遷移到細(xì)胞功能研究。

一、醫(yī)學(xué)遺傳學(xué)本體概念遷移史

筆者結(jié)合文獻(xiàn)總結(jié)：分為五個大的階段：
現(xiàn)象觀察——實驗初探——模型建立——低通量細(xì)胞遺傳學(xué)——高通量分子遺傳學(xué)，如今蓬勃發(fā)展的醫(yī)學(xué)研究很大程度上得益于分子遺傳學(xué)技術(shù)的發(fā)展和平臺的轉(zhuǎn)化。

二、醫(yī)學(xué)遺傳學(xué)分析數(shù)據(jù)庫

根據(jù)常規(guī)分析思路和后續(xù)個性化課題設(shè)計，筆者梳理了相關(guān)的pipeline式數(shù)據(jù)庫。

1.針對感興趣的目的基因

database	Websites
Genbank	http://www.ncbi.nlm./
Genecards	http://www./
BioGPS	http:///#goto=welcome
OMIM	https://

        在整個研究中的核心概念是研究的對象gene(再次致謝建立基因概念的J先生），前三個數(shù)據(jù)庫主要了解相關(guān)基因的背景知識，屬于入門級背景知識庫；此處重點討論最后一個。
        OMIM 全稱叫做Online Mendelian Inheritance in Man，是基于NIH框架的一個不斷更新的人類孟德爾遺傳病的數(shù)據(jù)庫。重點揭示人類基因變異和表型性狀之間的關(guān)系。截止目前為止，約有16118，25065 OMIM條目表示表型；所表示的基因，其中許多已知表型相關(guān)（如下圖）。

        我們也對顯示常規(guī)使用選項進(jìn)行了簡要說明：

需要特別說明的是在實際工作中需要批量對感興趣疾病或基因信息打包下載，OMIM后臺存在兩種關(guān)鍵的對應(yīng)文件包括：mim2gene.txt【獲取所有感興趣基因的MIM number，“基因型”，開源獲取】；mobidmap.txt【相較前者獲取感興趣“基因型”對應(yīng)的疾病表型，注冊后獲取】。OMIM提供一種特殊的API檢索（https:///help/api），也有一些基于腳本語言的爬蟲下載方法。獲得OMIM所有基因及表型的ID可在在https:///downloads/下載。

2.拓展到相應(yīng)蛋白的分析和線索

database	websites	functions
SMART	http://smart./	Motif analysis
Intact	http://www./intact/	Interacting Protein
the human protein atlas	https://www./	Cellular localization，integrative
EURExpress	http://www./ee/	expression validation(mouse)
Genepain	http://www.	expression validation
PDB	https://www./	primary structure visualization
Pfam/CATH/SCOP	http://pfam./http://www./http://scop2.mrc-lmb.	second structure visualization

這里前四個層次類別數(shù)據(jù)庫不再贅述，重點討論下第四個層次的數(shù)據(jù)庫。通過可視化的形式，有利于標(biāo)定突變對三維結(jié)構(gòu)的影響。PDB可以通過輸入fasta格式預(yù)覽3D結(jié)構(gòu)，并下載格式為.PDB的執(zhí)行文件,運(yùn)行需要java環(huán)境及一些必要的插件（如下圖）。
Pfam是系統(tǒng)化的結(jié)構(gòu)圖譜的集合而CATH和SCOP會根據(jù)已有結(jié)構(gòu)序列對標(biāo)到相應(yīng)的三維圖譜。

3.NGS應(yīng)用環(huán)境相關(guān)數(shù)據(jù)庫

3.1 MAF分析

MAF的定義是最小等位基因頻率，根據(jù)heatmap計劃的執(zhí)行經(jīng)驗，MAF>0.05為判定SNP的納入初始標(biāo)準(zhǔn)，從而為后續(xù)的GWAS關(guān)聯(lián)分析奠定基礎(chǔ)；

database	Website	range
ExAC	http://exac./	exonic
gnomAD	http://gnomad./	genomic
ESP	https://evs.gs./EVS/	exonic
1000Genomes	https://www./	genomic

3.1.1 ExAC & gnomAD
前二個數(shù)據(jù)庫的使用更為廣泛，gnomAD = Genome Aggregation Database,是一個跨國別的基因組突變標(biāo)定數(shù)據(jù)庫，包含了全基因和全外顯子組的信息，而ExAC{Exome Aggregation Consortium}可以看作是只包含外顯子組的子集。通過網(wǎng)站檢索我們可以獲得的信息主要有：
a.基因的變異位點及與前述信息的基本鏈接；
b.覆蓋度信息，并通過顏色表示全外測序和全基因組測序的差別；
c基于VEP軟件的突變詳細(xì)分析；
該數(shù)據(jù)庫重點展示了高質(zhì)量基因型的等位基因數(shù)，設(shè)定的閾值較為嚴(yán)格（GQ>=20,DP>=10，heterozygous allele balance > 0.2),而且有詳細(xì)的注釋表格方便進(jìn)行特異性的數(shù)據(jù)展示和篩選。該數(shù)據(jù)庫常用語單基因遺傳病人群頻率的查詢，尤其在利用WES或WGS方法探究罕見病時常作為陰性參照旁證）

3.1.2 ESP
ESP 即 NHLBI Exome Sequencing Project, 多機(jī)構(gòu)合作開展的一個大型的外顯子測序項目，主要目的是通過NGS技術(shù)對不同人群進(jìn)行SNP分型，重點關(guān)注心臟，肺，血液相關(guān)疾病的研究。相比起來起搜索界面友好度更高，但涵蓋的數(shù)據(jù)類型有所側(cè)重。

3.1.3 1000genome
來源于1000 Genome Project ，其目標(biāo)是發(fā)現(xiàn)在人群中頻率大于1%的變異位點，對來自不同人群的大量樣本進(jìn)行測序進(jìn)而為人類遺傳變異的研究提供了一個綜合庫，后臺數(shù)據(jù)包含data、 release、 sequence_indices、 alignment_indices、 technical 和 changelog_details六個結(jié)構(gòu)，其中sequence_indices、 alignment_indices是其中的關(guān)注重點。理論上，其后臺數(shù)據(jù)量相對較大。
千人基因組計劃有兩個主要的 ftp 站點鏡像：

ftp://ftp.1000genomes.

ftp://ftp-trace.ncbi./1000genomes/

需要注意的是我們這里不討論COSMIC這個數(shù)據(jù)庫，該數(shù)據(jù)庫更多專注于癌癥相關(guān)遺傳信息。

3.2 突變致病性分析

Mutation deleterious prediction就是我們通常說的突變致病性：

Database	websites
PROVEAN	http://provean./index.php
Polyphen-2	http://genetics.bwh./pph2/dokuwiki/downloads
SIFT	https://sift.bii.
MutationTaster	http://www.

3.2.1 SIFT
在導(dǎo)入FASTA結(jié)構(gòu)后，基于保守性原理預(yù)測氨基酸的變化對蛋白功能造成的影響。其中保守程度是比對進(jìn)化關(guān)系較近的蛋白序列得到，分值（SIFT-score）表示突變對蛋白序列的影響，一般選擇的cutoff為0.05 ：SIFT值小于0.05為有害（D：Deleterious），大于0.05表示容忍（T：Tolerance）

3.2.2 Polyphen-2
PolyPhen-2在預(yù)測氨基酸替換對蛋白質(zhì)的影響時，通過已有的蛋白質(zhì)注釋數(shù)據(jù)庫（如UniProtKB/Swiss-Prot)，鑒定某個替換 (substitution) 是否落在某個特殊的區(qū)域/位置等因素，結(jié)合有監(jiān)督的機(jī)器學(xué)習(xí)模型，計算出氨基酸替換改變蛋白質(zhì)結(jié)構(gòu)和功能的可能性。提供了兩套用于建模的數(shù)據(jù)，HumDiv和HumVar。前者適用于評估孟德爾遺傳病相關(guān)的突變位點，HumDiv適用于評估復(fù)雜疾病或者表型的突變位點。最終輸出3個參考值：蛋白質(zhì)結(jié)構(gòu)和功能發(fā)生改變的概率值，假陽性率FPR，真陽性率TPR。

3.2.3 PROVEAN
預(yù)測SNP或者InDel是否影響蛋白質(zhì)的生物功能，可對CDS區(qū)域的非同義突變和非移碼InDel對蛋白功能的影響進(jìn)行預(yù)測，結(jié)果分為：危害、可以容忍、無害三大類層次。

小結(jié)：利用 SIFT、PolyPhen-2以及PROVEAN軟件, 預(yù)測 SNV對蛋白質(zhì)功能的影響程度，僅當(dāng)3種軟件均預(yù)測同一遺傳變異對蛋白質(zhì)的功能影響較大時，才認(rèn)定該遺傳變異具有高危害性。利用 PROVEAN軟件預(yù)測Indel對蛋白質(zhì)功能的影響。

3.3 突變相關(guān)疾病分析

突變相關(guān)的疾病注釋也有若干流行數(shù)據(jù)庫。

Database	Websites
HGMD	（http://www.hgmd./ac/index.php）
ClinVar	https://www.ncbi.nlm./clinvar/

3.3.1 HGMD
HGMD = The Human Gene Mutation Database 該人類基因突變庫創(chuàng)立于1996年，目前包括240,269個變異，覆蓋9976個基因。收集的突變包含了SNP、InDel、CNV、SV、基因重組等，可以說是遺傳病變異檢測金標(biāo)準(zhǔn)數(shù)據(jù)庫。但是開源版釋放速度較慢。

3.3.2 ClinVar
綜合性的已報道突變與疾病表型關(guān)聯(lián)數(shù)據(jù)庫，創(chuàng)立于2013年，數(shù)據(jù)主要來源是OMIM、dbSNP、locus specific database等開源數(shù)據(jù)庫的整合，因為數(shù)據(jù)的開源性，數(shù)據(jù)的真實性有待考量。

小結(jié)：和之前的分析致害性數(shù)據(jù)庫類似，需要多數(shù)據(jù)集聯(lián)合分析。

三、個性化分析數(shù)據(jù)

在進(jìn)行完pipeline分析后，我們可能需要根據(jù)研究項目的具體需求深入挖掘我們研究的背景，一方面基于文獻(xiàn)內(nèi)容進(jìn)行醫(yī)學(xué)背景知識的挖掘，可嘗試自行建庫；另一方面也可以可以結(jié)合突變的意義進(jìn)行功能和下游機(jī)制研究。

總體而言，醫(yī)學(xué)遺傳數(shù)據(jù)的體量是巨大的，活用和了解這些數(shù)據(jù)庫的特點，不僅僅是醫(yī)學(xué)科研數(shù)據(jù)挖掘的必然需求，更是分享開源知識時代的必然產(chǎn)物。

參考資料：

https://www.jianshu.com/p/5696d6204446
https://www.jianshu.com/p/c7daf2290d40
Wright, C.F., FitzPatrick, D.R. and Firth, H.V. Paediatric genomics: diagnosing rare disease in children.
Biesecker, L.G. and Spinner, N.B. A genomic view of mosaicism and human disease.
Caspar, S.M., Dubacher, N., Kopps, A.M., Meienberg, J., Henggeler, C. and Matyas, G.A.-O. Clinical sequencing: From raw data to diagnosis with lifetime value.