dbSNP是NCBI中專門用于存儲物種SNP位點(diǎn)信息的數(shù)據(jù)庫,網(wǎng)址如下
dbsnp有很多的版本,目前最新版本為151。在該數(shù)據(jù)庫中,需要理解以下兩種ID
對于每一個提交到dbSNP數(shù)據(jù)庫的SNP位點(diǎn), 首先會賦予一個唯一的ss ID。 由于不同研究結(jié)構(gòu)提交的SNP會存在冗余,提取SNP位點(diǎn)上下游區(qū)域的序列,比對參考基因組,如果多個ss ID 比對上相同的位置,說明這幾個SNP位點(diǎn)是冗余的,會賦予一個新的reference SNP ID, 以 對于每個
首先會給出一個綜合信息, 剩余的信息分成了多個模塊,每個模塊對應(yīng)不同的內(nèi)容。看幾個主要的模塊的信息 1. Map這部分給出了SNP位點(diǎn)在不同版本的基因組上的位置信息,可以看到,對于hg19和hg38兩個不同版本,位置差別還是挺大的。 2. fasta這部分給出SNP位點(diǎn)的序列 3. ss ID這部分可以看到 4. GeneView這部分會給出SNP對應(yīng)的染色體和基因信息,還有對轉(zhuǎn)錄本和蛋白質(zhì)的影響。 們經(jīng)常會使用dbsnp數(shù)據(jù)庫中的VCF文件,以human 為例,下載地址為
提供了common和All 兩種,All包含所有的SNP位點(diǎn),common只包含了MAF大于0.01的生殖細(xì)胞變異位點(diǎn),通常下載 |
|