本文首發(fā)于“百味科研芝士”微信公眾號(hào),轉(zhuǎn)載請(qǐng)注明:百味科研芝士,F(xiàn)ocus科研人的百味需求。
SNP(single nucleotide polymorphism),單核苷酸多態(tài)性,在基因組上由單個(gè)核苷酸變異形成的遺傳標(biāo)記,一般指變異頻率大于1%的單核苷酸變異。
用英文的描述方法是這樣的“If more than 1% of a population does not carry the same nucleotide at a specific position in the DNA sequence, then this variation can be classified as a SNP.”,值得注意的一個(gè)詞是“population”同英文文章中對(duì)樣本表述的“array”,指的是在一大群個(gè)體中出現(xiàn)大于1%個(gè)體中基因組DNA上某個(gè)特定位點(diǎn)堿基較參考基因組發(fā)生變化,則認(rèn)為是一個(gè)SNP。在人類(lèi)基因組中大概每1000個(gè)堿基就有一個(gè)SNP, 人類(lèi)基因組上的SNP 總量大概是3 ×10^6 個(gè)。因此,SNP成為第三代遺傳標(biāo)志,人體許多表型差異、對(duì)藥物或疾病的易感性等等都可能與SNP有關(guān)。
SNP發(fā)生的類(lèi)型
SNP發(fā)生包括轉(zhuǎn)換、顛換、插入和缺失,理論上每個(gè)位點(diǎn)都可以有4種形式的變異,但是實(shí)際上發(fā)生的只有轉(zhuǎn)換和顛換兩種,據(jù)說(shuō)發(fā)生轉(zhuǎn)換和顛換頻率是2:1。如果你注意到了,你會(huì)發(fā)現(xiàn)在發(fā)生的轉(zhuǎn)換中總是A突變成G,C突變成T,而且即使是轉(zhuǎn)換,C>T的概率也要大于A>G的概率,這就是為什么研究的SNP為啥會(huì)經(jīng)常是C>T或者A>G了。補(bǔ)充一下:AT結(jié)合與CG結(jié)合中結(jié)合鍵是不同的:CG之間是三鍵結(jié)合,AT之間是雙鍵結(jié)合,因此CG的結(jié)合力要比AT強(qiáng),也就是說(shuō)需要更高的溫度,才能使得CG解鏈,這個(gè)溫度相對(duì)應(yīng)的關(guān)鍵參數(shù)就是Tm值,也就是解鏈一半時(shí)候的溫度。
轉(zhuǎn)換
[一種能量形式變成另外一種能量形式],即嘌呤變嘌呤或者嘧啶變嘧啶,主要發(fā)生在CG序列,由于CG(可以聯(lián)想一下研究DNA甲基化常談到的CpG島)中的C堿基常發(fā)生甲基化(mC),可自發(fā)脫氨形成胸腺嘧啶(T),即常常發(fā)生的轉(zhuǎn)化是C to T。
顛換
異型堿基的置換,一個(gè)嘌呤被另外一個(gè)嘧啶替換或一個(gè)嘧啶被另外一個(gè)嘌呤置換,即嘌呤變嘧啶,或者嘧啶變嘌呤。(主要為A變T/C,G變T或C)
SNP發(fā)生的位置
SNP可以發(fā)生基因組的任何位置,基因編碼區(qū)/基因非編碼區(qū)/基因間區(qū)等,具體機(jī)制其實(shí)說(shuō)也說(shuō)不清,因?yàn)榇蠖鄶?shù)SNP不是在外顯子上的?;旧隙际沁M(jìn)化過(guò)程中的一些基因的突變,所以一般都不會(huì)是特別關(guān)鍵的位置。當(dāng)然也不能說(shuō)完全沒(méi)有功能,有的會(huì)導(dǎo)致可變剪接,或者有的會(huì)導(dǎo)致表觀上的變化。所以SNP的研究面會(huì)比較廣,所以會(huì)有GWAS這樣的項(xiàng)目。關(guān)系如下:
發(fā)生在編碼區(qū)
先補(bǔ)充一個(gè)概念:密碼子簡(jiǎn)并性(氨基酸對(duì)應(yīng)三聯(lián)密碼子),所以發(fā)生SNP不一定會(huì)引起編碼氨基酸的改變,這就引入了Synonymous SNP(同義突變,不引起任何變化)和Non-Synonymous SNP(非同義突變,大家關(guān)注的焦點(diǎn))概念。對(duì)于不引起編碼氨基酸變化的即為同義突變,引起氨基酸變化的則為非同義突變。
非同義突變又可分為錯(cuò)義突變和無(wú)義突變
錯(cuò)義突變:編碼的某種氨基酸的密碼子變成另一種氨基酸密碼子,從而多肽鏈的氨基酸種類(lèi)和序列發(fā)生改變,錯(cuò)義突變通常會(huì)使多肽鏈喪失原有功能。
無(wú)義突變:編碼某一氨基酸的密碼子變成UAA、UGA或UAG(終止密碼子),導(dǎo)致多肽鏈翻譯的中止,從而形成一條不完整的多肽鏈。
發(fā)生在基因非編碼區(qū)或基因間區(qū)
可能會(huì)影響轉(zhuǎn)錄因子與DNA結(jié)合、影響非編碼RNA序列、影響基因的剪接、mRNA的降解等。
SNP的命名
SNP的命名是很混亂的,你會(huì)看到RS1800947或者NG_000004.3以及CYP3A5*3,看到這大家是不是慌了?這都是什么鬼?
其實(shí)不同的組織機(jī)構(gòu)命名不一樣,并且堅(jiān)持自己的命名方法。關(guān)于snp位點(diǎn)的命名其實(shí)并不統(tǒng)一,大家在文獻(xiàn)中一般用的都是習(xí)慣或者說(shuō)慣用名稱。具體表現(xiàn)在以下幾種形式:
1、RS命名法
RS命名法也被稱為GenBank官方的refSNP ID單核苷酸多態(tài)性命名法,其是相對(duì)比較完善的命名體系,命名方法是rs+6/7位阿拉伯?dāng)?shù)字,包括前后序列,位置信息,分布頻率等。如果已知一個(gè)SNP的refSNP ID,那么就可以在GenBank的SNP數(shù)據(jù)庫(kù)中搜索到相關(guān)的信息和在基因組中的位置了。
網(wǎng)址:http://www.ncbi.nlm./snp/
譬如我搜索rs776746,你會(huì)發(fā)現(xiàn)CYP3A5、ZSCAN25和RS776746是一個(gè)東西。
2、突變信息之間加上位置信息:
主要有三種方式:
突變信息之間+cDNA的位置,如C188T;
突變信息之間加上DNA的位置,如A2546G;
突變氨基酸信息之間加上氨基酸位置,如Glu145Lys.
3、按發(fā)現(xiàn)順序或頻率順序擬定的慣用名稱:
用*表示的,如CYP2D6*10,CYP2C9*3等。
前面加個(gè)m,表示突變的,如cyp2c19m2等,
還有一些也可以在文獻(xiàn)中見(jiàn)到,如CYP2E1的c1>c2的突變等等。其實(shí)這就是一種非常不正規(guī)的用HGVS Names標(biāo)注SNP位置的方法,很明顯,由于缺少引用核酸序列的接受號(hào),因此讀者無(wú)法從這樣的表示在GenBank中查到對(duì)應(yīng)的信息。
4、HGVS命名法:
HGVS是Human Genome Variation Society (人類(lèi)基因組變異協(xié)會(huì)) 的簡(jiǎn)稱,是一個(gè)非政府的民間學(xué)術(shù)組織,其官方網(wǎng)站的網(wǎng)址:http://www./。
HGVS命名SNP法的規(guī)則是標(biāo)出引用的核酸序列號(hào)(Reference Sequence,RefSeq)和SNP在該核酸序列中的位置,例如:NG_000004.3:g.247167G>A,其中紅色的部分是核酸序列接受號(hào),綠色的部分是該單核苷酸多態(tài)性位點(diǎn)在該核酸序列中的位置,G>A表示原始?jí)A基是G,突變堿基是A。這樣的命名方法有利于找出所在基因序列中的位置。
OK,今天就先和大家分享到這,下期我們繼續(xù)分享兩個(gè)數(shù)據(jù)庫(kù)的使用。