一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

人類基因組到底有多少個(gè)基因

 BIGMER 2018-06-20

人類基因組究竟有多少基因兼談Salzberg最新bioRxiv研究


人,宇宙之精靈,萬(wàn)物之靈長(zhǎng)??茖W(xué)家,這一人類中的所謂精英群體自然擔(dān)負(fù)起了為人類的自負(fù)找尋基因證據(jù)的重任。早在上世紀(jì)六十年代,生物學(xué)家就開始了對(duì)人到底有多少基因的探索的坎坷之旅。


1964年,來(lái)自德國(guó)海德堡大學(xué)的Friedrich Vogel獨(dú)闖龍?zhí)叮律硪蝗诉M(jìn)行了歷史上對(duì)于人類基因組數(shù)目的第一次計(jì)算。為何是1964年?又到底需要多少基因才能創(chuàng)造位居萬(wàn)物靈長(zhǎng)的人類?


Vogel計(jì)算的第一個(gè)基石源于此前對(duì)于人類染色體重量的測(cè)量。Mirsky and Ris (1)通過(guò)實(shí)驗(yàn)得出人類單倍體的染色體大小為2.72 × 10?12 g。綜合其他實(shí)驗(yàn)結(jié)果,為簡(jiǎn)明,Vogel選擇了3 x 10-12g作為人類單倍體基因組的重量。已知一對(duì)核苷酸的質(zhì)量為1.026 x 10-21gGC對(duì)和AT對(duì)相差甚微),據(jù)此Vogel估算人類基因組的大小為30億個(gè)堿基對(duì)——這一估算與今天的測(cè)序結(jié)果驚人接近。


Vogel的第二個(gè)基礎(chǔ)來(lái)自上世紀(jì)60年代初對(duì)血紅蛋白(hemoglobin)的alphabeta亞基的氨基酸序列的破解,結(jié)果表明它們分別有141146個(gè)氨基酸。Vogel認(rèn)為,根據(jù)斯韋德貝里法則(Svedberg's law),許多蛋白是多亞基(multi-subunit)結(jié)構(gòu),每個(gè)亞基的分子量大約是17500KDa。而如果20種氨基酸的平均分子量為128KDa,則可以計(jì)算出每個(gè)蛋白的長(zhǎng)度大約為150個(gè)氨基酸——這也是Vogel計(jì)算的第一個(gè)基本假設(shè)。當(dāng)時(shí),克里克等人剛剛提出了密碼子(codon)的規(guī)則(2),人們知道一個(gè)氨基酸由DNA上的三個(gè)堿基編碼。綜上,Vogel計(jì)算出編碼一個(gè)人的蛋白大致需要450堿基。這一數(shù)目在今天看來(lái),盡管是低估了,但也過(guò)得去。Vogel引用的斯韋德貝里法則的冠名者斯韋德貝里,是大名鼎鼎的膠體理論學(xué)家、1926年諾貝爾化學(xué)獎(jiǎng)得主,大概該結(jié)果也代表了當(dāng)時(shí)人類的最高認(rèn)知水平吧。


如果到此為止,Vogel的這篇文章可以說(shuō)是沒(méi)有什么破綻的,但大概也不會(huì)入Nature挑剔的編輯和審稿人的法眼。為計(jì)算人類基因的總數(shù),Vogel進(jìn)一步作了下面兩假設(shè):一是編碼每個(gè)基因的序列都是連續(xù)的,二是人類基因組從頭至尾全都是編碼蛋白的序列(也就是不存在所謂的非編碼區(qū))。于是,Vogel得出了人類基因組含有6.7x106個(gè)基因的結(jié)論。


這一在今天看起來(lái)有些滑稽的結(jié)果在當(dāng)年確是合理且引人入勝的。要知道,Vogel做出得一結(jié)果的時(shí)候距離SharpRoberts發(fā)現(xiàn)內(nèi)含子尚有13年之久,且人類對(duì)于基因組中非編碼區(qū)更是一無(wú)所知。總之,這些因素,都嚴(yán)重影響了Vogel的計(jì)算,導(dǎo)致其極其嚴(yán)重高地估了基因數(shù)目。


人類基因組的注釋著極為重要的意義,對(duì)包括外顯子測(cè)序(更多內(nèi)容請(qǐng)看外顯子測(cè)序課程),GWAS,醫(yī)學(xué)研究,進(jìn)化及群體遺傳分析等在內(nèi)的領(lǐng)域都有重要價(jià)值。對(duì)人類基因組基因數(shù)目的估算也在接下來(lái)的幾十年間令各國(guó)學(xué)者趨之若鶩。


1990年,來(lái)自美國(guó)國(guó)家健康中心(NIH)和美國(guó)能源部(DOE)的在人類基因組項(xiàng)目報(bào)告中進(jìn)行了另一次計(jì)算,作者認(rèn)為每個(gè)基因的長(zhǎng)度大概是3萬(wàn)個(gè)堿基對(duì),且認(rèn)為非編碼區(qū)的長(zhǎng)度可以忽略。最終,作者們得到的結(jié)論是10萬(wàn)個(gè)基因。 


后面,又有多篇paper對(duì)人類基因組的數(shù)目進(jìn)行計(jì)算,結(jié)果大概是5萬(wàn)-10萬(wàn)個(gè)基因之間(3-5)。20006月,來(lái)自TIGRThe Institute for Genomic Research)的幾位科學(xué)家通過(guò)對(duì)于EST序列的分析和新算法的設(shè)計(jì),將這一數(shù)字提高到了12萬(wàn)(6)。殊不知,這也是人類對(duì)于自己基因數(shù)目的最后一次超過(guò)10萬(wàn)的估計(jì)。僅半年后,這篇文章的作者們就扇了自己的臉——但沒(méi)刪自己的論文——他們通過(guò)correction的形式修改了自己的結(jié)論,將預(yù)測(cè)結(jié)果縮小到56,960 ~ 81,273。

2001年,人類基因組測(cè)序——生物界的阿波羅登月計(jì)劃——在激烈的競(jìng)爭(zhēng)和全世界人民的關(guān)注下完成。之所以有競(jìng)爭(zhēng),是因?yàn)橛袃杉覉F(tuán)隊(duì)獨(dú)立地展開了對(duì)人類基因組的測(cè)序。一支是包括我國(guó)學(xué)者在內(nèi)來(lái)自六個(gè)國(guó)家的國(guó)際合作項(xiàng)目,他們發(fā)表在Nature上的文章預(yù)測(cè)人類基因組含有3萬(wàn)~4萬(wàn)個(gè)基因(7)。另一邊廂,特立獨(dú)行的科學(xué)狂人克雷格·文特爾(J. Craig Ventor)由于所提出的鳥槍法(shotgun)思路不被國(guó)際合作組織采納,干脆另立門戶于1998年成立賽雷拉公司(Celera Genomics)槍挑六國(guó)聯(lián)軍,并迎頭趕上(文章同時(shí)刊發(fā)在Science上),最后得到的人類基因組大小為26,588“高可信度(筆者注)加~12000弱支持度(week supporting evidence)基因。這兩個(gè)結(jié)果,無(wú)論哪一個(gè),都讓人類對(duì)自己基因數(shù)目有了重新認(rèn)識(shí):它遠(yuǎn)比人類早前的想象要小。


2004年,國(guó)際合作團(tuán)隊(duì)對(duì)人類基因組序列進(jìn)行了一次重要更新,將自己之前的預(yù)測(cè)由3-4萬(wàn)縮小到2-2.5萬(wàn)(8)。人們驚訝地發(fā)現(xiàn),自己的基因竟然少過(guò)當(dāng)時(shí)剛剛完成測(cè)序的模式植物、擬南芥(Arabidopsis thaliana——一種連運(yùn)動(dòng)功能都不具備的野草,也同分類學(xué)上被人類歸為低等動(dòng)物、大小僅1-2毫米的秀麗隱桿線蟲(Caenorhabditis elegans)相差不多。生物學(xué)家曾經(jīng)認(rèn)為生物的復(fù)雜性和基因數(shù)目成正比,但在如山的鐵證面前,自詡為萬(wàn)物靈長(zhǎng)的人類要改變下自己的思維了。


后來(lái)的研究將人的基因數(shù)繼續(xù)縮小。2009年,人類對(duì)于自己的認(rèn)識(shí)達(dá)到了最為謙卑的狀態(tài)(9)——Mammalian Gene Collection團(tuán)隊(duì)稱人類基因組只有18877個(gè)基因(10)。不過(guò)好在到2017年底,NCBIrefseq數(shù)據(jù)庫(kù)中的最新版本的人類基因組注釋還是讓人基因組的基因數(shù)目突破了20000大關(guān)(20,054個(gè)蛋白編碼基因)。而在另一家常用的數(shù)據(jù)庫(kù)Gencode里,注釋了19817個(gè)基因(11)。


529日,享有Bowtie之父美譽(yù)的著名生物信息學(xué)家Steven SalzbergbioRxiv生物學(xué)預(yù)印本服務(wù)器上發(fā)布了自己團(tuán)隊(duì)的最新成果:通過(guò)對(duì)9,795個(gè)RNA-seq實(shí)驗(yàn)結(jié)果的整合、分析,對(duì)人類基因組進(jìn)行了重新的注釋。這項(xiàng)成果實(shí)際上也是GTEx項(xiàng)目Genotype-Tissue Expression Project)的一個(gè)組成部分。

BtwSalzberg,這位來(lái)自約翰霍普金斯大學(xué)的科學(xué)家是開放科學(xué)(open science)的忠實(shí)擁躉,近期就有大量manuscript投放到bioRxiv上,這一點(diǎn)在生信人早前的文章里也有報(bào)道(水熊蟲基因組烏龍事件的意義)。


作者采用的分析方法如下圖所示,其中用到的好幾個(gè)軟件都打著“Made in Salzberg Lab”的標(biāo)簽。

圖片來(lái)自(11),版權(quán)CC-BY4.0

作者首先對(duì)收集得到的近10000個(gè)RNA-seq樣本進(jìn)行轉(zhuǎn)錄組組裝,得到了30,467,424個(gè)轉(zhuǎn)錄本transcript)。作者用一些列條件定義了protein coding gene,包括TPM閾值,ORF長(zhǎng)度、在其他生物種有無(wú)BLAST hit等。通過(guò)和目前人類基因組注釋的比較,作者發(fā)現(xiàn)了1,178個(gè)新的蛋白基因。加上和Refseqoverlap的轉(zhuǎn)錄本,作者們最終得到21,232個(gè)編碼蛋白質(zhì)的基因。作者們接下來(lái)對(duì)refseq里面注釋的15,779個(gè)長(zhǎng)非編碼RNA(lncRNA)進(jìn)行了“質(zhì)量檢驗(yàn)”。作者進(jìn)行了ORF預(yù)測(cè),截取含有較長(zhǎng)ORF的lncRNA基因,對(duì)它們?cè)谄渌锓N中進(jìn)行BLAST搜索,如果達(dá)到一定標(biāo)準(zhǔn)(E-value of 10-15,75% length)則認(rèn)為是潛在的protein coding gene。又經(jīng)過(guò)其他一些檢測(cè)之后,作者最終得到了21306個(gè)編碼蛋白質(zhì)的基因。


對(duì)沒(méi)有比對(duì)到編碼蛋白基因的轉(zhuǎn)錄本,作者把它們歸為非編碼RNA。作者找到了3,819個(gè)lncRNA 基因位點(diǎn)(gene locus)。其中,超過(guò)三分之一是反義(antisense)轉(zhuǎn)錄本,很多來(lái)自內(nèi)含子。把這些lncRNA和之前發(fā)現(xiàn)的lncRNA加起來(lái),作者最終得到18,484個(gè)lncRNA。再加上其他各種非編碼RNA,最終非編碼RNA的總數(shù)是21856。


作者還分析了可變剪切的情況。每個(gè)蛋白基因平均含12.5個(gè)isoform,而lncRNA只有2.6個(gè)。


借助來(lái)自不同組織器官的豐富的RNA-seq樣本,作者用DESeq2對(duì)基因的表達(dá)情況進(jìn)行了分析。Breast成為protein-coding gene男女差異最大的器官。

圖片來(lái)自(11),CC-BY4.0

testis則擁有最多上調(diào)表達(dá)的編碼蛋白的基因。

 

圖片來(lái)自(11),CC-BY4.0


最后,需要說(shuō)明的是,基因的定義是有爭(zhēng)議的話題。人們起初認(rèn)為能表達(dá)的就是基因,但后來(lái)的轉(zhuǎn)錄組學(xué)揭示了廣泛的非編碼區(qū)轉(zhuǎn)錄現(xiàn)象,而其中的很多轉(zhuǎn)錄本可能只是轉(zhuǎn)錄噪聲(transcription noise)。這篇preprint里,作者們以轉(zhuǎn)錄證據(jù)為起點(diǎn)并試圖去除這些噪聲轉(zhuǎn)錄本,再結(jié)合進(jìn)化證據(jù),也就是說(shuō)基因要在不同物種中有一定保守性,且在不通個(gè)體中都可以看到轉(zhuǎn)錄(作者稱為reproductivity)。基于以上三點(diǎn),作者在已有的基因組注釋的基礎(chǔ)上對(duì)人類基因組進(jìn)行了新的注釋。


雖然關(guān)于人類到底有多少(編碼蛋白)基因的爭(zhēng)論可以說(shuō)暫告段落,但科學(xué)家們還在對(duì)更多與此相關(guān)的問(wèn)題進(jìn)行著火熱的研究。一方面,RNA科學(xué)家雄心勃勃地拓展著lncRNA的版圖;而另一方面,對(duì)于已知基因功能的解讀還有漫漫長(zhǎng)路。 

圖片來(lái)源:https:///academy/lesson/what-are-genes-definition-types-function.html


引文

1. Mirsky AE, Ris H. The desoxyribonucleic acid content of animal cells and its evolutionary significance. J Gen Physiol. 1951;34(4):451-62.

2. Crick FH, Barnett L, Brenner S, Watts-Tobin RJ. General nature of the genetic code for proteins. Nature. 1961;192:1227-32.

3. Schuler GD, Boguski MS, Stewart EA, Stein LD, Gyapay G, Rice K, et al. A gene map of the human genome. Science. 1996;274(5287):540-6.

4. Antequera F, Bird A. Predicting the Total Number Of Human Genes. Nature Genet. 1994;8(2):114-.

5. Fields C, Adams MD, White O, Venter JC. How Many Genes In the Human Genome. Nature Genet. 1994;7(3):345-6.

6. Liang F, Holt I, Pertea G, Karamycheva S, Salzberg SL, Quackenbush J. Gene Index analysis of the human genome estimates approximately 120,000 genes. Nature Genet. 2000;25(2):239-40.

7. Lander ES, Linton LM, Birren B, Nusbaum C, Zody MC, Baldwin J, et al. Initial sequencing and analysis of the human genome. Nature. 2001;409(6822):860-921.

8. Consortium EP. The ENCODE (ENCyclopedia Of DNA Elements) Project. Science. 2004;306(5696):636-40.

9. Pertea M, Salzberg SL. Between a chicken and a grape: estimating the number of human genes. Genome Biol. 2010;11(5).

10. Team MGCP, Temple G, Gerhard DS, Rasooly R, Feingold EA, Good PJ, et al. The completion of the Mammalian Gene Collection (MGC). Genome Res. 2009;19(12):2324-33.

11. Pertea M, Shumate A, Pertea G, Varabyou A, Chang Y-C, Madugundu AK, et al. Thousands of large-scale RNA sequencing experiments yield a comprehensive new human gene list and reveal extensive transcriptional noise. bioRxiv. 2018.

更多精彩內(nèi)容,歡迎關(guān)注生信人

一個(gè)物種一個(gè)家

TCGA | 小工具 | 數(shù)據(jù)庫(kù) |組裝注釋 |   基因家族  |  Pvalue

基因預(yù)測(cè)  |bestorf |  sci NAR | 在線工具 | 生存分析 | 熱圖

 生信不死 | 初學(xué)者 | circRNA | 一箭畫心| 十二生肖 | circos

 舞臺(tái)|基因組 | 黃金測(cè)序 | 套路 | 雜談組裝 |  進(jìn)化 | 測(cè)序簡(jiǎn)史




    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    肥白女人日韩中文视频| 成人精品国产亚洲av久久 | 国产日韩综合一区在线观看| 一区二区三区欧美高清| 国产精品丝袜美腿一区二区| 99久久国产亚洲综合精品| 欧美极品欧美精品欧美| 国产av乱了乱了一区二区三区| 国内精品偷拍视频久久| 日韩精品区欧美在线一区| 亚洲国产天堂av成人在线播放 | 美日韩一区二区精品系列| 国产亚洲精品俞拍视频福利区| 欧美不卡午夜中文字幕| 少妇高潮呻吟浪语91| 精品国产一区二区欧美| 尹人大香蕉一级片免费看| 国产中文另类天堂二区| 中国美女草逼一级黄片视频| 欧美日韩精品综合在线| 超碰在线播放国产精品| 日韩在线视频精品视频| 亚洲中文字幕乱码亚洲| 欧美日韩国产综合在线| 日韩成人中文字幕在线一区| 好吊日成人免费视频公开| 久久精品国产99国产免费| 日韩日韩日韩日韩在线| 国产黑人一区二区三区| 黄色片一区二区三区高清| 国产午夜精品美女露脸视频| 国产免费一区二区不卡| 国产原创中文av在线播放| 欧美日韩乱码一区二区三区 | 一区二区不卡免费观看免费| 国产精品乱子伦一区二区三区| 日本东京热视频一区二区三区| 日韩色婷婷综合在线观看| 亚洲最新一区二区三区| 欧美日韩精品久久亚洲区熟妇人| 亚洲国产成人精品一区刚刚|