一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

Bioconductor注釋專題:BSgenome(85)

 微笑如酒 2018-04-06

基于Biostrings的基因組數(shù)據(jù)包

Bioconductor項(xiàng)目提供了包含給定生物體全基因組序列的數(shù)據(jù)包。這些軟件包稱為基于Biostrings的基因組數(shù)據(jù)包,因?yàn)樗鼈儼男蛄写鎯?chǔ)在Biostrings軟件包中定義的一些基本容器中,如DNAString,DNAStringSet或MaskedDNAString容器。不管它們包含的特定序列數(shù)據(jù)如何,所有的基于生物基因組的基因組數(shù)據(jù)包非常相似,可以以一致且簡(jiǎn)單的方式進(jìn)行操作。為了正常工作,他們都需要使用BSgenome軟件包。不同于基于Biostrings的基因組數(shù)據(jù)包,這個(gè)軟件包與是一個(gè)提供支持它們所需基礎(chǔ)的軟件包(這就是為什么基于Biostrings的基因組數(shù)據(jù)包也稱為BSgenome數(shù)據(jù)包)。 BSgenome軟件包本身需要Biostrings軟件包。

安裝BSgenome包(如果沒(méi)有安裝)

  1. source('https:///biocLite.R')

  2. biocLite('BSgenome.Hsapiens.UCSC.hg19')

載入BSgenome包,并查看當(dāng)前版本提供的BSgenome數(shù)據(jù)包:

  1. library(BSgenome)

  2. (ag <- available.genomes())

  3. unique(gsub('BSgenome\\.([^\\.]+).*', '\\1', ag))

通過(guò)運(yùn)行結(jié)果可得知,當(dāng)前版本提供了24個(gè)物種基因組包

  1. [1] 'Alyrata'       'Amellifera'    'Athaliana'    

  2. [4] 'Btaurus'       'Celegans'      'Cfamiliaris'  

  3. [7] 'Dmelanogaster' 'Drerio'        'Ecoli'        

  4. [10] 'Gaculeatus'    'Ggallus'       'Hsapiens'    

  5. [13] 'Mfascicularis' 'Mfuro'         'Mmulatta'    

  6. [16] 'Mmusculus'     'Osativa'       'Ptroglodytes'

  7. [19] 'Rnorvegicus'   'Scerevisiae'   'Sscrofa'      

  8. [22] 'Tgondii'       'Tguttata'      'Vvinifera'  

獲取Ecoli 的BSgenome數(shù)據(jù)包,bing載入BSgenome.Ecolide包,查看數(shù)據(jù)信息:

  1. biocLite('BSgenome.Ecoli.NCBI.20080805')

  2. library(BSgenome.Ecoli.NCBI.20080805)

結(jié)果如下:

  1. [1] 'BSgenome.Ecoli.NCBI.20080805'

  2. [2] 'Ecoli'

查看數(shù)據(jù)包的概況:

E. coli genome:

  1. # organism: Escherichia coli (E. coli)

  2. # provider: NCBI

  3. # provider version: 2008/08/05 (發(fā)行日期)

  4. # release date: NA

  5. # release name: NA

  6. # 13 sequences: (包含的序列)

  7. #   NC_008253 NC_008563 NC_010468

  8. #   NC_004431 NC_009801 NC_009800

  9. #   NC_002655 NC_002695 NC_010498

  10. #   NC_007946 NC_010473 NC_000913

  11. #   AC_000091                    

  12. # (use 'seqnames()' to see all the

  13. # sequence names, use the '$' or '[['

  14. # operator to access a given sequence)

獲取每個(gè)染色體的名字還有其對(duì)應(yīng)的長(zhǎng)度:

  1. > seqnames(Ecoli)

  2. [1] 'NC_008253' 'NC_008563' 'NC_010468'

  3. [4] 'NC_004431' 'NC_009801' 'NC_009800'

  4. [7] 'NC_002655' 'NC_002695' 'NC_010498'

  5. [10] 'NC_007946' 'NC_010473' 'NC_000913'

  6. [13] 'AC_000091'

  7. > seqlengths(Ecoli)

  8. NC_008253 NC_008563 NC_010468 NC_004431

  9.  4938920   5082025   4746218   5231428

  10. NC_009801 NC_009800 NC_002655 NC_002695

  11.  4979619   4643538   5528445   5498450

  12. NC_010498 NC_007946 NC_010473 NC_000913

  13.  5068389   5065741   4686137   4639675

  14. AC_000091

  15.  4646332

查看其中一條染色體

  1. Ecoli$NC_008253

  2.  4938920-letter 'DNAString' instance

  3. seq: AGCTTTTCATTCTGAC...TTAGTAAGTGATTTTC

查看NC_008253序列中GC的數(shù)量

  1. > letterFrequency(Ecoli$NC_008253,'GC')

  2.    G|C

  3. 2495020

查看NC_008253序列中GC的含量

  1. > letterFrequency(Ecoli$NC_008253,'GC',as.prob=TRUE)

  2.      G|C

  3. 0.5051752

結(jié)合sapply函數(shù)統(tǒng)計(jì)堿基組成和GC含量

  1. #統(tǒng)計(jì)堿基組成

  2. > sapply(seqnames(Ecoli), function(x) alphabetFrequency(Ecoli[[x]]))

  3.  NC_008253 NC_008563 NC_010468

  4. A   1222723   1256126   1164516

  5. C   1251581   1285309   1204681

  6. G   1243439   1283517   1209555

  7. T   1221177   1256945   1167466

  8. M         0        11         0

  9. R         0        34         0

  10. W         0        25         0

  11. S         0        17         0

  12. Y         0        24         0

  13. K         0        16         0

  14. V         0         0         0

  15. H         0         0         0

  16. D         0         0         0

  17. B         0         0         0

  18. N         0         1         0

  19. -         0         0         0

  20. +         0         0         0

  21. .         0         0         0

  1. 統(tǒng)計(jì)GC含量

  2. > sapply(seqnames(Ecoli), function(x) letterFrequency(Ecoli[[x]], letters = 'GC',

  3. +                                                         as.prob = TRUE))

  4. NC_008253.G|C NC_008563.G|C NC_010468.G|C NC_004431.G|C NC_009801.G|C

  5.    0.5051752     0.5054729     0.5086652     0.5047480     0.5062162

  6. NC_009800.G|C NC_002655.G|C NC_002695.G|C NC_010498.G|C NC_007946.G|C

  7.    0.5081961     0.5038297     0.5053706     0.5049668     0.5060419

  8. NC_010473.G|C NC_000913.G|C AC_000091.G|C

  9.    0.5078129     0.5078970     0.5079958

學(xué)習(xí)心得

雖然我對(duì)R也不是特別熟悉,跟著教程一個(gè)一個(gè)代碼來(lái)跑,然后逐步理解也不難,希望大家也可以像我一樣做到。最后也給大家推薦Coursera上講解BSgenome專題的一個(gè)視頻,幫助大家進(jìn)一步理解這個(gè)包。文章鏈接:https://www./learn/bioconductor/lecture/E57YU/biostrings


    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    日本高清二区视频久二区| 国产一级性生活录像片| 国产肥女老熟女激情视频一区| 欧美一区二区在线日韩| 亚洲最新av在线观看| 日韩蜜桃一区二区三区| 日本乱论一区二区三区| 国产又粗又猛又长又黄视频| 亚洲精品国产美女久久久99| 国产超碰在线观看免费| 日韩欧美中文字幕av| 熟女乱一区二区三区四区| 亚洲综合激情另类专区老铁性| 国产乱淫av一区二区三区| 午夜国产精品国自产拍av| 国产黄色高清内射熟女视频| 亚洲一区二区欧美激情| 日本女人亚洲国产性高潮视频| 国产又黄又爽又粗视频在线| 精品一区二区三区三级视频| 欧美黑人在线一区二区| 日韩色婷婷综合在线观看| 中文字幕亚洲人妻在线视频| 亚洲欧美日韩精品永久| 91偷拍与自偷拍精品| 中国一区二区三区人妻| 大香伊蕉欧美一区二区三区| 男女一进一出午夜视频| 欧美一区二区三区在线播放| 国产肥妇一区二区熟女精品| 国产免费一区二区不卡| 久七久精品视频黄色的| 人人爽夜夜爽夜夜爽精品视频| 国产精品一区二区视频成人| 一级片黄色一区二区三区| 99久久精品午夜一区二区| 国产精品99一区二区三区| 免费大片黄在线观看日本| 久久精品亚洲情色欧美| 亚洲成人免费天堂诱惑| 肥白女人日韩中文视频|