R語言利用edgeRpackage進(jìn)行基因差異表達(dá)分析舉例

world663 2018-01-08

展開全文

實驗數(shù)據(jù)：

同一組織，分為兩組，control vs treat，每組7例sample。數(shù)據(jù)第一列為基因名，后14列為對應(yīng)的count。

##bioconductor和edgeR包的安裝

source("http:///biocLite.R")

biocLite("edgeR")

library("limma")

library("edgeR")

##讀取數(shù)據(jù)，方法隨意

rawdata<-read.delim("2.txt",header=T)

head(rawdata) #檢查讀入是否正確

y<-DGEList(counts=rawdata[,2:15],genes=rawdata[,1])

##過濾與標(biāo)準(zhǔn)化

left<-rowSums(cpm(y)>1)>=4 #過濾標(biāo)準(zhǔn)為至少one count per million (cpm)

y<-y[left,]

y<-DGEList(counts=y$counts,genes=y$genes)

y<-calcNormFactors(y)#默認(rèn)為TMM標(biāo)準(zhǔn)化

##檢查樣本的outlier and relationship

y<-plotMDS(y)

##設(shè)計design matrix

group<-factor(c('H','H','H','H','H','H','H','M','M','M','M','M','M','M'))

design <- model.matrix(~group)

y<-DGEList(counts=rawdata[,2:15],genes=rawdata[,1])

##推測dispersion（離散度）

y<-estimateGLMCommonDisp(y,design,verbose=TRUE)

y<-estimateGLMTrendedDisp(y, design)

y<-estimateGLMTagwiseDisp(y, design)

##差異表達(dá)基因，to perform quasi-likelihood F-tests:

fit <- glmQLFit(y,design)

qlf <- glmQLFTest(fit,coef=2)

topTags(qlf)#前10個差異表達(dá)基因

##or 差異表達(dá)基因，to perform likelihood ratio tests:

fit<-glmFit(y, design)

lrt<-glmLRT(fit)

topTags(lrt)#前10個差異表達(dá)基因

##火山圖

summary(de<-decideTestsDGE(qlf))##qlf或可改為lrt

detags<-rownames(y)[as.logical(de)]

plotSmear(qlf, de.tags=detags)

abline(h=c(-4,4),col='blue') #藍(lán)線為2倍差異表達(dá)基因，差異表達(dá)的數(shù)據(jù)在qlf中

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： world663 > 《生信分析》

舉報/認(rèn)領(lǐng)

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

R語言利用edgeRpackage進(jìn)行基因差異表達(dá)分析舉例