一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

轉錄組的高級分析前該如何標準化數(shù)據(jù)?

 健明 2021-07-14

我們在本周推送了兩篇關于TCGA數(shù)據(jù)的使用, 其中伸出我的小腳,將TCGA輕輕絆倒,然后叉腰哈哈笑 一文詳細描述了TCGA數(shù)據(jù)從下載到分析的全過程。在制作表達譜進行下游WGCNA和GSEA分析時,數(shù)據(jù)標準化的工具選擇留下深坑,今日作答。

1背景知識

一般的轉錄組數(shù)據(jù)處理流程是:

測序數(shù)據(jù)是100 bp的單端read,用Rsubread比對到mouse reference genome(mm10), 然后使用featureCounts統(tǒng)計每個基因的count數(shù)。然后用TMM進行標準化,轉換成log2 counts per million.最后用limma包對每個樣本每個基因的平均表達值以觀察水平權重的線性模型進行擬合,并用T檢驗找到不同群體的差異表達基因。以FDR + log2-fold-change對基因排序。 參考文獻:A pooled shRNA screen for regulators of primary mammary stem and progenitor cells identifies roles for Asap1 and Prox1

以前是用基因芯片得到樣本各個基因的表達量,服從正態(tài)分布,但是RNA-Seq,它的抽樣過程是離散的,結果是reads count是矩陣,服從泊松分布,樣本間的差`異是服從負二向分布。

這篇文章中對reads count的基因表達矩陣做的是TMM轉換,trimmed mean of M values,被包裝到了edgeR這個R包里面,是2010年提出的方法,理論上是優(yōu)于RPKM: reads per kilobase per million mapped 這種normalization方法的。但是目前主流其實是DESeq2包的rlog和方差齊性轉換,統(tǒng)計學原理不一樣。

2 rlog和方差齊性轉換區(qū)別

許多常見的多維數(shù)據(jù)探索性分析的統(tǒng)計分析方法,例如聚類和主成分分析要求,在那些同方差性的數(shù)據(jù)表現(xiàn)良好。所謂的同方差性就是雖然平均值不同,但是方差相同。

但是對于RNA-Seq count數(shù)據(jù)而言,當均值增加時,方差期望也會提高。也就說直接對count matrix或標準化count(根據(jù)測序深度調(diào)整)做PCA分析,由于高count在不同樣本間的絕對差值大,也就會對結果有很大影響。簡單粗暴的方法就是對count matrix取log后加1。這個1也是約定俗成,看經(jīng)驗了。

隨便舉個栗子看下效果:

  1. lambda <- 10^seq(from = -1, to = 2, length = 1000)

  2. cts <- matrix(rpois(1000*100, lambda), ncol = 100)

  3. library(vsn)

  4. meanSdPlot(cts, ranks = FALSE)

mark
  1. log.cts.one <- log2(cts + 1)

  2. meanSdPlot(log.cts.one, ranks = FALSE)

mark

DESeq2為count數(shù)據(jù)提供了兩類變換方法,使得不同均值的方差趨于穩(wěn)定:regularized-logarithm transformation or rlog(Love, Huber, and Anders 2014)和variance stabilizing transformation(VST)(Anders and Huber 2010)用于處理含有色散平均趨勢負二項數(shù)據(jù)。

2.1 到底用啥

數(shù)據(jù)集小于30 -> rlog,大數(shù)據(jù)集 -> VST。

還有這個處理過程不是用于差異檢驗的,在DESeq分析中會自動選擇最合適的所以你更不需要糾結了。只是想需要轉錄組的表達矩陣做PCA,WGCNA,CLUSTERING等分析才用得到。

3 測試數(shù)據(jù)

  1. suppressPackageStartupMessages(library(airway))

  2. suppressPackageStartupMessages(library(DESeq))

  3. suppressPackageStartupMessages(library(DESeq2))

  4. suppressPackageStartupMessages(library(edgeR))

  5. suppressPackageStartupMessages(library(pasilla))  

  6. data(pasillaGenes)

  7. data(airway)

  8. exprSet=counts(pasillaGenes)

  9. group_list=pData(pasillaGenes)[,2]

  10. geneLists=row.names(exprSet)

  11. keepGene=rowSums(edgeR::cpm(exprSet)>0) >=2

  12. table(keepGene);dim(exprSet)

keepGene

FALSE TRUE

3545 10925

[1] 14470 7

  1. dim(exprSet[keepGene,])

[1] 10925 7

  1. exprSet=exprSet[keepGene,]

  2. rownames(exprSet)=geneLists[keepGene]

  3. (colData <- data.frame(row.names=colnames(exprSet), group_list=group_list) )

group_list

treated1fb treated

treated2fb treated

ttreated3fb treated

tuntreated1fb untreated

tuntreated2fb untreated

tuntreated3fb untreated

tuntreated4fb untreated

  1. dds <- DESeqDataSetFromMatrix(countData = exprSet,

  2.                              colData = colData,

  3.                              design = ~ group_list)

  4. dds

4 normalization對比
  1. library("dplyr")

  2. library("ggplot2")

  3. rld <- rlog(dds, blind = FALSE)

  4. head(assay(rld), 3)

  1. vsd <- vst(dds, blind = FALSE)

  2. head(assay(vsd), 3)

  1. dds <- estimateSizeFactors(dds)

  2. df <- bind_rows(

  3.  as_data_frame(log2(counts(dds, normalized=TRUE)[, 1:2]+1)) %>%

  4.    mutate(transformation = "log2(x + 1)"),

  5.  as_data_frame(assay(rld)[, 1:2]) %>% mutate(transformation = "rlog"),

  6.  as_data_frame(assay(vsd)[, 1:2]) %>% mutate(transformation = "vst"))

  7. colnames(df)[1:2] <- c("x", "y")  

  8. ggplot(df, aes(x = x, y = y)) + geom_hex(bins = 80) +

  9.  coord_fixed() + facet_grid( . ~ transformation)

結果就是轉換后更加集中了

    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    亚洲国产色婷婷久久精品| 美日韩一区二区精品系列| 中文字幕人妻av不卡| 99国产成人免费一区二区| 日韩国产中文在线视频| 亚洲高清中文字幕一区二区三区 | 色鬼综合久久鬼色88| 久久精品亚洲欧美日韩| 成人午夜视频精品一区| 手机在线不卡国产视频| 国产偷拍精品在线视频| 国产爆操白丝美女在线观看| 国产精品人妻熟女毛片av久 | 五月婷婷六月丁香在线观看| 亚洲国产中文字幕在线观看| 狠狠亚洲丁香综合久久| 欧美丝袜诱惑一区二区| 亚洲国产欧美精品久久| 欧美一级日韩中文字幕| 亚洲一区二区亚洲日本| 好吊色欧美一区二区三区顽频| 欧美在线观看视频免费不卡| 激情图日韩精品中文字幕| 日本午夜乱色视频在线观看| 欧美日韩精品久久亚洲区熟妇人| 日韩精品一区二区亚洲| 欧美成人黄色一区二区三区| 国产亚洲不卡一区二区| 人妻少妇av中文字幕乱码高清| 久久综合日韩精品免费观看| 日韩成人高清免费在线| 午夜福利黄片免费观看| 麻豆最新出品国产精品| 日韩欧美一区二区黄色| 色综合久久六月婷婷中文字幕| 俄罗斯胖女人性生活视频| 91欧美日韩国产在线观看| 色播五月激情五月婷婷| 国产伦精品一区二区三区高清版| 亚洲夫妻性生活免费视频| 午夜福利网午夜福利网|