RPKM,FPKM,TPM等標(biāo)準(zhǔn)化方法還有那些問題?DESeq2的標(biāo)準(zhǔn)化方法的原理就是提高中等表達(dá)基因的地位一個(gè)例子 在上一節(jié)的StatQuest生物統(tǒng)計(jì)學(xué)專題中,我們簡單直白的討論了RPKM,FPKM,TPM的定義和生物學(xué)意義,明白了RPKM,FPKM,TPM標(biāo)準(zhǔn)化方法就是為了去除基因長度和測序深度對測序Read數(shù)的影響,見StatQuest生物統(tǒng)計(jì)學(xué)專題 - RPKM,FPKM,TPM,并且在一般意義上,更推薦使用TPM標(biāo)準(zhǔn)化方法。 然而不得不說明的是,諸如DESeq2、edgeR等差異表達(dá)分析軟件都不是使用的RPKM,FPKM,TPM方法,為什么呢? RPKM,FPKM,TPM等標(biāo)準(zhǔn)化方法還有那些問題?其實(shí)TPM之類的標(biāo)準(zhǔn)化方法雖然解決了基因長度和測序深度的影響的問題,但還是不能解決一個(gè)問題:那就是測序文庫組成不同造成的差異。 什么意思呢? 我們知道RPKM,FPKM,TPM是可以解決由于測序深度的差異而引起的Read數(shù)變異,如下圖所示,樣本2#的總Read數(shù)是樣本1#的2倍,每個(gè)基因的Read數(shù)也是1#的2倍。我們知道這種Read數(shù)差異并不是基因表達(dá)的不同,而是由于測序深度不同所致,只需要將樣本1#、2#除以各自的總Read數(shù),那么這個(gè)Read數(shù)變異就會得到修正。 讓我們再考慮兩種新的情況,我們知道RNA-seq或其他高通量方法,往往是不同組織間的基因表達(dá)比較,比如肝細(xì)胞或脾細(xì)胞,他們會有一些各自特異性表達(dá)的基因,或者對于一些敲減基因的實(shí)驗(yàn),有些基因在其中一個(gè)樣本中高表達(dá),而在另一個(gè)樣本中不表達(dá)。 如下圖所示的兩個(gè)樣本,兩者的測序深度是一樣的,總Read數(shù)相同。但是由于A2M基因在樣本2#中不表達(dá),導(dǎo)致563個(gè)Read會分配到樣本2#的其他5個(gè)基因中去:如樣本2#的基因A1BG的Read數(shù)是235,大于樣本1#中的30。然而實(shí)際上這種差異并不是生物學(xué)效應(yīng)所致,而是由于基因A2M被敲減所致,并不是A1BG等5個(gè)基因在樣本2#中表達(dá)增加了,而是基因A2M在樣本2#中表達(dá)減少了。 在這種情況下,這種測序文庫組成不同的差異是RPKM,FPKM,TPM等方法無法解決的。 DESeq2的標(biāo)準(zhǔn)化方法的原理就是提高中等表達(dá)基因的地位那么如何解決這個(gè)問題呢? 本周先看一下DESeq2是如何進(jìn)行l(wèi)ibrary normalization的,DESeq2的標(biāo)準(zhǔn)化方法共有7步,看起來很繁瑣,但是原理很簡單,它有一個(gè)貫穿始終的基本思想——提高中等表達(dá)基因的地位。 而且這7步只是為了得到一個(gè)標(biāo)準(zhǔn)化因子,并進(jìn)行變換。 首先以下述數(shù)據(jù)集為例,共有3個(gè)樣本,每個(gè)樣本有3個(gè)基因: 第一步 對Read矩陣取對數(shù)變換 DESeq2默認(rèn)是使用自然對數(shù),也可以使用log2或log10。 第二歩 取各基因的平均數(shù) 要說明的是,由于樣本1的基因1的Read數(shù)是0,所以在取對數(shù)時(shí),它的值是-Inf(負(fù)無窮大),因此對基因1取平均數(shù)時(shí)就直接得出是-Inf即可。
第三步 過濾掉-Inf基因 將存在-Inf值的基因過濾掉,過濾掉的基因不再參與標(biāo)準(zhǔn)化因子的計(jì)算。
第四步 將對數(shù)矩陣減去對數(shù)均值,得到對數(shù)比值矩陣 將對數(shù)矩陣的每個(gè)Read分別減去此基因的對數(shù)矩陣。
第五步 計(jì)算每個(gè)樣本的對數(shù)比值矩陣的中位數(shù) 取中位數(shù),而不是均值,也是為了進(jìn)一步降低異常值的影響,具有較大表達(dá)差異的基因?qū)χ形粩?shù)的影響甚微??紤]到絕大部分情況下,表達(dá)差異大的基因都是很少的,所以這個(gè)“中位數(shù)”更能代表的是中等表達(dá)基因或管家基因的情況。 第六步 將對數(shù)中位數(shù)轉(zhuǎn)換為其相應(yīng)的真數(shù),得到各個(gè)樣本的標(biāo)準(zhǔn)化因子 第七步 將原始表達(dá)矩陣除以這個(gè)標(biāo)準(zhǔn)化因子 原始矩陣的每個(gè)樣本的全部Read數(shù)均除以各自的標(biāo)準(zhǔn)化因子(包括較大表達(dá)差異的基因)。 我們可以看到標(biāo)準(zhǔn)化之后,對于基因3來說,樣本1#的Read數(shù)提升,而樣本3#的Read數(shù)下降,基因3在3個(gè)樣本中的表達(dá)其實(shí)是接近的。 做一下總結(jié):
一個(gè)例子我們按照這個(gè)DESeq2的標(biāo)準(zhǔn)化方法的思想,對圖2中的數(shù)據(jù)進(jìn)行一個(gè)簡單的標(biāo)準(zhǔn)化,沒有完全按照上述的7步法,只是體會這種標(biāo)準(zhǔn)化的意思(結(jié)果沒有大的差異,但是算法并不完全正確)。
參考資料 StatQuest課程:https:///video-index/ |
|