2017-03-06OmicShare問(wèn)答第四期 基因表達(dá)量計(jì)算和差異表達(dá)分析 OmicShare問(wèn)答欄目由各位OmicShare網(wǎng)友在線交流課堂中,問(wèn)交流嘉賓的問(wèn)答整理。旨在解答眾網(wǎng)友的疑問(wèn),普度眾生。所以,你來(lái)問(wèn)我呀。 OmicShare網(wǎng)址:www.omicshare.com 問(wèn)1:3個(gè)生物重復(fù)樣品是分別建庫(kù)測(cè)序得到3個(gè)數(shù)據(jù)好,還是將3個(gè)重復(fù)樣品混合在一起,建一個(gè)文庫(kù)測(cè)序,得到一個(gè)數(shù)據(jù)好? 答:當(dāng)然是單獨(dú)建庫(kù),分別做差異分析這樣是最好的。如果混樣測(cè)序了,就沒(méi)有辦法計(jì)算組內(nèi)差異了,那么審稿人就會(huì)質(zhì)疑這個(gè)實(shí)驗(yàn)沒(méi)有重復(fù)。 問(wèn)2:在沒(méi)有重復(fù)實(shí)驗(yàn)的情況下,用RPKM要怎么做檢驗(yàn)?zāi)兀?/p> 答:如果要用泊松分布做差異分析模型的話,必須要用reads count的。只有RPKM值的話,可以用RPKM的公式反推reads count數(shù),再做檢驗(yàn)。 問(wèn)3:沒(méi)有生物學(xué)重復(fù),用DEGseq算之前需要均一化嗎? 答:理論上用Deseq或者edgeR的話,其實(shí)不需要做均一化的,只要將reads count作為輸入,軟件會(huì)自動(dòng)做相應(yīng)的處理。我們說(shuō)的均一化是說(shuō)我們需要了解方法與過(guò)程,均一化是軟件自動(dòng)完成的。 問(wèn)4:miRNA表達(dá)量是比較低的,是不是現(xiàn)在沒(méi)有生物學(xué)重復(fù),這個(gè)差異基因的檢出期望值會(huì)減少? 答:其實(shí)miRNA表達(dá)量不低,實(shí)際上表達(dá)量是相當(dāng)高。一般來(lái)說(shuō),miRNA表達(dá)量有幾個(gè)特點(diǎn),首先變異很大,現(xiàn)在在樣本內(nèi)那些高豐度的miRNA與低豐度的miRNA差異非常大,可能相差幾萬(wàn)倍甚至幾十萬(wàn)倍;另外個(gè)體間的miRNA豐度也是變異非常大的。所以做miRNA測(cè)序,往往可能得到的P值相對(duì)于轉(zhuǎn)錄組測(cè)序沒(méi)那么顯著的。 問(wèn)5:Deseq是怎么控制reads多重比對(duì)的? 答:Deseq只是一個(gè)差異分析的軟件,多重比對(duì)的分配是在Deseq之前的。Deseq是輸入的數(shù)據(jù)是已經(jīng)分配好的reads count,然后用于分析,但是如果reads 多重比對(duì)要怎么處理的,那么要使用reads分配分析軟件,例如cufflinks或Rsem軟件。所以Deseq是不能處理多重比對(duì)的,應(yīng)該之前用軟件進(jìn)行預(yù)處理。一般來(lái)說(shuō)多重比對(duì)有兩種方案: 1)如果一個(gè)reads多重比對(duì)的話,可以把多重比對(duì)的reads刪除掉, 2)使用cufflinks 和 Rsem分配比對(duì)結(jié)果bam文件; 如果不關(guān)心可變剪切的差異,策略1也是合理的。如果關(guān)心可變剪切,則建議策略2。 問(wèn)6:Deseq、edgeR和cuffdiff在處理多重比對(duì)reads的時(shí)候差別是什么? 答:Deseq 與edgeR只是一個(gè)差異分析的軟件,就是類似于做方差分析的軟件一樣。但cufflinks是個(gè)軟件包,從數(shù)據(jù)比對(duì)到reads count 到差異分析都全包了,所以如何處理多重比對(duì)的reads是與 Deseq或者edgeR是無(wú)關(guān)的。 可以用cufflinks或者RSEM來(lái)做多重比對(duì)的處理,然后做差異分析,則可以繼續(xù)選用 Cuffdiff 、Deseq或 edgeR。 問(wèn)7:用TMM標(biāo)準(zhǔn)化之后再用基于泊松分布的差異分析算法,計(jì)算差異基因靠譜嗎? 答:TMM標(biāo)準(zhǔn)化的確是獨(dú)立的方法。既然有生物學(xué)重復(fù)就不建議用泊松分布模型。因?yàn)門(mén)MM是edgeR的歸一化算法,建議后續(xù)的差異分析繼續(xù)使用edgeR。泊松分布可以做差異分析,但是這個(gè)方法無(wú)法估算生物樣本之間的個(gè)體差異。所以他最后是相當(dāng)于低估了P值,統(tǒng)計(jì)結(jié)果是存在較大假陽(yáng)性。 問(wèn)8:如果想比較環(huán)境對(duì)基因表達(dá)的差異,分別從兩個(gè)地區(qū)各取三株樣品,比較組間差異可以嗎? 答:可以。這個(gè)方法是可行的,但是有一點(diǎn),目前我們認(rèn)為RNA-seq最大問(wèn)題是如果只測(cè)三個(gè)生物學(xué)重復(fù),對(duì)模式生物來(lái)說(shuō)還是OK的,比如小鼠、擬南芥,他們個(gè)體差異很小。我們知道個(gè)體差異本來(lái)就是組內(nèi)差異的一部分。所以對(duì)于模式生物來(lái)說(shuō)一開(kāi)始個(gè)體差異是非常小的。但是如果從兩個(gè)區(qū)域取樣的話,而且非模式生物學(xué)樣本,例如林木、昆蟲(chóng),可能個(gè)體差異會(huì)比較大,容易得到組間差異不顯著的結(jié)論。所以想得到一些更穩(wěn)定的指標(biāo)的話,建議用混樣作為生物學(xué)重復(fù)來(lái)做差異比較將會(huì)更加穩(wěn)定。 用混樣作為樣本的邏輯是這樣的, 比如在某個(gè)區(qū)域取到30個(gè)樣本,然后把每10個(gè)樣本混成一個(gè)池,比如前十個(gè),中間十個(gè),后面十個(gè),構(gòu)成三個(gè)樣本池,這個(gè)時(shí)候其實(shí)這三個(gè)樣本池還是不一樣的。生物學(xué)重復(fù)本身就是假設(shè)是抽樣,從一個(gè)大樣本中抽樣,來(lái)計(jì)算抽樣誤差多大,如果將個(gè)體作為重復(fù)的話,這種個(gè)體差異比較大, 這樣就導(dǎo)致抽樣誤差比較大。但是如果以群體作為樣本的話,因?yàn)槿后w的均值更加穩(wěn)定,得到樣本間差異將更小,所以我們才會(huì)建議所有樣本混合成若干池,這樣減少抽樣誤差。 問(wèn)題8有3種解決方案:
問(wèn)9:怎么處理表達(dá)量低的基因?現(xiàn)在有沒(méi)有統(tǒng)一的標(biāo)準(zhǔn)呢?比如說(shuō)RPKM或者counts為多少的時(shí)候可以忽略不計(jì)或者近似看成某個(gè)值? 答:表達(dá)量低的基因目前沒(méi)有標(biāo)準(zhǔn),一般文獻(xiàn)認(rèn)為RPKM值小于1或者小于4 或者這個(gè)基因的reads數(shù)量小于1或者小于3就認(rèn)為是不表達(dá)的。一般情況下,一個(gè)基因的表達(dá)量極低比如RPKM值為小于1,這個(gè)基因就被認(rèn)為低豐度,至少是沒(méi)有太大生物學(xué)意義。 當(dāng)然如果處理組或者對(duì)照組,兩組RPKM值都小于1,那么這個(gè)基因豐度如此低,那么他是沒(méi)有多大生物學(xué)意義的,所以對(duì)后續(xù)分析與討論這樣的基因可以忽略不計(jì)。我們認(rèn)為這些基因完全可以在結(jié)果里剔除。 |
|