RNA

ypgao 2018-04-13

展開全文

差異分析的步驟：
1）比對(duì)；
2） read count計(jì)算；
3） read count的歸一化；

4）差異表達(dá)分析；

背景知識(shí)：
1）比對(duì)：
普通比對(duì)： BWA，SOAP
開大GAP比對(duì)：Tophat（Bowtie2）；
2） Read count(多重比對(duì)的問(wèn)題）：
丟棄
平均分配
利用Unique region估計(jì)并重新分配
表達(dá)量計(jì)算的本質(zhì)
目標(biāo)基因表達(dá)量相對(duì)參照系表達(dá)量的數(shù)值。
參照的本質(zhì)：
（ 1）假設(shè)樣本間參照的信號(hào)值應(yīng)該是相同的；
（ 2）將樣本間參照的觀測(cè)值校正到同一水平；
（ 3）從參照的數(shù)值，校正并推算出其他觀測(cè)量的值。

例如：Qpcr:目標(biāo)基因表達(dá)量（循環(huán)數(shù)）相對(duì)看家基因表達(dá)量（循環(huán)數(shù)）；RNA-seq:目標(biāo)基因的表達(dá)量（測(cè)序reads數(shù)），相對(duì)樣本RNA總表達(dá)量（總測(cè)序量的reads數(shù)），這是最常用的標(biāo)準(zhǔn)。
歸一化的原因及處理原則：
1）基因長(zhǎng)度
2）測(cè)序量
3）樣本特異性（例如，細(xì)胞mRNA總量，污染等）前兩者使用普通的RPKM算法就可以良好解決，關(guān)鍵是第三個(gè)問(wèn)題，涉及到不同的算法處理。

RNA-Seq歸一化算法的意義：
基因表達(dá)量歸一化：在高通量測(cè)序過(guò)程中，樣品間在數(shù)據(jù)總量、基因長(zhǎng)度、基因數(shù)目、高表達(dá)基因分布甚至同一個(gè)基因的不同轉(zhuǎn)錄本分布上存在差別。因此不能直接比較表達(dá)量，必須將數(shù)據(jù)進(jìn)行歸一化處理。

RNA-seq差異表達(dá)分析的一般原則
1）不同樣品的基因總表達(dá)量相似
2）上調(diào)差異表達(dá)與下調(diào)差異表達(dá)整體數(shù)量相似（上下調(diào)差異平衡）
3）在兩組樣品中不受處理效應(yīng)影響的基因，表達(dá)量應(yīng)該是相近的（差異不顯著）。
4）看家基因可作為表達(dá)量評(píng)價(jià)依據(jù)（待定）

不同的算法比較：
以什么數(shù)值來(lái)衡量表達(dá)量：RPKM、FPKM、TPM
以什么作為參照標(biāo)準(zhǔn)：TMM（edgeR軟件）、De seq矯正
RPKM：是Reads Per Kilobase per Million mapped reads的縮寫，代表每百萬(wàn)reads中來(lái)自于某基因每千堿基長(zhǎng)度的reads數(shù)。

本質(zhì)：
1）以reads數(shù)為計(jì)算單位；
2）對(duì)基因長(zhǎng)度（基因間的比較）和總數(shù)據(jù)量（樣本間的比較）做矯正；
RPKM的弊端
1）由于可變剪切，同一基因有效轉(zhuǎn)錄區(qū)域長(zhǎng)度未必相同（這個(gè)一般情況下可以不考慮，了解一下：Cufflinks軟件考慮了這個(gè)問(wèn)題）優(yōu)化策略：外顯子或轉(zhuǎn)錄本水平的表達(dá)量分析。
2）使用reads數(shù)計(jì)算基因表達(dá)量有輕微誤差（這里暫不展開，主要了解一下定義）優(yōu)化策略：FPKM或 TPM
3） mRNA的總量未必相等。

RPKM的優(yōu)化：FPKm

F = Fragment，即測(cè)序片段數(shù)量。這些片段都是從完整的cDNA打碎而來(lái)的；

本質(zhì)：以文庫(kù)中的片段數(shù)量為計(jì)算單位在Paired-end測(cè)序中，一個(gè)fragment就是兩條PE reads構(gòu)成的片段。由于是PE比對(duì)，理論上比SE比對(duì)更可靠。

RPKM的優(yōu)化：TPM
T = Transcripts
本質(zhì)：以轉(zhuǎn)錄本的條數(shù)為計(jì)算單位。使用轉(zhuǎn)錄本的條數(shù)（或者說(shuō)：轉(zhuǎn)錄本的測(cè)序深度），代替reads數(shù)，在一定條件下定量更準(zhǔn)，尤其樣本間表達(dá)基因總數(shù)差異很大的時(shí)候（例如，對(duì)照樣本有1萬(wàn)個(gè)基因表達(dá)，另外處理組僅有4000個(gè)基因表達(dá)）。

mRNA總量未必相等
mRNA總量不等——細(xì)胞本身不同
例如：活躍組織vs休眠的組織；癌細(xì)胞vs正常細(xì)胞
mRNA總量不等——污染

例如：核糖體污染外源RNA污染

解決方法——不同算法比較
其中歸一化算法介紹：
1）Total Count（TC）：總reads數(shù)矯正
2）Upper Quartile（UQ）：上四分之一分位數(shù)（總reads）
矯正
3）Median（Med）；中位數(shù)（總reads數(shù)）矯正
4）Quantile (Q)：基因芯片軟件limma中的校正算法；
5）RPKM：總reads數(shù)，但引入了基因長(zhǎng)度
6）幾何平均數(shù)：Deseq軟件中的算法；
7）TMM：edgeR軟件中的算法；
8）RPKM
邏輯1：不同位置數(shù)值的穩(wěn)定性不同

四分位數(shù)quartile:將數(shù)據(jù)按從小到大排列，并分成四等分，這樣得到3個(gè)分割點(diǎn)，第一個(gè)分割點(diǎn)叫做lowerquartile，第二個(gè)叫Media，第三個(gè)叫Upper quartile
很顯然，極大值具有極大不穩(wěn)定性，而且可能會(huì)顯著影
響總體之和（假設(shè)，我們之中有個(gè)馬云，我們的總收入
有什么變化？）
所以，Upper quartile和Median的數(shù)值，比總表達(dá)量之
和更加穩(wěn)定，更適合作為參照。
邏輯2：表達(dá)量居中的基因的表達(dá)量值，其數(shù)值應(yīng)該是相似的。
DESeq與edgeR，默認(rèn)情況下都使用這一的邏輯校正。（DESeq and edgeR Bioconductor packages）

Deseq：異常高表達(dá)的基因，會(huì)顯著影響細(xì)胞中的總mRNA的數(shù)量。類似的，如果樣本中受到不同程度的外源RNA，如病毒、真菌等的污染，也會(huì)顯著影響樣本總mRNA數(shù)，導(dǎo)致RPMK值的誤差。對(duì)于這樣的問(wèn)題，Deseq嘗試對(duì)數(shù)據(jù)進(jìn)行矯正（矯正因子），使表達(dá)量處于中間位置的基因表達(dá)量應(yīng)該是基本相同的（即使用表達(dá)量處于中間的基因表達(dá)量值作為參照，而減少高表達(dá)基因的作用）。

Deseq：校正因子=樣本表達(dá)中位數(shù)/所有樣本表達(dá)量中位數(shù)：回答了一個(gè)關(guān)鍵的問(wèn)題：Deseq不同差異比較組間，計(jì)算得到的表達(dá)量值不同。因
為樣本在變化，“所有樣本表達(dá)量的中位數(shù)”也在變動(dòng)。RPKM：總表達(dá)量為參照

Deseq：中位數(shù)為參照

TMM（edgeR）：與Deseq類似，在去除高表達(dá)基因和差異最大的基因后，TMM也是要找到一個(gè)加權(quán)系數(shù)，使剩余的基因在被矯正后差異倍數(shù)可能小。TMM的加權(quán)系數(shù)是基于兩兩樣本比較后推算獲得的（也就是兩組樣本的比較，將產(chǎn)生與這次比較相關(guān)的加權(quán)系數(shù)）。然后將所有基因除以這個(gè)加權(quán)系數(shù)，從而保證大部分表達(dá)量居中的基因表達(dá)量最相似。

不同RNA-seq表達(dá)量歸一化算法的區(qū)別
Deseq類的校正算法：理論上更加穩(wěn)定；但不同批次的比較會(huì)得到不同的表達(dá)量值，不利于進(jìn)行多處理組/批次數(shù)據(jù)的統(tǒng)一分析（例如，趨勢(shì)分析、共表達(dá)分析）校正會(huì)掩蓋一些問(wèn)題（例如：樣本污染）
RPKM類的算法：容易受異常高表達(dá)基因、外源污染等的干擾；但也更容易從結(jié)果的異常中，發(fā)現(xiàn)潛在問(wèn)題；得到的表達(dá)量值是恒定的，多處理組/批次的數(shù)據(jù)可以合并分析。折中的方法：使用RPKM類的算法，但需要人工檢查數(shù)據(jù)是否
異常。備注： Deseq軟件也可以關(guān)閉校正的功能。

實(shí)際經(jīng)驗(yàn)總結(jié)

總之：從多方面考慮，RPKM類算法，如果合理使用，依然是最優(yōu)的。具體問(wèn)題具體分析：在遇到問(wèn)題的時(shí)候，找到問(wèn)題的來(lái)源，從而給出解決方案（沒(méi)有完美的流程，只有最佳解決方案）

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自： ypgao > 《待分類》

舉報(bào)/認(rèn)領(lǐng)