欲練此功,先有其data。今天我們選擇的數(shù)據(jù)集為胰腺癌研究的數(shù)據(jù)集:GSE46234和GSE3325。 GSE46234數(shù)據(jù)集包括4個正常組織和4個胰腺癌組織; 首先大家需要自行獲取相應(yīng)的表達(dá)矩陣,我們也已經(jīng)整理好相應(yīng)的表達(dá)矩陣的R文件,大家可以后臺留言“表達(dá)矩陣”獲取,本案例的目的是帶著大家實(shí)現(xiàn)數(shù)據(jù)集的合并操作。 批次矯正采用sva工具包 1. 安裝加載sva包,直接install和library即可 2. 加載GSE3325數(shù)據(jù)集和GSE46234數(shù)據(jù)集,由于我們事先保存成Rdata文件,因此我們需要load進(jìn)去 3. 數(shù)據(jù)集合并,我們基于load進(jìn)去之后的變量,1為GSE3325的數(shù)據(jù),2為GSE46234的數(shù)據(jù),我們將數(shù)據(jù)集合并成一個merge_eset對象: 具體數(shù)據(jù)內(nèi)容如下: 查看一下數(shù)據(jù)集維度,發(fā)現(xiàn)為20183行,27列,每行代表一個基因,每列代表一個樣本,前面19個樣本為GSE3325數(shù)據(jù)集,后面8個樣本為GSE46234數(shù)據(jù)集,一共27個樣本 4. 整理成sva包所需要的數(shù)據(jù)類型,首先變成矩陣格式,接著將每個維度的名字變成列表,最后整理成矩陣格式的data,如下: 結(jié)果: 5. 設(shè)置需要考慮的批次效應(yīng)有哪些,一是不同的GSE號,二是不同的normal和tumor樣本數(shù)量。 可以看到先是batchType,在是modType,最后采用model.matrix生成一個mod對象即可。 6. 一行命令搞定批次去除,主要是Combat命令的使用,將我們的需要考慮的batchType,mod,作為參數(shù)填充,即可 結(jié)果如下: |
|