PS:GEO2R只是適用于表達(dá)譜芯片。對(duì)于二代測(cè)序是不適用的,我們下面說到的數(shù)據(jù)類型都是表達(dá)譜芯片來進(jìn)行闡述的。 1 所謂差異分析我們?cè)谶M(jìn)行科學(xué)研究的時(shí)候,同樣也是需要比較才能得到結(jié)果的。通常我們研究一個(gè)疾病的時(shí)候,其實(shí)都會(huì)有一個(gè)隱藏的目標(biāo)伴隨著來進(jìn)行研究的。例如我們要研究TP53是否和胃癌的發(fā)生相關(guān),那我們收集的數(shù)據(jù)除了胃癌患者當(dāng)中的TP53的基因表達(dá)水平,也要收集正常對(duì)照人群的表達(dá)變化,通過兩者的對(duì)比來確定TP53的表達(dá)變化是否和胃癌有關(guān)。 2 GEO2R軟件的整體操作還是很簡(jiǎn)單的,我們需要做的就是 2.1 制定數(shù)據(jù)分組前面提到,我們需要兩組或者多組之間比較才能得到差異的結(jié)果,所以我們第一步需要做的就是來制定我們想要的分組。這里我們可以基于自己想要的分組名稱來填寫即可。 2.2 選擇相對(duì)應(yīng)的樣本在制定好分組之后,我們需要在所有數(shù)據(jù)樣本當(dāng)中來符合我們分組的樣本。我們可以通過點(diǎn)擊某一個(gè)列名來進(jìn)行排序。 2.3 進(jìn)行差異表達(dá)分析我們把界面往下拉,有一個(gè)TOP250/Save All Results的地方。這個(gè)地方就是我們用來查看結(jié)果的地方。
在這個(gè)結(jié)果當(dāng)中,包括了:芯片當(dāng)中探針I(yè)D號(hào)、差異分析的P值和logFC值,以及相對(duì)應(yīng)的基因名。我們點(diǎn)擊ID下面每一個(gè)探針前面的??,就可以看到這個(gè)數(shù)據(jù)集里面相對(duì)應(yīng)的樣本在不同分組的表達(dá)量變化了。 具體結(jié)果的篩選標(biāo)準(zhǔn)我們后面再說。
3 結(jié)果解讀通過以上的過程,我們就得到了這個(gè)數(shù)據(jù)集所有差異 表達(dá)的結(jié)果。但是所有的結(jié)果,并不是都有意義的結(jié)果,所以我們要進(jìn)行一定的篩選。目前對(duì)于差異的篩選結(jié)果,其實(shí)并沒有一個(gè)嚴(yán)格意義上的標(biāo)準(zhǔn)。但是都有一個(gè)默認(rèn)的最低標(biāo)準(zhǔn):那就是logFC的絕對(duì)值 > 1. 且 矯正P值(adj.P.Val) < 0.05。 關(guān)于logFC logFC,全稱是log2 foldchange。foldchange可以代表變化倍數(shù),如果處理組的表達(dá)均值是8;對(duì)照組的表達(dá)均值是2,那么foldchange就是4。而log2 fold change就是2。所以我們默認(rèn)的logFC > 1,則代表兩組之前差異在2倍以上的為有意義。 logFC的絕對(duì)值, 由于相較于對(duì)照組,基因的變化并不一定是升高的。也有降低的。所以logFC會(huì)有一個(gè)方向性,如果為 負(fù) 則代表,相較于對(duì)照組是低表達(dá)的,如果為 正 則代表是高表達(dá)。 由于表達(dá)是有方向性的,所以再次搶到在輸入分組命名的時(shí)候先輸入對(duì)照組的名字。不然的話,按照系統(tǒng)的分析方法,我們得到的結(jié)果有可能方向就完全是相反的了。 |
|