?2021年最新3 腫瘤GEO生信研究套路，手把手教你復現(xiàn)，超級詳細！建議反復學習！

外科黃文斌 2023-10-26 發(fā)布于廣東

展開全文

仙桃學術無代碼輕松復現(xiàn)

大家好，我是濤濤。前次我們的文章一直帶大家通過仙桃生信工具www.感受了一波仙桃生信工具在非腫瘤類GEO數(shù)據(jù)集的分析功能。

（濤濤醬：是不是很香很好用！）

（黑衣人：沒錯?。。ㄌ蚩谒?ˉ﹃ˉ) ）

那么體驗過非腫瘤類GEO數(shù)據(jù)集的文章，那么怎么能不領教一下仙桃在腫瘤類GEO數(shù)據(jù)集的快感呢！

所以今天我們無代碼復現(xiàn)一篇2021年2月IF為3.337分發(fā)表在OncoTargets and Therapy的一篇使用GEO分析腫瘤生信類型文章。

期刊簡介

實驗與方法

一篇文章，“材料與方法”部分是文章的靈魂所在，那下面我們來看看在“材料和方法”部分，作者闡明了實現(xiàn)本文用了哪些生信手段。

為了避免大家看太多的字，那我就總結一下吧！

（黑衣人：哇喔濤濤醬什么時候變得那么nice了！）

疾?。?/span>肝細胞癌

數(shù)據(jù)：GEO數(shù)據(jù)集（三個數(shù)據(jù)集） TCGA

實現(xiàn)手段：篩選差異基因（R語言之limma包）

功能聚類（GO、KEGG、DO、Reactome）

互作網(wǎng)絡（蛋白—蛋白交互PPI）

關鍵基因分析（CTD數(shù)據(jù)庫）

（黑衣人：Emm，那我們要做哪些圖呢？）

（濤濤醬：欲知詳情，客官兒下邊請！）

由于我們今天是GEO專場，篇幅有限，我們之前復現(xiàn)了很多次的TCGA相關內容此次就先不贅述。

復現(xiàn)任務

那么接下來我們一起來看一下本次的復現(xiàn)任務。

圖1：差異基因表達

圖2：富集分析

圖3. 蛋白互作網(wǎng)絡

圖4. CCNA2, CCNB1, CDC20, CDK1, PTTG1, and TTK 的相關性

圖5. 驗證基因的表達情況

圖6. 驗證基因的免疫組化情況

圖7 Cox回歸森林圖

圖8. 生存曲線圖

（黑衣人：哇！果然是圖種很豐富的一篇文章欸！）

（濤濤醬：是吧！所以趕緊一起來看看仙桃GEO復現(xiàn)吧！）

數(shù)據(jù)來源 & 思路框架

圖1. 差異基因表達

復現(xiàn)步驟：

進入仙桃學術工具（https://www.）；

打開的界面如下：

我們知道，這篇文章涉及了五個數(shù)據(jù)集，分別為GSE45267, GSE84402和GSE101685。

那我們就一個一個來添加我們的數(shù)據(jù)集。

首先選擇數(shù)據(jù)集GSE45267。

輸入后，選擇“選擇樣本”按鈕。

點開這個“選擇樣本”，就能選擇對應數(shù)據(jù)集的樣本。

我們把所有的組織都勾選上，最后點選“添加到樣本庫”即可。

小貼士：

由于樣本太多，容易混淆腫瘤組與正常組，所以建議在此分兩次進行添加。

（黑衣人：好的！思路很清晰，那我就開始添加啦！）

（濤濤醬：少俠且慢?。?！此處有一個bug）

（黑衣人：驚?。?！發(fā)生了什么事！）

大家可以看一下這個數(shù)據(jù)集，GSE45267。

（濤濤醬：有沒有發(fā)現(xiàn)什么問題？）

（黑衣人：咦？納尼？看不出來）

在GSM1100431以及 GSM1100447 這兩個樣本中，出現(xiàn)了前后不一致的情況。

（黑衣人：震驚?。?！仙桃竟然出了這樣的bug！）

（濤濤醬：欸？且慢！不要如此草率地下這樣的結論喔！）

（黑衣人：蛤？那是哪里出了問題？）

（濤濤醬：俗話說得好，遇事不決，可問GEO）

于是我們本著求根溯源地精神，我們要打開源頭GEO看看到底是哪些妖孽在作怪！

GEO的網(wǎng)址在這（https://www.ncbi.nlm./gds）

在其中輸入GSE45267

打開第一個條目

之后眼疾手快地找到原始數(shù)據(jù)

打開more

迅速發(fā)現(xiàn)這兩個可疑的樣本

點開來看看！

（黑衣人：果然?。?！是作者出了問題）

（濤濤醬：是的，此處因此產(chǎn)生了歧義）

（黑衣人：啊，抱歉，看來是我誤會了我們的仙桃，嗚嗚嗚）

（濤濤醬：哈哈哈，終于為仙桃恢復了清白，正身了一次）

（黑衣人：啊，那我們該怎么辦呢？）

此處，這兩個樣本有相矛盾的地方。因此無論我們怎么分組，都是可以接受的。

所以我們就暫且把這兩個樣本認為是Tumor組的來示范。

那首先添加腫瘤組數(shù)據(jù)。

鼠標單擊條目即可勾選，把所有的腫瘤組先選中，然后備注Tumor，添加到樣本庫。

接下來，我們進入“進入我的樣本庫” 。

我們將正常組定義為“分組1”；腫瘤組為“分組2”。

所以將這些標記為Tumor的基因勾選中，接著選擇“加入分組2”

同理，回到上一個界面，勾選正常組織，再次添加入樣本庫中，選擇 “加入分組1”。

這樣，我們就完成了第一個數(shù)據(jù)集GSE45267的添加。

值得一提的是，不同權限用戶的樣本庫的上限是不一樣的，普通用戶是20，基礎版用戶是50，高級版用戶是100。后續(xù)還會視情況提高總體上限喔！

同樣道理，不同權限的用戶每天可以提交分析的次數(shù)也是不同的喔，普通用戶每天只能提交2次分析，基礎版用戶每天可以提交5次分析，高級版用戶每天可以提交20次分析。

所以如果是想分析比較多的數(shù)據(jù)，建議入手高級版喔！

接下來我們就可以來繪圖了！

選擇提交分析。

同理添加入剩余2個數(shù)據(jù)集。

這里的權限跟“生信工具”的是一個內容。想要升級權限可以到生信工具頁面進行升級。

點擊提交分析后，下面的歷史記錄中會出現(xiàn)一條分析記錄，點擊右上角的刷新可以刷新分析任務的進度情況。

當分析完成后，就可以下載結果內容了。

一次性提供了很多的結果內容，包括箱式圖、PCA圖、UMAP圖、火山圖、差異分析結果表格等，以及結果分析報告。

接下來我們就是真正來看看圖1的火山圖如何復現(xiàn)。

點擊“說明”

出現(xiàn)如下界面：

往下卷動鼠標

點擊按鈕即可下載熱圖

（黑衣人：欸？這個怎么和圖中的方向還不太一樣？)

（濤濤醬：哈哈，這還不簡單，點擊“細節(jié)修改”進入調整模式）

自動連接到“火山圖”界面

選擇剛剛的樣本

在右側調整參數(shù)

根據(jù)文獻的參數(shù)設置

我們進行相應的參數(shù)調整

點擊確認

就完成了Fig1A的制作。

同樣道理，添加另外兩個數(shù)據(jù)集，也能如法炮制出火山圖來。

接下來我們來看看Fig 1E Venn圖的制作。

此處的目的就是把我們之前不同GEO數(shù)據(jù)集的差異基因取交集。

所以我們就得先獲得差異基因的列表。

比如第一個數(shù)據(jù)集GSE45267,找到剛剛分析的結果，點擊下載按鈕，下載CSV表格。

打開CSV表格

本文是按照表達上調以及表達下調的順序來制定韋恩圖的。

所以我們對logFC的取值進行篩選。

選擇篩選按鈕

選中l(wèi)ogFC這列

點擊小箭頭

即可篩選出logFC大于2 即表達上調的差異基因。

接著將基因的Gene Symbol

復制貼上到新的excel表格中

將其命名為GSE45267

同理可以得到另外兩列差異基因

將其保存，而后上傳。

路徑：基礎繪圖——分組比較圖——韋恩圖

點擊上傳

讀取數(shù)據(jù)后點擊“確認”

結果就出來啦

（黑衣人：欸？原圖不是有四個數(shù)據(jù)集嗎？）

（濤濤醬：你忘了我們這個是GEO專場??！所以我們今天就復現(xiàn)GEO的內容）

（黑衣人：喔對對！TCGA往期也都有介紹過了，GEO腫瘤類的今天要專門好好學習一下！）

以上是有關表達上調的Venn圖，同理篩選出logFC<-2的數(shù)值就可以獲得表達下調的Venn圖。

（濤濤醬：那接下來要干嘛呢？）

（黑衣人：把這些圖都拼起來?。?/span>

拼圖一如既往采用我們仙桃的拼圖功能喔！仙桃工具拼圖比Illustratior或是Photoshop要節(jié)省不少時間！仙桃工具只要一分鐘，AI或者PS可能要拼至少一天時間。

進入仙桃學術工具（https://www./products）；選擇高級版，點擊“立即使用”（注：免費版和基礎版都可以進行統(tǒng)計和可視化，由于高級版功能最全，這里選擇高級版作為范例）

選擇基礎繪圖 –上傳圖片，點擊進入

此處開始上傳自己的圖片，但是記得圖片要為pdf、tiff、tif、png的格式喔！

同時也可以調用我們云端的圖片，也就是我們剛剛制作的圖。

比如，剛剛做的火山圖

就可以選擇“保存結果”，保存在云端。

這樣我們打開“拼圖工具”的時候

圖片就自動保存在庫里

拖曳圖片到標尺內

拖曳圖片時候又自動吸附功能以及自動對齊功能

媽媽再也不用擔心我的拼圖了！

點擊PDF下載，還會自動標記字母哦！點擊下載，即可保存成pdf圖片。

（小貼士：這里也可以把圖稍微放大，或者兩圖直接的行間距放大，可以在右側減少留白）

圖2. 富集分析

富集分析采用的就是我們剛剛數(shù)據(jù)集取交集的基因來進行。

所以我們首先得獲得剛剛取交集的成功。

這時候，剛剛做Venn圖的優(yōu)勢就直接體現(xiàn)出來了。

下載excel表格，打開

最后一列就是我們取交集的基因

將其復制到新的excel中。

同理可以獲得表達下調的取交集的基因。

全部整合成一列。

打開功能聚類（圈）——GO|KEGG富集分析

然后上傳我們剛剛建立的excel表格

選擇GO條目

然后點擊確認

點擊“保存結果”

而后打開GO|KEGG可視化

選擇剛剛保存的樣本

選擇氣泡圖

點擊確認

就可以出圖啦。

點擊查看大圖

Fig2A是GO的氣泡圖，而Fig2B則是KEGG的氣泡圖。

（黑衣人：我知道，只要把GO的選項改成KEGG就可以咯）

沒錯，還記得剛剛在富集分析的選項里，我們的條目選擇的是GO分析嗎？此處可以更改條目為KEGG。

后續(xù)步驟都相同，即可得到此圖

最后，根據(jù)前面提到的仙桃拼圖功能，即可幾秒鐘拼成一幅Fig 2！

圖3. 蛋白互作網(wǎng)絡

我們借助String來完成這項操作（https://www./）

選擇左側的Multiple proteins

把剛剛做差異表達分析的107個基因復制到框中

物種選擇Homo sapiens

之后點擊search

就可以呈現(xiàn)和一個宏觀的PPI網(wǎng)絡了！

要想達到Fig 3B的效果，則是需要將結果導出到cytoscape軟件中

緊接著打開cytoscape軟件

就會呈現(xiàn)這個界面

要想形成一個圓形

更改樣式

選擇layout 下拉菜單

即可完成Fig 3

圖4. CCNA2, CCNB1, CDC20, CDK1, PTTG1和 TTK 的相關性

圖4. CCNA2, CCNB1, CDC20, CDK1, PTTG1和 TTK 的相關性

希望大家能在腦子里形成一個定式的思維

看到這樣的樓梯狀的圓形圖或者是鐘表圖，就要想到是——相關性熱圖。

（黑衣人：樓梯圓形或樓梯鐘表——相關性熱圖！）

那我們來整理一下思路。

先下載原始數(shù)據(jù)，找出要進行相關性分析的分子，將其的表達數(shù)據(jù)整個提取出來，然后匯總在另外一張表中，再進行相關性分析。

那現(xiàn)在思路清晰了之后，我們就一起來復現(xiàn)吧！

第一步：下載原始數(shù)據(jù)

原始數(shù)據(jù)是TCGA的，所以我們前往官網(wǎng)下載數(shù)據(jù)。

有兩種方法。

第一種是登入TCGA的網(wǎng)站（https://portal.gdc./）下載。步驟有些繁瑣，不過熟練的老司機們可以三下五除二搞定。

第二種是登入Xena (https:///datapages/)

往下卷動鼠標

找到肝癌的部分

點擊進入

點擊下載

而后通過excel打開文件

這時候，我們就要把需要的六個基因給“抓”出來了

可是看到第一列都是Ensemble ID，那怎么辦呢？

所以我們需要進行ID轉換

緊接著，我們把我們需要抓出來的基因先整理成一份excel表格

保存excel

在方框內上傳

點擊“確認”

紅色方框的就是我們需要的基因名！

緊接著，一個個把這些基因名在剛剛的原始數(shù)據(jù)中尋找。

可以輕松獲得該行

接著把這一整行復制貼上到新的excel中

記得貼上的時候一定要選擇“轉置”這個按鈕

將橫的數(shù)據(jù)變成豎的

進一步修改名稱為CCNA2

同樣道理可以整理出另外5個基因的表達情況

最后整理成一個表達矩陣

接著，我們打開相關性熱圖

路徑：基礎繪圖——相關性熱圖

在框中上傳我們適才保存好的文件，類型選擇“樣式1，位置選擇“顯示相關系數(shù)”，在樣式中選擇“圓形”。點擊確認。

即可出圖！

圖5. 驗證基因的表達情況

這個圖是本文干濕結合的體現(xiàn)之一。

Fig5A-5L是作者通過濕實驗得到的結果，而M到R則是驗證了組織里面的表達情況。

（黑衣人：蛤？那我們不就做不了了嗎？）

（濤濤醬：別慌！仙桃在手，要什么都有！）

正確打開方式如下：

表達差異（挑）——表達差異——配對樣本

選擇TCGA—LIHC，肝細胞肝癌

分子選擇 CCNA2

選擇“不顯示箱式圖”

點擊“確認”

即可出圖

同樣的道理，輸入另外五個基因，也能得到一樣的結果。

（黑衣人：哇！這樣就能將濕實驗轉化為干實驗！好強！）

（濤濤醬：哈哈，這就強了嗎？后面還有更精彩的！請往下看！）

圖6. 驗證基因的免疫組化情況

（濤濤醬：這個乍一看是什么圖呢？）

（黑衣人：不就是免疫組化的圖嘛！）

（濤濤醬：對的，但是作者在此非常討巧地用了數(shù)據(jù)庫的圖片實現(xiàn)）

（黑衣人：驚！還能這樣！）

通過文章的材料與方法部分，我們驚訝地發(fā)現(xiàn)，這個部分披上了濕實驗地軀殼，沒想到里面竟然是干實驗的靈魂！

所以我們就按照這個步驟一起來看看如何實現(xiàn)吧！

那就隆重推出我們的HPA數(shù)據(jù)庫（https://www./）

Human Protein Atlas 數(shù)據(jù)庫，簡稱HPA數(shù)據(jù)庫，它致力于提供全部24,000種人類蛋白質的組織和細胞分布信息，并免費提供公眾查詢。

創(chuàng)立這個數(shù)據(jù)庫的瑞典 Knut & Alice Wallenberg基金會使用特制的抗體，用免疫組化的技術，檢查每一種蛋白質在48種人類正常組織，20種腫瘤組織，47個細胞系和12種血液細胞內的分布和表達，其結果用至少576張免疫組化染色圖表示，并經(jīng)專業(yè)人員閱讀和標引。這些受檢組織來自144個不同個體和216個腫瘤組織，保證染色結果具有充分的代表性。這是一個大規(guī)模蛋白質研究項目，主要目的是繪制人體組織和細胞中表達基因編碼的蛋白位置。

那么該如何使用呢？

登入網(wǎng)址。

在搜尋框搜尋CCNA2

結果可以看到正常組織、病理狀態(tài)下等等不同的樣式。

我們選取“TISSUE”這個界面

就會看到

由于我們要研究的是肝細胞癌，所以我們選中右側的liver

結果顯示

是不是和Fig6A長得一模一樣？

所以同理可以輸入其他基因，復現(xiàn)出后續(xù)的圖片。

圖7. Cox回歸森林圖

根據(jù)文中描述，作者在此做了單因素分析