(濤濤醬:是不是很香很好用!) (黑衣人:沒錯?。。ㄌ蚩谒?ˉ﹃ˉ) ) 那么體驗過非腫瘤類GEO數(shù)據(jù)集的文章,那么怎么能不領教一下仙桃在腫瘤類GEO數(shù)據(jù)集的快感呢! 所以今天我們無代碼復現(xiàn)一篇2021年2月IF為3.337分發(fā)表在OncoTargets and Therapy的一篇使用GEO分析腫瘤生信類型文章。 期刊簡介 實驗與方法 一篇文章,“材料與方法”部分是文章的靈魂所在,那下面我們來看看在“材料和方法”部分,作者闡明了實現(xiàn)本文用了哪些生信手段。 為了避免大家看太多的字,那我就總結一下吧! (黑衣人:哇喔 濤濤醬什么時候變得那么nice了!) 疾?。?/span>肝細胞癌 數(shù)據(jù):GEO數(shù)據(jù)集(三個數(shù)據(jù)集) TCGA 實現(xiàn)手段:篩選差異基因(R語言之limma包) 功能聚類(GO、KEGG、DO、Reactome) 互作網(wǎng)絡(蛋白—蛋白交互PPI) 關鍵基因分析(CTD數(shù)據(jù)庫) (黑衣人:Emm,那我們要做哪些圖呢?) (濤濤醬:欲知詳情,客官兒下邊請!) 由于我們今天是GEO專場,篇幅有限,我們之前復現(xiàn)了很多次的TCGA相關內容此次就先不贅述。 復現(xiàn)任務 那么接下來我們一起來看一下本次的復現(xiàn)任務。 圖1:差異基因表達 圖2:富集分析 圖3. 蛋白互作網(wǎng)絡 圖4. CCNA2, CCNB1, CDC20, CDK1, PTTG1, and TTK 的相關性 圖5. 驗證基因的表達情況 圖6. 驗證基因的免疫組化情況 圖7 Cox回歸森林圖 圖8. 生存曲線圖 (黑衣人:哇!果然是圖種很豐富的一篇文章欸!) (濤濤醬:是吧!所以趕緊一起來看看仙桃GEO復現(xiàn)吧!) 數(shù)據(jù)來源 & 思路框架 1 復現(xiàn)步驟: 進入仙桃學術工具(https://www.); 打開的界面如下: 我們知道,這篇文章涉及了五個數(shù)據(jù)集,分別為GSE45267, GSE84402和GSE101685。 那我們就一個一個來添加我們的數(shù)據(jù)集。 首先選擇數(shù)據(jù)集GSE45267。 輸入后,選擇“選擇樣本”按鈕。 點開這個“選擇樣本”,就能選擇對應數(shù)據(jù)集的樣本。 我們把所有的組織都勾選上,最后點選“添加到樣本庫”即可。 小貼士: 由于樣本太多,容易混淆腫瘤組與正常組,所以建議在此分兩次進行添加。 (黑衣人:好的!思路很清晰,那我就開始添加啦!) (濤濤醬:少俠且慢?。?!此處有一個bug) (黑衣人:驚?。?!發(fā)生了什么事!) 大家可以看一下這個數(shù)據(jù)集,GSE45267。 (濤濤醬:有沒有發(fā)現(xiàn)什么問題?) (黑衣人:咦?納尼?看不出來) 在GSM1100431以及 GSM1100447 這兩個樣本中,出現(xiàn)了前后不一致的情況。 (黑衣人:震驚?。?!仙桃竟然出了這樣的bug!) (濤濤醬:欸?且慢!不要如此草率地下這樣的結論喔!) (黑衣人:蛤?那是哪里出了問題?) (濤濤醬:俗話說得好,遇事不決,可問GEO) 于是我們本著求根溯源地精神,我們要打開源頭GEO看看到底是哪些妖孽在作怪! GEO的網(wǎng)址在這(https://www.ncbi.nlm./gds) 在其中輸入GSE45267 打開第一個條目 之后眼疾手快地找到原始數(shù)據(jù) 打開more 迅速發(fā)現(xiàn)這兩個可疑的樣本 點開來看看! (黑衣人:果然?。?!是作者出了問題) (濤濤醬:是的,此處因此產(chǎn)生了歧義) (黑衣人:啊,抱歉,看來是我誤會了我們的仙桃,嗚嗚嗚) (濤濤醬:哈哈哈,終于為仙桃恢復了清白,正身了一次) (黑衣人:啊,那我們該怎么辦呢?) 此處,這兩個樣本有相矛盾的地方。因此無論我們怎么分組,都是可以接受的。 所以我們就暫且把這兩個樣本認為是Tumor組的來示范。 那首先添加腫瘤組數(shù)據(jù)。 鼠標單擊條目即可勾選,把所有的腫瘤組先選中,然后備注Tumor,添加到樣本庫。 接下來,我們進入“進入我的樣本庫” 。 我們將正常組定義為“分組1”;腫瘤組為“分組2”。 所以將這些標記為Tumor的基因勾選中,接著選擇“加入分組2” 同理,回到上一個界面,勾選正常組織,再次添加入樣本庫中,選擇 “加入分組1”。 這樣,我們就完成了第一個數(shù)據(jù)集GSE45267的添加。 值得一提的是,不同權限用戶的樣本庫的上限是不一樣的,普通用戶是20,基礎版用戶是50,高級版用戶是100。后續(xù)還會視情況提高總體上限喔! 同樣道理,不同權限的用戶每天可以提交分析的次數(shù)也是不同的喔,普通用戶每天只能提交2次分析,基礎版用戶每天可以提交5次分析,高級版用戶每天可以提交20次分析。 所以如果是想分析比較多的數(shù)據(jù),建議入手高級版喔! 接下來我們就可以來繪圖了! 選擇提交分析。 同理添加入剩余2個數(shù)據(jù)集。 這里的權限跟“生信工具”的是一個內容。想要升級權限可以到生信工具頁面進行升級。 點擊提交分析后,下面的歷史記錄中會出現(xiàn)一條分析記錄,點擊右上角的刷新可以刷新分析任務的進度情況。 當分析完成后,就可以下載結果內容了。 一次性提供了很多的結果內容,包括 箱式圖、PCA圖、UMAP圖、火山圖、差異分析結果表格等,以及結果分析報告。 接下來我們就是真正來看看圖1的火山圖如何復現(xiàn)。 點擊“說明” 出現(xiàn)如下界面: 往下卷動鼠標 點擊按鈕即可下載熱圖 (黑衣人:欸?這個怎么和圖中的方向還不太一樣?) (濤濤醬:哈哈,這還不簡單,點擊“細節(jié)修改”進入調整模式) 自動連接到“火山圖”界面 選擇剛剛的樣本 在右側調整參數(shù) 根據(jù)文獻的參數(shù)設置 我們進行相應的參數(shù)調整 點擊確認 就完成了Fig1A的制作。 同樣道理,添加另外兩個數(shù)據(jù)集,也能如法炮制出火山圖來。 接下來我們來看看Fig 1E Venn圖的制作。 此處的目的就是把我們之前不同GEO數(shù)據(jù)集的差異基因取交集。 所以我們就得先獲得差異基因的列表。 比如第一個數(shù)據(jù)集GSE45267,找到剛剛分析的結果,點擊下載按鈕,下載CSV表格。 打開CSV表格 本文是按照表達上調以及表達下調的順序來制定韋恩圖的。 所以我們對logFC的取值進行篩選。 選擇篩選按鈕 選中l(wèi)ogFC這列 點擊小箭頭 即可篩選出logFC大于2 即 表達上調的差異基因。 接著將基因的Gene Symbol 復制貼上到新的excel表格中 將其命名為GSE45267 同理可以得到另外兩列差異基因 將其保存,而后上傳。 路徑:基礎繪圖——分組比較圖——韋恩圖 點擊上傳 讀取數(shù)據(jù)后點擊“確認” 結果就出來啦 (黑衣人:欸?原圖不是有四個數(shù)據(jù)集嗎?) (濤濤醬:你忘了我們這個是GEO專場??!所以我們今天就復現(xiàn)GEO的內容) (黑衣人:喔對對!TCGA往期也都有介紹過了,GEO腫瘤類的今天要專門好好學習一下!) 以上是有關表達上調的Venn圖,同理篩選出logFC<-2的數(shù)值就可以獲得表達下調的Venn圖。 (濤濤醬:那接下來要干嘛呢?) (黑衣人:把這些圖都拼起來?。?/span> 拼圖一如既往采用我們仙桃的拼圖功能喔!仙桃工具拼圖比Illustratior或是Photoshop要節(jié)省不少時間!仙桃工具只要一分鐘,AI或者PS可能要拼至少一天時間。 進入仙桃學術工具(https://www./products);選擇高級版,點擊“立即使用”(注:免費版和基礎版都可以進行統(tǒng)計和可視化,由于高級版功能最全,這里選擇高級版作為范例) 選擇基礎繪圖 –上傳圖片,點擊進入 此處開始上傳自己的圖片,但是記得圖片要為pdf、tiff、tif、png的格式喔! 同時也可以調用我們云端的圖片,也就是我們剛剛制作的圖。 比如,剛剛做的火山圖 就可以選擇“保存結果”,保存在云端。 這樣我們打開“拼圖工具”的時候 圖片就自動保存在庫里 拖曳圖片到標尺內 拖曳圖片時候又自動吸附功能以及自動對齊功能 媽媽再也不用擔心我的拼圖了! 點擊PDF下載,還會自動標記字母哦!點擊下載,即可保存成pdf圖片。 (小貼士:這里也可以把圖稍微放大,或者兩圖直接的行間距放大,可以在右側減少留白) 2 富集分析采用的就是我們剛剛數(shù)據(jù)集取交集的基因來進行。 所以我們首先得獲得剛剛取交集的成功。 這時候,剛剛做Venn圖的優(yōu)勢就直接體現(xiàn)出來了。 下載excel表格,打開 最后一列就是我們取交集的基因 將其復制到新的excel中。 同理可以獲得表達下調的取交集的基因。 全部整合成一列。 打開功能聚類(圈)——GO|KEGG富集分析 然后上傳我們剛剛建立的excel表格 選擇GO條目 然后點擊確認 點擊“保存結果” 而后打開GO|KEGG可視化 選擇剛剛保存的樣本 選擇氣泡圖 點擊確認 就可以出圖啦。 點擊查看大圖 Fig2A是GO的氣泡圖,而Fig2B則是KEGG的氣泡圖。 (黑衣人:我知道,只要把GO的選項改成KEGG就可以咯) 沒錯,還記得剛剛在富集分析的選項里,我們的條目選擇的是GO分析嗎?此處可以更改條目為KEGG。 后續(xù)步驟都相同,即可得到此圖 最后,根據(jù)前面提到的仙桃拼圖功能,即可幾秒鐘拼成一幅Fig 2! 3 我們借助String來完成這項操作(https://www./) 選擇左側的Multiple proteins 把剛剛做差異表達分析的107個基因 復制到框中 物種選擇Homo sapiens 之后點擊search 就可以呈現(xiàn)和一個宏觀的PPI網(wǎng)絡了! 要想達到Fig 3B的效果,則是需要將結果導出到cytoscape軟件中 緊接著打開cytoscape軟件 就會呈現(xiàn)這個界面 要想形成一個圓形 更改樣式 選擇layout 下拉菜單 即可完成Fig 3 4 圖4. CCNA2, CCNB1, CDC20, CDK1, PTTG1和 TTK 的相關性 希望大家能在腦子里形成一個定式的思維 看到這樣的樓梯狀的圓形圖或者是鐘表圖,就要想到是——相關性熱圖。 (黑衣人:樓梯圓形或樓梯鐘表——相關性熱圖!) 那我們來整理一下思路。 先下載原始數(shù)據(jù),找出要進行相關性分析的分子,將其的表達數(shù)據(jù)整個提取出來,然后匯總在另外一張表中,再進行相關性分析。 那現(xiàn)在思路清晰了之后,我們就一起來復現(xiàn)吧! 第一步:下載原始數(shù)據(jù) 原始數(shù)據(jù)是TCGA的,所以我們前往官網(wǎng)下載數(shù)據(jù)。 有兩種方法。 第一種是登入TCGA的網(wǎng)站(https://portal.gdc./) 下載。步驟有些繁瑣,不過熟練的老司機們可以三下五除二搞定。 第二種是登入Xena (https:///datapages/) 往下卷動鼠標 找到 肝癌的部分 點擊進入 點擊下載 而后通過excel打開文件 這時候,我們就要把需要的六個基因給“抓”出來了 可是看到第一列都是Ensemble ID,那怎么辦呢? 所以我們需要進行ID轉換 緊接著,我們把我們需要抓出來的基因先整理成一份excel表格 保存excel 在方框內上傳 點擊“確認” 紅色方框的就是我們需要的基因名! 緊接著,一個個把這些基因名在剛剛的原始數(shù)據(jù)中尋找。 可以輕松獲得該行 接著把這一整行復制貼上到新的excel中 記得貼上的時候一定要選擇“轉置”這個按鈕 將橫的數(shù)據(jù)變成豎的 進一步修改名稱為CCNA2 同樣道理可以整理出另外5個基因的表達情況 最后整理成一個表達矩陣 接著,我們打開相關性熱圖 路徑:基礎繪圖——相關性熱圖 在框中上傳我們適才保存好的文件,類型選擇“樣式1,位置選擇“顯示相關系數(shù)”,在樣式中選擇“圓形”。點擊確認。 即可出圖! 5 這個圖是本文干濕結合的體現(xiàn)之一。 Fig5A-5L是作者通過濕實驗得到的結果,而M到R則是驗證了組織里面的表達情況。 (黑衣人:蛤?那我們不就做不了了嗎?) (濤濤醬:別慌!仙桃在手,要什么都有!) 正確打開方式如下: 表達差異(挑)——表達差異——配對樣本 選擇TCGA—LIHC,肝細胞肝癌 分子選擇 CCNA2 選擇“不顯示箱式圖” 點擊“確認” 即可出圖 同樣的道理,輸入另外五個基因,也能得到一樣的結果。 (黑衣人:哇!這樣就能將濕實驗轉化為干實驗!好強!) (濤濤醬:哈哈,這就強了嗎?后面還有更精彩的!請往下看!) 6 (濤濤醬:這個乍一看是什么圖呢?) (黑衣人:不就是免疫組化的圖嘛!) (濤濤醬:對的,但是作者在此非常討巧地用了數(shù)據(jù)庫的圖片實現(xiàn)) (黑衣人:驚!還能這樣!) 通過文章的材料與方法部分,我們驚訝地發(fā)現(xiàn),這個部分披上了濕實驗地軀殼,沒想到里面竟然是干實驗的靈魂! 所以我們就按照這個步驟一起來看看如何實現(xiàn)吧! 那就隆重推出我們的HPA數(shù)據(jù)庫(https://www./) Human Protein Atlas 數(shù)據(jù)庫,簡稱HPA數(shù)據(jù)庫,它致力于提供全部24,000種人類蛋白質的組織和細胞分布信息,并免費提供公眾查詢。 創(chuàng)立這個數(shù)據(jù)庫的瑞典 Knut & Alice Wallenberg基金會使用特制的抗體,用免疫組化的技術,檢查每一種蛋白質在48種人類正常組織,20種腫瘤組織,47個細胞系和12種血液細胞內的分布和表達,其結果用至少576張免疫組化染色圖表示,并經(jīng)專業(yè)人員閱讀和標引。這些受檢組織來自144個不同個體和216個腫瘤組織,保證染色結果具有充分的代表性。這是一個大規(guī)模蛋白質研究項目,主要目的是繪制人體組織和細胞中表達基因編碼的蛋白位置。 那么該如何使用呢? 登入網(wǎng)址。 在搜尋框搜尋CCNA2 結果可以看到正常組織、病理狀態(tài)下等等不同的樣式。 我們選取“TISSUE”這個界面 就會看到 由于我們要研究的是肝細胞癌,所以我們選中右側的liver 結果顯示 是不是和Fig6A長得一模一樣? 所以同理可以輸入其他基因,復現(xiàn)出后續(xù)的圖片。 7 根據(jù)文中描述,作者在此做了單因素分析 所以我們一起來看一下如何實現(xiàn)。 不過,在復現(xiàn)之前 濤濤想和大家說的是,這個功能目前只有高級版才能實現(xiàn)喔! (黑衣人:蛤?這樣啊,那我趕緊把我的基礎版升級一下!這么好用的功能!) 一定要 買它?。。。持鞑ド仙恚?/span> 進入仙桃的高級版界面 臨床意義(靠)——預后分析——單因素|多因素分析 選擇疾病TCGA—LIHC 把內建的條目刪除,重新添加 輸入具體的基因名 之后點擊“確認” 就出來運算結果了 我們保存excel表格 接著我們將表格整理一下 只留下這三列 保存Excel 接著打開“基礎繪圖——森林圖” 上傳Excel文檔,點擊“確認” 立刻出結果 8 我們先來看看Fig 8A 是如何做出來的 Fig 8A是CCNA2的生存曲線 打開路徑 臨床意義(靠)——預后分析——KM曲線 選擇疾病TCGA—LIHC 輸入對應的分子 點擊確認 即可出圖 在此,希望大家能點一個“保存結果”,等下就可以直接拼圖了喔! 同樣道理,可以獲得另外五個基因的KM曲線圖。 接下來,就到了我們最緊張最激動的拼圖環(huán)節(jié)啦! 將6張圖拼起來,就意味著可以得到我們的Fig 8 接下來我們來看看如何一鍵拼圖! 點擊上方的拼圖工具 左邊的欄目中即有我們剛剛保存的6張圖 一個個將其拖曳至主屏幕 拖曳的時候有自動上下左右前后對齊喔! (黑衣人:想起了以前軍訓時候,教官說的,向左向右看!) (濤濤醬:沒錯!我們的仙桃拼圖工具就是有如軍隊一般嚴謹可靠!) 更有橫縱參考線讓你對齊,更好用喔! 點擊pdf下載即可。 (黑衣人:欸欸欸!等等!字母還沒標欸!) (濤濤醬:哈哈,你打開pdf看看?) (黑衣人:震驚?。?!字母竟然自己標上去了!還對得那么整齊?。?!) (濤濤醬:對吧?所以,仙桃真的是神仙本仙!很好用吧!) (黑衣人:哇喔!太強了吧!respect!我這就立刻登陸仙桃www.開始腫瘤類GEO研究之旅!) 歡迎大家關注解螺旋生信頻道-挑圈聯(lián)靠公號~ |
|
來自: 外科黃文斌 > 《生信數(shù)據(jù)庫》