TCGAbiolinks是一個分析處理TCGA數據的R包,通過GDC API來查詢和下載TCGA的數據,同時提供了差異分析,生存分析,富集分析等常見的分析功能,網址如下
這個R包的基本用法如下 1. Query和在線查詢類似,只不過是將網頁上的各種可選的屬性變成了對應的參數,基本用法如下所示 以
以上參數和和網頁上的的各項選擇菜單相對應,示意如下 除此之外,還有幾個重要參數, 查詢結果的基本單位為Files, 可以通過以下代碼進行查看 datatable(getResults(query)) 結果是一個html的表格,通過網頁進行查看,每行代表一個表格,示意如下 2. Download除了查看檢索結果外,還可以下載檢索結果,用法如下 這里分成了兩個步驟,第一步從GDC下載原始數據,可以使用API或者gdc-clinet進行下載, API的速度相對快一點;第二步對原始數據的結果進行整理,從GDC下載的原始數據是每個文件單獨分開的,需要先對結果進行整理,才可以用于后續(xù)分析。以表達譜數據為例,需要進行樣本的合并,樣本ID的轉換等,所有這些都可以通過 整理好的結果存放在 結果示意如下 表達量矩陣的信息查看方式如下 結果示意如下 數據下載并整理好之后,就可以進行分析了。不同類型的數據對應的分析方法也不同,具體的分析方法請參考官方文檔。 ·end· |
|