寫在前面大體用了半年(實際上 gap 了五個月),通過實現(xiàn)一系列插件,讓所有人都可以在筆記本上完成基本的 RNAseq 數(shù)據(jù)分析。大體設計到的插件如下: 八步走SRA 數(shù)據(jù)查詢與整理:SRA XML to Table,見推文:挖掘SRA的輔助小工具(NCBI高通量測序數(shù)據(jù)收錄庫) - 公開插件 SRA 數(shù)據(jù)鏈接獲取:SRA XML to Table 和 SRA Number to ENA Info. 前者已經(jīng)包括了 NCBI 和 DDBJ 數(shù)據(jù)下載鏈接,后者主要作為補充,附加 ENA 下載鏈接(更為穩(wěn)點)。詳細見:公開可獲取~沒有下載不到的測序原始數(shù)據(jù)! - 公開插件 Ascp GUI Wrapper:個人實測,每天清晨通過 FTP 鏈接下載測序原始數(shù)據(jù),速度可以達到 10Mb/s。但更多時候數(shù)據(jù)只有不到 300Kb/s。網(wǎng)絡合適的情況下,可以使用 Aspera ,速度可以達到 30Mb/s。于是寫了并公開釋放了這個插件,詳細見:插件 | 人人-點點點-光速下載 NCBI/ENA NGS原始數(shù)據(jù) - 公開插件 SRAtoFastq,sra 是 NCBI 定義的二代數(shù)據(jù)存儲格式,文件大小比fastq.gz下,考慮網(wǎng)絡帶寬的情況下,下載 sra 數(shù)據(jù)更方便。下載后需要進行轉換,于是有了插件,詳細見:SRAtoFastq | 任何人都能自主分析測序原始數(shù)據(jù) - 眾籌插件 FastQC,無論是NCBI SRA等數(shù)據(jù)庫下載,還是公司返還的測序數(shù)據(jù),多少還是要看下測序質量,確保質量OK 或者不要有樣品降解,嚴重污染云云,于是有插件,詳細見:插件FastQC | 點點點,人人看看測序數(shù)據(jù)質量 - 眾籌插件 Trimmomatic,無論轉換得到,或者是公司測序后返還的 Fastq.gz 數(shù)據(jù)往往是原始數(shù)據(jù),通過 FastQC 可以判斷,隨后進行質量控制,如去除接頭和低質量堿基,于是有插件,詳細見:Trimmomatic | 點點點,測序原始數(shù)據(jù)質控,技能get - 眾籌插件 Kallisto,RNAseq 數(shù)據(jù)的基本分析和目的,就是獲得基因表達量矩陣。在普通筆記本上,如 4G 內存云云,那么 Kallisto 是最好的選擇,于是有插件,詳細見: Kallisto | 點點點,從 測序數(shù)據(jù) 到 基因表達量矩陣 人人都可以! - 眾籌插件 Trans Value Sum,Kallisto 分析結果是轉錄本水平的表達量或Counts矩陣,但很多人感興趣的是基因水平的,于是,公開釋放了功能,詳細見:匯總 | 轉錄本表達矩陣 到 基因表達矩陣 - 公開功能 Differential Gene Expression Analysis - DESeq2,可以批量完成多組兩兩比較的差異表達分析(注,也可用 利虎 的 Batch DEGs,更方便) Differential Gene Expression Analysis - DESeq2- 公開插件
注:公開插件 和 眾籌插件,均可以在 TBtools 的插件商店或高速插件商店中獲取,具體前者直接下載可用,后者需要授權,參考前述推文。 Plugin | 高速版插件商店!我又有一個絕妙的 idea
寫在最后 今天是周一,祝大伙本周科研順利,該 accepted 的 paper 就 accepted。
|