隨著科學技術的巨大進步,產(chǎn)生了大量的“組學”數(shù)據(jù)。理解生物系統(tǒng)各個層次產(chǎn)生的大量序列和結構數(shù)據(jù)是關鍵,由此產(chǎn)生了“生物信息學”。 “生物信息學”是一個跨學科領域,主要是用計算算法來組裝、評估、理解、可視化和歸檔與生物分子相關的數(shù)據(jù)。 從基因組測序、基因及其功能預測到蛋白質分析,如蛋白質結構和功能預測、系統(tǒng)發(fā)育研究、藥物和疫苗設計、生物體鑒定,以及支持和推進生物技術領域的研究,都需要用到生物信息學。 今天給大家推薦一本書《Advances in Bioinformatics》(DOI:10.1007/978-981-33-6191-1),幫助廣大科研工作者更容易進行研究,從而對生物學有新的見解。 該書共23個章節(jié)。涵蓋了蛋白質組學、代謝組學、DNA測序和NGS技術、基因組分析、生物計算、神經(jīng)網(wǎng)絡分析、大數(shù)據(jù)分析、軟計算、人工智能到進化生物學、疫苗和藥物設計、生物合成學和癌癥生物學應用等,從這些領域出發(fā),綜述了生物信息學在其中的應用、發(fā)展、幫助和已經(jīng)獲得的成果,并探討了未來的發(fā)展方向。 目錄及簡介 1. 生物信息學簡介及其應用 生物信息學在DNA測序與分析、基因組測序及其注釋分析、進化生物學的計算、比較基因組學、基因和蛋白表達分析、蛋白質和DNA、RNA的結構分析、免疫信息和藥物設計的技術應用。 2. 生物信息學工具和軟件 重點介紹了Banqit、Spin、WEBIN、Sequin、Sakura等序列提交軟件;ADIT、PDB_Extract等分子結構提交軟件;SRS、Entrez、Getentry等序列檢索工具。此外,還詳細討論了BLAST、CLUSTALW/X等序列比對工具,以及Swiss-Model、Modeller、JPred、3D-Jigsaw和ModBase等結構預測工具。 3. 生物信息學在生物科學中起到的作用 重點介紹了生物信息學在基因組學、轉錄組學、蛋白質組學和代謝組學等主要“組學”領域的作用,以及在其它領域,營養(yǎng)基因組學、化學信息學、分子系統(tǒng)發(fā)生學、系統(tǒng)學和合成生物學的應用。還討論了生物信息學在這些領域的多樣化發(fā)展。 4. 蛋白質分析:從序列到結構 介紹與蛋白質序列和結構分析相關的各種數(shù)據(jù)庫和方法。這類研究的主要應用之一是在藥物發(fā)現(xiàn)和開發(fā)方面。 5. 進化生物學 進化是一個物種或種群經(jīng)歷遺傳特征變化的動態(tài)過程。對進化的研究被稱為進化生物學。進化生物學研究的關鍵是序列變異,這是通過比較DNA或蛋白質序列來檢測的。迄今以及開發(fā)了不同的計算工具來比對所獲得的序列和識別序列變異。進化基因組學的應用正在從研究人類進化到研究各種病毒的進化。許多病毒對人類健康具有嚴重威脅。本章介紹了PAML、PhyML、MrBayes、RAxML、MSA、MUSCLE 、MAFFT 等用于系統(tǒng)發(fā)育分析的計算工具。并詳細討論了進化的計算原理。 6. 基于web頁面的調控序列分析的生物信息學方法 本章主要概述了在線分析哺乳動物基因組中調控序列方法,以及用于調控序列分析的在線生物信息學工具。 7. 用于SNP分析的生物信息學資源綜述 基因變異是導致生物物種內多樣性的關鍵。單核苷酸多態(tài)性(SNPs)是遺傳變異的主要形式。單核苷酸多態(tài)性在理解生物表型差異的進化過程中至關重要,而且還被用于各種疾病的診斷和治療。本章詳細介紹了用于人類和其他非人類基因組的SNP分析。此外,還討論了在生物信息學領域需要解決的挑戰(zhàn)和差距,以便在未來有效地研究SNPs。 8. 疫苗設計與免疫信息學 隨著多肽疫苗概念的發(fā)展,免疫信息學方法已經(jīng)被證明是針對未知抗原蛋白、復雜的傳染病生命周期、免疫系統(tǒng)應答的可變性和長期保護的有效方法。本章概述了用于構建基于表位的疫苗設計的綜合數(shù)據(jù)庫分析方法,該方法已被證明是一種非常穩(wěn)健的方法,用于表征疫苗系統(tǒng)模型的疫苗靶標。 9. 計算機輔助藥物設計 一種新的用于新藥發(fā)現(xiàn)和開發(fā)的先進方法,稱為計算機輔助藥物設計(CADD)。隨著計算工具和方法的進步,CADD加速了整個傳統(tǒng)的耗時的新藥實體開發(fā)過程。本章主要是說明一些關鍵的CADD技術,通常指在藥物發(fā)現(xiàn)的不同領域中的硅方法,并聚焦于一些現(xiàn)代的進步。 10. 化學信息學和QSAR QSAR,定量構效關系分析。該技術被廣泛應用于通過參考生物活性來預測藥物動力學性質,是藥物化學中一種可靠的技術。本章討論了基于QSAR模型的計算方法的基本原理、分子描述符和統(tǒng)計現(xiàn)象。同時,還重點介紹了描述鉛分子分子結構的QSAR模型的重要組成部分和類型,并討論了其局限性和前景,以指導QSAR領域在未來的研究。 11. 基因組學 本章介紹DNA序列是如何解碼的,如何通過比對來比較序列,組裝基因組的主要方法是什么,以及如何通過基因預測技術來評估它們的質量,最后,通過這里給出的步驟處理后,如何從基因組數(shù)據(jù)中實現(xiàn)相互作用網(wǎng)絡。 12. 使用生物信息學方法進行RNAseq數(shù)據(jù)分析的指南 RNAseq可以探索全基因組水平的基因表達譜,并量化生物樣本中存在的RNA含量。此外,RNAseq還提供選擇性剪接變體、新基因鑒定、差異表達基因等信息。RNAseq數(shù)據(jù)分析的工作流程要求對數(shù)據(jù)進行質量檢查、映射到參考基因組/轉錄組、讀取量化、差異表達分析和功能注釋。為了提供對數(shù)據(jù)的生物學理解并滿足分析人員的需求,已經(jīng)開發(fā)了具有不同算法的各種工具和軟件。本章概述了可用于分析不同研究數(shù)據(jù)的工具和軟件。此外,還簡要介紹了其他RNAseq技術,如單細胞RNAseq和small RNA測序,作為對較新形式的RNA測序的介紹。 13. 代謝組學 代謝組學是從任何生物系統(tǒng)中稱為代謝組的一整套小分子中,對不同代謝物的水平、相互作用和動力學進行全面、系統(tǒng)的測定?;诤舜殴舱?NMR)的方法、質譜(MS)和能夠處理大數(shù)據(jù)集的計算機軟件和硬件的快速發(fā)展導致了高通量代謝組學方法的發(fā)展。本章節(jié)討論了代謝組學數(shù)據(jù)處理的工作流程。 14. 二代測序(NGS)技術 介紹了NGS技術,以及NGS的不同類型和應用的要點。隨著NGS數(shù)據(jù)分析的進步,為疾病診斷創(chuàng)造了新的療法,最后補充了一些關于機器學習算法在NGS技術應用的討論。 15. 個性化醫(yī)學與生物信息學 定制化用藥可以消除目前與標準化用藥相關的大量可怕的藥物副作用,減少或消除過敏反應,減少醫(yī)療費用,減輕患者的痛苦。然而要真正做到定制化用藥,首先要把每個患者的基因組轉化成可處理的信息,然后進行處理、保存和恢復。因此,基因組學、生物信息學和定制藥物三者的結合至關重要。本章介紹了生物信息學在定制化藥物和疫苗中的應用、個性化醫(yī)療設計中涉及的前沿方法,以及個性化醫(yī)療的優(yōu)缺點。 16. 在合成生物學和癌癥生物學中用于微生物的基因和基因組注釋分析的生物信息學工具 本章節(jié)重點介紹了基因組注釋和微生物分析在合成生物學和癌癥生物學研究中的應用。以及簡要介紹了原核生物基因組結構和最近發(fā)展起來的生物信息學工具,這些工具對研究、鑒定和注釋原核生物基因組的各種特征非常有用。最后,展望了微生物基因組注釋和微生物基因組分析的前景和可能的發(fā)展方向,文章表示未來我們應該把重點放在改進癌癥治療和在癌癥精確醫(yī)學中的應用。 17. 人類微生物組與生物信息學 本章系統(tǒng)地討論了16S rRNA、宏基因組學和宏轉錄組學的方法、工作流程和推薦的工具。此外,還討論了最新的下游分析技術和可視化工具。目的是為了幫助研究人員思考與人類微生物組有關的生物學問題,并進行計算分析。 18. 神經(jīng)網(wǎng)絡分析 本章討論和總結了神經(jīng)網(wǎng)絡在生物信息學中的應用,特別是在蛋白質和核酸生物信息學中的應用。最后,總結了神經(jīng)網(wǎng)絡在多個生命科學領域的基本見解,如基因預測、蛋白質結構預測、表位預測、表達、共表達、蛋白質相互作用等許多領域。 19. microRNA分析與生物信息學 本章重點介紹了不同的miRNA數(shù)據(jù)庫和mircoRNA預測工具,如psRNATarget、RNAhybrid、miRcan、Miranda、TargetScan、PicTar和Diana-MicroT,它們正在被用于miRNA的機制分析。 20. 圖像處理與生物信息學 這一新興的生物信息學領域被稱為“生物圖像計算”。本章從不同的角度討論了這一領域的發(fā)展,包括實現(xiàn)、主要方法、工具和可用的資源。文中還概述了在與新冠肺炎的戰(zhàn)斗中使用到的關鍵圖像處理技術,如識別生物圖像特征、可視化、挖掘、注冊、圖像數(shù)據(jù)管理和注釋,以及可訪問的分析資源、生物圖像數(shù)據(jù)庫和其他設施的簡要說明。 21. 人工智能與生物信息學 生物信息學是生物學與信息系統(tǒng)(智能系統(tǒng))的結合。人工智能可以在短時間內對生物數(shù)據(jù)進行檢測、處理和分類。各種人工智能算法已被開發(fā)并用于生物信息學分析。本章總結了人工智能在生物信息學中的應用。 22. 大數(shù)據(jù)分析與生物信息學 本章重點介紹了大數(shù)據(jù)工具和技術在生物信息學中的應用。 23. 生物信息學中的軟計算 本章探討了基于軟計算的生物信息學技術。綜述了軟計算技術及其兼容性對解決廣泛的生物信息學相關問題的必要性、軟計算技術的基礎知識,并闡述了它們在解決許多基于生物信息學的問題中的相關性。 以下內容來自書中第16章節(jié)和第17章節(jié)。主要介紹生物信息學技術在人類微生物群研究中的應用,以16S rRNA和宏基因組為例,最后補充關于腸道微生物群在癌癥治療中的應用的一些內容。 下一代測序的不同應用 01. 基于高通量測序的人類微生物組研究可以大致被分為三種不同的測序方法 圖中的Metataxonomics指16S rRNA,Metagenomics指宏基因組,Metatranscriptomics指宏轉錄組。箭頭下方分別列舉了用于物種分類、進化枝圖展示、功能分析的主流軟件。 微生物組數(shù)據(jù)分析的主要困難是在保持標準的同時,從一些列計算工具中選擇合適的工具。實驗方法的設計、環(huán)境因素和分析流程都會影響最終結果。 02. 測序數(shù)據(jù)的預處理 預處理的步驟主要是為了對原始序列進行質檢、識別和去除低質量堿基和reads、低復雜性reads、引物、接頭或barcodes等人工制品,以及去除宿主污染。 FastQC是目前最流行的提供質檢報告的預處理工具,MultiQC用于將多個樣品的質檢報告合并成一個報告,便于比較。去除低質量數(shù)據(jù)的工具,如Trimomatic,Trim Galore和Cutadapt被廣泛用于DNA或RNA 數(shù)據(jù)。 還有一些如FASTX-Toolkit、BBTools,整合了以上這些預處理步驟。宏基因組數(shù)據(jù)中有很大一部分宿主核苷酸污染,通常使用KneadData進行去除宿主污染。預處理是關鍵的一步,需要在序列質量和極大地保留微生物信息量之間進行權衡。 03. 16S rRNA 16S rRNA是基于保守標記基因的擴增子測序。16S rRNA基因在細菌和古菌中高度保守,有9個高變區(qū)(V1-V9),可在屬水平上進行區(qū)分,因此易于靶向擴增,可用于鑒定任何微生物組樣品的細菌組成。而18S rRNA基因和rRNA基因非轉錄區(qū)ITS 可用于鑒定微生物組樣品中的真菌組成。 16S rRNA數(shù)據(jù)在經(jīng)過預處理后,通過將擴增子序列變體(ASV)去噪或將讀數(shù)聚類成可操作分類單元(OTU)來挑選代表性序列,最后對ASV/OTU進行物種分類。通常使用VSEARCH或USEARCH去除嵌合體,再使用QIIME或QIIME2獲得OTU或ASV的特征表以及每個樣本中特征的量化值。比較新的算法還有Deblur和DADA2。 04. 宏基因組 宏基因組主要是對微生物樣本的所有DNA進行全基因組鳥槍式測序。它并不局限于單個基因,它提供了所有基因的信息,這些基因有助于識別種水平或株水平的微生物,以及了解該樣本中核心微生物途徑和代謝物。這種方法涵蓋了所有的微生物,包括細菌、古菌、真菌和病毒,雖然豐度很低。它還能識別新的和未培養(yǎng)的物種。 宏基因組比16S rRNA測序成本更高。根據(jù)測序平臺的不同,鳥槍測序大致分為兩種方法;Illumina測序儀生產(chǎn)的短讀序列使用參考基因組進行組裝和進一步分析,另一個由Oxford Nanopore MinION或Pacific Biosciences生產(chǎn)的長讀序列可用于從頭組裝,以識別新的基因組。 05. 微生物物種分類數(shù)據(jù)庫 微生物組數(shù)據(jù)分析的核心是為讀數(shù)分配正確的物種。16S rRNA測序和鳥槍法宏基因組測序都利用公共數(shù)據(jù)庫獲得微生物物種組成的信息。例如,16S rRNA常使用SILVA, RDP, Greengenes和UNITE等數(shù)據(jù)庫,宏基因組通常使用NCBI中的nr數(shù)據(jù)庫,或者使用MetaPhlAn2工具包,這是一款正在被普遍使用的工具,它擁有自己的從細菌、古菌、病毒和真核生物中鑒定的分枝特異性標記基因數(shù)據(jù)庫。 06. 微生物物種分析 物種注釋后的下游分析必須包括的就是α和β多樣性,并在樣本組之間進行比較,找出具有差異豐度的物種,以及物種與元數(shù)據(jù)之間的相關性。 α多樣性是使用Shannon多樣性指數(shù)和Shannon均勻度指數(shù)來衡量的,Shannon均勻度指數(shù)定義了樣本中的物種豐富度、多樣性和均勻度。用方差分析、Mann-Whitney U檢驗和Kruskal-Wallis檢驗對組內或組間α多樣性的比較進行統(tǒng)計學分析,然后用盒圖、維恩圖和稀疏曲線可視化。 β多樣性利用Bray-Curtis、Jaccard距離和加權、未加權UniFrac發(fā)現(xiàn)樣本之間物種組成的差異。它與PCoA、NMDS和約束PCoA(CPCoA)相結合輸出分析結果,使用散點圖和樹狀圖在樣本或組間進行比較并可視化。 可用于計算α和β多樣性的軟件有QIIME、Phyloseq、VEGAN和USEARCH。利用相關系數(shù)曲線、線性擬合曲線和熱圖分析了個分類水平物種與元數(shù)據(jù)之間的相關性。 系統(tǒng)發(fā)育樹和分支圖被用來了解系統(tǒng)發(fā)育和物種分類水平層次。 GraPhlAn是一款提供美化后的可供發(fā)表的系統(tǒng)發(fā)育樹圖制作的軟件。與其類似的還有Krona。 07. 微生物功能分析 16S rRNA分析雖然只能觀察到物種組成,但是有PICRUST和Tax4Fun這樣的工具,可以通過將16S rRNA讀數(shù)映射到注釋的基因組來獲得功能代謝途徑。如果需要更詳細和準確的功能圖譜,建議使用宏基因組和宏轉錄組測序。 用于預測基因功能、途徑或功能結構域的數(shù)據(jù)庫有PFAM、COG、SEED、EGNOG、KEGG和TIGRFAM。一些工具可以將注釋的功能基因信息可視化,并在樣本組之間進行比較,如HUMANN2、LEfSe和Short BRED。 08. 人類微生物組研究在人類疾病中的應用 對人類微生物組的研究表明,健康個體的微生物與非健康個體或患病個體的微生物有很大的不同。因此,根據(jù)微生物群的不同特征對其進行表征可以作為一種潛在的工具,用于識別疾病風險、預后、表型和治療反應。比如腸道菌群失調與多種病理疾病有關,益生菌補充劑通過產(chǎn)生一定的代謝物,恢復了微生物群落的平衡,提高了機體的免疫能力。 近年來,腸道微生物群也開始應用于癌癥治療。比如藥物代謝,因為腸道菌群能影響藥物的作用方式、療效和抗體治療。這在一些研究腸道菌群對癌癥治療(如化療、放療和免疫治療)的影響文章中被證實。另一個例子則是開發(fā)用于癌癥治療的益生菌。因此,將微生物群信息應用于癌癥精準醫(yī)學是一條潛在的路徑。 END Kumar A , Singh V . Advances in Bioinformatics[M]. 2021 DOI:10.1007/978-981-33-6191-1 |
|