賽?；蚬_課第五節(jié)《全外顯子組數(shù)據(jù)分析簡(jiǎn)介》

xiongzhang2017 2017-07-17

展開全文

各位老師好，很高興今天有機(jī)會(huì)和大家一起來探討全外顯子數(shù)據(jù)分析中的相關(guān)知識(shí)和技術(shù)。

顧名思義，全外顯子測(cè)序是對(duì)基因組中所有外顯子進(jìn)行測(cè)序分析的方法。該方法首先利用DNA或RNA探針，將全基因組中外顯子區(qū)域DNA進(jìn)行捕獲，然后對(duì)捕獲的DNA進(jìn)行PCR擴(kuò)增，最后對(duì)擴(kuò)增后的產(chǎn)物進(jìn)行高通量測(cè)序。雖然外顯子只占基因組的2%，卻含有85%的已知致病變異，但測(cè)序和分析價(jià)格卻遠(yuǎn)比全基因組測(cè)序要低得多。所以目前很多科研和臨床選用全外顯子測(cè)序，而不是全基因組測(cè)序。

和WGS相比，WES有以下優(yōu)勢(shì)：

1.測(cè)序和數(shù)據(jù)存儲(chǔ)的花費(fèi)低。盡管WES一般比WGS測(cè)序深度高（100X vs 30X), WES的測(cè)序序列主要在占基因組2%的外顯子區(qū)域，使得總的測(cè)序文件比WGS的測(cè)序文件小得多。平均測(cè)序深度為100X的全外顯子測(cè)序文件的大小是6GB左右，而30X的全基因組測(cè)序文件的大小一般是90GB左右;

2.由于數(shù)據(jù)文件小，數(shù)據(jù)分析的速度就快，數(shù)據(jù)分析的花費(fèi)也低；

3.由于測(cè)序深度高，WES更容易檢測(cè)出罕見變異；

4.跟非編碼區(qū)相比，蛋白編碼區(qū)的研究更透測(cè)，注釋度更高，所以WES數(shù)據(jù)分析中的變異能夠更好地被解讀。

盡管和WGS相比，WES存在很多優(yōu)勢(shì)，但也有不足之處：

1.WES的測(cè)序深度不均一，一些區(qū)域測(cè)序深度過高造成浪費(fèi)，也有一些區(qū)域測(cè)序深度過低而無法檢測(cè)到存在的變異。比如一些SNP密集的區(qū)域，富集過程中RNA或DNA探針無法和該區(qū)域雜交導(dǎo)致無法有效捕獲，該區(qū)域的測(cè)序深度就會(huì)過低；

2.由于WES只測(cè)外顯子區(qū)域（人類的外顯子區(qū)域長(zhǎng)度一般小于200bp），因而無法有效檢測(cè)CNV，結(jié)構(gòu)重組和其他大的結(jié)構(gòu)變異；

3.由于沒有捕獲探針，新的編碼基因無法捕獲。

在高通量測(cè)序和分析中有三個(gè)常用的質(zhì)量分?jǐn)?shù)，了解這些質(zhì)量分?jǐn)?shù)將有助于對(duì)外顯子數(shù)據(jù)分析的理解。第一個(gè)是堿基質(zhì)量分?jǐn)?shù)，它是測(cè)序過程中堿基被測(cè)序儀錯(cuò)誤識(shí)別的概率。另一個(gè)是比對(duì)質(zhì)量分?jǐn)?shù)，它是一個(gè)序列在參考基因組上比對(duì)正確與否的可信度。還有一個(gè)是變異質(zhì)量分?jǐn)?shù)，它是我們檢測(cè)到的變異是否是生物變異的可信度。變異質(zhì)量分?jǐn)?shù)是變異位點(diǎn)所有序列比對(duì)質(zhì)量分?jǐn)?shù)的均方根。

由美國哈佛-麻省理工博德研究所 (Broad institute of MIT and Harvard) 開發(fā)的基因組分析工具包GATK（ genome analysis toolkit)是目前常用的NGS數(shù)據(jù)分析軟件。今天我們以GATK的best practices 為列來介紹全外顯子數(shù)據(jù)分析的流程。WES 數(shù)據(jù)分析大致分為三步：對(duì)WES數(shù)據(jù)進(jìn)行前處理；利用前處理后的數(shù)據(jù)進(jìn)行變異檢測(cè)，最后對(duì)檢測(cè)到的變異進(jìn)行篩選和注釋。

第一部分：WES數(shù)據(jù)的前處理流程。

WES數(shù)據(jù)分析的前處理包括對(duì)原始fastq形式的序列進(jìn)行質(zhì)量控制，將清理后的fastq形式的序列比對(duì)到參考基因組，對(duì)比對(duì)到參考基因組的序列進(jìn)行多步質(zhì)量控制，最終得到可以用來檢測(cè)變異的序列。

一般情況下，我們從測(cè)序公司拿到的WES數(shù)據(jù)，是原始數(shù)據(jù)狀態(tài)（raw data)。拿到數(shù)據(jù)后的第一步一定要查看fastq文件是否完整，是否存在錯(cuò)誤，以及數(shù)據(jù)質(zhì)量的好壞。常用的軟件是FASTQC. 根據(jù)FASTQC的結(jié)果報(bào)告，如果fastq文件有錯(cuò)誤，就無法進(jìn)行下面的分析。如過fastq文件沒有錯(cuò)誤，就對(duì)原始數(shù)據(jù)進(jìn)行清理，包括去除低質(zhì)量或者過短序列，剪切末端低質(zhì)量的堿基，去除接頭污染以及可能的外源污染序列。常用的軟件包括Trimmamatic, cutadapt 和fastq_mcf等。清理之后得到clean 序列。對(duì)于NGS數(shù)據(jù)質(zhì)量控制的知識(shí)和技術(shù)，請(qǐng)參考賽?；蛭⒄n程的第四講。

得到clean 序列后，利用比對(duì)軟件，將clean 序列比對(duì)到參考基因組上去。比對(duì)簡(jiǎn)單的說就是對(duì)每一個(gè)序列，找到它在參考基因組上對(duì)應(yīng)的的位置。

理論上，將序列比對(duì)到參考基因組上非常簡(jiǎn)單，就是找到每個(gè)序列在參考基因組上的位置并記錄下來。但事實(shí)上，很多情況下，測(cè)序數(shù)據(jù)和參考基因組間存在著各種差異，包括SNV，INDEL，CNV， SV等，這使得比對(duì)變得非常復(fù)雜。比對(duì)軟件需要運(yùn)用復(fù)雜的算法，將序列比對(duì)到可信度最高的一個(gè)或者少數(shù)幾個(gè)位置上去。這個(gè)可信度就是我們前面提到的比對(duì)質(zhì)量分?jǐn)?shù)（mapping quality ）。另外，如這里的示意圖，由于參考基因組中存在重復(fù)序列等原因，有些序列可以同等地比對(duì)到不同的位置，這也增加比對(duì)的難度。

將序列比對(duì)到參考基因組常用的軟件包括BWA(Burrows-Wheeler Aligner), Bowtie2, Blat, SOAP 等。比對(duì)之后的結(jié)果文件以SAM 的格式存儲(chǔ)。如果要對(duì)比對(duì)結(jié)果進(jìn)行其他一些操作，一般需要將SAM文件轉(zhuǎn)化成壓縮的二進(jìn)制格式的BAM文件。

如果我們想直觀地查看比對(duì)結(jié)果，可以使用可視化軟件。常見的可視化軟件有IGV，tablet等。用IGV或tablet可視化比對(duì)結(jié)果時(shí)，就必須要用加過索引的BAM文件。這里顯示的是一個(gè)WES數(shù)據(jù)在ARX基因區(qū)的比對(duì)結(jié)果。我們可以看到，外顯子區(qū)域以外也有比對(duì)的序列。一般情況下，這些序列不要去除，更大范圍內(nèi)更多的比對(duì)序列有利于下游更精確的變異檢測(cè)。在IGV里，我們可以對(duì)感興趣的區(qū)域進(jìn)行放大。

這個(gè)是我們對(duì)上圖中中間的那個(gè)外顯子區(qū)進(jìn)行放大的結(jié)果。在IGV里default的設(shè)置下，比對(duì)到參考基因組上的序列有不同的顏色?；疑硎驹撔蛄性诨蚪M上的比對(duì)結(jié)果是單一的，而且和序列對(duì)中另一個(gè)序列間的距離在正常范圍內(nèi)。白色說明該序列比對(duì)到2個(gè)或者2個(gè)以上的位置。如果reads是其他顏色，說明與該序列配對(duì)的序列比對(duì)到了其它的染色體，或者兩個(gè)序列間的距離大于或小于正常的插入序列長(zhǎng)度。

另外，可以用samtools或者bamtools查看比對(duì)結(jié)果的統(tǒng)計(jì)值。 samtools的flagstat軟件，可以查看總的比對(duì)率，成功比對(duì)的序列里多少個(gè)是序列對(duì)，多少是單個(gè)的序列等。Samtools 的idxstat軟件可以查看每個(gè)染色體的長(zhǎng)度，該染色體上比對(duì)的序列數(shù)以及沒有比對(duì)的序列數(shù)。

原始比對(duì)結(jié)果里含有一些比對(duì)質(zhì)量較低或者錯(cuò)誤比對(duì)的序列，為了提高變異識(shí)別的敏感性和精確性，要對(duì)原始比對(duì)結(jié)果進(jìn)行質(zhì)量控制。這些質(zhì)量控制包括：去除重復(fù)序列，對(duì)可疑的比對(duì)區(qū)域進(jìn)行重新比對(duì)（Local Realignment）和重新校正堿基質(zhì)量分?jǐn)?shù)。對(duì)于這些質(zhì)量控制的相關(guān)知識(shí)和技術(shù)，請(qǐng)參考賽?；蛭⒄n堂第四講。比對(duì)結(jié)果經(jīng)過質(zhì)控后，就可以進(jìn)入WES數(shù)據(jù)分析的第二步了，即檢測(cè)樣品中的變異。

第二部分：全外顯子數(shù)據(jù)變異檢測(cè)流程。

比對(duì)結(jié)果通過質(zhì)量控制后，我們可以開始變異識(shí)別的流程。也就是說找出比對(duì)結(jié)果里，樣品數(shù)據(jù)和參考基因組不同的位點(diǎn)，并計(jì)算這些位點(diǎn)的基因型?！?/span>

在變異識(shí)別軟件盡可能多地識(shí)別真正的生物變異時(shí)，也會(huì)識(shí)別一些非生物變異，即由比對(duì)或者測(cè)序錯(cuò)誤帶來的數(shù)據(jù)和參考基因組之間的差異，這些被識(shí)別的差異稱為假陽性變異。在得到原始變異文件后，需要盡可能地去除所有非生物學(xué)變異。把真正的生物學(xué)變異從來自于系統(tǒng)誤差的非生物學(xué)變異分離出來是一個(gè)比較棘手的問題。GATK 的VQSR （Variant Quality Score Recalibration）是目前最好的去除非生物學(xué)變異的軟件。

VQSR的理論基礎(chǔ)是：變異軟件識(shí)別的每個(gè)原始變異都有一套對(duì)應(yīng)的注釋參數(shù)。根據(jù)這些參數(shù)做聚類分析，真正的變異趨向于聚集在一起。而這些聚類形成的組群遵循高葉斯分布。根據(jù)已知的變異建立高葉斯混合模型，然后根據(jù)建立的模型對(duì)可能的新變異進(jìn)行評(píng)估，進(jìn)而去除假陽性的變異。

這個(gè)是2011年發(fā)表在nature genetics上的一篇文章利用高葉斯模型評(píng)估新變異的例子。左圖是利用HapMap SNP作為訓(xùn)練數(shù)據(jù)建立的模型，右圖是根據(jù)左圖的模型對(duì)新SNP評(píng)估的結(jié)果。紫色的部分和左圖中橘色的部分類似，很有可能是error，是假陽性SNP，所以要過濾掉。綠色部分和左圖中紅色部分類似，很有可能是真正的新發(fā)現(xiàn)SNP。

在做VQSR時(shí)，SNP和INDEL要分別進(jìn)行質(zhì)量校正。但可以將VQSR連續(xù)run兩次，而不必將SNP和INDEL分離、分別run VQSR之后再合并。以原始的包括SNP和INDEL的文件作為輸入，在run第一步時(shí)，只對(duì)SNP進(jìn)行質(zhì)量分時(shí)校正，而INDEL不受影響。第二步對(duì)INDEL做質(zhì)量分?jǐn)?shù)校正，而SNP不受影響。

VQSR是目前最好的識(shí)別并過濾假陽性變異的方法，但只有原始變異集足夠大的情況下，VQSR才能正常運(yùn)行并過濾假陽性變異。在原始變異集不夠大，不能夠運(yùn)行VQSR的情況下，可以通過對(duì)注釋參數(shù)設(shè)定閾值來手工過濾非生物學(xué)變異。這種情況下，就必須先分離SNP和INDEL，分別手工過濾后再重新合并。

從前面IGV可視化比對(duì)結(jié)果的圖里可以看出，比對(duì)到參考基因組的序列不只是在外顯子區(qū)，很多在外顯子以外的區(qū)域。那么變異軟件識(shí)別的變異里有些也會(huì)分步在外顯子區(qū)域以外。利用bedtools和捕獲區(qū)域文件，可以去除外顯子區(qū)以外的變異，只保留外顯子區(qū)內(nèi)的變異。

在得到外顯子區(qū)域內(nèi)高可信度的變異后，我們可以選取可靠的遺傳致病數(shù)據(jù)庫OMIM、HGMD、Clinvar、dbSNP等作為主要檢索數(shù)據(jù)庫對(duì)變異進(jìn)行注釋，然后結(jié)合樣本來源的遺傳信息或科研需要，篩選變異。這些內(nèi)容我們會(huì)在下一節(jié)課里進(jìn)行講述。

感謝各位老師在百忙之中抽出時(shí)間收看及收聽我們這次課程。歡迎各位老師加入我們的基因大課堂共同探討、共同交流。

現(xiàn)場(chǎng)問答環(huán)節(jié)

1.什么是gVCF？gVCF和普通的VCF有什么區(qū)別？

答：VCF是Variant Call Format的縮寫。是標(biāo)準(zhǔn)化的存儲(chǔ)SNP，INDEL，和結(jié)構(gòu)變異的text文件。VCF里只含有變異的位點(diǎn)信息。 gVCF是genomic VCF。是VCF的一種。gVCF 和VCF最大的區(qū)別是gVCF里含有基因組（或者感興趣的區(qū)間）所有位點(diǎn)的堿基信息，不論該位點(diǎn)是否存在變異。

2.在數(shù)據(jù)量多大的情況下不可以用VQSR，而只能用手工過濾？

答：一般情況下，全外顯子測(cè)序樣品少于30個(gè)，或者全基因組測(cè)序樣品少于2個(gè)，VQSR都不能很好的運(yùn)行。即使運(yùn)行通過不出錯(cuò)，結(jié)果也不可信。

3.怎樣知道bam文件是否已經(jīng)排序了？

答：可以用samtools查看bam文件的header。如果在header里有SO:coordiate的字樣，就是已經(jīng)sort過的。

4.我先想問下WES為啥不能有效檢測(cè)CNV，這個(gè)不是特別理解。這個(gè)人是純合CNV或雜合CNV都不能有效檢測(cè)嗎？

答：是的，利用WES檢測(cè)純合和雜合的CNV都比較困難。這是因?yàn)槿祟惖耐怙@子都比較短，一般都小200bp。另外，WES測(cè)序的測(cè)序深度不均一，用reads count檢測(cè)CNV的話也會(huì)比較困難。

5.老師，因?yàn)橥怙@子短于200，所以不好看CNV這個(gè)不明白。是因?yàn)槿钡奶郙APPING不上了嗎。是缺的比如100bp 剩下80bp是不能比對(duì)到參考基因嗎？

答：不是mapping不上。而是說一般的CNV或者其他的SV都比較大，一般大于外顯子。

6.有reads 您覺得counts數(shù)不準(zhǔn)。老師，這個(gè)測(cè)序深度不均一性是測(cè)序建庫技術(shù)操作的問題，還是每個(gè)人的個(gè)體化差異導(dǎo)致不均一的現(xiàn)象。比如特定位置A基因是每個(gè)人的樣本都會(huì)那不均一嗎，還是有的人均一有的人不均一？

答：不均一的原因個(gè)體DNA和測(cè)序應(yīng)該都有，看不同的情況。比如我們?cè)?jīng)分析過一個(gè)WES, 在一個(gè)本應(yīng)該檢測(cè)到變異的基因，我們無論如何檢測(cè)不到?？梢暬l(fā)現(xiàn)該區(qū)域內(nèi)沒有reads。而查看這段基因序列，發(fā)現(xiàn)是100% 的G。而對(duì)測(cè)序儀來說，如果G含量超過80%，就很難成功測(cè)序。而如果個(gè)體某段DNA含有比較多的SNP，捕獲探針就無法很好和DNA雜交，而不能有效的捕獲。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： xiongzhang2017 > 《生物信息》

舉報(bào)/認(rèn)領(lǐng)