一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

RNA-seq這十年(3萬字長文綜述)

 祥強6csdm0n3vs 2019-08-06
相信生信技能樹的粉絲對我在2019上半年舉行的十余場《我的生信五周年》演講應(yīng)該是不陌生了,我入場生物信息學(xué)領(lǐng)域時轉(zhuǎn)錄組約人民幣2萬一個樣本, 目前均價不到1000。我差不多算是見證了時代的變遷,還僅僅是5年的跨度。相信你一定會感興趣RNA-seq這10年的變化
寫在前面

我們在生信菜鳥團公眾號舉辦的每周文獻精選活動,菜鳥團一周文獻推薦(No.20)廣受好評的是大神級的RNA-Seq綜述,題目:RNA sequencing: the teenage years ,所以在我們生信技能樹VIP交流群也得到了關(guān)注。

當(dāng)時就號召過群友翻譯,五天過去了,讀研筆記公眾號率先完成全部翻譯文稿,特發(fā)布給所有粉絲,如果是生信技能樹鐵粉應(yīng)該是對讀研筆記不陌生,他在我們2018的statquest學(xué)習(xí)交流群脫穎而出。

  1. 另外強推他的StatQuest系列筆記,匯總目錄:https://mp.weixin.qq.com/s/cvA40tLtpIzb_z2xtLD3ig

文獻信息

本文是2019年7月份發(fā)表在《Nature Reviews Genetics》上的有關(guān)RNA-seq的綜述文章。
文獻信息如下所示:
Stark, R., et al. (2019). 'RNA sequencing: the teenage years.' Nature Reviews Genetics.

摘要

在過去的十年中,RNA測序(RNA-seq)已經(jīng)成為在全轉(zhuǎn)錄組范圍內(nèi)分析差異基因表達和mRNAs差異剪接的重要工具。然而,隨著下一代測序技術(shù)的發(fā)展,RNA-seq技術(shù)也在不斷發(fā)展?,F(xiàn)在,RNA-seq用于研究RNA生物學(xué)的許多方面,其中包括單細(xì)胞基因表達、翻譯(翻譯組,translatome)和RNA結(jié)構(gòu)(結(jié)構(gòu)組,structurome)。RNA-seq的其它應(yīng)用也在開發(fā)中,例如空間轉(zhuǎn)錄學(xué)(spatialomics)。加上新的長讀長 (long-read,注:在本文中,RNA-seq測序生成的read統(tǒng)一譯為“讀長“)和直接RNA-seq(direct RNA-seq)技術(shù)以及用于數(shù)據(jù)分析的更好的計算工具的整合,RNA-seq技術(shù)的創(chuàng)新有助于人們更全面地理解RNA生物學(xué),例如從何時何地轉(zhuǎn)錄發(fā)生到控制RNA功能的折疊和分子間相互作用等問題。

前言

RNA-seq技術(shù)出現(xiàn)于十年之前,自其誕生之日起,RNA-seq就成了研究分子生物學(xué)的普遍工具,這項技術(shù)幾乎構(gòu)成了我們對基因組功能的認(rèn)知基礎(chǔ) 。RNA-seq中最常用的分析方法就是找出差異基因表達(Differential gene expression, DGE)。從最早的出版期刊開始,DGE分析的基本階段就未發(fā)生實質(zhì)性的改變

在實驗室中,其標(biāo)準(zhǔn)流程就分為三步:

第一步是構(gòu)建測序文庫,這一步驟包括提取RNA,富集mRNA或清除核糖體RNA,合成 cDNA,加上接頭。

第二步,在高通量平臺(通常是Illumina平臺)上對文庫進行測序,每個樣本的測序深度為10-30M讀長數(shù)(讀長這里就是前面說的reads)。

第三步是數(shù)據(jù)分析,具體的工作是:對測序得到的讀長進行比對(aligning)和/或組裝到轉(zhuǎn)錄組上,對這些覆蓋了轉(zhuǎn)錄組的讀長進行過濾,歸一化(Normalization),根據(jù)統(tǒng)計模型找出那些在不同樣本之間有差異的轉(zhuǎn)錄本。早期的RNA-seq從大量的實驗樣本中產(chǎn)生了DGE數(shù)據(jù),這充分說明了RNA-seq在廣泛的生物體以及系統(tǒng)中的使用,這些生物體包括玉米(Zea mays), 擬南芥(Arabiodopsis thaliana), 釀酒酵母(Saccharomyces cerevisae),小鼠(Mus musculus)以及人類。雖然RNA-seq這個術(shù)語經(jīng)常被用于那些完全不同的方法學(xué)方法和/或生物學(xué),但是DGE分析仍然是RNA-seq(補充材料中的表1)的主要應(yīng)用,并被視為常規(guī)研究工具。

RNA-seq的更廣泛應(yīng)用已經(jīng)促進了我們對生物學(xué)多方面的理解 ,例如通過提示mRNA剪接和非編碼RNAs和增強子RNAs對基因表達的調(diào)控。RNA-seq的應(yīng)用和進步是由技術(shù)發(fā)展(濕實驗室和計算生物學(xué))驅(qū)動的,相對于以前的基因芯片,RNA-seq這種方法對RNA生物學(xué)和轉(zhuǎn)錄組產(chǎn)生更豐富并且偏見更小的信息。到目前為止,從標(biāo)準(zhǔn)的RNA-seq方法衍生而來的各種RNA-seq方法幾乎有100種。Illumina的短讀長(short-read)測序平臺能對這些由大部分不同方法的RNA-seq構(gòu)建的文庫進行測序,但是最近長讀長(long-read)RNA-seq的與直接RNA-seq測序(direct RNA sequencing, dRNA-seq)的進步已經(jīng)能夠解決以前研究人員使用短序列手段無法解決的一些問題。

在這篇綜述中,我們首先會介紹一些最基本的短讀長RNA-seq中的DGE方法,再將這種基礎(chǔ)方法與最近新興的長讀長RNA-seq和dRNA-seq進行比較。我們會介紹短讀長測序方法在文庫制備方面的進展,以及實驗設(shè)計和DGE的數(shù)據(jù)分析方法。隨后我們會拓展這些常規(guī)的RNA-seq方法,介紹一些單細(xì)胞測序和空間轉(zhuǎn)錄組學(xué)的分析。我們會提供一些案例,介紹RNA-seq在RNA生物學(xué)方面的關(guān)鍵應(yīng)用,包括轉(zhuǎn)錄組分析,翻譯動力學(xué),RNA結(jié)構(gòu),RNA-RNA之間相互作用和RNA-蛋白質(zhì)的相互作用。最后,我們會簡單描述一下RNA-seq的未來,以及單細(xì)胞和空間RNA-seq方法是否會像DGE分析一樣成為常規(guī)工具,長讀長測序方法是否會取代短讀長測序方法。由于篇幅限制,我們無法介紹所有的RNA-seq方法,在這些方法中,值得注意的是非編碼轉(zhuǎn)錄組學(xué),原核轉(zhuǎn)錄組學(xué)(prokaryotic transcriptomes)和表觀轉(zhuǎn)錄組學(xué)(epitranscriptome)。

RNA-seq技術(shù)的發(fā)展歷史

Illumina的短序列讀長測序技術(shù)生成了SRA(Short Read Archive)中95%已表達的數(shù)據(jù)(附件表2)。由于cDNA的短序列讀長測序方法幾乎是一種常規(guī)的方法,因此 我們認(rèn)為這是一種最基礎(chǔ)的 RNA-seq技術(shù),我們先來討論這種測序主要流程與局限。不過,長讀長cDNA測序與dRNA-seq已經(jīng)興起,隨著研究人員對能提供更豐富轉(zhuǎn)錄本水平方面(isoform-level)數(shù)據(jù)需求增大,這兩種新的測序方法有望對常規(guī)的短讀長測序方法提出挑戰(zhàn)(FIG1, TABLE1)。

Table1-短讀長與長讀長RNA-seq平臺

Figure 1-短讀長,長讀長和直接RNA-seq技術(shù)與工作流程

Figure 1-短讀長,長讀長和直接RNA-seq技術(shù)與工作流程。
(a)不同RNA-se方法的文庫制備,這些方法可以分為3種,分別是短讀長測序(黑色),長讀長測序(綠色),或長讀長直接RNA-seq(藍色)。根據(jù)使用的文庫制備方法不同,文庫制備會表現(xiàn)出相應(yīng)的復(fù)雜性和偏倚。短讀長與長讀長cDNA文庫在制備時有一些步驟是相同的,不過所有的方法都需要一個接頭連接步驟,并且它們都受到樣本質(zhì)量和文庫上下游計算問題的影響。
(b)三種主流的RNA-seq測序方法。
Illumina的工作流程(左邊):文庫制備好后,每個cDNA就會在一個泳道(flowcell)上通過合成來聚集成簇,其中合成的過程使用3'阻斷的熒光標(biāo)記的核苷酸。在每一輪測序的過程中,新合成的DNA鏈就會被成像,從而檢測出參與合成的是哪種核苷酸,這種測序方法產(chǎn)生的讀長是50-500bp。
Pacific Biosciences工作流程(中間):文庫制備好后,每個分子被加載到一個測序芯片上,在芯片上這些分子與固定到納米孔(nanowell)底部的聚合酶進行結(jié)合。隨著每一個熒光標(biāo)記的核苷酸被整合到新合成的鏈上,這些核苷酸發(fā)出的熒光就會被檢測到,這種方法產(chǎn)生的讀長為50kb。
Oxford納米孔工作流程(右邊):文庫制備好后,每個分子被加載到流動室(flowccell)中,流式室中含有馬達蛋白,馬達蛋白固定在流動室中,它可以與文庫的接頭結(jié)合。馬達蛋白控制RNA鏈通過納米孔,從而造成納米孔中電流的改變,這種技術(shù)產(chǎn)生的讀長為1-10kb。
(c) 短讀長、長讀長與直接RNA-seq分析的比較。超過90%的人類基因(gene n)存在可變剪接,它們會形成兩個或更多的可表達異構(gòu)體(轉(zhuǎn)錄本x與y)。短讀長cDNA測序中就增加了捕獲信息的復(fù)雜性,短讀長對異構(gòu)體的檢測會受到其讀長的限制,在這種技術(shù)里,短讀長無法精確地回貼(注:測序分析方法中的術(shù)語“map“在本文中都譯為”回貼“)到轉(zhuǎn)錄組上,而長讀長測序方法則能直接鑒定異構(gòu)體。在短讀長cDNA測序中,有很大比例的讀長會不明確地回貼到不同異構(gòu)相同的外顯子上;而那些跨越了外顯子-外顯子連接處的讀長可以提高對異構(gòu)體的分析效果,但是當(dāng)不同的異構(gòu)體都含有這個連接處時,這種操作意義不大。這些問題都加劇了數(shù)據(jù)分析的復(fù)雜性,以及無法對結(jié)果進行明確地解釋。長讀長cDNA方法能夠產(chǎn)生全長的異構(gòu)體讀長,從而去除或大幅度降低這些不精確的結(jié)果,并改進差異異構(gòu)表達的分析結(jié)果。然而這些方法依賴于cDNA的轉(zhuǎn)換,它去除了RNA堿基的修飾信息,并且只能粗略地估計多聚腺苷酸(poly(A))尾巴長度。直接RNA-seq可以進行全長導(dǎo)構(gòu)體分析,堿基修飾檢測(例如N6-甲基腺苷(M6A))和poly(A)尾巴長度估計。

短讀長cDNA測序

短讀長已經(jīng)成了在整個轉(zhuǎn)錄組范圍內(nèi)對基因進行檢測和定量的事實方法(de facto method),部分原因是這種方法比芯片成本更低,操作更方便,但是其主要原因還是因為這種方法能生成更全面,更高質(zhì)量的數(shù)據(jù),這種方法能夠 對整個轉(zhuǎn)錄組中的基因表達水平進行定量。使用Illumina短讀長測序平臺進行DGE分析的核心步驟包括:RNA提取、cDNA合成、接頭連接、PCR擴增、測序和數(shù)據(jù)分析(FIG1)。在這個過程中,存在打斷片段,片段長度選擇和基于磁珠的文庫純化這些操作,因此這種方法產(chǎn)生的cDNA片段通常都是在200bp以下。RNA-seq文庫的測序讀長分配到每個樣本上的話,每個樣本會測到平均20-30 million條讀長(reads)(也就是常說的20-30M條讀長),數(shù)據(jù)經(jīng)過處理后,使用這些讀長對每個基因或轉(zhuǎn)錄本進行定量,最后再用統(tǒng)計學(xué)方法來統(tǒng)計基因的差異。短讀長RNA-seq方法很穩(wěn)健,并且通過對短讀長測序技術(shù)的大范圍比較發(fā)現(xiàn),這種技術(shù)在平臺內(nèi)和平臺間的相關(guān)性很好。但是,在樣本制備和數(shù)據(jù)分析這兩個階段會引入一些干擾和偏倚。這種局限可能會影響通過實驗來解決特定生物學(xué)問題的能力,例如準(zhǔn)確識別和量化多個異構(gòu)體中的哪個來源于一個基因。對于研究那些非常長,高度可變的轉(zhuǎn)錄本異構(gòu)的人來說,這種局限表現(xiàn)得尤為明顯,例如在人類轉(zhuǎn)錄組研究中;人類轉(zhuǎn)錄本的長度范圍是109bp到186kb,其中50%轉(zhuǎn)錄本長度大于2500bp。盡管短讀長RNA-seq可以對最長的轉(zhuǎn)錄本進行詳細(xì)的分析,但是涉及的實驗方法不能擴展到全轉(zhuǎn)錄組分析。其他的偏倚與局限來源于那些大量的計算方法,這些方法包括例如如何處理模糊或多個回貼的讀長(multi-mapped reads)?,F(xiàn)在出現(xiàn)了一種合成長讀長(synthetic long reads)的新方法,這種方法可以實現(xiàn)全長的mRNA測序,并試圖解決其中的一些局限。這種方法使用了唯一分子標(biāo)識符(unique molecular identifiers,UMI)來標(biāo)記全長的cDNA,在制備短讀長RNA文庫之前,加入的UMI會隨著單個cDNA分子而進行復(fù)制。轉(zhuǎn)錄本異構(gòu)體可以在高達4kd的contigs中重建,用于發(fā)現(xiàn)異構(gòu)體和表達分析。但是,對于從根本上解決短讀長cDNA測序固有局限的最可能解決方案則是長讀長cDNA測序和dRNA-seq測序 。

長讀長cDNA測序

雖然Illumina測序目前是占主導(dǎo)地位的RNA-seq平臺,但PacBio和Oxford Nanopore(ONT)公司都提供了可供選擇的長讀長技術(shù),能夠?qū)ν暾膯蝹€RNA分子進行單分子水平級的測序。通過消除短RNA-seq測序數(shù)據(jù)的組裝這一步,這些新方法克服了短讀長測序方法相關(guān)的一些問題。例如,減少了測序讀長回貼過程中的歧義,并且可以識別更長的轉(zhuǎn)錄本,這樣就能獲取更完整的異構(gòu)體多樣性信息。這些方法還能降低許多短讀長RNA-seq計算工具中關(guān)于剪接連接的假陽性。

PacBio的Iso-Seq技術(shù)可以讀取最高可達15kb的轉(zhuǎn)錄本的全長cDNA,這就有利于發(fā)現(xiàn)大量以前未注釋的轉(zhuǎn)錄本,并通過檢測物種的全長同源序列證實了早期的基因預(yù)測。在標(biāo)準(zhǔn)的Iso-Seq操作流程中,高質(zhì)量的RNA被一個模板切換凝聚力轉(zhuǎn)錄酶(a template-switching reverse transcriptase)反轉(zhuǎn)錄為全長的cDNA。生成的cDNAs再經(jīng)過PCR擴增,加入到PacBio的單分子實時(single-molecule, real-time)文庫制備系統(tǒng)中。制備好的短轉(zhuǎn)錄本序列可以很快地擴散到測序芯片的活性表面,但由于短轉(zhuǎn)錄本的測序存在偏倚,因此在對轉(zhuǎn)錄本進行測序時,建議選擇片段的長度是1到4kb,這樣就能在此范圍對長轉(zhuǎn)錄本和短轉(zhuǎn)錄本進行更加均勻地采樣。由于PacBio測序方法需要大量的模板,因此需要進行多輪PCR,不過這一操作還需要進行優(yōu)化,從而降低擴增導(dǎo)致的偏倚。經(jīng)過PCR的末端修復(fù)和PacBio SMRT接頭連接后,就可以進行長讀長測序了;通過修改測序芯片的上樣條件,就可以在這一步驟進一步控制測序片段長度。

ONT cDNA測序方法也能產(chǎn)生全長的轉(zhuǎn)錄本讀長,甚至還能在單細(xì)胞水平上產(chǎn)生該讀長。模板轉(zhuǎn)錄逆轉(zhuǎn)錄酶也在這種方法中用于制備全長cDNA,制備好的cDNA可以選擇使用PCR來進行擴增,隨后在產(chǎn)物上加上接頭,形成測序文庫。直接cDNA測序會消除PCR偏倚,從而形成高質(zhì)量的測序結(jié)果;但是,如果使用PCR來制備測序文庫的話,需要的RNA數(shù)量更少。ONT cDNA測序法尚未報道過在PacBio測序儀上觀察到的片段長度偏倚。

這兩種長讀長cDNA方法都受到標(biāo)準(zhǔn)模板切換逆轉(zhuǎn)錄酶使用的限制,這種逆轉(zhuǎn)錄酶能用全長RNA以及截短的RNA來生成cDNA。逆轉(zhuǎn)錄酶可以將那些只含5?帽子結(jié)構(gòu)的mRNA置換為cDNA,這樣的話,那些由于RNA降解,RNA剪接或不完全cDNA合成而生成的短轉(zhuǎn)錄本就不會被反轉(zhuǎn)錄為cDNA,從而提高數(shù)據(jù)質(zhì)量。但是,有報道指出,逆轉(zhuǎn)錄酶會對ONT平臺的讀長產(chǎn)生不良影響。

長讀長直接RNA測序

前面我們提到了長讀長測序方法,這種測序方法與短讀長測序平臺一樣,它們都依賴于將mRNA轉(zhuǎn)換為cDNA。而最近Oxford Nanopore指出,他們的納米孔測序技術(shù)可以直接對RNA進行測序,也就是說,這種測序手段不需要常規(guī)測建庫過程中的的cDNA的合成和/或PCR擴增操作。這種方法稱為dRNA-seq,這種方法就消除了常規(guī)建庫過程中的偏倚,并且能夠保留表觀遺傳學(xué)信息。這種方法可以從RNA直接進行兩個接頭的連接來制備文庫。首先,帶有一個oligo(dT)懸臂的雙鏈核酸接頭退火并連接到RNA的多聚腺苷酸(PolyA)尾部,隨后就是可選(但不推薦的)的逆轉(zhuǎn)錄操作,這一步用于提高測序的通量。第二個連接操作就是添加測序接頭,這個測序接頭上已經(jīng)提前安裝有驅(qū)動測序的馬達蛋白。文庫隨后進行MinION測序,其中RNA直接從3?poly(A)尾部向5?cap端進行測序。最初的研究表明,dRNA-seq的測序長度過超過1000bp,最大測序長度過超過10kb。與短讀長測序相比,這種長讀長測序的幾個優(yōu)勢在于:長讀長測序可以提高對異構(gòu)體的檢測,并且它們還可以用于下方代碼poly(A)尾巴的長度,這對于可變poly(A)分析( alternative poly(A) analysis)來說非常重要。Nanopolish-polya這個工具可以對那些用納米孔測序得到的數(shù)據(jù)進行分析,計算出poly(A)尾的長度,這就包括基因之間的長度,也包括轉(zhuǎn)錄亞型之間的長度。這種分析證實了,保留內(nèi)含子的轉(zhuǎn)錄本比完全剪接的轉(zhuǎn)錄本具有略長的poly(A)尾巴。雖然dRNA-seq還處于起步階段,但是它具有檢測RNA堿基修飾的潛力,因此它的應(yīng)用潛力巨大,尤其是能夠?qū)Ρ碛^遺傳學(xué)轉(zhuǎn)錄進行新的分析。

長讀長與短讀長技術(shù)的比較

雖然長讀長技術(shù)在評估轉(zhuǎn)錄本方面比短讀長技術(shù)有一些明顯的優(yōu)勢,但是長讀長技術(shù)也有一些明顯的局限。尤其是與短讀長技術(shù)相比,長讀長技術(shù)的測序通量更低,錯誤率更多。但長讀長技術(shù)的主要優(yōu)勢在于,它們能夠捕獲更多的單個轉(zhuǎn)錄本,不過這依賴于高質(zhì)量的RNA文庫??傮w來說,這些局限影響了那些完全依賴于長讀長測序?qū)嶒灥撵`敏性(sensitivity)與特異性(specificity)。

長讀長測序方法的主要局限就是當(dāng)前的通量。在Illumina平臺上,運行單次的RNA-seq可以生成10E9-10E10條短讀長,但是在PacBio和ONT平臺上,一次RNA-seq則只能產(chǎn)生10E6-10E7條讀長。這種低通量限制了應(yīng)用長讀長測序技術(shù)進行實驗的規(guī)模,并降低了對差異基因表達檢測的靈敏性。然而,并非所有的實驗都需要高深度測序。對于那些主要研究異構(gòu)體的發(fā)現(xiàn)以及其特征的研究者們來說,測序長度比測序深度更重要。例如1百萬個PacBio環(huán)形一致性測序(circular consensus-sequencing, CCS)的讀長幾乎就可以保證產(chǎn)生那些大于1kb的高表達基因的檢測,ONT測序技術(shù)也是如此。因此,對于那些低到中等水平表達的基因來說,測序深度確實是一個主要問題。當(dāng)進行同期功能基因組學(xué)分析(contemporary functional genomics analysis)大規(guī)模的DGE實驗時,這種低通量測序技術(shù)的局限就會表現(xiàn)得明顯。在這些研究中,必須對多個樣本組進行分析,每組就是由多個生物學(xué)重復(fù)構(gòu)成的,這樣就能夠?qū)崿F(xiàn)充分的統(tǒng)計功效來有確認(rèn)那些在整個轉(zhuǎn)錄組水平上發(fā)生的精確變化。對于這種需求,長讀長技術(shù)不太可能取代短讀長技術(shù),除非長讀長的測序讀長的生成量能提高2個數(shù)量級。隨著全長RNA-seq讀長數(shù)目的增加,轉(zhuǎn)錄本檢測的靈敏度將會增加到類似于Illumina平臺上的這種水平,并同時具有更高的特異性。與此同時,通過將Illumina 的短讀長RNA-Seq與PacBio的長讀長Iso-Seq結(jié)合(并且可能還與ONT方法結(jié)合),可以增加全長RefSeq注釋的異構(gòu)體檢測的數(shù)量、靈敏性和特異性,同時保留轉(zhuǎn)錄本量化的質(zhì)量。雖然長讀長RNA-seq方法目前的實驗成本較高,但它們可以檢測到短讀長方法遺漏的異構(gòu)體,尤其是那些難以測序但與臨床相關(guān)的區(qū)域,例如高度多態(tài)的人類MHC或雄激素受體。

長讀長測序平臺的第二個主要局限就是其更高的錯誤率,它比成熟的Illumina測序儀要高出一到兩個數(shù)量級。長讀長測序平臺上生成的數(shù)據(jù)還包含更多的插入-刪除錯誤。雖然這些錯誤與識別變化(variant calling)有關(guān),但在RNA-seq中,每個堿基都被正確識別并非那么重要而長讀長測序的目標(biāo)是要闡明轉(zhuǎn)錄本和異構(gòu)體(While these error rates are of concern for variant calling, in RNA- seq it is less crucial that every base be called correctly, as the goal is only to disambiguate transcripts and isoforms)。這種錯誤率對于其應(yīng)用來說確實是一個值得觀注的問題,現(xiàn)在正在解決這一問題。PacBio SMRT測序平臺上出現(xiàn)的隨機錯誤通??梢酝ㄟ^使用CCS增加測序深度來進行解決,在這種技術(shù)里,cDNA經(jīng)過長度選擇和接頭進行環(huán)化后,每個分子就可以被多次測序,從而產(chǎn)生長度范圍是10-60kb的連續(xù)長讀長,并且包含許多原始cDNA的拷貝。這些長讀長經(jīng)過數(shù)據(jù)分析后就被處理為單個cDNA子子讀長(subreads),這些子讀長被組合后就可以產(chǎn)生一致的序列。分子測序的次數(shù)越多,產(chǎn)生的錯誤率就越低;CCS已經(jīng)被證明可以將錯誤率降低到與短讀長相當(dāng)?shù)乃剑踔粮?。但是,將更多的這個平臺的測序能力用于重新讀取相同的分子,就又加劇了其測序通量的問題,因為可以讀取的唯一轉(zhuǎn)錄本變得更少了。

長讀長RNA-seq方法的靈敏度還受到其他幾個因素的限制。首先,它們依賴于長RNA分子以全長轉(zhuǎn)錄本的形式進行測序,但是要達到這種情況并非總能實現(xiàn),因為在樣品處理和RNA提取過程中RNA會發(fā)生降解或剪接。這種情況在短讀長RNA-seq中也存在(3?端的偏倚),但這種問題在短讀長中是可控的,對于全長轉(zhuǎn)錄組分析進行研究的研究者們來說,即使是低水平的RNA降解,也能限制長讀長的RNA-seq效果。因此,對于那些即將使用長讀長進行測序的研究者來說,需要仔細(xì)地對提取的RNA進行質(zhì)控。其次,中位數(shù)的讀長長度會進一步受到文庫制備中的技術(shù)問題與偏倚的限制,例如有些cDNA合成的截斷或某些cDNA是由降解的mRNA合成的,最近開發(fā)的高效逆轉(zhuǎn)錄酶對此有所改進,這些酶有著更高的鏈特異性,甚至能夠產(chǎn)生更多的3?-5?轉(zhuǎn)錄本的覆蓋。雖然這些酶還未被廣泛使用,但是這些高效逆轉(zhuǎn)錄酶也提高了結(jié)構(gòu)穩(wěn)定的RNAs,例如tRNAs的覆蓋率,在oligo-dT和全轉(zhuǎn)錄組分析(WTA)方法中使用的逆轉(zhuǎn)錄酶很難處理這些結(jié)構(gòu)穩(wěn)定的RNAs。第三,長讀長測序平臺固有的偏倚(例如長文庫分子在測序芯片表面上的低擴散)會降低更長轉(zhuǎn)錄本的覆蓋率。

長讀長方法(使用cDNA或dRNA-seq)解決了用于異構(gòu)體分析的短讀長測序方法中的一個基本問題,即它們的讀長長度。長讀長方法可以生成從Poly(A)尾部到5?cap的跨異構(gòu)體的全長轉(zhuǎn)錄本讀長。因此,這些方法使得分析轉(zhuǎn)錄本及其異構(gòu)體成為可能,從而無需從短的讀長中重構(gòu)它們或推斷它們的存在;每個測序的讀長僅僅代表了它的起始RNA分子。全長cDNA測序或dRNA-seq用于分析DGE的未來應(yīng)用將依賴于PacBio和ONT技術(shù)的更高通量。長讀長RNA-seq分析正被研究者們迅速采用,并與深度短讀長RNA-seq數(shù)據(jù)結(jié)合起來,用于更全面的分析,這非常類似于基因組組裝所采取的混合方法。隨著時間的推移,長讀長和dRNA-seq方法可能會用于證明已經(jīng)鑒定的基因和轉(zhuǎn)錄本的列表,即使在研究很透的生物中,對于基因和轉(zhuǎn)錄本的研究也還遠(yuǎn)遠(yuǎn)不夠。隨著方法的成熟,以及測序通量的增加,差異轉(zhuǎn)錄本分析將會成為常規(guī)方法。合成長讀長RNA-seq或其它技術(shù)的發(fā)展將對這個領(lǐng)域產(chǎn)生什么樣的影響,還有待觀察。然而從目前來看,Illumina短讀長RNA-seq依然占據(jù)了主導(dǎo)地位,在這篇綜述的剩下部分中我們將會集中討論短讀長測序。

改良RNA-seq建庫方法

RNA-seq最初用于分析多聚腺苷酸化的轉(zhuǎn)錄本,使用的方法源于早期的表達序列標(biāo)簽(expressed-sequence tag)和芯片研究。然而,下一代測序的使用指出了這些方法的局限性,而這些局限性在芯片數(shù)據(jù)中并不明顯。因此,在RNA-seq首次報道后不久,就有研究報道了文庫制備方法的一些重大進展。例如,在cDNA合成之前,對RNA進行片段化可以產(chǎn)生3?:5?偏倚,鏈特異性文庫制備方法能夠更好的區(qū)分正義鏈與反義鏈,這些改進都能夠?qū)D(zhuǎn)錄本豐度進行更準(zhǔn)確的估計。RNA片段化和鏈特異性文的制備很快就成了RNA-seq文庫制備試劑盒中的標(biāo)準(zhǔn)方法。這里我們簡要描述了其它RNA-seq方法的改良,使用這些改進方法的可以讓研究者們根據(jù)他們的生物學(xué)問題以及特定樣本進行選擇。這些改進的方法包括在選擇RNA進行測序時,取代dligo-dT富集的替代方法,或者是那些專門選擇轉(zhuǎn)錄本的3?或5?末端的方法,或者是使用UMIs進行區(qū)分技術(shù)重復(fù)和生物重復(fù)的方法,以及針對RNA易降解特性改良的文庫制備方法。這些方法的組合可以使研究者們闡明由可變poly(A)(alternative poly(A),APA),或替代啟動子(alternative promoter)使用和可變剪接(alternative splicing)生成的復(fù)雜轉(zhuǎn)錄本。

Poly(A)富集的替代方法

大多數(shù)發(fā)表的RNA-seq數(shù)據(jù)都是基于oligo-dT富集的mRNA方法,這種方法會選擇包含poly(A)尾的轉(zhuǎn)錄本,并將集中測序測序那些在轉(zhuǎn)錄組的蛋白質(zhì)編碼區(qū)上。不過這種方法除了產(chǎn)生3?偏倚外,RNA中還有許多非編碼RNA,例如miRNA和增強子RNA,這些RNA不含有poly(A),因此不能使用這種方法進行研究。如果不進行poly(A)富集也無法達到目的,因為這會導(dǎo)致高達95%的讀長來源于rRNA。因此,研究者們可以選擇使用oligo-dT用于mRNA-seq,或者是剔除rRNA后進行WTA。短的非編碼RNAs無法被oligo-dT方法捕獲,使用WTA也很難對其進行研究,因此在研究非編碼短RNA時需要特定的小RNA方法,這些方法主要是通過順序RNA連接(sequential RNA ligation)實現(xiàn)的(通常小RNA建庫試劑盒中就有相應(yīng)的說明)。

WTA生成的RNA-seq數(shù)據(jù)來源于編碼和一些非編碼RNA。RNA的部分降解也能使用這種方法進行測序,RNA的降解會導(dǎo)致一些poly(A)從轉(zhuǎn)錄的末端分離。rRNA的去除有兩種方法,一種是將rRNAs從其它RNA中剔除掉(所謂的pull-out法),另一種就是使用RNAse H酶來對rRNA進行降解。這兩種方法都是使用序列特異性和物種特異性寡核苷酸探索來實現(xiàn)的,這些探針能與細(xì)胞質(zhì)rRNA(5S rRNA,5.8S rRNA,18S rRNA和28S rRNA)和線粒體rRNA(12S rRNA和16S rRNA)互補。為了簡化人類,大鼠,小鼠或細(xì)菌(16S和23S rRNA)樣本的處理,通常將預(yù)先混合的寡核苷酸添加到RNA中,然后讓它們與rRNA進行雜交,以便進行下一步的清除。其它高豐度的轉(zhuǎn)錄本,例如珠蛋白(globin)或線粒體RNA也可以按照類似的方法去除。pull-out方法結(jié)合了生物素化的探針和鏈霉素包裹的磁珠,它們可以用于除去寡聚的rRNA復(fù)合物,留下剩余的RNA用于建庫例如Ribo-Zero(Illumina,USA)和RiboMinus(Thermo Fisher,USA)。RNase H酶降解法可以降低那些生成的loigo-DNA:RNA復(fù)合物,例如,NEBNext RNA depletion(NEB,USA)和RiboErase(Kapa Biossystems,USA)。最近對這些方法的比較說明,在高質(zhì)量的RNA中,這兩種方法都可以將rRNA降低至后續(xù)RNA-seq讀長的20%以下。但是,作者說明了,RNase H方法比pull-out法的穩(wěn)定性要強,并且比較不同試劑盒時,最后得到的DGE長度的偏倚比較明顯。作者還描述了另外一種類似于RNase H的方法,這種方法表現(xiàn)不錯,并且以前沒有報道過。ZapR方法是Takara Bio的一項專有技術(shù),它使用一種酶來降解RNA-seq文中的rRNA片段。rRNA剔除方法的一個局限是,相比對oligo-dT RNA測序方法,rRNA剔除方法需要更高的測序深度,主要是因為里面還會存有一定的rRNA。

Oligo-dT和rRNA剔除法都可以用于后續(xù)實驗的DGE分析,研究者們可能會默認(rèn)使用以前在他們的實驗室中使用的方法或最容易使用的方法。然而,對于這些方法的使用應(yīng)該考慮一些因素,尤其是那些易降解的樣本,另外,WTA方法會檢測到更多的轉(zhuǎn)錄本,但是其實驗成本要高于oligo-dT方法。

富集的RNA 3?末端用于Tag RNA-seq以及可變多聚腺苷酸分析(Enriching RNA 3?ends for Tag RNA- seq and alternative polyadenylation analysis.)

標(biāo)準(zhǔn)的短讀長Illumina方法需要對每個樣本生成1000萬到3000萬條(10M到30M條)讀長用于高質(zhì)量的DGE分析。對于那些專注于基因水平表達,并從事大型或高度重復(fù)實驗的研究者們,或資源受限的研究者來說,可以選擇使用3?tag計數(shù)。由于測序集中在轉(zhuǎn)錄本的3?末端,因此需要的讀長(reads)更少,這就降低了成本,并且一次測序的樣本數(shù)目也可以更多。富集的3?末端也可以用于確定單個轉(zhuǎn)錄本的poly(A)位點,而由于mRNA前體上存在的APA,其3‘末端可能會發(fā)生變化。(群主批注:目前單細(xì)胞轉(zhuǎn)錄組商業(yè)王者10X就是采用這種方法,僅僅是對3?末端測序)

3? mRNA-seq方法會產(chǎn)生每個轉(zhuǎn)錄本的單個標(biāo)簽讀長(tag read),這些讀長來源于3?末端,這個標(biāo)簽(tag)豐度與轉(zhuǎn)錄本的豐度是成正比的。標(biāo)簽測序法(tag-sequencing protocols),例如QuantSeq(Lexogen, Austria)通常比標(biāo)準(zhǔn)RNA-seq法流程更為簡單。標(biāo)簽測序法已經(jīng)進行了優(yōu)化,這種方法使隨機引物或錨定的oligo-dT-primed來進行cDNA合成,從而并不需要poly(A)富集這一步驟,并在cDNA合成后立即進行PCR,從而取代了接頭連接步驟。這種方法可以在低測序深度上實現(xiàn)與標(biāo)準(zhǔn)RNA-seq類似的靈敏度水平,因此,這種方法可以使用多路復(fù)用的形式實現(xiàn)多個文庫的同步測序。這種建庫方法的數(shù)據(jù)分析也進行了簡化,因為不需要外顯子連接檢測和基因長度測序讀長的歸一化。但是,3? mRNA-seq方法可能會被受到轉(zhuǎn)錄本同聚區(qū)(homopolymeric regions0的影響,這會導(dǎo)致錯誤標(biāo)簽;這種方法只能提供非常有限的異構(gòu)體分析,這就會抵消它們較低測序深度帶來的任何成本收益,尤其是對于那些僅夠一次使用的樣本來說。

mRNAs的APA化會產(chǎn)生3? UTR長度不等的異構(gòu)體。對于一個特定的基因來說,它不僅產(chǎn)生了這個基因的多個亞型,而且由于3?UTR中存在著順式調(diào)控元件,這也會影響該轉(zhuǎn)錄本的調(diào)控。這種方法可以使用那些研究APA的研究者們更詳細(xì)地研究miRNA的調(diào)控作用,mRNA的穩(wěn)定和定位,以及mRNA的翻譯。APA法指在富集轉(zhuǎn)錄本的3?末端,從而提升信號與靈敏度,而前面提到的標(biāo)簽測序法非常適合此目的。其它方法多聚腺苷酸位點測序(polyadenylation site sequencing,PAS-seq),這種方法可以將mRNA打斷為150bp左右的片段,并且使用oligo-dT標(biāo)記的模板轉(zhuǎn)換來生成cDNA用于測序,其中的80%讀長就來源于3?UTR。TAIL-seq方法能不使用oligo-dT,在對RNA進行打斷之前,這種方法會剔除rRNA,并將3?-RNA接頭連到的poly(A)的尾部。當(dāng)片段化后,再加上5?-RNA接頭就完成了RNA-seq文庫的制備。在RNA-蛋白分析方法中也能評估APA,例如紫外交聯(lián)免疫沉淀(cross- linking immunoprecipitation, CLIP)測序。

富集的RNA 5?末端用于起始位點回貼(Enriching RNA 5?ends for transcription start- site mapping)

使用富集7-甲基鳥苷5?加帽RNA(7-methylguanosine 5?-capped RNA)也可以進行DGE分析,這種方法可以用來鑒定啟動子和轉(zhuǎn)錄起始位點(TSSs)?,F(xiàn)存有幾種方法都可以實現(xiàn)這個目的,但是這些方法很少作為常規(guī)手段來進行使用。在對基因表達的加帽分析(CAGE, cap analysis of gene expression),以及用于基因表達分析的啟動子的RNA注釋和定位(RAMPAGE, RNA annotation and mapping of promoters for analysis of gene expression)分析中,當(dāng)使用隨機引物生成第一鏈cDNA后,mRNA 5?的帽子結(jié)構(gòu)就被生物素化,這就可以將5? cDNA通過鏈霉親和素進行富集。CAGE使用II型限制性內(nèi)切酶來生成短的cDNA標(biāo)簽,這種酶會從5?端的接頭下游切割21-27p的核核苷酸。相比之下,RAMPAGE操作則使用模板轉(zhuǎn)換(template switching)來生成較長的cDNA,這個cDNAs隨后被富集起來,用于測序。單細(xì)胞標(biāo)簽?zāi)孓D(zhuǎn)錄測序技術(shù)(single-cell-tagged reverse transcription sequencing, STRT-seq)能夠在單細(xì)胞水平上實現(xiàn)TSS的回貼(mapping)。STRT-seq技術(shù)使用生物素化的模板轉(zhuǎn)換oligos來生成cDNA,被磁珠捕獲后,就在5?末端進行片段化,產(chǎn)生短的cDNA標(biāo)簽。作為CAGE基礎(chǔ)的5?末端的加帽技術(shù)是由日本理化所(Riken)開發(fā)的,這種技術(shù)用于早期功能基因組學(xué)實驗中,使全長cDNA克隆數(shù)量最大化。日本理化所主導(dǎo)的小鼠功能注釋(FANTOM, Functional Annotation of the Mouse)協(xié)會通過闡明了1300多個人類和小鼠原代細(xì)胞,組織和細(xì)胞系的TSS,這充分顯示了CAGE的強大。在最近一些方法比較中,CAGE也表示不俗。但是作者卻報道說,僅使用5?末端測序產(chǎn)生的假陽性TSS峰也是最多的,他們建議使用正交方法進一步來確認(rèn)陽性,例如DNase I的回貼或H3K4me3染色質(zhì)免疫沉淀測序(ChIP-seq)。

使用唯一分子標(biāo)識符來檢測PCR重復(fù)

RNA-seq數(shù)據(jù)通常具有較高的重復(fù)率(duplication rates),也就是說許多測序讀長會回貼到轉(zhuǎn)錄組的相同位置。與全基因組測序不同的是,在全基因組測序中,重復(fù)的讀長被以認(rèn)為是PCR這一步中出現(xiàn)的技術(shù)偏倚導(dǎo)致的,它會被移除,而在RNA-seq中,這些重復(fù)的讀長則被認(rèn)為是真正的生物學(xué)信號并被保留。在一個樣本中,數(shù)百萬個起始RNA分子也許代表了高表達的轉(zhuǎn)錄本,當(dāng)對cDNA進行測序時,就會發(fā)現(xiàn)很多片段是相同的。因此,在比對(alignment)過程中,并不建議通過計算去除那些不必要的重復(fù),因為這些重復(fù)中很多是真正的生物信號。當(dāng)使用單端測序(single-end sequencing)時更是如此,因為一對片段中只要一端相同,就可以被認(rèn)為是一個重復(fù)(duplicate),至于雙端測序(paired-end sequencing),兩端必須在同一位置時才能被認(rèn)為是一個重復(fù),但這種情況很少。但是,由于PCR偏倚,在制備cDNA文庫時,還會存在著某種程度上技術(shù)重復(fù),并且PCR復(fù)制偏倚是一種質(zhì)控問題,它有可能對RNA-seq實驗結(jié)果造成影響時,很難區(qū)分出這些技術(shù)重復(fù)與生物重復(fù)的程度。

現(xiàn)在已經(jīng)提到將UMIs作為一種解釋擴增偏倚的方法。在擴增前將隨機UMIs添加到cDNA分子中,使得能夠確認(rèn)PCR重復(fù),并且可以在后續(xù)的數(shù)據(jù)分析中將其除去,同時保護真正的生物學(xué)重復(fù),從而改善基因表達的量化和等位基因頻率估計的效果。當(dāng)一對測序讀長被確認(rèn)為一個技術(shù)重復(fù)時,它們應(yīng)該包括相同的UMI,并且被回貼到轉(zhuǎn)錄組中相同的位置(一端或兩端,這取決于使用的是單端測序還是雙端測序)。

UMIs已經(jīng)被證明能夠降低變異和錯誤發(fā)現(xiàn)率來提升RNA-seq中的DGE數(shù)據(jù)分析,并且這種方法在單細(xì)胞數(shù)據(jù)分析方面也有著重要作用,單細(xì)胞數(shù)據(jù)中的擴增偏倚可能更為嚴(yán)重。當(dāng)試圖在RNA-seq數(shù)據(jù)中進行變異檢測(variant calling)時,UMIs也非常有用。雖然高表達的轉(zhuǎn)錄本可以產(chǎn)生適合這種變異檢測的高覆蓋率,尤其是包含了了這種重復(fù)時,但UMIs可以用于去他可能導(dǎo)致第二位基因頻率錯誤計算的擴增假象。UMIs正在成為單細(xì)胞RNA-seq(scRNA-seq)的文庫制備試劑盒中的標(biāo)準(zhǔn),同時它也日益頻繁地用于常規(guī)RNA-seq。

提高降解RNA的分析

RNA-seq文庫制備方法的發(fā)展也改進了低質(zhì)量或降解RNA的分析,例如從臨床相關(guān)獲得的那些用福爾馬林固定石蠟包埋(FFPE)塊存儲的樣本中的RNA。低質(zhì)量的RNA會導(dǎo)致不均勻的基因覆蓋率,更高的DGE假陽性率和更高的重復(fù)率,它們與文庫的復(fù)雜性呈負(fù)相關(guān)。但是,文庫的制備方法已經(jīng)被改良,改良后的方法能降低RNA降解的影響。這些方法可能在基于RNA-seq的診斷技術(shù)的發(fā)展中顯得尤為重要,例如將來有可能出現(xiàn)的類似于OncotypeDX(目前并不是測序分析)的診斷,這種試劑盒基于21個基因RNA的標(biāo)簽來預(yù)測乳腺癌的復(fù)發(fā)。雖然現(xiàn)在有幾種方法可以使用,但是比較后發(fā)現(xiàn)兩種方法表現(xiàn)最好,即RNase H與RNA exome。我們前面提到,RNase H法使用核酸本科來降低RNA:DNA復(fù)合物中的rRNA,但是它卻能阻止mRNA的降解。RNA exome方法使用類似于外顯子測序(exome sequencing)那樣的方法,使用寡核苷酸探針來捕獲RNA-seq文庫分子。這兩種方法都能通過減少rRNA,同時不影響mRNA的手段來產(chǎn)生高質(zhì)量和高度一致的基因表達數(shù)據(jù)。3?末端標(biāo)記測序技術(shù)與擴增子測序(在PCR擴增中能產(chǎn)生超過2萬個外顯子擴增子)方法也可以用于分析降低的RNA,但是這兩種方法并沒有RNase H方法使用廣泛。

設(shè)計更好的RNA-seq實驗

仔細(xì)設(shè)計DGE RNA-seq實驗對于獲取高質(zhì)量和生物意義數(shù)據(jù)有著非常重要的意義。尤其是要考慮到復(fù)制的層次,測序深度以及單端還是雙端測序。

重復(fù)與實驗功效(replication and experimental power)

在一個實驗中,足夠的生物學(xué)重復(fù)(biological replicates)能夠捕獲不同樣本之間的生物學(xué)變異;在定量分析中的置信度依賴于測序深度與讀長長度。雖然RNA-seq比芯片表現(xiàn)了更低的技術(shù)偏倚,但是生物系統(tǒng)中固有的隨機變化都要求任何RNA-seq實驗要做生物學(xué)重復(fù)。使用額外的重復(fù)能夠確定異常樣本,在必要情況下,在進行生物學(xué)分析之前,移除這些異常樣本或降低這些異常樣本的權(quán)重。確定生物學(xué)重復(fù)需要考慮幾個因素,包括效應(yīng)大小(effect size),組內(nèi)變異,可接受的假陽性和假陰性閾值,以及最大樣本數(shù)目,有的時候還需要RNA-seq實驗設(shè)計工具或功效(power)計算工具的輔助。

在一個實驗中要想確定一個合適的生物學(xué)重復(fù)并非是一件簡單的事情。一項48個重復(fù)的酵母研究表明,當(dāng)使用3個生物學(xué)重復(fù)時,計算樣本用于DGE分析的工具只能檢測出20-40%的差異表達基因。研究表明,至少應(yīng)該使用6個生物學(xué)重復(fù),這個數(shù)量要超過文獻中常用的3到4個生物重復(fù)的數(shù)量。最近的一項研究表明,4個生物學(xué)重復(fù)可能足夠的,但是研究指出,在確定合適的重復(fù)數(shù)目之前,需要做一個預(yù)實驗來確定生物樣本的方差。對于高度多樣化的樣本,例如來自癌癥患者腫瘤的臨床組織,可能需要更多的重復(fù),以便能以更高的置信度來確定基因的變化。

確定合適的讀取深度(Determining the optimal read depth)

一旦文制備好,就需要決定對它們進行多深的測序。讀取深度指的是,每個樣本獲得的測序讀長的目標(biāo)數(shù)目。對于真核基因組中的常規(guī)RNA-seq DGE分析來說,一般認(rèn)為每個樣本需要100萬-300萬條讀長(也就是我們常說的10M到30M數(shù)量)。但是,在多個物種中的實驗結(jié)果顯示當(dāng)每個樣本的測序讀長數(shù)量為1M時,那么這個數(shù)量級的測序讀長提供的轉(zhuǎn)錄本豐度信息與轉(zhuǎn)錄組中表達最高表達量的一半的轉(zhuǎn)錄本30M測序提供的豐度信息類似。如果實驗的重點是關(guān)注那些最高表達相對較大變化的基因,并且如果有足夠的生物學(xué)重復(fù),那么就可以使用較低深度的測序就能解決驅(qū)動實驗的假設(shè)。測序完成后,通過檢查讀長在樣本之間的分布以及檢查飽和曲線就能評估進一步的測序能夠增加實驗的靈敏度。隨著測序通量的增加,為了控制技術(shù)偏倚,可以將一個實驗的所有樣本都添加一個“混合”文庫中進行測序,這已經(jīng)成了標(biāo)準(zhǔn)做法。一次測序所需要讀長總數(shù)則是樣本數(shù)乘以讀取深度;然后根據(jù)生成所需的讀長總數(shù)來對這個混合文庫進行多次測序。這種合并需要嚴(yán)格檢測每個樣本RNA-seq文庫的濃度,并假設(shè)每個文庫中的cDNA量相對均值(低方差),因此總的讀長數(shù)目就會平均地分布在每個樣本上。在進行一次昂貴的,多泳道(lane)測序之前,運行單個泳道以驗證樣本之間的低方差通常是值得的。

選擇參數(shù):測序長度,單端測序或雙端測序

最終的測序參數(shù)包括測序長度,單端測序還是雙端測序。在許多測序應(yīng)用中,測序讀長的長度對于數(shù)據(jù)的利用有著重要的影響,因此更長的讀長可以使測序的DNA覆蓋率更高。當(dāng)使用RNA-seq來進行DGE分析時這種方法并不適用,其中重要的原因則是,確定每個讀長來源于轉(zhuǎn)錄組的哪個位置的能力有限。一旦一個讀長能夠明確其回貼位置,那么較長的讀長在基于量化的分析中就不會再提供太多的價值。對于那些更定性的RNA-seq分析來說,例如特定異構(gòu)體的鑒定,更長的讀長可能更有用。

單端測序與雙端測面臨的問題是類似的。在單端測序中,每個cDNA片段只有一個末端(3?端或5?端)用于產(chǎn)生測序讀長,但雙端測序則是一個片段產(chǎn)生2條讀長(一個是3?端,一個是5?端)。在那些需要盡可能高的核苷酸覆蓋率的分析實驗中,長讀長雙端測序可能更好。然后,DGE分析不需要對轉(zhuǎn)錄本片段的每個堿基都進行測序,在DGE分析中,研究者只需要比對后,統(tǒng)計出那些回貼到轉(zhuǎn)錄本上的讀長數(shù)目即可。例如,通過比較測序讀長發(fā)現(xiàn),“短”的50bp單端測序與“長”的100bp雙端測序所產(chǎn)生的DGE結(jié)果沒有區(qū)別。這是因為單端測序足以鑒定出大多數(shù)測序片段來源的基因。同樣的研究表明,使用短的單端測序降低了檢測出異構(gòu)體的能力,因為跨越剪接連接的讀長較少。雙端測序還有助于消除讀長回貼的歧義,并對可變外顯子量化(alternative-exon quantification),融合轉(zhuǎn)錄本檢測和從頭開始(de novo)的轉(zhuǎn)錄本發(fā)現(xiàn),尤其是處理那些沒有很好注釋的轉(zhuǎn)錄本來說,雙端測序更是首選。

在實際應(yīng)用中,單端測序或雙端測序之間的選擇通?;诔杀净蜓芯空邆兛捎玫臏y序技術(shù)。在Illumina NovaSeq發(fā)布之前,在多數(shù)情況下,每M讀長的單端測序的成本要低于雙端測序,因此,在相同實驗成本的前提下,單端測序能夠?qū)崿F(xiàn)更高的復(fù)制或讀長深度。

在Illumina NovaSeq發(fā)布之前,在大多數(shù)情況下,單端測序的每百萬次讀取的成本低于成對末端測序,因此允許以相同的實驗成本進行更高的復(fù)制或讀取深度。當(dāng)選擇了更多的短單端測序讀長和產(chǎn)生更長的雙端測序讀長后,那么增加讀取深度將對提高DGE實驗的靈敏度產(chǎn)生更大的影響。

RNA-seq數(shù)據(jù)分析

用于分析測序讀長以確定差異表達的計算方法的數(shù)量在過去10年里大量增加,并且即使對于最簡單的DGE分析來說,在分析實踐中,每個步驟也存在著大量的差異。然而,每個步驟都可以使用不同方法,這些方法的不同組合會對從數(shù)據(jù)中得到的生物學(xué)結(jié)論產(chǎn)生重要的影響。這些工具的最佳組織取決于正在研究的特定生物學(xué)問題,以及可用的計算機資源。雖然有著盡可能多的排列組合,但是我們的重點在于研究,每個世界大在樣本之間的差異表達的可能性的工具和技術(shù)。針對這個目標(biāo),我們可以將分析過程劃分為4個階段(FIG 2;TABLE 2)。

第1階段是將一個測序平臺產(chǎn)生的原始測序讀長導(dǎo)入工具,并將這些讀長回貼到轉(zhuǎn)錄組上。

第2階段,是對每個基因或轉(zhuǎn)錄本相關(guān)的讀長數(shù)目進行定量(表達矩陣)。這一過程涉及一個或多個不同的比對(alignment),組裝(assembly)與定量(quantification)亞過程,或者是可以在單個步驟中從讀長計數(shù)中,整體地生成表達矩陣。

第3階段是通過過濾低表達特征來改變表達矩陣,這一步的關(guān)鍵步驟是對原始讀長計數(shù)進行歸一化,用于解釋樣本之間的技術(shù)差異。

第4階段是樣本組之間的統(tǒng)計建模與協(xié)變量(covariates),以及計算與差異表達相關(guān)的置信統(tǒng)計量。

Figure2-差異基因表達的RNA-seq數(shù)據(jù)分析流程

Figure 2-差異基因表達的RNA-seq數(shù)據(jù)分析流程。差異基因表達(DGE)分析的第一步是原始RNA測序讀長的FASTQ格式的數(shù)據(jù),DGE的分析有多種方式。主流的分析流程有三種(用實線劃的三個方框,分別用A,B和C表示),并且圖上還列出了許多替代工具(用虛線表示)。

在A分析流程中,比對工具例如TopHat,STAR或HISAT2使用一個參考基因組來將讀長回貼到基因組的位置上,然后使用一些定量工具,例如HTSeq和featureCounts,來將讀長比對于基因的特征上。在歸一化后(通常歸一化的方式都內(nèi)嵌到了一些分析工具,例如TMM),基因表達就通過一些計建模工具,例如edgeR,DESeq2和limma+voom進行計算,計算結(jié)果是一些差異表達基因或轉(zhuǎn)錄本的列表,這數(shù)據(jù)用于下一步的可視化和生物學(xué)解釋。

在B分析流程中,使用一些較新的免比對工具,例如Kallisto與Salmon,這些工具會在一步操作中組裝轉(zhuǎn)錄組并對相應(yīng)的轉(zhuǎn)錄本進行定量。這些工具的輸出結(jié)果通常是轉(zhuǎn)錄本定量的一些估計值(例如tximport,TXI),然后通過與A分析流程中相同的歸一化和統(tǒng)計建模,產(chǎn)生出差異基因或轉(zhuǎn)錄本列表。

在C分析流程中,第一步是比對讀長(這一步的工具通常是TopHat,雖然有些分析方法也會用STAR與HISAT),接頭使用CuffLinks來處理原始讀長,再然后是使用CuffDiff2包來輸出轉(zhuǎn)錄本豐度的估計值,以及一個差異表達基因或轉(zhuǎn)錄本的列表。

其它常用的工具還包括StringTie,這個工具使用TopHat(或類似工具)的輸出結(jié)果來組裝一個轉(zhuǎn)錄本模型,然后將結(jié)果輸出到RSEM或MMSEQ中,用于估計轉(zhuǎn)錄本的豐度值,最后將轉(zhuǎn)錄本的豐度值輸出給Ballgown來計算差異表達基因或轉(zhuǎn)錄本。而SOAPdenovo-trans這個工具則能同時對讀長進行比和組裝,其結(jié)果用于輸入給RSEM或MMSEQ。

TABLE2-RNA-seq數(shù)據(jù)分析工具

第1階段-測序讀長的比對(alignment)與組裝(assembly)

測序完成后,分析的起點就是數(shù)據(jù)文件,這個數(shù)據(jù)文件包含了測序計數(shù)的堿基,這些數(shù)據(jù)文件通常是以FASTQ文件的格式存在。處理這些FASTQ文件最常見的第一步操作就是將測序讀長回貼到已知的轉(zhuǎn)錄組上(或已經(jīng)注釋的基因組上),將每個測序讀長轉(zhuǎn)換為一個或多個基因組坐標(biāo)。這一過程可以使用多個不同的比對工具,例如TopHat,STAR或HISAT,它們都依賴于一個參考基因組。由于測序的cDNA都源于RNA,而RNA有可能跨外顯子邊界,因此當(dāng)與參考基因組(含有內(nèi)含子與外顯子)進行比對時,這些工具進行一個剪接比對后,測序讀長之間會出現(xiàn)一些間隙。

如果測序的物種沒有一個可用的高質(zhì)量基因組注釋(含有已經(jīng)知的外顯子邊界),或者說如果希望將測序讀長與轉(zhuǎn)錄本(而不是基因)關(guān)聯(lián)起來,那么可以使用比對的讀長進行轉(zhuǎn)錄組的組裝。一些組裝工具,例如StringTie,SOAPdenovo-Trans使用利用那些已經(jīng)比對好的結(jié)果中的空隙來推測其外顯子邊界,以及可能的剪接位點。當(dāng)參考基因組注釋沒有或者是不完整時,或者是你感興趣的組織(例如在腫瘤組織)中轉(zhuǎn)錄本異常的情況下,這些從頭組裝轉(zhuǎn)錄本的工具尤其好用。當(dāng)使用的是雙端測序和/或更長的測序技術(shù)時,這種轉(zhuǎn)錄組組裝方法效果更好,因為這些測序技術(shù)有更大的可能性跨越了剪接位點。但是,從RNA-seq數(shù)據(jù)中進行轉(zhuǎn)錄本的完整組裝對于計算DGE來說,并不是一個必需的步驟。

最近,已經(jīng)開發(fā)出了計算高效的“免比對”(alignment-free)工具,例如Sailfish,Kallisto與Salmon,這些工具可以直接將測序讀長與轉(zhuǎn)錄本進行關(guān)聯(lián),從而無需單獨的定量步驟(參考后面的第2階段部分)。這些工具在那些表征更高豐度(以及更長的)轉(zhuǎn)錄本方面表現(xiàn)得非常良好;然后它們在那些定量低豐度或短轉(zhuǎn)錄本方面表現(xiàn)不佳。

用于將測序讀長回貼到轉(zhuǎn)錄本的不同的工具在它們?nèi)绾螌y序的子集進行分配方面有著顯著的差異,這會影響最終的表達估計值。當(dāng)有來自一個不同基因,偽基因或轉(zhuǎn)錄本的多個讀長時,這種效果尤為明顯。一項比對12個基因表達估計方法的比較顯示,一些比對方法低估了許多與臨床相關(guān)的基因的表達,這主要是由于其并不精確的回貼讀長所導(dǎo)致的。在RNA-seq數(shù)據(jù)的計算分析中,如何將多個回貼的讀長合理進行分析仍然是一個值得研究的方向。通常的做法是將這些讀長排除在下一步的分析之外,但這可能會使結(jié)果產(chǎn)生偏(參考階段2-轉(zhuǎn)錄本豐度的量化)。其它的估計包括生成“合并“表達特征,這些特征包含了那些共同回貼后的讀長的重疊區(qū)域,以及要在隨后的置信度計算中,對每個估計的基因的回貼的不確定性進行估計。

第2階段-轉(zhuǎn)錄本豐度的量化

一旦讀長被回貼到基因組的位置或轉(zhuǎn)錄組的位置,接下來的步驟就是將這些讀長分配到基因或轉(zhuǎn)錄本上,以確定它們的豐度。不同的比較研究表明,在量化步驟中采用的不同的方法對最終的結(jié)果影響最大,這種影響甚至超過了第1步中比對工具的選擇。對每個基因(即該基因所有轉(zhuǎn)錄本的亞型)測序讀長豐度的量化依賴于轉(zhuǎn)錄組注釋來對那些重疊到已知基因上的測序讀長進行量化。但是,使用短讀長對測序讀長進行特定異構(gòu)體分配來說還需要一個估計步驟,因為許多讀長并不能跨越剪接位點,因此它們無法精確地分配給特定的異構(gòu)體。當(dāng)一個基因的主要表達形式是在不同長度的轉(zhuǎn)錄本之間進行轉(zhuǎn)換時,那么即使在僅研究基因?qū)用娴牟町惐磉_分析的前提下,對這些轉(zhuǎn)錄本進行定量則會產(chǎn)生一個更加精確的結(jié)果。例如,在一個樣本中,一個主要的轉(zhuǎn)錄本也許只有另外一個樣本中同樣轉(zhuǎn)錄本的一半長度,但是前者的表達量是后者的2倍,那么單純地基因基因定量的工具無法區(qū)分這個轉(zhuǎn)錄本的差異表達。

常用的量化工具包括RSEM,CuffLinks,MMSeq與HTSeq以及前面提到的那些免比對工具。一些基于讀長計算的工具,例如HTSeq(或者是R equivalent,featureCounts)通常會丟棄許多比對好的讀長,包括那些回貼到多個位置的讀長,或者是重疊多個表達特征的讀長。其結(jié)果就是,在隨后的分析中清除了那些同源和重疊的轉(zhuǎn)錄本。RSEM會使用期望最大化的方法來分配那些比對不明的讀長,Kallisto這個無參比對工具會將比對不明的讀長包括在它們相應(yīng)的轉(zhuǎn)錄本計數(shù)中,從而導(dǎo)致結(jié)果偏倚。使用tximport包可以將轉(zhuǎn)錄本豐度估計轉(zhuǎn)化為讀長計數(shù)值(read count equivalents)。量化步驟中產(chǎn)生的結(jié)果通常會合并為一個表達矩陣,在這個矩陣中,每一行是表達特征(基因或轉(zhuǎn)錄本),每一列是樣本名,表達矩陣中的值要和是實際的讀長值,要么是一種估計豐度。

第3階段-過濾和歸一化

通常來說,定量后的基因或轉(zhuǎn)錄本計數(shù)結(jié)果還需要過濾和歸一化,從而用于解釋讀長深度,表達模式以及技術(shù)偏倚。過濾用于去除那些不均一的低讀長豐度特征的值,從而提高對那些真正差異表達值的檢測能力。而對表達矩陣進行歸一化則更加復(fù)雜。直接轉(zhuǎn)換可以調(diào)整豐度值,以便能更加說明GC含量的差異以及讀長深度。早期用于歸一化的方法就是RPKM,但這種方法現(xiàn)在已經(jīng)淘汰,它已經(jīng)被那些能夠校正樣本之間更細(xì)微差異的方法所取代,例如四分位數(shù)法或中位數(shù)歸一法。

廣泛的研究表明,歸一化方法的選擇會對最終的結(jié)果以及生物學(xué)結(jié)論產(chǎn)生重要的影響。大多數(shù)進行歸一化的算法依賴于兩個重要的假設(shè):第一,大多數(shù)基因的表達水平在重復(fù)的樣本組之間保持不變;第二,不同的樣本組在總體的mRNA水平上不表現(xiàn)出顯著差異。當(dāng)這些基礎(chǔ)假設(shè)不成立時,那么就需要慎重考慮是否進行歸一化,以及如何進行歸一化。例如,如果一些基因在一個樣本中高表達,同時相同的基因,以及另外的一些基因在同一組中的另外一個樣本里正常表達,如果對讀長深度進行簡單的歸一化則明顯不夠,因為相同數(shù)目的測序讀長會分配到第二個樣本里更多的基因上面。歸一化過程,例如截斷均值化M值(The Trimmed Mean of M-values,TMM)方法(它已經(jīng)整合到的edgeR包中)就能解決這個問題。選擇一個合適的歸一化方法或許很困難;一種做法就是深度使用多種方法進行分析,然后比較它們結(jié)果的一致性。如果結(jié)果對于歸一化方法高度敏度,則應(yīng)該對數(shù)據(jù)進行進一步的探索,以確定差異來源。但是,比較不同的歸一化方法時,要謹(jǐn)慎確保這種歸一化方法的比較不是為了選擇與原始假設(shè)最兼容的歸一化方法。

處理這些問題的一種方法的spike-in control RNAs,這種方法會引入一些外源已知的RNA序列,這些外源已知的RNA序列已知,濃度已知,在建庫的過程中,將它們添加到樣本中。RNA-seq中的Spike-ins方法包括外部RNA控制協(xié)會混合物(External RNA Controls Consortium  mix, ERCCs),spike-in RNA突變物(spike-in RNA variants, SIRVs)與測序spike-ins(sequencing spike-ins, Sequins)。由于預(yù)先知道spike-in的濃度,這些濃度直接與生成的讀長數(shù)相關(guān),因為就可以對這些來自樣本轉(zhuǎn)錄的表達水平進行校正。也有人指出,如果不進行spike-in控制時,那么就不能對那些有強烈倍數(shù)變化基因的實驗進行分析。然后在實踐中,很難在預(yù)設(shè)水平上一致地整合spike-ins,并且它們在基因水平上對測序讀長數(shù)目進行歸一化比轉(zhuǎn)錄本更加可靠,因為在一個樣本中,每個異構(gòu)體的表達水平不同。目前,spike-in控制法并沒有在發(fā)表RNA-seq DGE實驗中得到廣泛使用,如果這種方法被進一步改進,提高其一致性的話,則這種方法會得到廣泛使用,但現(xiàn)在很多研究者們在他們的單細(xì)胞實驗(這種實驗里會更加廣泛地使用spike-in)使用了這種方法。

第4階段-差異表達的統(tǒng)計建模

一旦測序讀長被處理為表達矩陣,那么就可以對實驗進行統(tǒng)計建模,從而確定哪些轉(zhuǎn)錄本發(fā)生了改變。一些工具可以達到這些目的;其中一些工具會對基因水平的讀長數(shù)目進行統(tǒng)計建模,而一些則依賴于轉(zhuǎn)錄本水平的估計。基因水平的工具通常依賴于比對好的讀長數(shù)目,使用廣義線性模型(Generalized Linear Models)處理這些數(shù)據(jù),從而能夠評估復(fù)雜的實驗設(shè)計。這些工具包括edgeR,DESeq2以及l(fā)imma+voom,這些工具能夠進行有效地計算,并提供比較結(jié)果。對差異異構(gòu)體表達進行統(tǒng)計建模的工具包括CuffDiff,MMSEQ與Ballgown,這些工具通常需要更多的算力(computational power),并且不同工具的結(jié)果中的信息量更大。但是,在進行選擇差異表達工具之前做的那些工作,例如比對,定量或過濾以及歸一化這些操作對最終結(jié)果的總體方差會產(chǎn)生更大的影響。

常規(guī)的RNA-seq分析流程,相信關(guān)注我們生信技能樹的粉絲早就跟著一遍又一遍的學(xué)習(xí)了,這里就不再贅述,直接上視頻,需要掌握下面3個視頻課程的知識點,見:https://space.bilibili.com/338686099/#/

常規(guī)RNA-seq進階

源于整塊組織和/或大量細(xì)胞的RNA-seq數(shù)據(jù)已經(jīng)徹底改變了我們對生物學(xué)的理解,但是這種常規(guī)的RNA-seq無法輕易地分辨出特定的細(xì)胞類型,也無法保存空間信息,而這兩個信息都是理解生物系統(tǒng)復(fù)雜性的關(guān)鍵因素。促進研究者們從常規(guī)的RNA-seq走出去的情形與常規(guī)RNA-seq當(dāng)初出現(xiàn)的理由類似,但這種進階能夠能夠解決很多不同的問題。單細(xì)胞測序讓人們發(fā)現(xiàn)了,即使在被認(rèn)為研究透徹的疾病背后,還存在著一些未知細(xì)胞類型,例如發(fā)現(xiàn)了離子細(xì)胞(ionocyte cell),這類細(xì)胞可能與囊性纖維化疾病有關(guān)。空間分辨RNA-seq則提示了在實體組織中細(xì)胞與細(xì)胞之間的相互作用,例如發(fā)現(xiàn)了成年心臟組織中一小群胎兒標(biāo)記基因表達的細(xì)胞。雖然在可預(yù)見的未來,常規(guī)RNA-seq仍然是一個占據(jù)主導(dǎo)地位的工具。但是,單細(xì)胞測序與分析方法正在快速地被研究者利用,并且隨著空間RNA-seq方法的成熟,它們有可能成為常規(guī)RNA-seq分析中的一部分。這兩種方法都將提高我們對多細(xì)胞生物體復(fù)雜性的理解,它們都有可能與常規(guī)RNA-seq方法結(jié)合使用。在這里我們簡單描述一下主要的單細(xì)胞測序以及空間RNA-seq方法,以及它們與常規(guī)RNA-seq的不同之處,以及新的研究者們?nèi)绾沃帧?/p>

單細(xì)胞分析

scRNA-seq于2009年首次報道,當(dāng)時的研究者在含有裂解緩沖液的EP管中分離了單個卵母細(xì)胞。單細(xì)胞測序?qū)ι飳W(xué)新問題的解釋,以及現(xiàn)有的實驗室和計算方法以極快的速度發(fā)展,甚至最近幾年綜述都已經(jīng)過時了。每種scRNA-seq方法都需要將實體組織進行分離,分離出單個細(xì)胞(使用不同的方法),以及標(biāo)記上每個細(xì)胞的RNA,對RAN擴增后進行測序,所有的這些方法都來源于早期常規(guī)RNA-seq的方法。

機械裂解和膠原酶加DNAase的酶解會生成單細(xì)胞懸液,從而產(chǎn)生大量可用的細(xì)胞,但是這種產(chǎn)生是高度組織特異性的,比較依賴于經(jīng)驗,其過程也需要非常小心。一旦制備好了單細(xì)胞懸液,就可以通過各種方法分離單細(xì)胞(FIG 3a);大多數(shù)的實驗都是使用流式細(xì)胞儀來進行單細(xì)胞分選,這種方法是最容易,它可以將單個細(xì)胞直接分選到含有裂解液的微孔板中。對于更高通量的實驗,現(xiàn)存有大量分離單細(xì)胞的專門儀器,這些儀器需要自己構(gòu)建或購買。單個細(xì)胞可以通過物理手段被捕獲到微流控芯片中,或者是通過Poisson分布的原理被分配到加載到含有納米孔(nanowell)的芯片中,隨后這些單細(xì)胞被分離后就被液滴微流分離技術(shù)合并到含有試劑的液滴中(例如Drop-Seq與InDrop),或者是單細(xì)胞被原位標(biāo)記上標(biāo)簽(例如單細(xì)胞混合索引RNA測序技術(shù), single-cell combinatorial indexing RNA sequencing, sci-RNA-seq以及分離-混合-連接轉(zhuǎn)錄組測序技術(shù),split- pool ligation- based transcriptome sequencing,SPLiT-seq)。單細(xì)胞分離后,它們就被裂解,將RNA釋放到溶解中用于cDNA合成,并將cDNA用于RNA-seq文庫制備。在文庫制備過程中,來源于每個細(xì)胞的RNA會通過PCR進行擴增。這種擴增就引入了PCR偏倚,但是UMIs可以用于校正這種偏倚。由于Poisson采樣,一個細(xì)胞中只有10-20%的轉(zhuǎn)錄本會被逆轉(zhuǎn)錄,這就限制了轉(zhuǎn)錄本檢測的靈敏度,以及各種方法產(chǎn)生的可用數(shù)據(jù)。在濕實驗之外,計算方法也在迅速發(fā)展,最近已經(jīng)出現(xiàn)了關(guān)于scRNA-seq的實驗設(shè)計指南。方法學(xué)的快速發(fā)展意味著scRNA-seq方法的技術(shù)已經(jīng)快速過時了。然而Ziegenhain等人提供了scRNA-seq方法的詳細(xì)概述,他著重強調(diào)了UMIs的在數(shù)據(jù)分析方面 的重要性,并報道了提到了的6種方法中哪一種最為靈敏。然而他們的研究范圍并不包括現(xiàn)在被廣泛使用的10X Geneomics方法。

Figure3-單細(xì)胞RNA-seq與空間RNA-seq的概念

Figure 3-單細(xì)胞RNA-seq與空間RNA-seq的概念。(a)單細(xì)胞RNA-seq(scRNA-seq)工作流程概述。scRNA-seq的第一步就是從樣本中分離單個細(xì)胞(例如從解離的皮膚組織),分離單細(xì)胞的方式有多種,其中包括微移液管將細(xì)胞轉(zhuǎn)移到單獨的微管中,或者是使用流式細(xì)胞儀將單細(xì)胞分選到含有裂解液的96孔板或384孔板中,或者是將細(xì)胞捕獲到微流控芯片中,或者是將細(xì)胞分布到納米孔(nanowells)中,或者是使用含有試劑的液滴分離系統(tǒng),或者是使用原位條形碼技術(shù)。細(xì)胞進行逆轉(zhuǎn)錄以產(chǎn)生cDNA(通常使用UMIs來對這些cDNA進行標(biāo)記),用于制備RNA-seq文庫和測序。質(zhì)控(QC),差異基因表達(DGE)與2D可視化(t-distributed stochastic neighbour embedding, tSNE)以及無監(jiān)督聚類在和網(wǎng)絡(luò)分析來對scRNA-seq的數(shù)據(jù)進行分析,用于區(qū)分不同的細(xì)胞種群。這些技術(shù)通常會標(biāo)明細(xì)胞數(shù)據(jù),以及與RNA-seq的策略一樣,還會標(biāo)明測序技術(shù)是3'末端還是5'末端還是全長cDNA。(b)空間轉(zhuǎn)錄組學(xué)工作流程概述??臻g編碼需要將冷凍組織切片加到含有寡聚核苷酸微陣列的載玻片上,或者是加載到密集包裝的被寡核苷酸包被的pucks上。mRNA擴散到載玻片表面,然后與oligo-dT合成引物雜交,這些引物中含有UMIs與空間編碼序列。隨后mRNA逆轉(zhuǎn)錄成cDNA,cDNA匯集起來用于文庫制備和測序??臻g轉(zhuǎn)錄本組學(xué)的計算方法以能夠?qū)y序讀長回貼到它們的空間坐標(biāo)上,隨后是DGE分析與差異空間表達分析的可視化。scRNA-seq與空間RNA-seq數(shù)據(jù)通常是用短讀長測序儀進行測序的。上述圖片(a)源于Springer Nature Limited。

當(dāng)研究者們在選擇scRNA-seq方法,需要考慮的主要因素包括:他們是否需要全長轉(zhuǎn)錄本的讀長,在分析更多細(xì)胞表達譜(寬度, breadth)或每個細(xì)胞更多轉(zhuǎn)錄本(深度,depth)之間進行權(quán)衡,以及總體實驗成本。

希望下面3個小時的單細(xì)胞轉(zhuǎn)錄組課程能幫助你理解

https://www.bilibili.com/video/av38741055

全長scRNA-seq系統(tǒng)的通量比較低,因此每個細(xì)胞需要單獨地處理,直到最終生成scRNA-seq文庫。但是,此系統(tǒng)可以讓研究者們研究可變剪接與等位基因特異性表達。非全長系統(tǒng)則會從轉(zhuǎn)錄本的3’或5’末端生成序列,但這就限制了異構(gòu)體表達的分析,但是當(dāng)細(xì)胞cDNA合成被混合后,細(xì)胞所加工的數(shù)量會比前一種高出2到3個數(shù)量級。單細(xì)胞測序?qū)挾扰c細(xì)胞,組織或樣本的數(shù)量有關(guān),而深度則是與測序讀長數(shù)目固定下,要分析的轉(zhuǎn)錄組有關(guān)。雖然實驗中測序的細(xì)胞數(shù)量是由選擇的方法決定的,但是這也允許一些靈活性,不過隨著分析的細(xì)胞數(shù)目的增多,測序成本的增加,往往限制了轉(zhuǎn)錄組分析的深度。因此,可以使用寬度和深度兩個維度來評估不同的scRNA-seq系統(tǒng)。單細(xì)胞測序典型的做法是基于孔板或微流控方法來捕獲盡量少的細(xì)胞,但同時對每個細(xì)胞檢測出更多的基因,而基于液滴的系統(tǒng)可以用于分析最大數(shù)目的細(xì)胞,它已經(jīng)能從超過一百萬個細(xì)胞中產(chǎn)生單獨的數(shù)據(jù)集。

scRNA-seq的力量正在推動著大規(guī)模的細(xì)胞圖譜項目,這些項目指在確定生物體或組織中完整的細(xì)胞類型。人類細(xì)胞地圖集(Human Cell Atlas)與NIH大腦計劃(NIH Brain Initiative)項目分別是為了對人體以及大腦中的所有細(xì)胞類型進行測序。人類細(xì)胞地圖集的第1階段目標(biāo)是對3000萬到1億個細(xì)胞進行測序,并將隨著技術(shù)的發(fā)展在廣度和深度上進行增加。這個項目的最新成本包括發(fā)現(xiàn)了離子細(xì)胞,以及發(fā)現(xiàn)腎癌是在兒童和成年人中是由不同的細(xì)胞類型發(fā)展而來的。不過,scRNA-seq的研究者們應(yīng)該意識到,這些技術(shù)可以用于幾乎所有的生物。最近,對A. thaliana根細(xì)胞原生質(zhì)的分析表明,即使是植物的堅韌細(xì)胞壁這種障礙也能被解決,能產(chǎn)生用于測序的單細(xì)胞。scRNA-seq正在迅速成為生物學(xué)家們工具包的標(biāo)準(zhǔn)配置,并有可能在10年后被廣泛使用,就像今天的常規(guī)RNA-seq一樣。

空間分辨RNA-seq法

當(dāng)前的常規(guī)RNA-seq和scRNA-seq方法為研究者們提供了關(guān)于組織或細(xì)胞群體的高度詳細(xì)的數(shù)據(jù),但是沒有捕獲空間信息,就是會降低細(xì)胞環(huán)境與基因表達之間關(guān)系的分析能力。空間轉(zhuǎn)錄組學(xué)(spatialomics)的兩種方法是空間編碼(spatial encoding)與原位轉(zhuǎn)錄組學(xué)(in situ transcriptomics)。在RNA-seq文庫制備過重中,空間編碼方法能夠記錄其空間信息,或者是通過分離空間受限的細(xì)胞(例如,通過激光捕獲顯微解剖, laser-capture micro-dissection, LCM), 或者是通過分離前的位置對RNA加上條形碼(通過從組織切片中直接捕獲mRNA)(FIG. 3b)。原位轉(zhuǎn)錄組學(xué)能夠在組織切片中,通過對細(xì)胞中的RNA進行測序或成像來生成數(shù)據(jù)。我們建議感興趣的讀者是閱讀最近的深度評論,從而對這一領(lǐng)域進行更全面的理解。

LCM已經(jīng)成功地用于從組織切片中的特定區(qū)域分離和分析單個細(xì)胞用于RNA-seq。雖然LCM需要專門的設(shè)備,但是許多機構(gòu)已經(jīng)廣泛使用了這種技術(shù)。但是,雖然這種技術(shù)可能實現(xiàn)高度空間分辨率,但是它消耗人力,并且難以批量使用。使用空間轉(zhuǎn)錄學(xué) (Spatial Transcriptomics,10X Genomics)與Slide-seq方法可以直接從冰凍組織切片中直接捕獲mRNAs,然后將這些mRNAs直接加載到寡核苷酸微陣列玻片(oligo- arrayed microarray slides)或嚴(yán)密包裝寡核苷酸的pucks上。寡核苷酸包括空間條形碼、UMI和oligo-dT引物,它們能唯一地識別每個轉(zhuǎn)錄本及其位置。測序讀長被回貼到玻片的坐標(biāo)上,用于生成空間基因表達信息??臻g轉(zhuǎn)錄學(xué)方法已經(jīng)被證明能夠在一系列物種的組織中能發(fā)揮作用,其中就包括小鼠大腦和人類乳腺癌組織,人類心臟組織和擬南芥(A. thaliana)花序組織。Slide-seq是最近開發(fā)的一種技術(shù),它已經(jīng)被證明能夠?qū)π∈蟠竽X的冰凍切片進行測序。這些直接 mRNA捕獲方法并不需要特殊的設(shè)備,且有相對簡單的分析方法,并有可能大規(guī)模地應(yīng)用于許多組織。然而,還有兩個局限需要解決。首先,該技術(shù)只能應(yīng)用于新鮮的冷凍組織。其次,分辨率受到到陣列大小和捕獲寡核苷酸點和珠子的間距的限制;目前的分析只能使用6.5x7 mm和3x3mm這兩種規(guī)格,這就限制了組織切片的尺寸??臻g轉(zhuǎn)錄組學(xué)斑點的直徑為100μm,間距為100μm,這意味著它們不夠小或不夠密集,無法實現(xiàn)單細(xì)胞級分辨率。Slide- seq珠子則要小的多,直徑只有10μm,而且非常密集,比相對前者具有十倍的空間分辨率,并且測序中的大約一半的珠子似乎是從單個細(xì)胞層面產(chǎn)生的數(shù)據(jù)。從分解的組織和空間編碼的數(shù)據(jù)與scRNA-seq混合起來的計算方法可以改善分辨率,但是需要基礎(chǔ)技術(shù)的進一步發(fā)展,以使其成為更常規(guī)的RNA-seq工具。

上述空間分辨RNA-seq方法的替代方案包括原位測序和使用單分子熒光原位雜交的基于成像的方法。這些方法能夠產(chǎn)生比RNA-seq方法更窄的轉(zhuǎn)錄組信息,但它們能直接檢測RNA,并且能夠?qū)Φ拓S度的轉(zhuǎn)錄本進行分析。同時,它們還能提供組組織結(jié)構(gòu)和微環(huán)境的信息,并能產(chǎn)生亞細(xì)胞數(shù)據(jù)。這種方法目前正取得了巨大進步,但是成像方法的一個主要局限就是需要高分辨率或超分辨率顯微鏡與自動流體技術(shù)結(jié)合,并且這種技術(shù)的成像時間可能要花上數(shù)小時,甚至是幾天。測序成本的下降比摩爾定律預(yù)測的速度更快,與測序成本相比,高通量成規(guī)模的成像系統(tǒng)的機會似乎更有限。

上述提到的空間轉(zhuǎn)錄組學(xué)都受到無法產(chǎn)生深度轉(zhuǎn)錄組學(xué)數(shù)據(jù)的限制,以及受到細(xì)胞分辨率和/或高成本(時間和/或資金)的限制,但是這些方法正在迅速改進,并且已經(jīng)應(yīng)用于臨床樣本。空間轉(zhuǎn)錄組學(xué)的具體計算方法開始出現(xiàn)。此外,原位RNA測序和成像方法的進步已經(jīng)使得10E3到10E5個細(xì)胞生成的轉(zhuǎn)錄組數(shù)據(jù)成為可能,這與基于液滴的單細(xì)胞方法獲得的數(shù)據(jù)量相近。未來的發(fā)展有可能使得空間轉(zhuǎn)錄組學(xué)讓更普通的研究者們使用。然而,大多數(shù)的研究們者并不太可能需要真正的單細(xì)胞或亞細(xì)胞級分辨率。因此,轉(zhuǎn)錄組表達譜的寬度和對廣泛的組織或樣本的應(yīng)用性可能會推動這些技術(shù)在特定小眾領(lǐng)域被采用。如果空間轉(zhuǎn)錄組學(xué)的這些技術(shù)限制能夠被解決,那么它才有可能被廣泛使用。

動態(tài)RNA-seq分析(Beyond steady-state RNA analysis)

DGE分析是使用RNA-seq來檢測穩(wěn)態(tài)下的mRNA表達水平,這一表達水平是通過mRNA的轉(zhuǎn)錄,加工和降解速度來決定的。但是,RNA-seq也可以用于研究涉及轉(zhuǎn)錄,翻譯所涉及的過程與動力學(xué)特征,這些研究為基因表達提供了新的思路。

使用新生RNA(nascent RNA)方法來研究活性轉(zhuǎn)錄

基因表達是一個內(nèi)在的動態(tài)過程,但是在檢測復(fù)雜轉(zhuǎn)錄應(yīng)答的細(xì)微以及快速變化或確定不穩(wěn)定的非編碼RNAs,例如增強子RNAs方面,常規(guī)的DGE分析方法就比較受限。RNA-seq可以用于繪制TSSs以及定量新合成的新生RNA,這就可以用來研究RNA動力學(xué)。但是,與DGE分析相比,nascent RNA的分析則比較難,因為它們半衰期短,豐度低。因此,為了研究這些動態(tài)的重要性,研究者們就開發(fā)了多種方法來分析nascent RNA;這些方法揭示了在啟動子處的差異轉(zhuǎn)錄程度,表明RNA聚合酶II(Pol II)在啟動子附近的暫停是基因表達的關(guān)鍵調(diào)節(jié)步驟,證明了nascent RNA有直接調(diào)節(jié)轉(zhuǎn)錄的作用,并表明其序列和結(jié)構(gòu)影響轉(zhuǎn)錄的延伸,暫停和停頓,以及發(fā)揮染色體修飾結(jié)合和增強了子的作用。nascent RNA- seq方法旨在區(qū)分新近轉(zhuǎn)錄的RNA和其它RNAs,這些方法可以分為3類:run-on方法,Pol II免疫沉淀法,代謝標(biāo)記法(FIG. 4)。

Figure4-nascent RNA與翻譯組分析的關(guān)鍵概念

Figure 4- nascent RNA與翻譯組分析的關(guān)鍵概念。nascent RNA分析方法是將那些在一個細(xì)胞中新轉(zhuǎn)錄的RNAs從其它的RNAs中富集出來,并將它們與未富集的RNA(成熟的RNA)進行比較,富集nascent RNAs的方法主要有三種。(a)Run-on方法是利用一個限時脈沖的方法將修飾過的核糖核酸添加到細(xì)胞培養(yǎng)基中,對細(xì)胞的RNA進行標(biāo)記;這一過程可以用使用各種修飾的核苷酸,但是,圖中的GRO-seq使用的是Bru修飾的核苷酸。當(dāng)修飾過的核苷酸整合到RNA后,利用抗BrU的抗體,通過IP的手段將nascent-RNA鏈富集起來,并用于文庫制備以及測序分析。(b)RNA聚合酶II(Pol II)的IP方法則是利用了微球菌核酸酶(micrococcal nuclease)消化了染色質(zhì)后,使用相應(yīng)的抗體拉下了與Pol II結(jié)合的RNA。在染色質(zhì)消化過程中,nascent RNA通過其Pol II足跡保護而不受核酸酶活性的影響,并不會被降解。(c)代謝標(biāo)記方法標(biāo)記RNA的方法類似于Run-on方法,但前者使用的是核苷酸類似物4 sU。提取RNA后,烷基化4 sU,在逆轉(zhuǎn)錄過重中,就會產(chǎn)生G核苷酸的錯配,從而通過在堿基對級分辨率的突變分析中直接確定4 sU的整合位點。制備3'末端RNA文庫會通過降低未標(biāo)記的RNA數(shù)量來增加測序過程中的信號強度。圖片參考文獻為214。

Run-on法是將核酸類似物添加到樣品中,從而使nascent RNA能夠從總的RNA混合物中進行富集,并能夠檢測瞬時RNA的轉(zhuǎn)錄(FIG. 4a)。全局run-on測序(Global run-on sequencing, GRO-seq)與精確核酸run-on測序(Precision nuclear run-on sequencing, PRO-seq)是分別將Bru或生物素修飾的核酸在RNA的轉(zhuǎn)錄期整合到nascent RNA中來實現(xiàn)的。其過程大致為,分離細(xì)胞核,并通過洗滌除去內(nèi)源性核苷酸,再添加外源生物素標(biāo)記的核苷酸,隨后恢復(fù)轉(zhuǎn)錄。通過免疫沉淀或親和純化的方法,對富集的新轉(zhuǎn)錄RNA進行測序,從而檢測參與轉(zhuǎn)錄的RNA聚合酶的位置和活性。由于run-on過程中標(biāo)記的核苷酸的數(shù)據(jù),GRO-seq只能測到10-50bp的長度,這就降低的TSS檢測的精度。PRO-seq能夠?qū)崿F(xiàn)單個堿基級的分辨率,因為生物素標(biāo)記的核苷酸摻入后轉(zhuǎn)錄就停止,可以識別出轉(zhuǎn)錄位點。Run-on方法理解起來很簡單,就是RNA分子整合了修飾的核苷酸,并對其進行富集,用于測序,但是在實踐中,背景中存在有non-nascent RNA,這就需要增加讀長深度。利用這些方法,提示了啟動子處,啟動子處差異或雙向轉(zhuǎn)錄本起始的程度,確定了增強子RNA在調(diào)節(jié)基因表達方面的作用。通過特定富集5’加帽的RNAs,GRO-cap,PRO-cap或small 5’capped RNA測序(small 5?-capped RNA sequencing, START-seq)增加了檢測轉(zhuǎn)錄起始和捕獲RNAs的靈敏度和特異性,這種處理還會降低源于轉(zhuǎn)錄后加帽的RNAs的背景信號。

Pol II的免疫共沉淀方法包括,天然延長轉(zhuǎn)錄測序(native elongating transcription sequencing, NET-seq)和哺乳動物染色質(zhì)天然轉(zhuǎn)錄測序法(native elongating transcript sequencing for mammalian chromatin, mNET-seq),使用抗FLAG(用FLAG標(biāo)記的Pol II)抗體進行沉淀的方法,或各種針對Pol II C末端結(jié)構(gòu)域(CTD)的沉淀方法(FIG. 4b)。與這些染色質(zhì)復(fù)合物結(jié)合的nascent RNA的RNA-seq方法用于檢測TSSs,雖然non-nascent Pol II結(jié)合的RNA與背景mRNA會對讀長濃度產(chǎn)生負(fù)面影響,影響分析。NET-seq缺乏特異性,因為任何與Pol II強烈結(jié)合的RNA都會污染nascent RNA的富集效果,例如在NET-seq數(shù)據(jù)中就存在有tRNA和small nucleolar RNA。在mNRET-seq中使用多個CTD抗體提示了VTD修飾是如何影響轉(zhuǎn)錄的,檢測到了RNA加工的中間體,并能能夠?qū)⑻囟ǖ腜ol II nascent RNAs定位于TSSs。然而,這些檢測能力是以更復(fù)雜的實驗,更多的細(xì)胞數(shù)量和更高的測序成本為代價的。

使用核苷酸類似物硫代吡啶(4-thiouridine, 4 sU)進行代謝脈沖標(biāo)記(Metabolic pulse- labelling)的方法可以識別nascent RNA(FIG. 4c)。但是,在那些需要長標(biāo)記時間的方法中,大多數(shù)的轉(zhuǎn)錄本都會被標(biāo)記,這就限制了這種方法的靈敏度。通過專門針對RNAs的3’末端(僅最近拉RNA聚合酶的新轉(zhuǎn)錄的RNA)的方法,瞬時轉(zhuǎn)錄組測序(transient transcriptome sequence, TT-seq)與硫醇(SH, thiol)連接的烷基化RNA代謝測序(thiol(SH)-linked alkylation for metabolic sequencing of RNA, SLAM-seq)能夠降低來源于5’RNA的信號。TT-seq將標(biāo)記時間限制在5分鐘,因此只標(biāo)記新轉(zhuǎn)錄本的3’末端,它在進行生物素親和純化前,有一個RNA片段化操作,用于富集標(biāo)記的RNA。SLAM-seq整合了3’mRNA-seq文庫制備方法(雖然它也用于其它的文庫制備,例如miRNA), 它僅針對標(biāo)記的新轉(zhuǎn)錄的RNA進行測序,而非整個轉(zhuǎn)錄本進行測序。此外,在SLAM-seq中,提取RNA后,還要加入碘乙酰胺(iodoacetamide),用于烷基化已經(jīng)插入到新生成的nascent RNA鏈中的4 sU殘基。這種修飾會誘導(dǎo)反轉(zhuǎn)錄式依賴的胞腺嘧啶到胞嘧啶的轉(zhuǎn)換(T > C),這在測序分析中會被檢測為“突變”,從而直接識別為4 su整合位點。然而,低摻入率意味著只有少量的4 sU位點可以被轉(zhuǎn)換為胞嘧啶,這就限制了靈敏性。有兩種方法,即TUC-seq與TimeLapse-seq也使用T>C這種突變分析方法,但是它們并不富集3’末端。這兩種方法用于研究細(xì)胞干擾后的轉(zhuǎn)錄應(yīng)答和RNA的半衰期。

Nascent RNA分析方法還未進行過直接比較。Nascent RNA方法都受到非特異性背景和/或降解的RNA的負(fù)面影響,這會影響讀取深度。通過僅測序3’末端,那么non-nascent RNA的效應(yīng)就會在PRO-seq,TT-seq和SLAM-seq中降低,但是幾乎沒有證據(jù)表明是否有其他方法更優(yōu)。親和純化方法費時費力,與代謝標(biāo)記法相比,前者需要更多的起始材料,但是,確定脈沖標(biāo)記的時間比較復(fù)雜,并且短脈沖產(chǎn)生用于分析的RNA很少,這限制了靈敏度。最近開發(fā)的,組織特異性RNA標(biāo)記方法以及親折突變分析計算方法或許能夠促進研究者轉(zhuǎn)向使用生化(基于生物素)富集的手段來研究富含生物學(xué)意義的nascent RNA和其它RNA。Nascent RNA方法以及它們與其它方法的隧和,例如空間轉(zhuǎn)錄組學(xué)或RNA-RNA與RNA-蛋白質(zhì)相互作用的方法,將會提高我們對轉(zhuǎn)錄過程的理解。

使用核糖體分析方法檢測活躍的翻譯

RNA-seq的主要用途在于研究樣本中的mRNA的種類與數(shù)量,但是mRNAs的存在與否并不直接關(guān)系到蛋白質(zhì)的合成?,F(xiàn)在有兩種方法可以研究轉(zhuǎn)錄以外的翻譯情況,可以讓研究者們更好的理解翻譯組(translatome):一種是多核糖體表達譜(polysomal profiling),一個是核糖體足跡RNA-seq(Ribo-seq)。核糖體對mRNAs的翻譯具有高度的調(diào)節(jié)作用,蛋白質(zhì)水平主要由翻譯活性決定。多核糖體表達譜與Ribo-seq可以讓研究者探索一個轉(zhuǎn)錄本占用多少個核糖體以及核糖體在轉(zhuǎn)錄本上的分布(FIG. 5)。這種方法可以讓研究者推斷在特定時間或細(xì)胞狀態(tài)下哪些轉(zhuǎn)錄本正在被活躍地翻譯。這兩種方法都假設(shè)mRNA 核糖體的密度與蛋白質(zhì)合成的水平相關(guān)。在不同樣本之間進行比較,就能提示治療條件下,時間推移以及疾病發(fā)展過程中,核糖體的動力學(xué)特征,上述的這些情況都與翻譯的異常調(diào)控有關(guān),例如纖維化,朊病毒或癌癥。

Figure 5-翻譯組的關(guān)鍵概念。翻譯組方法是從那些與核糖體結(jié)合的RNA中生成RNA-seq數(shù)據(jù),這種方法假設(shè)mRNA上的核糖體的密度與蛋白質(zhì)的合成水平相關(guān)。(a)多核糖體表達譜的方法是通過離心將RNA分子分成多核糖組分,然后通過RNA-seq的方法進行比較。在多核糖體組分中表達較高的RNA被認(rèn)為是更活躍的轉(zhuǎn)錄。(b)核糖體足跡(Ribo-seq)法使用RNase來降解暴露的RNA,同時保留那些被核糖體保護的未被降解的RNA。通過對這些保護的RNA進行測序,就可以揭示出核糖體的密度與位置。通過修改變標(biāo)準(zhǔn)Ribo-seq方法,定量翻譯起始測序(QTI-seq)或翻譯復(fù)雜表達譜測序(TCP-seq)可以專門富集起始核糖體或其亞基,同時剔除延長的核糖體,因此可以對翻譯的動態(tài)過程進行更詳細(xì)的分析。對翻譯組RNA-seq數(shù)據(jù)的過計算 分析可能確定每個mRAN的相對翻譯程度,可以研究翻譯的起始,延長與終止的動力學(xué)過程。

在多核糖體表達譜實驗中,使用蔗糖梯度超離心將與多個核糖體(多核糖體組分)結(jié)合的mRNA和與單個核糖體結(jié)合的mRNA(單核糖體組分)分離開來,前者用于RNA seq文庫制備(FIG. 5a)。與單核糖體組分中檢測到的mRNA相比,在多核糖體組織中檢測到的高豐度mRNAs可以被認(rèn)為翻譯得更頻繁。這種方法也可以用于推測單個mRNAs的翻譯狀態(tài),也可以用于生成高分辨率的核糖體占有信息與密度(盡管它無法確定核糖體的位置)。這類方法的原始方法已經(jīng)進行了幾項改進。例如,使用非線性蔗糖梯度改善了多核糖體收集,使多核糖體在不同濃度蔗糖溶液界面的收集過程更為簡單,使用Smart-seq文庫構(gòu)建技術(shù)可以讓研究者們分析僅10ng級的多核糖體mRNA,使用更高分辨率的蔗糖梯度和深度測序可以檢測了轉(zhuǎn)錄本異構(gòu)體的特異性翻譯。然而,多核糖體表達譜實驗生成的翻譯組信息分辨率相對低,這一過程還比較費力,需要特殊的儀器,這就限制了其應(yīng)用范圍。

Ribo-seq是基于RNA足跡的方法,它最初用于酵母研究。這種方法用環(huán)己胺(cyclohexamide)來抑制翻譯延伸,并誘導(dǎo)核糖體在mRNAs上停滯。用RNase I消化mRNA會留下20-30個核苷酸,這20-30個核苷酸就是受核糖體保護的足跡,這些足跡被處理后用于制備RNA-seq文庫(FIG. 5b)。Ribo-seq能生成高分辨率的翻譯譜,描繪核糖體豐度和單個轉(zhuǎn)錄本的位置。而多核糖體分析中無法提供核糖體的位置信息時,這說明有可能檢測到了翻譯的暫停,這些檢查可以調(diào)節(jié)蛋白質(zhì)的表達。當(dāng)方法修改了緩沖液和對酶進行了優(yōu)化后,就能更清楚地揭示Ribo-seq數(shù)據(jù)中3-bp的周期性,以及條形碼和UMIs(檢測單個分子的事件)。標(biāo)準(zhǔn)的RNA-seq工具可以用于Ribo-seq的計算分析,但最近已經(jīng)出現(xiàn)了特定的工具用于尋找開放閱讀框,用于差異或異構(gòu)體水平的翻譯分析,以及用于研究密碼子偏倚。Ribo-seq的主要限制就是超速離心,以及由于核酸酶不同批次間的變化,以需要經(jīng)驗來確定RNase I的消化條件。

這些方法檢測的是來自翻譯起始、延伸和終止的信號的平均強度,但是對Ribo-seq的修改可使得其能夠研究翻譯動力學(xué)。定量翻譯起始測序(Quantitative translation initiation sequencing, QTI-seq)通過化學(xué)“冷凍”和富集起始核糖體,同時從結(jié)合的mRNA中去除延長的核糖體來定位轉(zhuǎn)錄起始位點。翻譯復(fù)雜譜測序(Translation complex profile sequencing, TCP-seq)也通過在組裝成熟核糖體之前富集與40S核糖體小亞基結(jié)合的RNA來檢測起始位點。然而,由于這種方法中保留了核糖體的完整性,也可以分析和比較80S核糖體組分,從而更全面檢測翻譯動力學(xué)(FIG. 5b)。

所有的翻譯組方法在概念上都是相似的;它們假設(shè)mRNA核糖體的密度與蛋白質(zhì)的合成水平相關(guān)。雖然它們的樣本制備方案不同,但都需要大量的起始細(xì)胞數(shù)。最終,翻譯組與RNA-seq結(jié)合起來研究基因的表達水平,并與蛋白質(zhì)組學(xué)一道來研究蛋白水平,這可能就需要對mRNA的翻譯進行一個廣泛地理解。如果想要了解翻譯組的更詳細(xì)信息,可以閱讀最近的綜述。(比如我們生信技能樹前面的推文)

Ribo-seq分析必看文獻知識(四):核糖體與蛋白質(zhì)合成相關(guān)生物知識

RNA結(jié)構(gòu)與相互作用分析(Beyond analysis of gene expression)

RNAs在調(diào)節(jié)其它生物分子和生物過程(例如剪接和翻譯)中發(fā)揮著重要作用,它們涉及RNA與各種蛋白質(zhì)和/或其它RNA分子的相互作用。RNA-seq可以用于研究分子內(nèi)和分子間RNA-RNA的相互作用(RNA-RNA interactions, RRIs),這可能讓研究者更好地理解結(jié)構(gòu)組(structurome),或者是研究RNA與蛋白質(zhì)之間的相互作用,這樣就可以深入理解轉(zhuǎn)錄與翻譯(FIG. 6)。針對相互作用組(interactome)分析而開發(fā)的各種方法都有一個共同的主題:在RNA中富集出那些與其它RNA有相互作用的RNA。一些方法利用的是天然生物學(xué)相互作用,而其它的方法則是在目標(biāo)分子之間計算瞬時作用力或共價鍵;大多數(shù)方法使用的是抗體pull-dwon、親和純化或探針雜交的手段來富集RNA進行測序。在這里我們簡要描述一下主要的基于RNA-seq的方法來研究結(jié)構(gòu)組和相互作用體的內(nèi)容。

Figure6--RNA結(jié)構(gòu)和RNA-蛋白質(zhì)相互作用分析的關(guān)鍵概念

Figure 6-RNA結(jié)構(gòu)和RNA-蛋白質(zhì)相互作用分析的關(guān)鍵概念。(a)結(jié)構(gòu)組分析使用核酸酶或化學(xué)標(biāo)記試劑在全轉(zhuǎn)錄組范圍內(nèi)來研究結(jié)構(gòu)化RNA(例如雙鏈RNA,dsRNA)或非結(jié)構(gòu)化RNA(單鏈RNA,ssRNA)。在大多數(shù)實驗中,在單獨的反應(yīng)中對ssRNA和dsRNA進行檢測,其結(jié)果聯(lián)合反應(yīng)性分析法來確定其結(jié)構(gòu)特征。核酸酶消化方法使用針對dsRNA和/或ssRNA的一個或多個核酸酶來研究RNA的結(jié)構(gòu)。例如,在對RNA結(jié)構(gòu)要的并行分析(PARS)中,在體外使用RNase V1(一種dsRNA特異性核酸酶)或S1核酸酶(一種ssRNA特異性核酸酶)來酶切并行樣本。酶解后剩余的RNA被轉(zhuǎn)化為cDNA,然后進行測序,測序的讀長深度與比對區(qū)域的反應(yīng)性成正比。RNA-seq數(shù)據(jù)的覆蓋和比較結(jié)果就能推斷RNA的結(jié)構(gòu)?;瘜W(xué)分析法(Chemical-mapping methods),例如使用引物延伸的選擇性2?-羥基?;治龇?SHAPE-seq)或突變表達譜分析法(SHAPE-Map),這些方法通過結(jié)構(gòu)依賴形式在體外或體內(nèi)對雙鏈或單鏈區(qū)域的核糖核苷酸進行修飾。標(biāo)記物可以阻斷逆轉(zhuǎn)錄,導(dǎo)致cDNAs的截短,或者是導(dǎo)致修飾位置錯誤地?fù)饺胪蛔?。RNA被轉(zhuǎn)化為cDNA后進行測序,讀長深度或突變率與比對區(qū)域的反應(yīng)性成正比,從而推斷RNA的結(jié)構(gòu)。(b)RNA-RNA的相互作用分析方法,例如SPLASH,這種方法的第一步是將有相互作用的RNA分子通過生物素化的補骨脂進行交聯(lián),然后以通過鏈霉親和素對其進行富集,第二步是在鄰近位置加入相互作用RNA的自由端加入鄰近連接與及片段化。第三步是進行RNA接頭的連接以及環(huán)化,制備RNA-seq文庫用于測序,從而揭示出分子內(nèi)(也就是結(jié)構(gòu))的RNA相互作用以及分子間的相互作用位點。(c)RNA-蛋白質(zhì)相互作用方法,例如RNA交聯(lián)免疫沉淀后測序(CLIP-seq),這種方法使用UV輻射在相互作用的RNA和蛋白質(zhì)之間產(chǎn)生共價交聯(lián)。目的蛋白被抗體富集后,與此蛋白結(jié)合的RNA也就被富集了下來,這些RNA加上3'接頭后,提取出來用于cDNA的合成。從結(jié)合了接頭的RNA生成的cDNA用于文庫制備,測序。

通過研究RNA分子內(nèi)的相互作用來研究RNA的結(jié)構(gòu)

核糖體RNA和tRNA構(gòu)成細(xì)胞的大部分RNA。它們與其他結(jié)構(gòu)非編碼RNA一起在細(xì)胞中發(fā)揮各種作用,例如從基因調(diào)節(jié)到翻譯?,F(xiàn)存主要有兩種研究RNA結(jié)構(gòu)的方法:基于核酸酶的方法和化學(xué)探針方法。核糖核酸酶消化于1965年首次用于研究RAN(tRNA(Ala))的結(jié)構(gòu)。在接下來的40年中發(fā)展了化學(xué)方法,例如,通過引物延伸的選擇性2?-羥基酰化法(selective 2?-hydroxyl acylation analysed by primer extension, SHAPE),此種方法用于在單堿基分率水平上檢測tRNA(Asp)的結(jié)構(gòu)。但是,只有將各種核酸酶法和化學(xué)方法與RNA-seq相結(jié)合,才能使方法從單一RNA轉(zhuǎn)移到全轉(zhuǎn)錄分析,這正在改變我們對結(jié)構(gòu)復(fù)雜性和重要性的理解。在這里,我們集中討論核酸酶和化學(xué)分析方法之間的主要區(qū)別(圖·6a),如果想對這方面有進一步的理解,可以看Strobel在這方面的綜述。

核酸酶方法,例如RNA結(jié)構(gòu)的平行分析法(Parallel Analysis of RNA Structure,PARS)和片段測序法(fragmentation sequencing, FRAG-seq),這兩種方法使用能消化單鏈RNA(ssRNA)或雙鏈RNA(dsRNA)的酶。核酸酶消化后剩余的RNA用作RNA-seq的文庫構(gòu)建。隨后通過對產(chǎn)生的RNA序列數(shù)據(jù)進行計算分析來識別結(jié)構(gòu)化(雙鏈)和非結(jié)構(gòu)化(單鏈)區(qū)域。核酸酶易于使用,可以用于研究ssRNA和dsRNA,但是由于核酸酶消化法的隨機特性,它們與化學(xué)分析法相比,分辨率比較低。此外,由于核酸酶尺寸比較大,這就限制了這些核酸酶進入細(xì)胞,這就使得它們不適合體內(nèi)研究。

化學(xué)分析法使用與RNA分子反應(yīng)的化學(xué)探針,來標(biāo)記結(jié)構(gòu)化或非結(jié)構(gòu)化核苷酸。這些標(biāo)記要么阻斷逆轉(zhuǎn)錄,要么導(dǎo)致cDNA的錯配,從而可以定位并分析RNA-seq讀長,用于揭示結(jié)構(gòu)組。SHAPE之后進行測序,這種技術(shù)方法能夠RNA骨架上的核糖2’-羥基反應(yīng)來標(biāo)記未配對的ssRNA,雖然發(fā)夾環(huán)中的堿基折疊會降低其效率。Structure-seq與硫酸二甲酯測序(dimethyl sulfate sequencing, DMS-seq)能使用DMS來標(biāo)記腺嘌呤和胞嘧啶殘基,阻斷逆轉(zhuǎn)錄,最終從生成的截短cDNAs分析中推斷出RNA結(jié)構(gòu)。SHAPE和突變表達譜(SHAPE and utational profiling, SHAPE-Map)和DMS突變表達譜測序(DMS-MaPseq)都修改了實驗條件,從而提高了逆轉(zhuǎn)錄酶的加工能力,并防止cDNA截短。相反,化學(xué)標(biāo)記會導(dǎo)致錯配事件,在RNA-seq數(shù)據(jù)的分析中,能夠檢測出這些“突變”,從而揭示RNA結(jié)構(gòu)?;瘜W(xué)探針是小分子化合物,盡管由于細(xì)胞內(nèi)的環(huán)境處于動態(tài)變化中,數(shù)據(jù)有可能更加多變,但是化學(xué)探針還是能夠用于研究活體內(nèi)的有生物學(xué)意義的結(jié)構(gòu)。化學(xué)探針還可以用于nascent RNAs的結(jié)構(gòu)分析,并揭示共轉(zhuǎn)錄RAN折疊的順序。

核酸酶和反轉(zhuǎn)錄阻斷方法通常產(chǎn)生短RNA片段,并且只報告單個酶切位點或化學(xué)標(biāo)記,而錯誤結(jié)合和突變檢測方法可以報告每個讀長的多個化學(xué)標(biāo)記。沒有方法不存在偏倚;逆轉(zhuǎn)錄阻斷永遠(yuǎn)不會100%有效,本應(yīng)誘導(dǎo)突變的化學(xué)標(biāo)記可以阻斷cDNA合成,這兩個因素都可以影響數(shù)據(jù)的解讀。Spike-in控制有可能改善結(jié)構(gòu)組分析的質(zhì)量,但尚未得到廣泛使用。SHAPE方法的比較揭示了僅在體內(nèi)實驗中才會出現(xiàn)效率差異,因此這就突顯出比較類似復(fù)雜方法時所需要謹(jǐn)慎。

這些方法正在產(chǎn)生關(guān)于RNA結(jié)構(gòu)如何在基因和蛋白質(zhì)調(diào)控中發(fā)揮作用的新理解。例如,DMS分析說明了,RNA結(jié)構(gòu)有可能調(diào)控APA,或許會減慢催化活性區(qū)域的翻譯,使得更多的時間用于蛋白質(zhì)的折疊,從而減少錯誤折疊事件。結(jié)構(gòu)RNA-seq方法的結(jié)合有可能產(chǎn)生所有的完整結(jié)構(gòu)組信息。隨著該領(lǐng)域的擴展,我們可能會發(fā)現(xiàn),RNA的結(jié)構(gòu)與疾病的進展和或疾病的狀態(tài)有關(guān);最近的結(jié)果表明,異常RNA結(jié)構(gòu)在重復(fù)擴張性疾病方面可能發(fā)揮作用。最終,結(jié)構(gòu)組分析也許會促進那些靶向作用于研究透徹的RNA結(jié)構(gòu)的小分子的開發(fā),從而開辟治療開發(fā)的新領(lǐng)域。

研究分子間RNA-RNA相互作用

分子間的RRIs在轉(zhuǎn)錄后調(diào)控中發(fā)揮著重要作用,例如miRNA與靶基因的3’UTR結(jié)合?,F(xiàn)在已經(jīng)開發(fā)了用于研究分子間RRI的工具,它們用于靶向分析和轉(zhuǎn)錄組分析。這些分析方法含有一個共同的工作流程,即RNA在打斷與鄰位連接之前,通過交聯(lián)來保護其相互作用(FIG. 6b)。大多數(shù)并非全部,由不同方法嵌合生成的嵌合cDNA來源于穩(wěn)定堿基配對(即相互作用)RRNA分子的連接。靶向方法,例如交聯(lián),連接和雜交物測序(Crosslinking, ligation and sequencing  of hybrids, CLASH), RNA相互作用組分析和測序(RNA interactome analysis and sequencing, RIA-seq)和RNA反義純化方法測序(RNA antisense purification followed by RNA sequencing, RAP-RNA)能產(chǎn)生一個RNA或RNA家族的高深度相互作用圖譜。CLASH豐富了使用IP來進行特定蛋白復(fù)合物介導(dǎo)的RRI分析方法,而RIA-seq使用反應(yīng)寡核苷酸來回收那些與靶基因有相互作用的RNAs;這兩種方法都無法區(qū)分直接和間接的RRIs,這就導(dǎo)致其生物學(xué)解釋變得復(fù)雜。為了提高RRI分析的分辨率,RAP-RNA使用補骨脂素(psoralen)和其他交聯(lián)劑,然后用反義寡核苷酸捕獲RNA,以及使用高通量RNA-seq來檢測直接和間接RRI。雖然該方法可以進行更具體的分析,它需要制備多個文庫(每個交聯(lián)劑一個文庫)。

轉(zhuǎn)錄組方法從根本上類似于靶向方法:相互作用的RNA在體外被交聯(lián)后并被富集。通過減少進入連接反應(yīng)的非相互作用RNA的量來提高富集的特異性,并且可以通過2D凝膠純化(如在RNA相互作用和結(jié)構(gòu)的補骨脂素分析(psoralen analysis of RNA interactions and structures, PARIS)或交聯(lián)RNA的生物素親和純化(如在補骨脂素交聯(lián),連接和選擇的雜交測序, sequencing of psoralen crosslinked, ligated and selected hybrids,SPLASH)來實現(xiàn),或者通過RNase R酶的消化來清除非交聯(lián)RNA(如在相互作用的RNA連接之后的RNA-seq, ligation of interacting RNA followed by RNA- seq, LIGR-seq)。連接后,在進行RNA-seq文庫制備前,去除交聯(lián),然后進行測序。PARIS能夠生成所有方法中最高數(shù)目的相互作用次數(shù),但是每個樣本需要75M的讀長,這些任何其他的RRI方法都多,并且所需要的DGE實驗平均讀長深度是其他實驗的2倍。

對整理好的RNA相互作用數(shù)據(jù)的分析可以對多個相互作用進行可視化,并些這種分析方法已經(jīng)提示了RNA各類的RRI分布的變化??傊?,90%的RRIs涉及mRNAs。近一半涉及miRNA或長鏈非編碼RNA,對于這些RNA,大多數(shù)相互作用都與mRNA靶基因相關(guān)。對這些整理數(shù)據(jù)的比較揭示了不同方法對特定RNA物種的偏倚,這導(dǎo)致這些方法之間幾乎沒有重疊。因此,繪制RRI的完整圖譜可能需要使用不止一種方法。然而,RRI方法有幾個局限性。也許最具挑戰(zhàn)性的就是RRI是動態(tài)的,并受結(jié)構(gòu)構(gòu)象和其他分子間相互作用的影響,這使得在沒有重復(fù)的情況下,很難對其進行解釋。分子內(nèi)的相互作用為分子間的RRI分析增加了干擾,這就需要過濾并除去那些高度結(jié)構(gòu)化的RNAs,例如rRNAs。其它的問題還包括RNA提取過程中相互相互作用的打斷,這就需要穩(wěn)定的交聯(lián)方法,但最常用的RRI交聯(lián)劑是補骨脂素和4’-氨基-甲基三氧沙林(4?-amino- methyltrioxsalen, AMT),這些交聯(lián)劑只交聯(lián)嘧啶,其效率比較低,會降低靈敏度。此外,鄰近連接步驟低效,并且這會連接相互作用和非相互作用RNA,進一步降低靈敏度。

研究RNA-蛋白質(zhì)相互作用

ChIP-seq已經(jīng)成了繪制和研究DNA-蛋白質(zhì)相互作用不可或缺的工具;類似的IP方法也用于研究RNA-蛋白質(zhì)的相互作用。RNA-蛋白質(zhì)相互作用方法依賴于IP,利用針對感興趣的RNA結(jié)合蛋白的抗體來捕獲其結(jié)合的RNA進行分析(第一次報道時是用芯片進行分析的)(FIG. 6c)。各種RNA-蛋白質(zhì)相互作用方法之間最明顯的區(qū)別在于相互作用的RNA和蛋白質(zhì)是否交聯(lián)以及如何交聯(lián):一些方法避免交聯(lián)(天然IP, native IP),其他方法使用甲醛進行交聯(lián),一些方法使用紫外線(UV)光進行交聯(lián)。最簡單的方法就是RNA免疫沉淀測序(RNA immunoprecipitation and sequencing, RIP-seq),時常,但并非所有情況下都使用天然IP法,以及并非總進行RNA打斷。這種簡便性使用該方法易于被采用。這種方法能產(chǎn)生有用的生物學(xué)信息,但是它有兩個重要的缺陷。第一,用于保存RNA-蛋白質(zhì)相互作用的前提是需要進行溫和地洗滌,這就意味著富集的片段中有相對高的非特異性結(jié)合片段。第二,沒有進行RNA打斷就降低了結(jié)合位點的分析。因此,RIP-seq具有高度靈活性,并依賴于RNA-蛋白質(zhì)結(jié)合的自然穩(wěn)定性。使用甲醛交聯(lián)在RNA與其相互作用的蛋白質(zhì)之間產(chǎn)生可逆的共價鍵提高了穩(wěn)定性,并減少了非特異性RNA的回收,但甲醛也會導(dǎo)致蛋白質(zhì)-蛋白質(zhì)的交聯(lián)。這種影響可以通過使用0.1%的甲醛(比ChIP-seq研究使用的甲醛低10倍)進行溫和的交聯(lián)來降低,這能在多個蛋白質(zhì)靶點上產(chǎn)生高質(zhì)量的結(jié)果。

在CLIP中使用254nm的UV來進行聯(lián)系是一項關(guān)鍵的技術(shù),它提高了RNA-蛋白質(zhì)相互作用分析方法的特異性和位置分辨率。UV交聯(lián)在蛋白質(zhì)和RNA的相互作用位點產(chǎn)生共價鍵,但最重要的是,它不對蛋白質(zhì)-蛋白質(zhì)相互交聯(lián)。這就穩(wěn)定了RNA-蛋白質(zhì)的結(jié)合,允許嚴(yán)格的富集,破壞了天然RNA-蛋白質(zhì)的相互作用,減少了背景信號。CLIP的實驗方法隨后就構(gòu)成了許多方法發(fā)展的基礎(chǔ)。單個核苷酸分辨率的CLIP(iCLIP)將UMIs整合到文庫中,用于移除PCR復(fù)制。它還利用了cDNA合成在交聯(lián)核苷酸處常見的過早截短,通過對截短的cDNA進行擴增來獲得交聯(lián)位點的定量,核苷酸級分辨率圖譜。光激活核糖核苷增強片段(Photoactivatable- ribonucleotide-enhanced CLIP,PAR-CLIP)通過使用4 sU和356nM的UV來進行交聯(lián)。在細(xì)胞培養(yǎng)過程中,4 sU被整合到內(nèi)源RNAs中,356nm的UV輻射會在4 sU整合位點處產(chǎn)生交聯(lián)(產(chǎn)生高度的特異性)。在產(chǎn)生的測序數(shù)據(jù)中檢測反轉(zhuǎn)錄誘導(dǎo)的T>C替換就會能夠?qū)崿F(xiàn)堿基對級的分辨率,并且能夠區(qū)分交聯(lián)片段和非交聯(lián)片段,進一步降低背景信號。最近對CLIP的改進提高了它的效應(yīng)和靈敏度。紅外CLIP(infrared CLIP, irCLIP)用紅外凝膠成像技術(shù)來代替放射性同位素檢驗,它是基于珠子的純化技術(shù)。與常規(guī)的iCLIP使用的1百萬到2百萬細(xì)胞相比,這些技術(shù)的改進可分析只有2萬個細(xì)胞的RNA-蛋白質(zhì)相互作用。增強型CLIP(enhanced CLIP, eCLIP)拋棄了RNA-蛋白質(zhì)復(fù)合物的質(zhì)控和可視化操作,而是在RNA接頭中添加了條形碼,這種改進可能讓所有的樣本混合到一起,并用珠子來代替了凝膠。這些改進旨在簡化實驗操作,eCLIP實驗已經(jīng)研究了近200個蛋白,它已經(jīng)成了ENCODE項目的一部分。但是,irCLIP與eCLIP目前都沒有被廣泛采用,部分原因是eCLIP和irCLIP的靈敏性增加的原因是由于其特異性降低導(dǎo)致的,比如利用兩個方法所鑒定的PTBP1結(jié)合位點上結(jié)合或有序和調(diào)節(jié)外顯子的富集減少。隨著公共數(shù)據(jù)庫中可用的大量數(shù)據(jù)為計算分析提供了新的機會,因此謹(jǐn)慎考慮CLIP數(shù)據(jù)的質(zhì)控,過濾,以及峰值調(diào)用(peak calling)和歸一化方法就變得非常重要,這些會影響數(shù)據(jù)的生物學(xué)解釋。為了更全面地討論 RNA-蛋白質(zhì)的相互作用的CLIP實驗方法,我們建議讀者可以閱讀最近關(guān)于這個主題的綜述。

一些RRI以及所有的RNA-蛋白質(zhì)結(jié)合方法對IP的依賴限制了其對有良好特征抗體蛋白質(zhì)的研究,而非特異抗體的結(jié)合仍然是一個問題(雖然這一問題并非局限于這個領(lǐng)域)。RNA結(jié)構(gòu)也會影響RNA-蛋白質(zhì)之間的相互作用;一些蛋白質(zhì)能識別特異的RNA二級結(jié)構(gòu)或與這些結(jié)構(gòu)競爭結(jié)合RNA,這使得體外的發(fā)現(xiàn)轉(zhuǎn)向體內(nèi)就變得復(fù)雜了。此外,結(jié)構(gòu)和RNA-蛋白質(zhì)相互作用方法通常報告一個特定轉(zhuǎn)錄本或位置的平均值。在實驗室方法中,在計算方法和單分子測序方面的未來發(fā)展或許有助于破譯一些這些生物變異。

結(jié)論

Wang,Gerstein和Snyder關(guān)于RNA-seq將“革命性地[如何]分析真核轉(zhuǎn)錄體”的預(yù)測肯定是正確的。但是,即使是他們,也有可能對這種轉(zhuǎn)型的規(guī)模感到驚訝?,F(xiàn)在我們可以分析RNA生物學(xué)的許多方面,這對于基因組功能、研究開發(fā)和確定導(dǎo)致癌癥和其他疾病的分子調(diào)控異常方面來說是必不可少的。雖然生物學(xué)發(fā)現(xiàn)階段還遠(yuǎn)未結(jié)束,但是已經(jīng)在臨床中使用了RNA-seq方法。單細(xì)胞測序正在成為許多實驗的標(biāo)準(zhǔn)配置,空間轉(zhuǎn)錄組學(xué)的分析可能會遵循類似的路徑,使其能夠在與開發(fā)當(dāng)前方法的實驗室范圍之外使用。長讀長測序方法也有可能取代當(dāng)前相當(dāng)大比例的研究者們默認(rèn)選擇的Illumina的短讀長RNA-seq。對于這種情況的出現(xiàn),長讀長測序技術(shù)還需要在增加通量和降低錯誤率方面做出極大的改進。然而,長讀長mRNA異構(gòu)體測序的優(yōu)點是,如果它變得像現(xiàn)在短讀長測序一樣便宜和可靠,那么對于那些除了易降解材料外,長讀長測序就可能是首選。考慮到這些因素,那么任何關(guān)于RNA-seq在未來十年可能如何發(fā)展的預(yù)測都有可能過于保守。

后記

如果你看到這里,應(yīng)該是真的對學(xué)習(xí)有追求,那么發(fā)郵件(jmzeng1314@163.com)給我,需要你簡單的自我介紹,誠心一點哦,就可以拿到本綜述的markdown翻譯文件,該綜述的PDF,以及一套精心編輯好的 轉(zhuǎn)錄組流程視頻演練,希望你能像看綜述這樣的認(rèn)真學(xué)習(xí)本流程,等你哦 !

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    a久久天堂国产毛片精品| 欧美一级日韩中文字幕| 在线免费国产一区二区三区| 人妻一区二区三区在线| 精品国产av一区二区三区不卡蜜 | 91偷拍裸体一区二区三区| 精品日韩视频在线观看| 亚洲高清欧美中文字幕| 少妇成人精品一区二区| 最好看的人妻中文字幕| 粉嫩内射av一区二区| 欧美国产亚洲一区二区三区| 美女被后入福利在线观看| 日韩人妻一区二区欧美| 久久99热成人网不卡| 亚洲av熟女国产一区二区三区站| 国产香蕉国产精品偷在线观看| 国产精品一区二区高潮| 欧美日韩综合在线第一页| 精品少妇人妻一区二区三区| 色欧美一区二区三区在线| 日本理论片午夜在线观看| 亚洲av专区在线观看| 高清在线精品一区二区| 丰满人妻熟妇乱又伦精另类视频 | 久久亚洲午夜精品毛片| 中文字幕高清不卡一区| 草草草草在线观看视频| 国产精品免费精品一区二区| 日韩中文字幕视频在线高清版| 亚洲男人的天堂久久a| 日本人妻丰满熟妇久久| 欧美国产日韩变态另类在线看| 日韩一区二区三区久久| 日本不卡一区视频欧美| 在线观看免费午夜福利| 国产成人精品视频一二区| 91精品蜜臀一区二区三区| 夫妻性生活黄色录像视频 | 激情爱爱一区二区三区| 中文字幕中文字幕一区二区|