一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

問(wèn)答 | 10個(gè)問(wèn)題洞穿circRNA轉(zhuǎn)錄組測(cè)序分析

 連果啦啦 2020-01-08


1

目前circRNA的命名方式有哪些?

CircRNA自發(fā)現(xiàn)以來(lái),數(shù)量在不斷增加,光circBase數(shù)據(jù)庫(kù)收錄的人circRNAs數(shù)量就達(dá)到14萬(wàn)多條,還有很多circRNAs并未收錄如circbase。已發(fā)表的文獻(xiàn)來(lái)看,circRNA命名也時(shí)各種都有,熟悉circRNA的命名類型在閱讀文獻(xiàn)時(shí)將帶來(lái)不少方便。

Circbase數(shù)據(jù)庫(kù)中circRNA的命名方式主要采用阿拉伯?dāng)?shù)字來(lái)表示,比如hsa_circ_0000284(circbase數(shù)據(jù)庫(kù)ID號(hào)),has表示物種位人,circ表示circRNA分子,0000284為唯一標(biāo)示的數(shù)字碼。同時(shí)circbase還給出了這個(gè)circRNA的名稱hsa_circ_000016。

顯然這種阿拉伯?dāng)?shù)字命名方式給理解circRNA分子比較費(fèi)勁,所以很多文獻(xiàn)直接用circHIPK3來(lái)指代這個(gè)分子,但實(shí)際上HIPK3宿主基因位置可以產(chǎn)生circRNAs多大20個(gè)(circbase收錄)。circBank數(shù)據(jù)http://www./則綜合考慮兩種需求,采用宿主基因名加數(shù)字的方式較好地解決了這個(gè)問(wèn)題,circBank數(shù)據(jù)庫(kù)用hsa_circHIPK3_004(hsa_circ_0000284),從circbank的命名方式中即可以獲知circRNA來(lái)源宿主基因,又可以知道該宿主基因可能產(chǎn)生多個(gè)circRNAs。

另外一些circRNA的基因芯片探針則用circRNA通過(guò)下劃線加阿拉伯?dāng)?shù)字的方式呈現(xiàn),如circRNA_013779,circRNA_008008, circRNA_003724,如果直接用這個(gè)名稱在circbase中檢索是查不到對(duì)應(yīng)的相關(guān)信息的。

CIRCpedia數(shù)據(jù)庫(kù)也有對(duì)應(yīng)的circRNA命名ID系統(tǒng),如:HSA_CIRCpedia_63389,HSA_CIRCpedia_63393。

2

高通量測(cè)序和基因芯片的區(qū)別?

高通量測(cè)序(RNA-seq)相比于微陣列基因芯片(microarry)主要有以下區(qū)別:

·  RNA-seq是開放系統(tǒng): RNA-seq不同于基因芯片,檢測(cè)基因轉(zhuǎn)錄本不需要依賴已知基因組或轉(zhuǎn)錄組的參考序列,RNA-seq可以通過(guò)比對(duì)或拼接的方法,分別檢測(cè)有參考序列和無(wú)參考序列的轉(zhuǎn)錄組?;蛐酒粋€(gè)重要的缺點(diǎn),它是一個(gè)封閉的系統(tǒng),只能檢測(cè)已知的序列或有限的變異,而RNA-seq的最大優(yōu)勢(shì),它是一個(gè)開放的系統(tǒng),能發(fā)現(xiàn)和尋找新的信息。  

·  RNA-seq動(dòng)態(tài)范圍大: RNA-seq最低可以檢測(cè)(即靈敏度)到總RNA中千萬(wàn)分子一的表達(dá)量,只要足夠的測(cè)序深度,最高表達(dá)量不受限制,而芯片由于非特異性雜交帶來(lái)的噪聲,不能檢測(cè)低豐度表達(dá)的轉(zhuǎn)錄本,而且,超過(guò)一定豐度,檢測(cè)會(huì)產(chǎn)生飽和現(xiàn)象。如Affymetrix芯片上最多檢測(cè)50000個(gè)拷貝,超過(guò)這個(gè)數(shù)值,檢測(cè)信號(hào)不會(huì)增大,另外,芯片的非特異性雜交還帶來(lái)的背景噪聲還影響了檢測(cè)準(zhǔn)確度。  

·  信息豐富: RNA-seq提供了更為豐富的序列信息,包括可變剪切、融合基因或SNP等大量序列變異信息,而且鏈特異性技術(shù)可以測(cè)定轉(zhuǎn)錄本來(lái)自DNA哪條鏈。  

·  可重復(fù)性: 許多因素降低了芯片實(shí)驗(yàn)的可重復(fù)性,造成了同一類芯片樣本之間的相似度大幅降低,而RNA-seq實(shí)驗(yàn)可重復(fù)性非常高,同類樣本間的相關(guān)系數(shù)往往能夠達(dá)到0.9以上。

3

轉(zhuǎn)錄組測(cè)序每組設(shè)多少個(gè)重復(fù)樣本比較合適?

生物學(xué)重復(fù)指的就是樣本重復(fù),比如3只同類型小鼠,在同樣的條件下進(jìn)行處理,即為三個(gè)生物學(xué)重復(fù)。生物學(xué)重復(fù)對(duì)于測(cè)序?qū)嶒?yàn)數(shù)據(jù)的解讀和分析非常重要。生物體往往存在較大的異質(zhì)性,個(gè)體差異大,設(shè)置生物學(xué)重復(fù)可減少組內(nèi)誤差,降低背景差異,增強(qiáng)結(jié)果的可靠性,還可以檢測(cè)到離群樣本,一些異常樣本的存在嚴(yán)重影響測(cè)序結(jié)果的準(zhǔn)確性,通過(guò)樣本間主成分分析可以發(fā)現(xiàn)異常樣本,可以在后續(xù)分析中排除。當(dāng)生物學(xué)重復(fù)樣本設(shè)置到3時(shí),才能得到較為可靠的差異表達(dá)基因。Nature Biotechnology一篇文獻(xiàn)專門探討了這個(gè)問(wèn)題,結(jié)論是在RNA-seq實(shí)驗(yàn)時(shí),設(shè)置3個(gè)以上的樣本重復(fù)非常必要,結(jié)論見下圖。對(duì)于一些異質(zhì)性高的臨床樣本,這個(gè)重復(fù)數(shù)應(yīng)設(shè)置的更高。

4

高通量測(cè)序序列文件FASTQ和FASTA文件格式有何區(qū)別?

FASTQ和FASTA文件是存儲(chǔ)測(cè)序序列(reads或DNA片段)的常用格式,是后續(xù)序列比對(duì),序列組裝或進(jìn)化樹構(gòu)建的基礎(chǔ)源數(shù)據(jù)。FASTQ格式由4行組成,以@開頭,F(xiàn)ASTA格式由2行組成,以 > 開頭。FASTQ格式儲(chǔ)存的信息更多一些。

舉個(gè)栗子!For  FASTA格式

這個(gè)序列是從circBank數(shù)據(jù)庫(kù)下載的

· 第一行開頭的 ”>” 用于序列標(biāo)記。hsa_circFLT3_015是序列在circBank中唯一的ID號(hào)。

FASTA是數(shù)據(jù)庫(kù)中儲(chǔ)存序列的一種格式,不適合儲(chǔ)存下機(jī)的測(cè)序數(shù)據(jù)。因?yàn)樗鼪]有序列的質(zhì)量信息。那有測(cè)序質(zhì)量信息的FASTQ格式就成了儲(chǔ)存測(cè)序數(shù)據(jù)的常用格式啦!

再來(lái)一個(gè)栗子!for FASTQ

下面是Illumina平臺(tái)測(cè)序的真實(shí)數(shù)據(jù),其中包含了1條reads的信息。

·  第1行主要儲(chǔ)存序列測(cè)序時(shí)的坐標(biāo)等信息:

@ 序列標(biāo)記符號(hào)

HISEQ:852:HGMVMBCX2  測(cè)序儀唯一的設(shè)備名稱

1 lane的編號(hào)

1101 tail的坐標(biāo)

1861 在tail中的X坐標(biāo)

2188 在tail中的Y坐標(biāo)

1:N:0:GCATGCTA reads1上的INDEX

·  第2行 序列信息,一般用ATCGN表示,其中N表示無(wú)法判斷的堿基。

·  第3行以 “+” 開頭,可以儲(chǔ)存附加信息,一般為空

·  第4行 質(zhì)量信息,與第2行的序列相對(duì)應(yīng)

5

FastQC質(zhì)量報(bào)告中重點(diǎn)關(guān)注的內(nèi)容是哪些?

測(cè)序數(shù)據(jù)分析中通常用FastQC軟件對(duì)reads進(jìn)行質(zhì)量評(píng)估,F(xiàn)astQC的結(jié)果可以重點(diǎn)關(guān)注以下幾個(gè)方面:

·  Basic Statistics:對(duì)測(cè)序數(shù)據(jù)量、長(zhǎng)度和GC含量基本統(tǒng)計(jì); 

·  Per base sequence quality:reads每個(gè)位置測(cè)序質(zhì)量; 

·  Per sequence quality scores:每條序列的測(cè)序質(zhì)量分布; 

·  Per base sequence content:統(tǒng)計(jì)reads每個(gè)位置ATCG四種堿基的分布; 

6

如何判斷測(cè)序得到的reasds序列堿基質(zhì)量?

測(cè)序reads中每個(gè)堿基質(zhì)量如何,主要體現(xiàn)在Per base sequence quality圖中,如下圖:

上圖橫坐標(biāo)代表每個(gè)每個(gè)堿基的位置,反映了讀長(zhǎng)信息,比如測(cè)序的讀長(zhǎng)為150bp,橫坐標(biāo)就是1到150;縱坐標(biāo)代表堿基質(zhì)量分?jǐn)?shù)值。圖中的箱線圖代表在每個(gè)位置上所有堿基的質(zhì)量值分布,中間的紅線代表的是中位數(shù)。用黃色填充的區(qū)域的上下兩端分別代表上四分位數(shù)和下四分位數(shù);箱線圖最上方的短線代表90%,最下方的短線代表10%;藍(lán)色的線代表平均值。背景色從上到在下依次為green, orange, red; 分別代表very good, reasonable, poor;將堿基質(zhì)量分成3個(gè)不同的標(biāo)準(zhǔn)。當(dāng)有一個(gè)位置的10%四分位數(shù)小于10或者中位數(shù)小于25時(shí)會(huì)給出警告;當(dāng)有一個(gè)位置的10%四分位數(shù)小于5或者中位數(shù)小于20時(shí)會(huì)提示失敗。

當(dāng)序列質(zhì)量差時(shí),將得到如下圖:

7

測(cè)序樣品主成分分析(PCA)用來(lái)干嘛,有什么意義?

主成分分析(PCA)是一種數(shù)據(jù)降維技巧,它能將大量相關(guān)變量轉(zhuǎn)化為一組很少的不相關(guān)變量,這些無(wú)關(guān)變量稱為主成分。主成分分析應(yīng)用非常廣泛,一次轉(zhuǎn)錄組高通量測(cè)序分析會(huì)獲得成千上萬(wàn)的基因表達(dá)值,顯然很難通過(guò)這么多基因表達(dá)值直接看出樣本間異同,通過(guò)主成分分析就可以降低基因維度,直觀查看樣本間基因表達(dá)異同。

因?yàn)榛蜷g存在相互調(diào)控關(guān)系,這些互作的基因間存在表達(dá)量相關(guān)性,PCA主成分析可以將樣本中成千上萬(wàn)個(gè)基因表達(dá)量維度信息降維到主要幾個(gè)相關(guān)性較高的基因集,這樣就可以方便地進(jìn)行樣本間比較,并實(shí)現(xiàn)最大程度地保留原始數(shù)據(jù)信息和代表樣本特征,考察樣本的變異情況。下圖是正常和疾病兩組樣本的mRNA測(cè)序樣本間主成分分析的例子。

Dim1表示第一主成分,Dim2表示第二主成分,Dim1可解釋原所有變量(所有基因表達(dá)量)總體方差的35.8%,Dim2可解釋原所有變量(所有基因表達(dá)量)總體方差的23.9%,Dim1和2兩個(gè)維度解釋總體方差的59.7%。統(tǒng)計(jì)學(xué)語(yǔ)言解釋可能還是不夠直白。從圖上的各組點(diǎn)聚集情況可以看出,同一組的樣品往往會(huì)聚類在一起,組間的樣品會(huì)分隔開,異常樣品往往會(huì)和其他組內(nèi)樣品分隔開, 如果檢測(cè)到異常樣品,在差異分析時(shí),該樣品應(yīng)該被排除在外。

8

差異表達(dá)基因的FDR有何意義,它和p-value有什么關(guān)系?

測(cè)序完成后,往往能得到上百或上千個(gè)差異表達(dá)基因,對(duì)每個(gè)差異基因進(jìn)行擴(kuò)大樣本qPCR驗(yàn)證似乎不太現(xiàn)實(shí),通常會(huì)選取差異倍數(shù)越大,p值或FDR值越小的基因進(jìn)行優(yōu)先驗(yàn)證。但p值和FDR值究竟有什么統(tǒng)計(jì)學(xué)意義呢,它們間又有什么聯(lián)系呢?

假如通過(guò)差異比較分析發(fā)現(xiàn),某個(gè)基因A在兩組樣本間差異p-value小于0.05,我們知道任何一種測(cè)量手段都可能存在誤差,那么基因A是存在真實(shí)差異還是測(cè)量誤差,p-value值小于0.05的意思就是基因A不存在差異的概率小于0.05,換言之測(cè)量的隨機(jī)誤差小于0.05,但這個(gè)判斷還是有0.05的犯錯(cuò)概率,就里就是假陽(yáng)性率(False positive rate),但這只是一次判斷,F(xiàn)DR值計(jì)算過(guò)程則是對(duì)p-value的多次判斷校正即多重檢驗(yàn),降低假陽(yáng)性率。RNA-seq分析中普遍采用BH(Benjamini and Hochberg)多重檢驗(yàn)校正法,通過(guò)FDR法可以得到每個(gè)基因p-value校正后的q-value,通常FDR、Q value、Adjusted p-value是指同一個(gè)東西。FDR值比p-value更嚴(yán)格,數(shù)值越小越可靠,但沒有約定的閾值,不像p-value小于0.05和0.01時(shí)才認(rèn)為差異顯著和差異非常顯著。

9

IPA數(shù)據(jù)庫(kù)的優(yōu)勢(shì)主要體現(xiàn)在哪里?

RNA-seq實(shí)驗(yàn)獲得差異表達(dá)基因后,通常根據(jù)GO和KEGG免費(fèi)數(shù)據(jù)庫(kù)進(jìn)行基因功能富集分析,這些免費(fèi)數(shù)據(jù)庫(kù)往往存在更新不及時(shí),缺乏人工審校的缺點(diǎn)。IPA (Ingenuity PathwayAnaylsis)數(shù)據(jù)分析系統(tǒng)則可以彌補(bǔ)上述缺點(diǎn),對(duì)差異基因?qū)崿F(xiàn)更可靠的分析。IPA中各個(gè)分子互作,功能注釋模塊都由專家進(jìn)行編譯,來(lái)源于文獻(xiàn),是非??煽康纳飳W(xué)大規(guī)模關(guān)系型數(shù)據(jù)庫(kù),全面涵蓋了蛋白質(zhì)、基因、復(fù)合物、細(xì)胞、組織、藥物、通路和疾病信息,收錄信息達(dá)600萬(wàn)條,并且每周實(shí)時(shí)更新,是分析基因功能的一把利器,目前使用IPA處理數(shù)據(jù)發(fā)表文獻(xiàn)超過(guò)2萬(wàn)篇。IPA不僅可以將目標(biāo)基因進(jìn)功能富集分類,還可以預(yù)測(cè)上下游調(diào)控關(guān)系,并根據(jù)下游基因表達(dá)狀態(tài)預(yù)測(cè)上游調(diào)控因子是被激活還是被抑制,分析結(jié)果中用p-value表示富集顯著性,Z-score表示激活或抑制效應(yīng),閾值一般為2和-2。下圖是IPA通路分析常見圖型:

RegulatorEffect是綜合多個(gè)分析模塊結(jié)果的一個(gè)分子調(diào)控圖,通過(guò)該預(yù)測(cè)圖,可推導(dǎo)出哪些調(diào)控因子如何通過(guò)下游靶分子直接或間接導(dǎo)致疾病的發(fā)生。不難看出,這種預(yù)測(cè)結(jié)果為指導(dǎo)后續(xù)實(shí)驗(yàn)提供了非常有價(jià)值的線索。

10

差異基因跟qPCR驗(yàn)證結(jié)果不一致如何辦?

轉(zhuǎn)錄組測(cè)序后得到差異基因后,一般都需要進(jìn)一步進(jìn)行qPCR驗(yàn)證,可能面臨qPCR結(jié)果與測(cè)序結(jié)果不一致的情況。從技術(shù)上來(lái)說(shuō),qPCR更為準(zhǔn)確,但測(cè)序通量更高,方便用來(lái)進(jìn)行前期基因篩查。兩個(gè)技術(shù)平臺(tái),很難做到100%的一致性差異。比如驗(yàn)證30個(gè)基因,有25個(gè)表達(dá)趨勢(shì)一致,另外5個(gè)基因如果PCR結(jié)果有差異,則以PCR結(jié)果為準(zhǔn)。不一致的情況下,我們重點(diǎn)要排除以下幾個(gè)方面的原因:

·  實(shí)驗(yàn)組和對(duì)照組是否設(shè)置顛倒;

·  保證檢測(cè)樣本的一致性,意思是用同樣的測(cè)序備份樣本或RNA進(jìn)行PCR驗(yàn)證;

·  應(yīng)重點(diǎn)選擇高表達(dá)的基因,驗(yàn)證時(shí)選擇低表達(dá)的基因比例過(guò)高時(shí),容易出現(xiàn)不一致情況;

·  挑選差異基因時(shí),是否只看RNAseq中的p-value,F(xiàn)DR值是否太高(生物學(xué)重復(fù)少少時(shí)應(yīng)提高FDR閾值,不能只看p-value);

·  檢查qPCR實(shí)驗(yàn)中內(nèi)參基因Ct值是否穩(wěn)定,排除PCR的實(shí)驗(yàn)問(wèn)題;

·  通過(guò)測(cè)序PCA結(jié)果,在qPCR實(shí)驗(yàn)中排除異常樣本;

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多

    中文字幕亚洲精品在线播放| 久热香蕉精品视频在线播放| 亚洲一区二区精品福利| 久久老熟女一区二区三区福利| 手机在线观看亚洲中文字幕| 欧美尤物在线观看西比尔| 91福利免费一区二区三区| 日韩不卡一区二区视频| 国产一区二区三区午夜精品| 久久婷婷综合色拍亚洲| 丰满少妇被猛烈插入在线观看| 暴力性生活在线免费视频| 亚洲中文字幕视频在线播放| 91超精品碰国产在线观看| 人妻久久一区二区三区精品99| 日韩国产亚洲欧美另类| 初尝人妻少妇中文字幕在线| 黑色丝袜脚足国产一区二区| 国产一区欧美一区二区| 麻豆果冻传媒一二三区| 欧洲自拍偷拍一区二区| 欧美国产日韩在线综合| 亚洲欧美日韩精品永久| 免费大片黄在线观看日本| 午夜久久精品福利视频| 国产三级黄片在线免费看| 东京热一二三区在线免| 日本加勒比在线观看不卡| 日韩中文无线码在线视频| 国产精品欧美一区二区三区不卡| 国产一级内片内射免费看 | 日本熟妇五十一区二区三区| 亚洲天堂国产精品久久精品| 日本午夜免费啪视频在线| 激情视频在线视频在线视频| 欧美日韩国产的另类视频| 亚洲成人精品免费在线观看| 欧美三级不卡在线观线看| 久久精品福利在线观看| 日韩精品视频免费观看| 成人精品视频在线观看不卡|