主要內(nèi)容
本章節(jié)包括:
- 理解使用多基因評(píng)分的過(guò)程和流程圖
- 理解構(gòu)建多基因評(píng)分的主要原則
- 了解多基因評(píng)分驗(yàn)證和預(yù)測(cè)的基礎(chǔ)
- 掌握圍繞表型共享遺傳結(jié)構(gòu)的概念以及檢驗(yàn)這一點(diǎn)的潛在方法(相關(guān)性、多效性、多序列分析)
- 引入到多基因評(píng)分因果建模的應(yīng)用中(遺傳混雜、孟德?tīng)栯S機(jī)、基因-環(huán)境相互作用)
- 認(rèn)識(shí)到中心挑戰(zhàn)、問(wèn)題原因以及使用多基因評(píng)分的潛在解決方案
GWAS介紹
大多數(shù)表型和健康狀況的遺傳結(jié)構(gòu)本質(zhì)上是多基因的。多基因指的是這樣一個(gè)事實(shí),即它不是單個(gè)或少數(shù)變體,而是數(shù)百或數(shù)千個(gè)變體,每個(gè)變體對(duì)表型的影響都很小。
雖然有些單基因疾病如亨廷頓病具有單基因效應(yīng),但我們研究的大多數(shù)性狀都是多基因的。隨著全基因組關(guān)聯(lián)研究(GWASs)和更大樣本的增長(zhǎng),PGSs越來(lái)越成為定量遺傳研究領(lǐng)域的主要工具。
本章的目的首先是讓您了解多基因得分、它們是如何出現(xiàn)的,以及有效應(yīng)用它們的核心挑戰(zhàn)和潛在解決方案。第二個(gè)目標(biāo)是為您提供如何在該領(lǐng)域開展自己研究的藍(lán)圖。我們?cè)趫D5.1中的流程圖概述了步驟,以及為第一次進(jìn)入該字段的人員使用PGSs的可能性
包括PGS的數(shù)據(jù)、驗(yàn)證和處理、生成和預(yù)測(cè)的初始階段。一些讀者可能還想更深入地研究表型的共同遺傳結(jié)構(gòu)。然后是本章討論的各種建模應(yīng)用程序,然后應(yīng)用于本書的第二部分和第二部分。在表5.1中,我們進(jìn)一步總結(jié)了與PGSs合作的主要挑戰(zhàn),解釋了這些挑戰(zhàn)存在問(wèn)題的原因,并提供了潛在的解決方案和關(guān)于該主題的進(jìn)一步閱讀。本章提供了必要的背景知識(shí),您需要在第10章中創(chuàng)建和驗(yàn)證PGS,然后在第11-13章的各種情況下將其正確應(yīng)用于統(tǒng)計(jì)模型。
第一層:搜集數(shù)據(jù)、整理數(shù)據(jù)
- 表型數(shù)據(jù)和基因型數(shù)據(jù)檢測(cè)
第二層:驗(yàn)證和處理
- 群體結(jié)構(gòu),親緣關(guān)系
第三層:計(jì)算多基因評(píng)分和預(yù)測(cè)
- 對(duì)PGS如何影響性狀進(jìn)行可視化
第四層:檢查表型的共享遺傳結(jié)構(gòu)
- 表型相關(guān):通過(guò)LD Score回歸計(jì)算
第五層:模型應(yīng)用
- 預(yù)測(cè)個(gè)體風(fēng)險(xiǎn)
多基因評(píng)分
Polygenic score
什么是PGS?
什么是多基因評(píng)分?多基因評(píng)分(PGS)是多個(gè)遺傳位點(diǎn)與表型之間關(guān)系的數(shù)值總結(jié)。PGS有時(shí)被稱為多基因譜評(píng)分、遺傳譜評(píng)分、基因型評(píng)分,或者在討論疾病時(shí),被稱為多基因風(fēng)險(xiǎn)評(píng)分。我們采用更中性的polvgenic評(píng)分,因?yàn)楫?dāng)我們討論非疾病相關(guān)的行為表型時(shí),用“風(fēng)險(xiǎn)”來(lái)表述就不那么直觀了。Polvgenic得分直接來(lái)自我們?cè)诘?章中概述的GWASs中的全基因組關(guān)聯(lián)。我們使用這些數(shù)據(jù)的匯總統(tǒng)計(jì)數(shù)據(jù)來(lái)估計(jì)單核苷酸多態(tài)性(SNP)如何結(jié)合來(lái)解釋感興趣的特征。
實(shí)際上,PGS是整個(gè)基因組表型相關(guān)等位基因的線性組合,通常由GWAS效應(yīng)大小加權(quán)。因此,這是一個(gè)單一的定量指標(biāo),可以解釋為個(gè)體相對(duì)于群體的表型遺傳傾向的指標(biāo)。對(duì)于我們感興趣的大多數(shù)性狀而言,單個(gè)SNP(如第1章所述,單基因)是弱預(yù)測(cè)因子。復(fù)雜的性狀與許多遺傳變異有關(guān),每一個(gè)變異都只占變異的一小部分。PGSs是一種跨基因組聚合這些信息的解決方案。
一般來(lái)說(shuō),我們可以將一個(gè)人的多基因得分定義為一個(gè)人在M基因座的基因型的加權(quán)和。個(gè)體i的PGS可以計(jì)算為每個(gè)SNPj=1的等位基因計(jì)數(shù)A(0、1或2)的總和。?..M、 乘以重量w,
這里的權(quán)重w是GWAS系數(shù)的變換,這個(gè)方程表明它是多個(gè)SNP對(duì)表型影響的線性組合。PGS的基礎(chǔ)模型通常也是加性的,因?yàn)槲覀冇?jì)算得分中每個(gè)SNP的“風(fēng)險(xiǎn)等位基因”數(shù)量。然而,我們注意到,隱性或顯性模型可用于構(gòu)建PGS。由于其結(jié)構(gòu)中包含大量SNP,V也遵循正態(tài)分布(見(jiàn)方框5.1)。另一個(gè)假設(shè)是,由于假設(shè)SNP效應(yīng)是獨(dú)立的,因此不存在基因-基因相互作用(或上位性)。
PGS的來(lái)源
PGS符合正態(tài)分布。
多基因評(píng)分可以被認(rèn)為是許多獨(dú)立遺傳信號(hào)的總和。統(tǒng)計(jì)學(xué)中概率論的一個(gè)中心前提,即中心極限定理,確定了當(dāng)許多獨(dú)立的隨機(jī)變量相加時(shí),它們的總和趨向于正態(tài)分布,而與單個(gè)變量的原始分布無(wú)關(guān)。這通常被非正式地稱為“鐘形曲線”正如我們下面的模擬所示,等位基因的數(shù)量越多,越接近正態(tài)分布。
因此,多基因評(píng)分往往具有正態(tài)分布,因?yàn)樵u(píng)分中包含的SNP數(shù)量足夠大[19]。
Risch、Merikangas及其同事在1996年的《科學(xué)》雜志上證明,對(duì)于復(fù)雜的表型,GWASs比當(dāng)時(shí)使用的全基因組連鎖研究具有更強(qiáng)大的能力【24】。第一份精神分裂癥GWAS于2008年出版【25】。隨后,2009年發(fā)表在《自然》雜志上的一項(xiàng)更大規(guī)模的研究(約13000例病例:35000例對(duì)照)[26]。
2009年,國(guó)際精神分裂癥協(xié)會(huì)“未能”確定預(yù)測(cè)這種高度遺傳性精神障礙的任何特定SNP,這是創(chuàng)建PGSs的關(guān)鍵轉(zhuǎn)變之一。研究團(tuán)隊(duì)決定深入挖掘并調(diào)查所有SNP的作用,以費(fèi)希爾1918年的無(wú)窮小模型的形式重新審視多基因遺傳的最經(jīng)典理論之一【27】。回想一下,無(wú)窮小模型假設(shè)定量(連續(xù))表型由無(wú)限多個(gè)基因座控制,每個(gè)基因座的影響非常小。該研究小組并沒(méi)有尋找少數(shù)具有更大預(yù)測(cè)能力的基因,而是聲稱可能存在數(shù)千個(gè)verv小個(gè)體效應(yīng),這些效應(yīng)共同解釋了遺傳力的很大一部分。然而,那些來(lái)自樣本量較小的GWAS的變異不會(huì)出現(xiàn)在GWAS中,因?yàn)樗鼈儧](méi)有達(dá)到全基因組意義,例如,考慮一個(gè)SNP,其中一個(gè)風(fēng)險(xiǎn)等位基因只會(huì)增加精神分裂癥的相對(duì)風(fēng)險(xiǎn)5?需要用極小的標(biāo)準(zhǔn)誤差來(lái)估計(jì)如此小的影響,才能低于5×10-8的顯著性閾值,這是GWAS中全基因組顯著性的標(biāo)準(zhǔn)標(biāo)準(zhǔn)(見(jiàn)第4章)。因此,即使在相對(duì)較大的樣本中,它也很可能未被檢測(cè)到。因此,研究小組首先只計(jì)算出包含高度顯著SNP的得分,然后通過(guò)不斷將p值閾值放寬到0.5來(lái)重新計(jì)算得分,基本上包括所有SNP中的50個(gè)。他們使用這組分?jǐn)?shù)并生成了一個(gè)不屬于原始GWAS的樣本來(lái)預(yù)測(cè)精神分裂癥。他們發(fā)現(xiàn),隨著p值閾值的放寬,方差的解釋增加了。
這意味著即使被認(rèn)為是“無(wú)意義”的遺傳變異也可以解釋表型的變化,盡管它們的個(gè)體效應(yīng)和機(jī)制尚不明確。
雖然這項(xiàng)最初的研究已經(jīng)表明精神分裂癥是高度多基因的,但后來(lái)的研究更精確地量化了期望值,發(fā)現(xiàn)約8300個(gè)獨(dú)立的SNP對(duì)該表型有貢獻(xiàn)【28】。從那時(shí)起,不同群體的多個(gè)GWASs已經(jīng)發(fā)表,更大的研究導(dǎo)致更精確的PGS估計(jì)。
構(gòu)建PGS
在第10章中,我們展示了如何構(gòu)建PGS的實(shí)用性,然后介紹了如何在性狀預(yù)測(cè)的多個(gè)應(yīng)用程序中驗(yàn)證和應(yīng)用它們。作為混雜因素,并在第11章中檢查基因與環(huán)境的相互作用。我們?cè)诘?章中詳細(xì)討論了發(fā)現(xiàn)。在本節(jié)中,我們將重點(diǎn)介紹構(gòu)建PGS的陷阱和危險(xiǎn),但請(qǐng)注意,一些解決方案涉及詳細(xì)的統(tǒng)計(jì)技術(shù),這些技術(shù)仍然超出了本入門教材的范圍。
GWAS分析需要大樣本
隨著時(shí)間的推移,GWASs的樣本量快速增長(zhǎng)并非巧合(見(jiàn)圖4.5)。為了估計(jì)單核苷酸多態(tài)性對(duì)表型的影響,減少抽樣誤差非常重要,這可以通過(guò)在發(fā)現(xiàn)遺傳標(biāo)記時(shí)包含大量樣本來(lái)實(shí)現(xiàn)。我們反復(fù)指出,復(fù)雜的表型受大量影響很小的未知SNP的影響,因此需要大量的發(fā)現(xiàn)樣本。如第4章所述,對(duì)于許多常見(jiàn)性狀,發(fā)現(xiàn)樣本量目前已達(dá)到100萬(wàn)左右。多位作者已經(jīng)證明了SNP效應(yīng)的準(zhǔn)確性,以及通過(guò)擴(kuò)展PGSs,如何隨著樣本量的增加而增加[1,2,29]。其他人現(xiàn)在越來(lái)越質(zhì)疑,我們是否已經(jīng)達(dá)到了回報(bào)減少的程度,現(xiàn)在應(yīng)該將重點(diǎn)從發(fā)現(xiàn)更多的基因座轉(zhuǎn)移到更深入地理解基因座的生物學(xué)功能。
篩選合適的SNP
我們?cè)诘?0章中探討了構(gòu)建PGS需要兩個(gè)關(guān)鍵決策:要包含的遺傳變異的數(shù)量以及如何衡量其影響。最常用的方法是直接的最小二乘預(yù)測(cè)法[30]。由于我們?cè)诘?0章(第10.3節(jié))中討論了修剪和閾值方法以及權(quán)重,因此在此不再重復(fù)??梢灾贿x擇GWAS重要SNP(p值<5×10-8)、介于兩者之間的某個(gè)或所有SNP(p值<=1)。選擇取決于表型和您將執(zhí)行的應(yīng)用程序類型。更嚴(yán)格的p值閾值通常被認(rèn)為更適合非多基因性狀,而更寬松的閾值對(duì)多基因性狀表現(xiàn)最好。研究人員現(xiàn)在意識(shí)到,在性狀不是多基因的情況下,實(shí)際上是非常罕見(jiàn)的,只有全基因組的顯著變異被包括在內(nèi),以提高預(yù)測(cè)得分的準(zhǔn)確性。當(dāng)所有SNP都包含在高度多基因性狀的PGS計(jì)算中時(shí),你可以期望得到更多的預(yù)測(cè)結(jié)果。
然而,我們將很快討論的一個(gè)挑戰(zhàn)是在分析中包含更多變體以增加預(yù)測(cè)的權(quán)衡,這反過(guò)來(lái)又增加了非因果變體的潛在“噪音”,但也增加了作為代理SNP的因果變體(見(jiàn)框10.2)。
驗(yàn)證和預(yù)測(cè)PGS
PGS的驗(yàn)證鞏固了其有用性。如果在此初始階段得出錯(cuò)誤的決定或結(jié)論,PGS可能缺乏準(zhǔn)確性和準(zhǔn)確性。驗(yàn)證也與預(yù)測(cè)內(nèi)在地交織在一起。在本節(jié)中,我們將重點(diǎn)介紹基本和常見(jiàn)的錯(cuò)誤,這些錯(cuò)誤可能導(dǎo)致PGS的高估或結(jié)果的誤解,有時(shí)會(huì)使用文獻(xiàn)中的示例。預(yù)測(cè)是對(duì)R2的估計(jì),R2是回歸模型解釋的方差比例。從這個(gè)意義上說(shuō),我們注意到預(yù)測(cè)是一個(gè)有點(diǎn)誤導(dǎo)性的術(shù)語(yǔ),因?yàn)槲覀兺ǔS信d趣了解通過(guò)在模型中包含特定PGS可以解釋的可變性量。大多數(shù)應(yīng)用研究人員通常有興趣了解與基線模型相比,將PG輸入模型時(shí)R2的增量增加。
基線模型是最簡(jiǎn)單的預(yù)測(cè),當(dāng)添加其他變量時(shí),您可以使用它作為基準(zhǔn)點(diǎn)。在此,我們通常還包括人口分層變量(例如,前10或20個(gè)PCA)和其他相關(guān)協(xié)變量。在第10章和第1l章中,我們將演示如何進(jìn)行預(yù)測(cè),以及如何處理下面討論并在表5.1中總結(jié)的一些問(wèn)題。
獨(dú)立的樣本
在進(jìn)行預(yù)測(cè)時(shí),您使用的數(shù)據(jù)必須是一個(gè)獨(dú)立的樣本,也就是說(shuō),發(fā)現(xiàn)樣本和目標(biāo)樣本之間沒(méi)有重疊。換句話說(shuō),您使用的目標(biāo)樣本不應(yīng)該是原始GWAS中包含的數(shù)據(jù)集之一,或者您需要將其從GWAS摘要結(jié)果中刪除。我們?cè)诘?章(第7.3.3節(jié))中討論了如何以及在何處獲取GWAS匯總統(tǒng)計(jì)數(shù)據(jù)。
如果您試圖使用原始GWAS中使用的相同數(shù)據(jù)來(lái)驗(yàn)證或預(yù)測(cè)得分的表現(xiàn),以同時(shí)估計(jì)SNP對(duì)表型的影響,那么您通過(guò)過(guò)度擬合高估了預(yù)測(cè)的準(zhǔn)確性[3]。為了確保關(guān)聯(lián)結(jié)果不會(huì)與您的基因型數(shù)據(jù)重疊,最好首先檢查發(fā)現(xiàn)分析中包括哪些隊(duì)列。該信息通常在已發(fā)布的GWAS文章中補(bǔ)充材料的初始表格中報(bào)告。許多作者越來(lái)越多地?fù)碛幸粭l準(zhǔn)備好結(jié)果的管道,并準(zhǔn)備好申請(qǐng)研究中的每個(gè)隊(duì)列。越來(lái)越多的研究也將PGS作為其數(shù)據(jù)的一部分(如健康和退休研究)。如果不是這樣,最好直接詢問(wèn)進(jìn)行研究的研究人員,詢問(wèn)他們是否愿意分享薈萃分析的結(jié)果,不包括你想要分析的隊(duì)列。請(qǐng)注意,這確實(shí)需要一定的努力,也需要原始作者的努力?;蛘撸部梢允褂昧硪粋€(gè)足夠大的數(shù)據(jù)集和GWAS在單個(gè)非常大的研究中計(jì)算的匯總統(tǒng)計(jì)數(shù)據(jù)。一種解決方案是使用Ben Neale實(shí)驗(yàn)室的信息,該實(shí)驗(yàn)室利用英國(guó)生物庫(kù)公開產(chǎn)生了4000多個(gè)表型的結(jié)果,還包含20個(gè)主成分和協(xié)變量(例如,年齡、年齡2、性別、年齡*性別)(http∶//www.nealelab。is/uk biobank/)。他們還生成了特定性別的結(jié)果,并包含了用于運(yùn)行分析的所有代碼,GitHub(https://github.com/Nealelab/UK生物銀行GWAS)。偏差的程度還取決于各種因素,包括性狀的遺傳力、研究中的遺傳異質(zhì)性和樣本量,我們將在稍后討論缺失遺傳力和隱性遺傳力。如果vou計(jì)劃使用的基因分型數(shù)據(jù)的樣本量遠(yuǎn)小于整個(gè)GWA的樣本量,則偏差可能是有限的。然而,這方面仍然需要考慮。
目標(biāo)樣本中有相似祖先
在選擇目標(biāo)樣本時(shí),祖先組成不應(yīng)與初始基線樣本有顯著差異。回顧第4章,大多數(shù)GWASs都是對(duì)歐洲血統(tǒng)的人進(jìn)行的,由于等位基因頻率、LD和遺傳結(jié)構(gòu)的差異,這些結(jié)果不能直接轉(zhuǎn)移到其他人群。Martin及其同事利用1000基因組參考小組,使用歐洲祖先GWAS匯總統(tǒng)計(jì)數(shù)據(jù),計(jì)算了八種表型的PGSs。
他們得出的結(jié)論是,這些來(lái)自大規(guī)模GWASs的發(fā)現(xiàn)對(duì)其他群體的可移植性有限,我們?cè)谇懊嬗懻摿伺c人口分層的關(guān)系(第3章)。例如,由于祖先群體之間的等位基因頻率不同(見(jiàn)方框3.2),使用從一個(gè)祖先群體衍生到一個(gè)非常不同的祖先群體的PGS將導(dǎo)致目標(biāo)群體中非常不精確和有偏差的分?jǐn)?shù),即使表型是高度遺傳的。在第9章(第9.4節(jié))的后面,我們將如何通過(guò)不同主成分的聚類來(lái)區(qū)分人口中的不同祖先群體進(jìn)行分類。
親緣關(guān)系、群體分層和頻率差異
當(dāng)您選擇要為研究分析的數(shù)據(jù)時(shí),必須意識(shí)到由于人口分層,目標(biāo)樣本中PGS的潛在通貨膨脹。例如,在弗雷明翰心臟病研究中,一項(xiàng)將PGS用于身高的研究表明,當(dāng)相關(guān)個(gè)體被納入分析時(shí),R2從0.15膨脹到0.25【8】。Wray等人[3]還研究了從樣本中移除相關(guān)個(gè)體時(shí)的差異,并通過(guò)與R2膨脹相關(guān)的不同人群分層主成分進(jìn)行控制。正如我們?cè)诒?.1中所概述的,他們建議在發(fā)現(xiàn)和驗(yàn)證階段使用傳統(tǒng)上不相關(guān)的個(gè)體。在后面描述質(zhì)量控制(QC)的章節(jié)中,我們將演示如何刪除相關(guān)人員。這一錯(cuò)誤發(fā)生在已發(fā)表的研究中,例如,Belgard及其同事[7]認(rèn)為2014年分子精神病學(xué)孤獨(dú)癥基因研究[31]缺乏對(duì)人口分層的控制。
研究人員可能遇到的另一個(gè)問(wèn)題是病例組和對(duì)照組之間人群分層的差異偏差。這可能會(huì)導(dǎo)致R2的虛假預(yù)測(cè),但可以通過(guò)在單獨(dú)的樣本中執(zhí)行嚴(yán)格的QC或驗(yàn)證結(jié)果來(lái)應(yīng)對(duì)。
變異僅由缺失罕見(jiàn)變異的常見(jiàn)遺傳標(biāo)記解釋
這里有各種用于識(shí)別SNP的全基因組“SNP芯片”,我們將在第7章中詳細(xì)討論。直到2018年左右,大量收集的數(shù)據(jù)收集了有關(guān)常見(jiàn)遺傳變異的信息。我們討論了這種基因分型的局限性以及其他地方的未來(lái)方向(見(jiàn)第7.2.3節(jié)和第15章)。由于LD,我們?cè)贕WAS中識(shí)別并在PGSs中使用的許多SNP可能不是實(shí)際的因果SNP,但可能在LD中有一個(gè)或多個(gè)因果變體。在大多數(shù)芯片上測(cè)得的SNP(直到最近)都有常見(jiàn)的等位基因,并且不可能是完全或中度LD,也不可能是罕見(jiàn)的變體。如果一個(gè)遺傳變異與適應(yīng)性相關(guān),那么選擇可以將一個(gè)等位基因的頻率降低[32]。如果單核苷酸多態(tài)性對(duì)適應(yīng)性有很大影響,那么因果變異的頻率就會(huì)很低。迄今為止在許多GWASs中發(fā)現(xiàn)的SNP不太可能解釋所有遺傳變異,因?yàn)樗雎粤撕币?jiàn)變異的貢獻(xiàn),因?yàn)檫@些變異沒(méi)有被基因型SNP“標(biāo)記”。例如,這解釋了身高的家族遺傳力約為0.7至0.8,與基于SNP或標(biāo)記的較低估計(jì)值0.4之間的差異【33,34】。
這一討論還與家族估計(jì)數(shù)的潛在膨脹有關(guān),但也與“仍然缺失遺傳力”一詞有關(guān),該術(shù)語(yǔ)指的是未被SNP完全標(biāo)記的基因組變體。這使得Visscher和其他人認(rèn)為,我們可以從動(dòng)物研究中學(xué)習(xí),因?yàn)檫@項(xiàng)工作解釋了在牲畜(以及可能的人類)中,某些因果變異事實(shí)上很罕見(jiàn),并且在具有常見(jiàn)SNP的貧血癥患者中【10】。因此,該領(lǐng)域現(xiàn)在正朝著將罕見(jiàn)變異納入預(yù)測(cè)的方向發(fā)展。例如,Ganna及其同事于2018年進(jìn)行的一項(xiàng)研究【35】量化了罕見(jiàn)和超罕見(jiàn)編碼變異對(duì)13個(gè)數(shù)量性狀和10種疾病的影響。他們發(fā)現(xiàn)了罕見(jiàn)的有害編碼變體對(duì)復(fù)雜性狀的影響,結(jié)論是可能存在廣泛的多效性風(fēng)險(xiǎn)。
消失的遺傳力
我們?cè)噲D解釋的表型變異是遺傳和環(huán)境因素及其相互作用的組合。因此,使用多基因評(píng)分是量化遺傳因素的一種方法?;叵胍幌碌谝徽拢ǖ?.6節(jié))中缺失的遺傳力討論,我們討論了GWASs出人意料的低預(yù)測(cè)能力,以及從多基因性的角度思考的興起。請(qǐng)記住,缺失遺傳力是雙胞胎研究估計(jì)值與GWAS遺傳力估計(jì)值之間相對(duì)較大的遺傳力之間的差距,而隱藏遺傳力是基于SNP的遺傳力(Yang及其同事[33]GREML模型)與GWAS遺傳力之間的差異。由于首次發(fā)現(xiàn)的單核苷酸多態(tài)性僅解釋了遺傳力的一小部分[36],因此出現(xiàn)了一系列研究,研究非加性遺傳效應(yīng)[37],上位效應(yīng)[38],異質(zhì)性和/或基因-環(huán)境相互作用[11],以及因共有的環(huán)境因素[39]和罕見(jiàn)的非基因型變體的作用而導(dǎo)致的雙胞胎研究的夸大估計(jì)[34]。
實(shí)現(xiàn)h'高水平估計(jì)的唯一方法是,我們能夠識(shí)別影響該性狀的所有遺傳變異,并準(zhǔn)確估計(jì)其影響。正如我們?cè)诒緯兴⒁獾降?,錯(cuò)誤可能通過(guò)多種因素潛入分析中,如缺乏準(zhǔn)確或協(xié)調(diào)的表型測(cè)量,需要重復(fù)測(cè)量,或如我們?cè)谙乱徽滤觯捎谂c環(huán)境因素的相互作用[11,12]。
PGS R2顯著增加的一個(gè)例子是后續(xù)GWASs的演變,如2型糖尿病研究(見(jiàn)第7章)和教育年限。例如,關(guān)于教育程度的第一個(gè)MetaGWA(40)產(chǎn)生了三個(gè)重要點(diǎn)擊,第二個(gè)74個(gè)重要點(diǎn)擊,第三個(gè)在2018年,超過(guò)1100個(gè)。加上包含了更多的遺傳變異,這三項(xiàng)研究之間的主要區(qū)別在于樣本量,從第一項(xiàng)研究中的約125000個(gè)個(gè)體增加到110多萬(wàn)個(gè)。同時(shí),R從大約2?最初的GWA大約是7-10?相比之下,2018年的研究。全基因組研究中基于單核苷酸多態(tài)性的估計(jì)值約為20-25[1l,40],代表了我們可以期望通過(guò)加性模型發(fā)現(xiàn)的上限。
預(yù)測(cè)和理解生物學(xué)機(jī)制之間的權(quán)衡
重要的是要記住,對(duì)于PGSs,我們正在處理一個(gè)定量結(jié)構(gòu),并且表型的基礎(chǔ)生物學(xué)非常復(fù)雜。由于多態(tài)性,單基因中常見(jiàn)的變異是弱預(yù)測(cè)因子。然而,單個(gè)基因?qū)τ诶斫馍飳W(xué)和因果功能至關(guān)重要。正是從研究這些單一基因的細(xì)胞調(diào)節(jié)功能中獲得的知識(shí),使我們能夠超越相關(guān)性,了解基因型與表型之間的聯(lián)系機(jī)制。與多基因評(píng)分的權(quán)衡是,由于必須結(jié)合來(lái)自PGS中許多SNP的信息,我們往往會(huì)進(jìn)一步遠(yuǎn)離支撐表型的特定生物學(xué)。
這對(duì)我們進(jìn)行的許多定量分析都有影響。正如我們?cè)诘?0章中所展示的,當(dāng)你在計(jì)算高度多基因性狀的PGS時(shí)包括所有SNP,你會(huì)獲得更多的預(yù)測(cè)結(jié)果。然而,這樣做,你就失去了生物學(xué)上的特異性。然而,我們應(yīng)該清楚,這不僅僅是生物學(xué)特異性和SNP閾值之間的嚴(yán)格二分法。的確,如果我們?cè)诶斫鈾C(jī)制的情況下構(gòu)建一個(gè)分?jǐn)?shù)(即,僅使用具有已知因果路徑的SNP),該分?jǐn)?shù)將具有更少的SNP和較差的表現(xiàn)。然而,如果我們僅從全基因組重要SNP構(gòu)建評(píng)分,我們對(duì)潛在機(jī)制的理解仍不會(huì)比使用所有SNP的評(píng)分更好。如果我們采用只包含許多獨(dú)立SNP得分的PGS,那么缺乏生物學(xué)特異性可以說(shuō)是所有多基因得分的一個(gè)特性。
因此,在最大限度地預(yù)測(cè)和理解生物學(xué)機(jī)制之間進(jìn)行權(quán)衡。例如,在2018年《柳葉刀》對(duì)肥胖遺傳學(xué)的回顧中,古達(dá)齊(Goodarzi)[13]總結(jié)了盡管已分離出300多個(gè)與體重指數(shù)、臀圍比和其他肥胖特征相關(guān)的單核苷酸多態(tài)性,但對(duì)肥胖缺乏認(rèn)真的生物學(xué)功能理解阻止了臨床相關(guān)的減肥干預(yù)。因此,許多研究現(xiàn)在努力超越預(yù)測(cè),提高精度。如疾病風(fēng)險(xiǎn)預(yù)測(cè)干預(yù)、基因-環(huán)境相互作用分析或孟德?tīng)栯S機(jī)回歸。我們?cè)谟懻摲謹(jǐn)?shù)的應(yīng)用時(shí),回到了機(jī)制預(yù)測(cè)權(quán)衡的具體問(wèn)題。
表型共享的遺傳結(jié)構(gòu)
直到現(xiàn)在,我們已經(jīng)討論了相對(duì)隔離的特定性狀的PGSs,然而,特別是對(duì)于復(fù)雜表型,單個(gè)性狀的PGSs通常與多個(gè)表型相關(guān)。如圖5.1所示,在使用PGSs時(shí),重要的是要了解許多表型下通常存在一個(gè)共同的遺傳結(jié)構(gòu)。
雖然遠(yuǎn)未詳盡無(wú)遺,但在本節(jié)中,我們將介紹一些用于解開這種共享遺傳結(jié)構(gòu)的主要技術(shù)。
預(yù)測(cè)其它表型
PGS通常具有共同的遺傳結(jié)構(gòu),許多疾病和性狀具有共同的病因。例如,精神分裂癥和雙相情感障礙是相互交織的疾病。
在研究它們或設(shè)計(jì)潛在的治療方法時(shí),了解它們的共同發(fā)生是至關(guān)重要的。例如,精神分裂癥的PGSs被用來(lái)預(yù)測(cè)雙相情感障礙[42]。這項(xiàng)研究表明,這兩種表型之間在某種程度上存在共同的遺傳病因?qū)W,表明相同的基因與這兩種結(jié)果相關(guān)。相反,精神分裂癥的得分不能預(yù)測(cè)非精神健康狀況,如冠心病、克羅恩病、高血壓或1型或2型糖尿病。
生殖特征也被證明是高度相關(guān)的。2016年發(fā)布的一份大規(guī)模GWAS研究了兩個(gè)生殖行為特征,即初生年齡(AFB)和出生兒童數(shù)量(NEB)44]。PGSs被用來(lái)研究它們與各種生育和非生育性狀的關(guān)聯(lián)。其中包括初潮年齡、更年期年齡、失聲年齡(男孩)和首次性交年齡。雖然PGS對(duì)出生兒童數(shù)量的預(yù)測(cè)能力相對(duì)較低,但當(dāng)進(jìn)入回歸模型預(yù)測(cè)無(wú)子女情況時(shí),結(jié)果卻令人震驚。NEB的PGS可以預(yù)測(cè)生育期結(jié)束時(shí)保持無(wú)子女的概率,PGS的標(biāo)準(zhǔn)偏差增加一個(gè),女性保持無(wú)子女的概率減少約9個(gè)【44】。
45].初生時(shí)(較晚)年齡的PGS同樣與自然絕經(jīng)時(shí)的早衰和晚年【44】。生物學(xué)功能研究還表明,生殖特征(和不孕特征,如子宮內(nèi)膜異位癥)之間存在共同的病因。
表型相關(guān)和遺傳相關(guān)
任何表型也具有高度的遺傳相關(guān)性。在這里,區(qū)分表型和基因型相關(guān)性很重要。盡管可能發(fā)生,但表型相關(guān)性并不自動(dòng)意味著遺傳相關(guān)性。即使表型部分可遺傳。遺傳相關(guān)性也并不意味著生物學(xué)上的因果關(guān)系。在本節(jié)中,我們重點(diǎn)討論表型之間的遺傳相關(guān)性或重疊。遺傳相關(guān)是對(duì)一對(duì)性狀間加性遺傳效應(yīng)比例的估計(jì)。例如,考慮兩個(gè)遺傳性狀,如精神分裂癥和雙相情感障礙,它們通常具有很高的表型相關(guān)性。!對(duì)于遺傳相關(guān)性,我們感興趣的是檢查是否也存在遺傳相關(guān)性,或者換句話說(shuō),這兩個(gè)性狀是否共享相同的基因。
用于檢查遺傳重疊的最常用方法是LD評(píng)分回歸,由Bulik Sullivan等人于2015年開發(fā)【46】。在第12章中,我們演示了如何使用LDSC軟件包(https://github.com/bulik/LDSC)從GWAS匯總統(tǒng)計(jì)數(shù)據(jù)中估計(jì)遺傳相關(guān)性(見(jiàn)附錄1)。LDSC利用數(shù)據(jù)的LD結(jié)構(gòu)來(lái)估計(jì)遺傳相關(guān)程度。該方法最初要求GWAS對(duì)來(lái)自GWASs的所有SNP進(jìn)行匯總統(tǒng)計(jì),并提供一個(gè)參考樣本,從中可以估計(jì)LD,以便估計(jì)LD得分回歸。該方法基于以下關(guān)系正式編寫:
這里是性狀k的GWA中SNPj的Z得分(k=1…,20),N是性狀k的GWA樣本量,l是SNPi的LD得分,M是GWA中包含的SNP數(shù)量,p性狀1和2之間的遺傳協(xié)方差,回歸截距用截距表示?;貧w2,2的斜率√N(yùn)N,l,可以用來(lái)估計(jì)這兩個(gè)性狀之間的遺傳協(xié)方差。也可以估計(jì)這兩個(gè)性狀h2的遺傳力h2,來(lái)自性狀l和2的單變量LD得分回歸。因此,遺傳相關(guān)性的估計(jì)值為:
在第12章中,我們演示了如何估計(jì)這些LD分?jǐn)?shù)以及對(duì)結(jié)果的解釋。在這一章中,我們還展示了如何通過(guò)LDHub網(wǎng)站獲得遺傳相關(guān)性(http://ldsc./ldhub/)[47]. 這是一個(gè)在線數(shù)據(jù)庫(kù),可以記錄用作LD評(píng)分回歸的web界面。該網(wǎng)站不斷更新,但包括數(shù)百個(gè)性狀的SNP遺傳力和遺傳相關(guān)結(jié)果。你還可以下載數(shù)百個(gè)性狀之間的遺傳重疊。
圖5.2提供了跨多個(gè)性狀的遺傳相關(guān)性示例。在這里,我們展示了我們2016年的研究,其中我們使用LD評(píng)分回歸來(lái)檢驗(yàn)生殖行為表型(初生年齡[AFB]、出生兒童數(shù)量[NEB])與27個(gè)相關(guān)表型相關(guān)性之間的相關(guān)性。這包括發(fā)育或與生育有關(guān)的特征(如初潮年齡、更年期、失聲、多囊卵巢綜合征(PCOS)、首次性交年齡、出生體重)、行為(受教育年限、三種吸煙特征)、個(gè)性和神經(jīng)精神(如神經(jīng)質(zhì)、精神分裂癥、幸福感、孤獨(dú)癥),心臟代謝(如LDL膽固醇甘油三酯、2型糖尿病)和人體測(cè)量(BM、身高、腰臀比)。如圖5.2所示,AFB主要與人類發(fā)育和行為特征呈正相關(guān),而與PCOS、心臟代謝和人體測(cè)量特征呈負(fù)相關(guān)。一旦控制了多項(xiàng)測(cè)試,NEB僅與教育年限和首次性交年齡顯著負(fù)相關(guān)。兩個(gè)最顯著的相關(guān)性是AFB、首次性交年齡和教育年限。事實(shí)上,受教育年限與AFB的相關(guān)性為0.70,我們?cè)谀抢锖拖嚓P(guān)論文中對(duì)此進(jìn)行了探討。雖然LD分?jǐn)?shù)回歸是一種識(shí)別性狀之間可能關(guān)系的有力工具,但它不允許我們建立因果方向或關(guān)系,也不允許我們調(diào)整潛在的中介因素。
許多性狀之間的關(guān)系非常復(fù)雜,具有潛在的雙向機(jī)制。我們將在第13章“孟德?tīng)栯S機(jī)化”和第15章(深入探討未來(lái)的研究方向)中探討其中的一些關(guān)系。
Pleiotropy
順向性是指單個(gè)基因影響多個(gè)性狀的現(xiàn)象。它源于希臘術(shù)語(yǔ)pleion,它指的是more和tropos,意思是“方式”。因此,多效性基因是指那些對(duì)表型表現(xiàn)出多重影響的基因。例如,如果一個(gè)多效性基因發(fā)生突變,它可能同時(shí)影響多個(gè)表型。這歸因于基因編碼被許多細(xì)胞或具有相同信號(hào)功能的不同靶點(diǎn)所使用。100多年前,德國(guó)遺傳學(xué)家路德維希·普萊特(LudwigPlate)于1910年提出了多效性的主題【48】。它影響了進(jìn)化生物學(xué)以及生理和醫(yī)學(xué)遺傳學(xué)的許多領(lǐng)域。自1910年以來(lái)。這個(gè)術(shù)語(yǔ)的含義已經(jīng)演變,特別是隨著我們?cè)诒緯醒芯康姆肿舆z傳數(shù)據(jù)的引入。衰老是指?jìng)€(gè)體隨著年齡的增長(zhǎng)而發(fā)生的生理變化。
Paaby和Rockman概述了幾種不同類型的多效性,指出討論中經(jīng)常遇到關(guān)于多效性的各種含義以及如何研究這些機(jī)制的概念困難[49]。在這本入門教材中,我們能夠簡(jiǎn)單介紹不同類型的多效性,其中許多是在分子生物學(xué)水平上研究的。分子基因多效性研究一個(gè)分子基因所具有的功能數(shù)量,例如當(dāng)一個(gè)基因與多種蛋白質(zhì)相互作用并催化多種反應(yīng)時(shí)。例如,這是對(duì)基因中蛋白質(zhì)-蛋白質(zhì)相互作用物及其催化反應(yīng)數(shù)量的生化研究。發(fā)育多效性是指突變(而非分子基因)是研究的單位,在這里,研究人員經(jīng)常檢查表型不同方面的遺傳和進(jìn)化自主性,與適應(yīng)度無(wú)關(guān)。這里的關(guān)鍵問(wèn)題通常包括對(duì)分子多效性的檢查以及順式調(diào)節(jié)2與蛋白質(zhì)編碼變體的相對(duì)重要性,遠(yuǎn)遠(yuǎn)超出了本教科書的范圍。選擇多效性是研究表型何時(shí)對(duì)適合度有多重影響。這種多效性的一個(gè)關(guān)鍵特征是,性狀被認(rèn)為是由選擇決定的,而不是個(gè)體的內(nèi)在屬性。這些例子可以追溯到一些基本的進(jìn)化文本,這些文本提出了一個(gè)對(duì)抗性多效性模型,該模型考察了構(gòu)成性對(duì)抗性多效性和多效性權(quán)衡基礎(chǔ)的衰老或突變的進(jìn)化,這是適應(yīng)的基礎(chǔ)【50】。一些人認(rèn)為拮抗性多效性在遺傳疾病中很常見(jiàn)【51】。鐮狀細(xì)胞病是一種常見(jiàn)的拮抗性多效性,當(dāng)基因的多重效應(yīng)對(duì)適應(yīng)性產(chǎn)生相反影響時(shí)。
圖5.3提供了一個(gè)非常簡(jiǎn)單的基因型-表型圖,說(shuō)明了加性多效性效應(yīng)。在這張圖中,基因G1、G2和G3代表了不同的基因,這些基因?qū)θN不同的表型P1起作用。P2和P3。例如,Gl影響P1和P2,G2影響P2和P3,G3影響P2和P3。注意,多效性通常是指遺傳相關(guān)性的同義詞。然而,為了更精確,區(qū)分直接多效性和間接多效性是有用的。前面所有的例子都提到了直接多效性,即一個(gè)基因?qū)Χ喾N表型有直接因果影響。這與前面討論的共同原因模型是平行的。間接多效性是指對(duì)P1產(chǎn)生因果影響的基因,而P1反過(guò)來(lái)又對(duì)P2產(chǎn)生因果影響。這是指第2章中討論的中介模型,其中P1是基因和P2之間的中介。在這兩種情況下,我們將觀察到兩種表型之間的遺傳相關(guān)性;然而,導(dǎo)致這一觀察的機(jī)制確實(shí)不同,在后一種模型中,盡管我們觀察到一種關(guān)聯(lián),但基因和P2之間可能沒(méi)有生物學(xué)聯(lián)系。
最近有兩項(xiàng)研究使用PGSs研究冰島和美國(guó)的教育程度與出生兒童數(shù)量之間的多效性【52,53】。這兩項(xiàng)研究都發(fā)現(xiàn),教育程度PGS顯著預(yù)測(cè)了兒童數(shù)量,基于回歸模型的遺傳協(xié)方差可用于量化預(yù)期的進(jìn)化變化。毫不奇怪,進(jìn)化變化的直接證據(jù)雖然很重要,但卻非常少。例如,在美國(guó),由于自然選擇的結(jié)果,每代人減少一周的教育。即使結(jié)果被重新縮放考慮到缺失的遺傳力,遺傳選擇預(yù)測(cè)教育的變化不超過(guò)1.5個(gè)月左右。正如我們?cè)谄渌胤教岬降腫12],考慮基因與環(huán)境的相互作用,如教育擴(kuò)張的收益,并考慮到變化是緩慢的,需要穩(wěn)定并持續(xù)幾代人,這一點(diǎn)至關(guān)重要。上述研究也未考慮死亡率選擇。
現(xiàn)在人們一致認(rèn)為多效性是不明確的。Pickrell及其同事[55]研究了42種表型以證明多效性,并表明幾個(gè)基因座與大量性狀相關(guān)。然后,他們利用這些基因座來(lái)識(shí)別具有多重遺傳原因的表型,并開發(fā)出一種方法來(lái)識(shí)別具有因果關(guān)系的成對(duì)性狀。這里他們展示了BMI是如何導(dǎo)致甘油三酯水平升高的。其他研究人員檢查了整個(gè)GWAS目錄,以確定多效性的患病率,目錄中報(bào)告的44個(gè)基因與一個(gè)以上的表型相關(guān)[56]。這些作者表明,多效性的程度與基因的平均效應(yīng)大小呈正相關(guān),與具有給定數(shù)量的相關(guān)表型的基因的效應(yīng)大小方差呈負(fù)相關(guān)。正如第1章簡(jiǎn)要介紹的那樣,多效性普遍存在的知識(shí)導(dǎo)致其他人,如Boyle等人【57】認(rèn)為基因調(diào)控網(wǎng)絡(luò)是如此相互關(guān)聯(lián),所有基因都以基因模型的形式影響核心疾病相關(guān)基因的功能。Gratten和Visscher【58】認(rèn)為這種“普遍的多效性”具有真正的個(gè)性化醫(yī)學(xué)和基因組編輯的含義,我們將在第14章和第15章中返回。
多性狀分析
WAS通常優(yōu)先考慮易于在不同隊(duì)列中一致測(cè)量的表型。在許多情況下,可能很難協(xié)調(diào)或測(cè)量感興趣的表型。因此,Rietveld及其同事引入了代理表型法[59]。代理表型法通過(guò)兩個(gè)階段的方法識(shí)別常見(jiàn)遺傳變異,首先對(duì)表型進(jìn)行GWA,然后使用獨(dú)立樣本測(cè)量原始GWA中發(fā)現(xiàn)的SNP與相關(guān)表型的關(guān)聯(lián)。上述作者將教育程度與第二階段的認(rèn)知能力、記憶力和無(wú)癡呆癥聯(lián)系起來(lái)。
Turley及其同事于2018年【60】對(duì)GWAS(MTAG)進(jìn)行了多重RAIT分析,這是一種允許對(duì)不同性狀的GWAS匯總統(tǒng)計(jì)數(shù)據(jù)進(jìn)行聯(lián)合分析的方法。在這里,作者展示了如何將MTAG應(yīng)用于GWAS的抑郁癥狀、神經(jīng)質(zhì)和主觀幸福感結(jié)果,產(chǎn)生了更多在原始個(gè)人GWAS中未分離的相關(guān)位點(diǎn),并將PGSs解釋的方差增加到與理論預(yù)期相符的水平。與32.9相比。上述性狀在單性狀GWAS中鑒定出13個(gè)全基因組重要位點(diǎn)。MTAG使相關(guān)位點(diǎn)的數(shù)量分別增加到64、37和49個(gè)。這一增長(zhǎng)與樣本量較小的神經(jīng)質(zhì)GWAS尤其相關(guān)。在第12章中,我們提供了MTAG的一個(gè)示例應(yīng)用程序。
多基因評(píng)分和因果模型
在本書第2章的早期,我們概述了在我們的介紹性統(tǒng)計(jì)章節(jié)中可能出現(xiàn)的各種類型的多元因果模型。在回歸模型中,PGS可以被視為標(biāo)準(zhǔn)的連續(xù)變量,并且對(duì)于許多表型,目前已經(jīng)在相對(duì)較小的樣本(N<1000)中進(jìn)行了很好的預(yù)測(cè)分析(見(jiàn)方框5.2)。在本節(jié)中,我們將概述本書后面將探討的一些中心應(yīng)用程序。這些包括檢查基因混雜、基因-環(huán)境相互作用和孟德?tīng)栯S機(jī)分組。
基因混雜
遺傳混雜是指一個(gè)或多個(gè)外來(lái)變量至少部分解釋了PGS與表型之間的關(guān)聯(lián)(或缺乏關(guān)聯(lián))的情況。2000年。埃里克·特克海默是行為遺傳學(xué)的創(chuàng)始人之一,他概述了行為的三條定律,遺傳學(xué)[61]。雖然“一切都是可遺傳的”一課很重要,但承認(rèn)“一切都是環(huán)境的”同樣重要如果我們研究各種疾病、行為和特征,它們?cè)诤艽蟪潭壬贤c非遺傳因素有關(guān)。研究人員一致表明,社會(huì)經(jīng)濟(jì)環(huán)境是健康、認(rèn)知能力和其他多種表型中最可靠和重復(fù)的預(yù)測(cè)因子【62-64】。
孟德?tīng)栯S機(jī)化
我們?cè)诘?章中詳細(xì)闡述了,有多種策略來(lái)估計(jì)因果效應(yīng)。
最理想的情況是進(jìn)行隨機(jī)對(duì)照試驗(yàn)。然而,就我們研究的許多結(jié)果而言,這根本不可行,也不道德。一種旨在近似這一點(diǎn)的替代設(shè)計(jì)是工具變量法,在這一研究領(lǐng)域被稱為孟德?tīng)栯S機(jī)法。因?yàn)槲覀冇幸徽聦iT討論這個(gè)主題(第13章),所以我們?cè)谶@里只簡(jiǎn)單地討論一下。孟德?tīng)栯S機(jī)化(MR)是一種利用遺傳信息檢驗(yàn)變量之間是否存在因果關(guān)系的技術(shù)。例如,高膽固醇會(huì)導(dǎo)致高血壓?jiǎn)幔空缥覀冊(cè)诘?3章中所注意到的,MR已經(jīng)證明使用PGSs非常有效。該技術(shù)依賴于一些需要牢記的重要假設(shè)。在MR中,通過(guò)誘導(dǎo)對(duì)感興趣的性狀具有強(qiáng)烈生物學(xué)效應(yīng)的基因,將因PGSs中的直接多效性而產(chǎn)生的“噪音”風(fēng)險(xiǎn)降至最低是至關(guān)重要的。因此,如果MR中使用PGS,建議不要使用高p值閾值。
這可能違反方法所需的假設(shè)。有關(guān)此問(wèn)題的詳細(xì)討論,請(qǐng)參閱Hemani等人[65]的討論和第13章。
混雜因素控制
為了描述這一點(diǎn),我們使用了文獻(xiàn)中的兩個(gè)例子:精神分裂癥與父母第一次出生時(shí)的年齡之間的關(guān)系[66],與平均生育年齡相比,孩子很?。瓷倥畱言校┖秃芾隙加胁煌纳鐣?huì)經(jīng)濟(jì)和心理健康結(jié)果。第一次出生時(shí)年齡的低尾和高尾的個(gè)體分布顯示。例如,兒童被診斷為精神分裂癥的可能性更高。這有著相當(dāng)大的影響,因?yàn)樵谠S多國(guó)家,第一胎年齡已經(jīng)推遲了大約4-6年[67]。問(wèn)題是,下一代是否會(huì)有更高的精神分裂癥患病率,或者,考慮到U型關(guān)聯(lián),父母的生育年齡與精神分裂癥之間的這種關(guān)系是否是因果關(guān)系。如果基因混淆了這種關(guān)系,這種關(guān)聯(lián)可能是特定于某些人群的。因此,父母出生時(shí)年齡分布在不同時(shí)間或人群之間的變化可能不會(huì)影響該疾病的流行。當(dāng)然,對(duì)于父母的童年年齡與子女的健康和幸福之間的聯(lián)系,還有許多其他的解釋。這包括資源和社會(huì)經(jīng)濟(jì)地位、關(guān)系穩(wěn)定性和教育方面的差異,這些差異在年長(zhǎng)父母中表現(xiàn)得更高,從而影響孩子以后的結(jié)果【68】。
一種假說(shuō)認(rèn)為,基因混淆了父母初生年齡與兒童精神分裂癥發(fā)展之間的關(guān)系。多基因性是這一假說(shuō)的關(guān)鍵。從遺傳學(xué)角度來(lái)看,父母可能具有發(fā)展為精神分裂癥的遺傳傾向。例如,精神分裂癥的傾向可能導(dǎo)致與少女懷孕相關(guān)的突然和危險(xiǎn)的性行為,或?qū)е抡野閭H的問(wèn)題,從而推遲或阻止分娩。由于父母將基因傳給子女,父母年齡較大或較年輕的子女可能比其他人更容易患精神分裂癥,因此也更容易被診斷。根據(jù)這一假設(shè),我們預(yù)計(jì)第一胎年齡與精神分裂癥之間的親子關(guān)系不是因果關(guān)系,而是由基因造成的。但我們?nèi)绾螜z驗(yàn)這個(gè)假設(shè)呢?PGS的應(yīng)用使這一點(diǎn)相對(duì)簡(jiǎn)單,幾項(xiàng)研究分析了精神分裂癥患者PGS在初生嬰兒各年齡段的分布情況【66,69】。
這些研究表明,父母患精神分裂癥的風(fēng)險(xiǎn)分布與子女患精神分裂癥的風(fēng)險(xiǎn)分布形狀相同。青少年父母和35歲以上父母的精神分裂癥PGS均升高。這表明,基因遺傳至少在一定程度上混淆了父母生育時(shí)機(jī)與兒童心理健康之間的關(guān)系。因此,在研究這種關(guān)聯(lián)時(shí)不考慮遺傳的模型可能有偏差估計(jì)。更準(zhǔn)確地說(shuō),他們可能高估了父母生育年齡對(duì)子女心理健康狀況的因果影響。關(guān)于推遲生育對(duì)人口健康的影響的說(shuō)法也可能具有誤導(dǎo)性。
基因與環(huán)境互作以及異質(zhì)性
基因與環(huán)境相互作用是這一研究領(lǐng)域的核心和新興課題。
由于第6章介紹了詳細(xì)的理論、基因-環(huán)境相互作用的討論、許多實(shí)例和方法學(xué)問(wèn)題,因此我們?cè)诖藘H簡(jiǎn)要總結(jié)與PGSs相關(guān)的要點(diǎn)。在第二章中,我們還提供了幾個(gè)應(yīng)用示例,讓您了解如何從技術(shù)上處理關(guān)鍵問(wèn)題。
首先,在PGS應(yīng)用的背景下,重申與基因環(huán)境研究相關(guān)的“交互”的含義是有用的。在這里,我們區(qū)分基因?qū)Ρ硇偷闹苯佑绊懞团c環(huán)境的交互作用。第一個(gè)例子表明,保持環(huán)境條件不變,基因在個(gè)體之間變化時(shí)會(huì)導(dǎo)致表型差異。第二種情況描述了基于不同基因型對(duì)環(huán)境暴露的不同反應(yīng)。相互作用意味著在不同的環(huán)境中,基因?qū)Ρ硇偷挠绊憰?huì)有所不同。
第6章對(duì)這些方面進(jìn)行了說(shuō)明。
例如,Domingue及其同事利用健康和退休研究闡明了美國(guó)對(duì)失去配偶的不同反應(yīng)【70】。與生活中的其他壓力事件一樣,失去配偶可能會(huì)導(dǎo)致抑郁癥。然而,抑郁癥狀的發(fā)生程度和持續(xù)時(shí)間在個(gè)體之間有所不同。正如我們?cè)诘?章所闡述的,他們測(cè)試了一種稱為素質(zhì)壓力模型的理論,即主觀幸福感的遺傳傾向可能會(huì)緩沖失去配偶的不利影響,他們表明。雖然失去配偶后抑郁癥狀普遍增加,但與幸福感遺傳分?jǐn)?shù)較低的人相比,幸福感PGSs較高的美國(guó)成年人確實(shí)經(jīng)歷了較少的抑郁癥狀。在另一項(xiàng)研究中,Domingue及其同事【72】表明,PGS對(duì)吸煙的影響在出生隊(duì)列中增加。
在基因-環(huán)境相互作用研究中使用PGSs的建議可能很復(fù)雜,也可能有細(xì)微差別。在第6章的表6.2中,我們列出了多重挑戰(zhàn),為什么它們存在問(wèn)題,以及潛在的解決方案,我們?cè)诖瞬辉僦貜?fù)。在這類研究中,我們感興趣的是模擬在不同環(huán)境中具有差異效應(yīng)的遺傳效應(yīng)。然而,指定不同環(huán)境的能力仍然具有挑戰(zhàn)性。理論上,考慮到可能的環(huán)境相互作用,運(yùn)行GWAS是理想的。實(shí)際上,這些研究的動(dòng)力不足。即使在英國(guó)生物銀行(UK Biobank)等擁有50萬(wàn)個(gè)體的大型樣本中,也很難區(qū)分某些關(guān)鍵環(huán)境因素,因?yàn)闃颖臼怯羞x擇性的,由更健康、社會(huì)經(jīng)濟(jì)地位更高的個(gè)體組成[73]。
在沒(méi)有能力做到這一點(diǎn)的情況下,我們還可以分離出哪些SNP應(yīng)該包括在分析中。第10章詳細(xì)討論了單核苷酸多態(tài)性的選擇,其中123多基因評(píng)分和遺傳結(jié)構(gòu)我們演示了如何創(chuàng)建和驗(yàn)證PGS。Rosenquist及其同事【74】利用FTO基因中的一個(gè)單一變體表明出生隊(duì)列與肥胖的遺傳易感性相互作用。因?yàn)镕TO有一種異常高效的變體,所以可以在該論文中使用一種變體。在許多工業(yè)化國(guó)家,食物供應(yīng)不受限制,加上久坐不動(dòng)的生活方式越來(lái)越多,這意味著在最近出生的人群中,肥胖等位基因的潛在“風(fēng)險(xiǎn)”更大。相反,Barcellos等人[75]的一項(xiàng)研究表明,提高教育水平有助于減少健康不平等。使用包含2018年GWAS教育成就所有等位基因的PGS。他們測(cè)試了PGS是否會(huì)緩和教育對(duì)健康的影響。他們利用1972年英格蘭和威爾士義務(wù)教育一年增長(zhǎng)的自然實(shí)驗(yàn),發(fā)現(xiàn)教育縮小了肥胖基因風(fēng)險(xiǎn)最高和最低三分之一人群在不健康體型方面的健康差距。
結(jié)論
大多數(shù)應(yīng)用研究人員將執(zhí)行的大部分工作可能是將PGSs應(yīng)用于多種表型和各種環(huán)境。在這一廣闊而充滿活力的研究領(lǐng)域中,很難知道從何處著手。本章的目標(biāo)不僅是定義PGS并提供它們?nèi)绾纬霈F(xiàn)的背景,而且讓研究人員了解他們需要采取的一些更實(shí)際的步驟。因此,在圖5.1和附帶的討論中,我們提供了一個(gè)流程圖,從數(shù)據(jù)到驗(yàn)證和處理,生成PGS并將其用于預(yù)測(cè),以及思考共享遺傳架構(gòu)和建模應(yīng)用的方法。我們的目標(biāo)是,除了提供潛在的解決方案和進(jìn)一步的閱讀之外,還將fag特殊的挑戰(zhàn)和問(wèn)題領(lǐng)域,我們?cè)诒?.1中進(jìn)行了總結(jié)。
PGSs是一種有用的工具,可將遺傳信息匯總到一個(gè)變量中,以應(yīng)用于進(jìn)一步的統(tǒng)計(jì)分析。我們?cè)噲D對(duì)它們的使用以及潛在的限制提出一個(gè)平衡的觀點(diǎn)。也許最成問(wèn)題的是,由于基于GWASs和迄今為止研究的人口歷史上缺乏多樣性,它們?cè)跉v史上不太適用于各種人口和群體。希望在未來(lái)幾年內(nèi),這種情況會(huì)有所改變。我們還注意到,鑒于缺失、仍然缺失和隱藏的遺傳力問(wèn)題,PGS仍然是性狀真實(shí)遺傳力的代表。隨著GWASs樣本量的增加,以及超越常見(jiàn)變體的趨勢(shì),該領(lǐng)域?qū)⒗^續(xù)擴(kuò)大。除了缺乏多樣性之外,當(dāng)前GWAS設(shè)計(jì)中的另一個(gè)重要缺陷是,在GWAS中發(fā)現(xiàn)的單核苷酸多態(tài)性信號(hào)可能被夸大了,因?yàn)檎鏚ong及其同事[76]最近所顯示的那樣,他們還標(biāo)記了父母養(yǎng)育的影響。
盡管一些研究人員仍將重點(diǎn)放在R2上,但對(duì)于某些研究問(wèn)題來(lái)說(shuō),最大化預(yù)測(cè)并不總是最終和有用的目標(biāo)。了解主要遺傳標(biāo)記的基本生物學(xué)和功能可能使我們比統(tǒng)計(jì)解決方案和預(yù)測(cè)。由于多效性普遍存在,PGS通常也有一個(gè)共同的遺傳結(jié)構(gòu)。在這方面,探索相關(guān)表型、預(yù)測(cè)相關(guān)表型或進(jìn)行多序列分析可能是富有成效的途徑。我們還預(yù)計(jì),在未來(lái)一段時(shí)間內(nèi)將取得相當(dāng)大的進(jìn)展,包括更好地測(cè)量表型,或從多種手段(如病歷)中獲得所謂的“深層表型”,以及優(yōu)化預(yù)測(cè)的機(jī)器學(xué)習(xí)算法。盡管PGS取得了巨大進(jìn)展,但目前尚不清楚是否有可能創(chuàng)建一種全基因組PGS,以充分識(shí)別臨床風(fēng)險(xiǎn)顯著增加的個(gè)體。PGS越來(lái)越多地與篩查、干預(yù)和生命規(guī)劃的臨床措施結(jié)合使用,但仍存在相當(dāng)大的爭(zhēng)議。在最后的倫理學(xué)討論(第14章)和未來(lái)方向(第15章)中,我們將討論P(yáng)GSs在臨床應(yīng)用中的使用。
練習(xí):
大家好,我是鄧飛,一個(gè)持續(xù)分享的數(shù)據(jù)分析師,這里我將自己公眾號(hào)的干貨內(nèi)容挑重點(diǎn)羅列一下,方便大家閱讀和使用。