【原】統(tǒng)計(jì)遺傳學(xué)：第五章，多基因得分（PGS）分析

育種數(shù)據(jù)分析 2022-07-11 發(fā)布于河南

展開全文

大家好，我是鄧飛，今天繼續(xù)介紹《統(tǒng)計(jì)遺傳學(xué)》這本書，本次介紹第五章：多基因得分（PGS），主要是綜述介紹，具體的實(shí)操介紹要到八九十章節(jié)。

人類中會(huì)有多基因得分（PGS），這個(gè)相當(dāng)于動(dòng)植物中的分子標(biāo)記輔助（MAS）或者是基因組選擇（GS）。雖然概念有所區(qū)分，但是理論都是相通的。

這本書的電子版，之前是不能選擇復(fù)制的，后來(lái)有位老師將其轉(zhuǎn)化為文字版的，就可以復(fù)制了，這樣結(jié)合pdf閱讀器的翻譯，點(diǎn)擊此處領(lǐng)?。?a target="_blank" >使用知云閱讀器翻譯《統(tǒng)計(jì)遺傳學(xué)》書籍

引文部分是原書的谷歌翻譯，正文部分是我的理解。

第一部分基礎(chǔ)，分為六個(gè)章節(jié)，分別是：

第一章：基因組基礎(chǔ)概念（這部分介紹過(guò)了，點(diǎn)擊進(jìn)入）
第二章：統(tǒng)計(jì)分析概念（這部分介紹過(guò)了，點(diǎn)擊進(jìn)入）
第三章：群體遺傳（這部分介紹過(guò)了，點(diǎn)擊進(jìn)入）
第四章：GWAS分析（這部分介紹過(guò)了，點(diǎn)擊進(jìn)入）
第五章：多基因效應(yīng)
第六章：基因與環(huán)境互作

主要內(nèi)容

本章節(jié)包括：

定義和理解多基因評(píng)分的起源
理解使用多基因評(píng)分的過(guò)程和流程圖
理解構(gòu)建多基因評(píng)分的主要原則
了解多基因評(píng)分驗(yàn)證和預(yù)測(cè)的基礎(chǔ)
掌握圍繞表型共享遺傳結(jié)構(gòu)的概念以及檢驗(yàn)這一點(diǎn)的潛在方法（相關(guān)性、多效性、多序列分析）
引入到多基因評(píng)分因果建模的應(yīng)用中（遺傳混雜、孟德?tīng)栯S機(jī)、基因-環(huán)境相互作用）
認(rèn)識(shí)到中心挑戰(zhàn)、問(wèn)題原因以及使用多基因評(píng)分的潛在解決方案

GWAS介紹

大多數(shù)表型和健康狀況的遺傳結(jié)構(gòu)本質(zhì)上是多基因的。多基因指的是這樣一個(gè)事實(shí)，即它不是單個(gè)或少數(shù)變體，而是數(shù)百或數(shù)千個(gè)變體，每個(gè)變體對(duì)表型的影響都很小。
雖然有些單基因疾病如亨廷頓病具有單基因效應(yīng)，但我們研究的大多數(shù)性狀都是多基因的。隨著全基因組關(guān)聯(lián)研究（GWASs）和更大樣本的增長(zhǎng)，PGSs越來(lái)越成為定量遺傳研究領(lǐng)域的主要工具。
本章的目的首先是讓您了解多基因得分、它們是如何出現(xiàn)的，以及有效應(yīng)用它們的核心挑戰(zhàn)和潛在解決方案。第二個(gè)目標(biāo)是為您提供如何在該領(lǐng)域開展自己研究的藍(lán)圖。我們?cè)趫D5.1中的流程圖概述了步驟，以及為第一次進(jìn)入該字段的人員使用PGSs的可能性
包括PGS的數(shù)據(jù)、驗(yàn)證和處理、生成和預(yù)測(cè)的初始階段。一些讀者可能還想更深入地研究表型的共同遺傳結(jié)構(gòu)。然后是本章討論的各種建模應(yīng)用程序，然后應(yīng)用于本書的第二部分和第二部分。在表5.1中，我們進(jìn)一步總結(jié)了與PGSs合作的主要挑戰(zhàn)，解釋了這些挑戰(zhàn)存在問(wèn)題的原因，并提供了潛在的解決方案和關(guān)于該主題的進(jìn)一步閱讀。本章提供了必要的背景知識(shí)，您需要在第10章中創(chuàng)建和驗(yàn)證PGS，然后在第11-13章的各種情況下將其正確應(yīng)用于統(tǒng)計(jì)模型。

第一層：搜集數(shù)據(jù)、整理數(shù)據(jù)

包括搜集GWAS的summary 結(jié)果
表型數(shù)據(jù)和基因型數(shù)據(jù)檢測(cè)

第二層：驗(yàn)證和處理

群體結(jié)構(gòu)，親緣關(guān)系
查看共有變異（提升稀有變異）
消失和隱藏的遺傳力
生物路徑相關(guān)性分析

第三層：計(jì)算多基因評(píng)分和預(yù)測(cè)

選擇顯著性位點(diǎn)和權(quán)重
根據(jù)P值選擇
對(duì)PGS如何影響性狀進(jìn)行可視化

第四層：檢查表型的共享遺傳結(jié)構(gòu)

預(yù)測(cè)表型
表型相關(guān)：通過(guò)LD Score回歸計(jì)算
pleiotropy
多性狀分析：MTAG

第五層：模型應(yīng)用

預(yù)測(cè)個(gè)體風(fēng)險(xiǎn)
孟德?tīng)栯S機(jī)化分析
genetic confounding
基因與環(huán)境互作

多基因評(píng)分

Polygenic score

什么是PGS？

什么是多基因評(píng)分？多基因評(píng)分（PGS）是多個(gè)遺傳位點(diǎn)與表型之間關(guān)系的數(shù)值總結(jié)。PGS有時(shí)被稱為多基因譜評(píng)分、遺傳譜評(píng)分、基因型評(píng)分，或者在討論疾病時(shí)，被稱為多基因風(fēng)險(xiǎn)評(píng)分。我們采用更中性的polvgenic評(píng)分，因?yàn)楫?dāng)我們討論非疾病相關(guān)的行為表型時(shí)，用“風(fēng)險(xiǎn)”來(lái)表述就不那么直觀了。Polvgenic得分直接來(lái)自我們?cè)诘?章中概述的GWASs中的全基因組關(guān)聯(lián)。我們使用這些數(shù)據(jù)的匯總統(tǒng)計(jì)數(shù)據(jù)來(lái)估計(jì)單核苷酸多態(tài)性（SNP）如何結(jié)合來(lái)解釋感興趣的特征。
實(shí)際上，PGS是整個(gè)基因組表型相關(guān)等位基因的線性組合，通常由GWAS效應(yīng)大小加權(quán)。因此，這是一個(gè)單一的定量指標(biāo)，可以解釋為個(gè)體相對(duì)于群體的表型遺傳傾向的指標(biāo)。對(duì)于我們感興趣的大多數(shù)性狀而言，單個(gè)SNP（如第1章所述，單基因）是弱預(yù)測(cè)因子。復(fù)雜的性狀與許多遺傳變異有關(guān)，每一個(gè)變異都只占變異的一小部分。PGSs是一種跨基因組聚合這些信息的解決方案。
一般來(lái)說(shuō)，我們可以將一個(gè)人的多基因得分定義為一個(gè)人在M基因座的基因型的加權(quán)和。個(gè)體i的PGS可以計(jì)算為每個(gè)SNPj=1的等位基因計(jì)數(shù)A（0、1或2）的總和。?..M、乘以重量w，

這里的權(quán)重w是GWAS系數(shù)的變換，這個(gè)方程表明它是多個(gè)SNP對(duì)表型影響的線性組合。PGS的基礎(chǔ)模型通常也是加性的，因?yàn)槲覀冇?jì)算得分中每個(gè)SNP的“風(fēng)險(xiǎn)等位基因”數(shù)量。然而，我們注意到，隱性或顯性模型可用于構(gòu)建PGS。由于其結(jié)構(gòu)中包含大量SNP，V也遵循正態(tài)分布（見(jiàn)方框5.1）。另一個(gè)假設(shè)是，由于假設(shè)SNP效應(yīng)是獨(dú)立的，因此不存在基因-基因相互作用（或上位性）。

PGS的來(lái)源

PGS符合正態(tài)分布。

多基因評(píng)分可以被認(rèn)為是許多獨(dú)立遺傳信號(hào)的總和。統(tǒng)計(jì)學(xué)中概率論的一個(gè)中心前提，即中心極限定理，確定了當(dāng)許多獨(dú)立的隨機(jī)變量相加時(shí)，它們的總和趨向于正態(tài)分布，而與單個(gè)變量的原始分布無(wú)關(guān)。這通常被非正式地稱為“鐘形曲線”正如我們下面的模擬所示，等位基因的數(shù)量越多，越接近正態(tài)分布。
因此，多基因評(píng)分往往具有正態(tài)分布，因?yàn)樵u(píng)分中包含的SNP數(shù)量足夠大[19]。

Risch、Merikangas及其同事在1996年的《科學(xué)》雜志上證明，對(duì)于復(fù)雜的表型，GWASs比當(dāng)時(shí)使用的全基因組連鎖研究具有更強(qiáng)大的能力【24】。第一份精神分裂癥GWAS于2008年出版【25】。隨后，2009年發(fā)表在《自然》雜志上的一項(xiàng)更大規(guī)模的研究（約13000例病例：35000例對(duì)照）[26]。
2009年，國(guó)際精神分裂癥協(xié)會(huì)“未能”確定預(yù)測(cè)這種高度遺傳性精神障礙的任何特定SNP，這是創(chuàng)建PGSs的關(guān)鍵轉(zhuǎn)變之一。研究團(tuán)隊(duì)決定深入挖掘并調(diào)查所有SNP的作用，以費(fèi)希爾1918年的無(wú)窮小模型的形式重新審視多基因遺傳的最經(jīng)典理論之一【27】。回想一下，無(wú)窮小模型假設(shè)定量（連續(xù)）表型由無(wú)限多個(gè)基因座控制，每個(gè)基因座的影響非常小。該研究小組并沒(méi)有尋找少數(shù)具有更大預(yù)測(cè)能力的基因，而是聲稱可能存在數(shù)千個(gè)verv小個(gè)體效應(yīng)，這些效應(yīng)共同解釋了遺傳力的很大一部分。然而，那些來(lái)自樣本量較小的GWAS的變異不會(huì)出現(xiàn)在GWAS中，因?yàn)樗鼈儧](méi)有達(dá)到全基因組意義，例如，考慮一個(gè)SNP，其中一個(gè)風(fēng)險(xiǎn)等位基因只會(huì)增加精神分裂癥的相對(duì)風(fēng)險(xiǎn)5？需要用極小的標(biāo)準(zhǔn)誤差來(lái)估計(jì)如此小的影響，才能低于5×10-8的顯著性閾值，這是GWAS中全基因組顯著性的標(biāo)準(zhǔn)標(biāo)準(zhǔn)（見(jiàn)第4章）。因此，即使在相對(duì)較大的樣本中，它也很可能未被檢測(cè)到。因此，研究小組首先只計(jì)算出包含高度顯著SNP的得分，然后通過(guò)不斷將p值閾值放寬到0.5來(lái)重新計(jì)算得分，基本上包括所有SNP中的50個(gè)。他們使用這組分?jǐn)?shù)并生成了一個(gè)不屬于原始GWAS的樣本來(lái)預(yù)測(cè)精神分裂癥。他們發(fā)現(xiàn)，隨著p值閾值的放寬，方差的解釋增加了。
這意味著即使被認(rèn)為是“無(wú)意義”的遺傳變異也可以解釋表型的變化，盡管它們的個(gè)體效應(yīng)和機(jī)制尚不明確。
雖然這項(xiàng)最初的研究已經(jīng)表明精神分裂癥是高度多基因的，但后來(lái)的研究更精確地量化了期望值，發(fā)現(xiàn)約8300個(gè)獨(dú)立的SNP對(duì)該表型有貢獻(xiàn)【28】。從那時(shí)起，不同群體的多個(gè)GWASs已經(jīng)發(fā)表，更大的研究導(dǎo)致更精確的PGS估計(jì)。

構(gòu)建PGS

在第10章中，我們展示了如何構(gòu)建PGS的實(shí)用性，然后介紹了如何在性狀預(yù)測(cè)的多個(gè)應(yīng)用程序中驗(yàn)證和應(yīng)用它們。作為混雜因素，并在第11章中檢查基因與環(huán)境的相互作用。我們?cè)诘?章中詳細(xì)討論了發(fā)現(xiàn)。在本節(jié)中，我們將重點(diǎn)介紹構(gòu)建PGS的陷阱和危險(xiǎn)，但請(qǐng)注意，一些解決方案涉及詳細(xì)的統(tǒng)計(jì)技術(shù)，這些技術(shù)仍然超出了本入門教材的范圍。

GWAS分析需要大樣本

隨著時(shí)間的推移，GWASs的樣本量快速增長(zhǎng)并非巧合（見(jiàn)圖4.5）。為了估計(jì)單核苷酸多態(tài)性對(duì)表型的影響，減少抽樣誤差非常重要，這可以通過(guò)在發(fā)現(xiàn)遺傳標(biāo)記時(shí)包含大量樣本來(lái)實(shí)現(xiàn)。我們反復(fù)指出，復(fù)雜的表型受大量影響很小的未知SNP的影響，因此需要大量的發(fā)現(xiàn)樣本。如第4章所述，對(duì)于許多常見(jiàn)性狀，發(fā)現(xiàn)樣本量目前已達(dá)到100萬(wàn)左右。多位作者已經(jīng)證明了SNP效應(yīng)的準(zhǔn)確性，以及通過(guò)擴(kuò)展PGSs，如何隨著樣本量的增加而增加[1,2,29]。其他人現(xiàn)在越來(lái)越質(zhì)疑，我們是否已經(jīng)達(dá)到了回報(bào)減少的程度，現(xiàn)在應(yīng)該將重點(diǎn)從發(fā)現(xiàn)更多的基因座轉(zhuǎn)移到更深入地理解基因座的生物學(xué)功能。

篩選合適的SNP

我們?cè)诘?0章中探討了構(gòu)建PGS需要兩個(gè)關(guān)鍵決策：要包含的遺傳變異的數(shù)量以及如何衡量其影響。最常用的方法是直接的最小二乘預(yù)測(cè)法[30]。由于我們?cè)诘?0章（第10.3節(jié)）中討論了修剪和閾值方法以及權(quán)重，因此在此不再重復(fù)?？梢灾贿x擇GWAS重要SNP（p值<5×10-8）、介于兩者之間的某個(gè)或所有SNP（p值<=1）。選擇取決于表型和您將執(zhí)行的應(yīng)用程序類型。更嚴(yán)格的p值閾值通常被認(rèn)為更適合非多基因性狀，而更寬松的閾值對(duì)多基因性狀表現(xiàn)最好。研究人員現(xiàn)在意識(shí)到，在性狀不是多基因的情況下，實(shí)際上是非常罕見(jiàn)的，只有全基因組的顯著變異被包括在內(nèi)，以提高預(yù)測(cè)得分的準(zhǔn)確性。當(dāng)所有SNP都包含在高度多基因性狀的PGS計(jì)算中時(shí)，你可以期望得到更多的預(yù)測(cè)結(jié)果。
然而，我們將很快討論的一個(gè)挑戰(zhàn)是在分析中包含更多變體以增加預(yù)測(cè)的權(quán)衡，這反過(guò)來(lái)又增加了非因果變體的潛在“噪音”，但也增加了作為代理SNP的因果變體（見(jiàn)框10.2）。

驗(yàn)證和預(yù)測(cè)PGS

PGS的驗(yàn)證鞏固了其有用性。如果在此初始階段得出錯(cuò)誤的決定或結(jié)論，PGS可能缺乏準(zhǔn)確性和準(zhǔn)確性。驗(yàn)證也與預(yù)測(cè)內(nèi)在地交織在一起。在本節(jié)中，我們將重點(diǎn)介紹基本和常見(jiàn)的錯(cuò)誤，這些錯(cuò)誤可能導(dǎo)致PGS的高估或結(jié)果的誤解，有時(shí)會(huì)使用文獻(xiàn)中的示例。預(yù)測(cè)是對(duì)R2的估計(jì)，R2是回歸模型解釋的方差比例。從這個(gè)意義上說(shuō)，我們注意到預(yù)測(cè)是一個(gè)有點(diǎn)誤導(dǎo)性的術(shù)語(yǔ)，因?yàn)槲覀兺ǔＳ信d趣了解通過(guò)在模型中包含特定PGS可以解釋的可變性量。大多數(shù)應(yīng)用研究人員通常有興趣了解與基線模型相比，將PG輸入模型時(shí)R2的增量增加。
基線模型是最簡(jiǎn)單的預(yù)測(cè)，當(dāng)添加其他變量時(shí)，您可以使用它作為基準(zhǔn)點(diǎn)。在此，我們通常還包括人口分層變量（例如，前10或20個(gè)PCA）和其他相關(guān)協(xié)變量。在第10章和第1l章中，我們將演示如何進(jìn)行預(yù)測(cè)，以及如何處理下面討論并在表5.1中總結(jié)的一些問(wèn)題。

獨(dú)立的樣本

在進(jìn)行預(yù)測(cè)時(shí)，您使用的數(shù)據(jù)必須是一個(gè)獨(dú)立的樣本，也就是說(shuō)，發(fā)現(xiàn)樣本和目標(biāo)樣本之間沒(méi)有重疊。換句話說(shuō)，您使用的目標(biāo)樣本不應(yīng)該是原始GWAS中包含的數(shù)據(jù)集之一，或者您需要將其從GWAS摘要結(jié)果中刪除。我們?cè)诘?章（第7.3.3節(jié)）中討論了如何以及在何處獲取GWAS匯總統(tǒng)計(jì)數(shù)據(jù)。
如果您試圖使用原始GWAS中使用的相同數(shù)據(jù)來(lái)驗(yàn)證或預(yù)測(cè)得分的表現(xiàn)，以同時(shí)估計(jì)SNP對(duì)表型的影響，那么您通過(guò)過(guò)度擬合高估了預(yù)測(cè)的準(zhǔn)確性[3]。為了確保關(guān)聯(lián)結(jié)果不會(huì)與您的基因型數(shù)據(jù)重疊，最好首先檢查發(fā)現(xiàn)分析中包括哪些隊(duì)列。該信息通常在已發(fā)布的GWAS文章中補(bǔ)充材料的初始表格中報(bào)告。許多作者越來(lái)越多地?fù)碛幸粭l準(zhǔn)備好結(jié)果的管道，并準(zhǔn)備好申請(qǐng)研究中的每個(gè)隊(duì)列。越來(lái)越多的研究也將PGS作為其數(shù)據(jù)的一部分（如健康和退休研究）。如果不是這樣，最好直接詢問(wèn)進(jìn)行研究的研究人員，詢問(wèn)他們是否愿意分享薈萃分析的結(jié)果，不包括你想要分析的隊(duì)列。請(qǐng)注意，這確實(shí)需要一定的努力，也需要原始作者的努力?；蛘撸部梢允褂昧硪粋€(gè)足夠大的數(shù)據(jù)集和GWAS在單個(gè)非常大的研究中計(jì)算的匯總統(tǒng)計(jì)數(shù)據(jù)。一種解決方案是使用Ben Neale實(shí)驗(yàn)室的信息，該實(shí)驗(yàn)室利用英國(guó)生物庫(kù)公開產(chǎn)生了4000多個(gè)表型的結(jié)果，還包含20個(gè)主成分和協(xié)變量（例如，年齡、年齡2、性別、年齡*性別）（http∶//www.nealelab。is/uk biobank/）。他們還生成了特定性別的結(jié)果，并包含了用于運(yùn)行分析的所有代碼，GitHub(https://github.com/Nealelab/UK生物銀行GWAS）。偏差的程度還取決于各種因素，包括性狀的遺傳力、研究中的遺傳異質(zhì)性和樣本量，我們將在稍后討論缺失遺傳力和隱性遺傳力。如果vou計(jì)劃使用的基因分型數(shù)據(jù)的樣本量遠(yuǎn)小于整個(gè)GWA的樣本量，則偏差可能是有限的。然而，這方面仍然需要考慮。

目標(biāo)樣本中有相似祖先

在選擇目標(biāo)樣本時(shí)，祖先組成不應(yīng)與初始基線樣本有顯著差異。回顧第4章，大多數(shù)GWASs都是對(duì)歐洲血統(tǒng)的人進(jìn)行的，由于等位基因頻率、LD和遺傳結(jié)構(gòu)的差異，這些結(jié)果不能直接轉(zhuǎn)移到其他人群。Martin及其同事利用1000基因組參考小組，使用歐洲祖先GWAS匯總統(tǒng)計(jì)數(shù)據(jù)，計(jì)算了八種表型的PGSs。
他們得出的結(jié)論是，這些來(lái)自大規(guī)模GWASs的發(fā)現(xiàn)對(duì)其他群體的可移植性有限，我們?cè)谇懊嬗懻摿伺c人口分層的關(guān)系（第3章）。例如，由于祖先群體之間的等位基因頻率不同（見(jiàn)方框3.2），使用從一個(gè)祖先群體衍生到一個(gè)非常不同的祖先群體的PGS將導(dǎo)致目標(biāo)群體中非常不精確和有偏差的分?jǐn)?shù)，即使表型是高度遺傳的。在第9章（第9.4節(jié)）的后面，我們將如何通過(guò)不同主成分的聚類來(lái)區(qū)分人口中的不同祖先群體進(jìn)行分類。

親緣關(guān)系、群體分層和頻率差異

當(dāng)您選擇要為研究分析的數(shù)據(jù)時(shí)，必須意識(shí)到由于人口分層，目標(biāo)樣本中PGS的潛在通貨膨脹。例如，在弗雷明翰心臟病研究中，一項(xiàng)將PGS用于身高的研究表明，當(dāng)相關(guān)個(gè)體被納入分析時(shí)，R2從0.15膨脹到0.25【8】。Wray等人[3]還研究了從樣本中移除相關(guān)個(gè)體時(shí)的差異，并通過(guò)與R2膨脹相關(guān)的不同人群分層主成分進(jìn)行控制。正如我們?cè)诒?.1中所概述的，他們建議在發(fā)現(xiàn)和驗(yàn)證階段使用傳統(tǒng)上不相關(guān)的個(gè)體。在后面描述質(zhì)量控制（QC）的章節(jié)中，我們將演示如何刪除相關(guān)人員。這一錯(cuò)誤發(fā)生在已發(fā)表的研究中，例如，Belgard及其同事[7]認(rèn)為2014年分子精神病學(xué)孤獨(dú)癥基因研究[31]缺乏對(duì)人口分層的控制。
研究人員可能遇到的另一個(gè)問(wèn)題是病例組和對(duì)照組之間人群分層的差異偏差。這可能會(huì)導(dǎo)致R2的虛假預(yù)測(cè)，但可以通過(guò)在單獨(dú)的樣本中執(zhí)行嚴(yán)格的QC或驗(yàn)證結(jié)果來(lái)應(yīng)對(duì)。

變異僅由缺失罕見(jiàn)變異的常見(jiàn)遺傳標(biāo)記解釋

這里有各種用于識(shí)別SNP的全基因組“SNP芯片”，我們將在第7章中詳細(xì)討論。直到2018年左右，大量收集的數(shù)據(jù)收集了有關(guān)常見(jiàn)遺傳變異的信息。我們討論了這種基因分型的局限性以及其他地方的未來(lái)方向（見(jiàn)第7.2.3節(jié)和第15章）。由于LD，我們?cè)贕WAS中識(shí)別并在PGSs中使用的許多SNP可能不是實(shí)際的因果SNP，但可能在LD中有一個(gè)或多個(gè)因果變體。在大多數(shù)芯片上測(cè)得的SNP（直到最近）都有常見(jiàn)的等位基因，并且不可能是完全或中度LD，也不可能是罕見(jiàn)的變體。如果一個(gè)遺傳變異與適應(yīng)性相關(guān)，那么選擇可以將一個(gè)等位基因的頻率降低[32]。如果單核苷酸多態(tài)性對(duì)適應(yīng)性有很大影響，那么因果變異的頻率就會(huì)很低。迄今為止在許多GWASs中發(fā)現(xiàn)的SNP不太可能解釋所有遺傳變異，因?yàn)樗雎粤撕币?jiàn)變異的貢獻(xiàn)，因?yàn)檫@些變異沒(méi)有被基因型SNP“標(biāo)記”。例如，這解釋了身高的家族遺傳力約為0.7至0.8，與基于SNP或標(biāo)記的較低估計(jì)值0.4之間的差異【33，34】。
這一討論還與家族估計(jì)數(shù)的潛在膨脹有關(guān)，但也與“仍然缺失遺傳力”一詞有關(guān)，該術(shù)語(yǔ)指的是未被SNP完全標(biāo)記的基因組變體。這使得Visscher和其他人認(rèn)為，我們可以從動(dòng)物研究中學(xué)習(xí)，因?yàn)檫@項(xiàng)工作解釋了在牲畜（以及可能的人類）中，某些因果變異事實(shí)上很罕見(jiàn)，并且在具有常見(jiàn)SNP的貧血癥患者中【10】。因此，該領(lǐng)域現(xiàn)在正朝著將罕見(jiàn)變異納入預(yù)測(cè)的方向發(fā)展。例如，Ganna及其同事于2018年進(jìn)行的一項(xiàng)研究【35】量化了罕見(jiàn)和超罕見(jiàn)編碼變異對(duì)13個(gè)數(shù)量性狀和10種疾病的影響。他們發(fā)現(xiàn)了罕見(jiàn)的有害編碼變體對(duì)復(fù)雜性狀的影響，結(jié)論是可能存在廣泛的多效性風(fēng)險(xiǎn)。

消失的遺傳力

我們?cè)噲D解釋的表型變異是遺傳和環(huán)境因素及其相互作用的組合。因此，使用多基因評(píng)分是量化遺傳因素的一種方法?；叵胍幌碌谝徽拢ǖ?.6節(jié)）中缺失的遺傳力討論，我們討論了GWASs出人意料的低預(yù)測(cè)能力，以及從多基因性的角度思考的興起。請(qǐng)記住，缺失遺傳力是雙胞胎研究估計(jì)值與GWAS遺傳力估計(jì)值之間相對(duì)較大的遺傳力之間的差距，而隱藏遺傳力是基于SNP的遺傳力（Yang及其同事[33]GREML模型）與GWAS遺傳力之間的差異。由于首次發(fā)現(xiàn)的單核苷酸多態(tài)性僅解釋了遺傳力的一小部分[36]，因此出現(xiàn)了一系列研究，研究非加性遺傳效應(yīng)[37]，上位效應(yīng)[38]，異質(zhì)性和/或基因-環(huán)境相互作用[11]，以及因共有的環(huán)境因素[39]和罕見(jiàn)的非基因型變體的作用而導(dǎo)致的雙胞胎研究的夸大估計(jì)[34]。
實(shí)現(xiàn)h'高水平估計(jì)的唯一方法是，我們能夠識(shí)別影響該性狀的所有遺傳變異，并準(zhǔn)確估計(jì)其影響。正如我們?cè)诒緯兴⒁獾降?，錯(cuò)誤可能通過(guò)多種因素潛入分析中，如缺乏準(zhǔn)確或協(xié)調(diào)的表型測(cè)量，需要重復(fù)測(cè)量，或如我們?cè)谙乱徽滤觯捎谂c環(huán)境因素的相互作用[11，12]。
PGS R2顯著增加的一個(gè)例子是后續(xù)GWASs的演變，如2型糖尿病研究（見(jiàn)第7章）和教育年限。例如，關(guān)于教育程度的第一個(gè)MetaGWA（40）產(chǎn)生了三個(gè)重要點(diǎn)擊，第二個(gè)74個(gè)重要點(diǎn)擊，第三個(gè)在2018年，超過(guò)1100個(gè)。加上包含了更多的遺傳變異，這三項(xiàng)研究之間的主要區(qū)別在于樣本量，從第一項(xiàng)研究中的約125000個(gè)個(gè)體增加到110多萬(wàn)個(gè)。同時(shí)，R從大約2？最初的GWA大約是7-10？相比之下，2018年的研究。全基因組研究中基于單核苷酸多態(tài)性的估計(jì)值約為20-25[1l，40]，代表了我們可以期望通過(guò)加性模型發(fā)現(xiàn)的上限。

預(yù)測(cè)和理解生物學(xué)機(jī)制之間的權(quán)衡

重要的是要記住，對(duì)于PGSs，我們正在處理一個(gè)定量結(jié)構(gòu)，并且表型的基礎(chǔ)生物學(xué)非常復(fù)雜。由于多態(tài)性，單基因中常見(jiàn)的變異是弱預(yù)測(cè)因子。然而，單個(gè)基因?qū)τ诶斫馍飳W(xué)和因果功能至關(guān)重要。正是從研究這些單一基因的細(xì)胞調(diào)節(jié)功能中獲得的知識(shí)，使我們能夠超越相關(guān)性，了解基因型與表型之間的聯(lián)系機(jī)制。與多基因評(píng)分的權(quán)衡是，由于必須結(jié)合來(lái)自PGS中許多SNP的信息，我們往往會(huì)進(jìn)一步遠(yuǎn)離支撐表型的特定生物學(xué)。
這對(duì)我們進(jìn)行的許多定量分析都有影響。正如我們?cè)诘?0章中所展示的，當(dāng)你在計(jì)算高度多基因性狀的PGS時(shí)包括所有SNP，你會(huì)獲得更多的預(yù)測(cè)結(jié)果。然而，這樣做，你就失去了生物學(xué)上的特異性。然而，我們應(yīng)該清楚，這不僅僅是生物學(xué)特異性和SNP閾值之間的嚴(yán)格二分法。的確，如果我們?cè)诶斫鈾C(jī)制的情況下構(gòu)建一個(gè)分?jǐn)?shù)（即，僅使用具有已知因果路徑的SNP），該分?jǐn)?shù)將具有更少的SNP和較差的表現(xiàn)。然而，如果我們僅從全基因組重要SNP構(gòu)建評(píng)分，我們對(duì)潛在機(jī)制的理解仍不會(huì)比使用所有SNP的評(píng)分更好。如果我們采用只包含許多獨(dú)立SNP得分的PGS，那么缺乏生物學(xué)特異性可以說(shuō)是所有多基因得分的一個(gè)特性。
因此，在最大限度地預(yù)測(cè)和理解生物學(xué)機(jī)制之間進(jìn)行權(quán)衡。例如，在2018年《柳葉刀》對(duì)肥胖遺傳學(xué)的回顧中，古達(dá)齊（Goodarzi）[13]總結(jié)了盡管已分離出300多個(gè)與體重指數(shù)、臀圍比和其他肥胖特征相關(guān)的單核苷酸多態(tài)性，但對(duì)肥胖缺乏認(rèn)真的生物學(xué)功能理解阻止了臨床相關(guān)的減肥干預(yù)。因此，許多研究現(xiàn)在努力超越預(yù)測(cè)，提高精度。如疾病風(fēng)險(xiǎn)預(yù)測(cè)干預(yù)、基因-環(huán)境相互作用分析或孟德?tīng)栯S機(jī)回歸。我們?cè)谟懻摲謹(jǐn)?shù)的應(yīng)用時(shí)，回到了機(jī)制預(yù)測(cè)權(quán)衡的具體問(wèn)題。

表型共享的遺傳結(jié)構(gòu)

直到現(xiàn)在，我們已經(jīng)討論了相對(duì)隔離的特定性狀的PGSs，然而，特別是對(duì)于復(fù)雜表型，單個(gè)性狀的PGSs通常與多個(gè)表型相關(guān)。如圖5.1所示，在使用PGSs時(shí)，重要的是要了解許多表型下通常存在一個(gè)共同的遺傳結(jié)構(gòu)。
雖然遠(yuǎn)未詳盡無(wú)遺，但在本節(jié)中，我們將介紹一些用于解開這種共享遺傳結(jié)構(gòu)的主要技術(shù)。

預(yù)測(cè)其它表型

PGS通常具有共同的遺傳結(jié)構(gòu)，許多疾病和性狀具有共同的病因。例如，精神分裂癥和雙相情感障礙是相互交織的疾病。
在研究它們或設(shè)計(jì)潛在的治療方法時(shí)，了解它們的共同發(fā)生是至關(guān)重要的。例如，精神分裂癥的PGSs被用來(lái)預(yù)測(cè)雙相情感障礙[42]。這項(xiàng)研究表明，這兩種表型之間在某種程度上存在共同的遺傳病因?qū)W，表明相同的基因與這兩種結(jié)果相關(guān)。相反，精神分裂癥的得分不能預(yù)測(cè)非精神健康狀況，如冠心病、克羅恩病、高血壓或1型或2型糖尿病。
生殖特征也被證明是高度相關(guān)的。2016年發(fā)布的一份大規(guī)模GWAS研究了兩個(gè)生殖行為特征，即初生年齡（AFB）和出生兒童數(shù)量（NEB）44]。PGSs被用來(lái)研究它們與各種生育和非生育性狀的關(guān)聯(lián)。其中包括初潮年齡、更年期年齡、失聲年齡（男孩）和首次性交年齡。雖然PGS對(duì)出生兒童數(shù)量的預(yù)測(cè)能力相對(duì)較低，但當(dāng)進(jìn)入回歸模型預(yù)測(cè)無(wú)子女情況時(shí)，結(jié)果卻令人震驚。NEB的PGS可以預(yù)測(cè)生育期結(jié)束時(shí)保持無(wú)子女的概率，PGS的標(biāo)準(zhǔn)偏差增加一個(gè)，女性保持無(wú)子女的概率減少約9個(gè)【44】。
45].初生時(shí)（較晚）年齡的PGS同樣與自然絕經(jīng)時(shí)的早衰和晚年【44】。生物學(xué)功能研究還表明，生殖特征（和不孕特征，如子宮內(nèi)膜異位癥）之間存在共同的病因。

表型相關(guān)和遺傳相關(guān)

任何表型也具有高度的遺傳相關(guān)性。在這里，區(qū)分表型和基因型相關(guān)性很重要。盡管可能發(fā)生，但表型相關(guān)性并不自動(dòng)意味著遺傳相關(guān)性。即使表型部分可遺傳。遺傳相關(guān)性也并不意味著生物學(xué)上的因果關(guān)系。在本節(jié)中，我們重點(diǎn)討論表型之間的遺傳相關(guān)性或重疊。遺傳相關(guān)是對(duì)一對(duì)性狀間加性遺傳效應(yīng)比例的估計(jì)。例如，考慮兩個(gè)遺傳性狀，如精神分裂癥和雙相情感障礙，它們通常具有很高的表型相關(guān)性。！對(duì)于遺傳相關(guān)性，我們感興趣的是檢查是否也存在遺傳相關(guān)性，或者換句話說(shuō)，這兩個(gè)性狀是否共享相同的基因。
用于檢查遺傳重疊的最常用方法是LD評(píng)分回歸，由Bulik Sullivan等人于2015年開發(fā)【46】。在第12章中，我們演示了如何使用LDSC軟件包（https://github.com/bulik/LDSC）從GWAS匯總統(tǒng)計(jì)數(shù)據(jù)中估計(jì)遺傳相關(guān)性（見(jiàn)附錄1）。LDSC利用數(shù)據(jù)的LD結(jié)構(gòu)來(lái)估計(jì)遺傳相關(guān)程度。該方法最初要求GWAS對(duì)來(lái)自GWASs的所有SNP進(jìn)行匯總統(tǒng)計(jì)，并提供一個(gè)參考樣本，從中可以估計(jì)LD，以便估計(jì)LD得分回歸。該方法基于以下關(guān)系正式編寫：

這里是性狀k的GWA中SNPj的Z得分（k=1…，20），N是性狀k的GWA樣本量，l是SNPi的LD得分，M是GWA中包含的SNP數(shù)量，p性狀1和2之間的遺傳協(xié)方差，回歸截距用截距表示?；貧w2,2的斜率√N(yùn)N，l，可以用來(lái)估計(jì)這兩個(gè)性狀之間的遺傳協(xié)方差。也可以估計(jì)這兩個(gè)性狀h2的遺傳力h2，來(lái)自性狀l和2的單變量LD得分回歸。因此，遺傳相關(guān)性的估計(jì)值為：

在第12章中，我們演示了如何估計(jì)這些LD分?jǐn)?shù)以及對(duì)結(jié)果的解釋。在這一章中，我們還展示了如何通過(guò)LDHub網(wǎng)站獲得遺傳相關(guān)性(http://ldsc./ldhub/)[47]. 這是一個(gè)在線數(shù)據(jù)庫(kù)，可以記錄用作LD評(píng)分回歸的web界面。該網(wǎng)站不斷更新，但包括數(shù)百個(gè)性狀的SNP遺傳力和遺傳相關(guān)結(jié)果。你還可以下載數(shù)百個(gè)性狀之間的遺傳重疊。
圖5.2提供了跨多個(gè)性狀的遺傳相關(guān)性示例。在這里，我們展示了我們2016年的研究，其中我們使用LD評(píng)分回歸來(lái)檢驗(yàn)生殖行為表型（初生年齡[AFB]、出生兒童數(shù)量[NEB]）與27個(gè)相關(guān)表型相關(guān)性之間的相關(guān)性。這包括發(fā)育或與生育有關(guān)的特征（如初潮年齡、更年期、失聲、多囊卵巢綜合征（PCOS）、首次性交年齡、出生體重）、行為（受教育年限、三種吸煙特征）、個(gè)性和神經(jīng)精神（如神經(jīng)質(zhì)、精神分裂癥、幸福感、孤獨(dú)癥），心臟代謝（如LDL膽固醇甘油三酯、2型糖尿病）和人體測(cè)量（BM、身高、腰臀比）。如圖5.2所示，AFB主要與人類發(fā)育和行為特征呈正相關(guān)，而與PCOS、心臟代謝和人體測(cè)量特征呈負(fù)相關(guān)。一旦控制了多項(xiàng)測(cè)試，NEB僅與教育年限和首次性交年齡顯著負(fù)相關(guān)。兩個(gè)最顯著的相關(guān)性是AFB、首次性交年齡和教育年限。事實(shí)上，受教育年限與AFB的相關(guān)性為0.70，我們?cè)谀抢锖拖嚓P(guān)論文中對(duì)此進(jìn)行了探討。雖然LD分?jǐn)?shù)回歸是一種識(shí)別性狀之間可能關(guān)系的有力工具，但它不允許我們建立因果方向或關(guān)系，也不允許我們調(diào)整潛在的中介因素。
許多性狀之間的關(guān)系非常復(fù)雜，具有潛在的雙向機(jī)制。我們將在第13章“孟德?tīng)栯S機(jī)化”和第15章（深入探討未來(lái)的研究方向）中探討其中的一些關(guān)系。

Pleiotropy

順向性是指單個(gè)基因影響多個(gè)性狀的現(xiàn)象。它源于希臘術(shù)語(yǔ)pleion，它指的是more和tropos，意思是“方式”。因此，多效性基因是指那些對(duì)表型表現(xiàn)出多重影響的基因。例如，如果一個(gè)多效性基因發(fā)生突變，它可能同時(shí)影響多個(gè)表型。這歸因于基因編碼被許多細(xì)胞或具有相同信號(hào)功能的不同靶點(diǎn)所使用。100多年前，德國(guó)遺傳學(xué)家路德維希·普萊特（LudwigPlate）于1910年提出了多效性的主題【48】。它影響了進(jìn)化生物學(xué)以及生理和醫(yī)學(xué)遺傳學(xué)的許多領(lǐng)域。自1910年以來(lái)。這個(gè)術(shù)語(yǔ)的含義已經(jīng)演變，特別是隨著我們?cè)诒緯醒芯康姆肿舆z傳數(shù)據(jù)的引入。衰老是指?jìng)€(gè)體隨著年齡的增長(zhǎng)而發(fā)生的生理變化。
Paaby和Rockman概述了幾種不同類型的多效性，指出討論中經(jīng)常遇到關(guān)于多效性的各種含義以及如何研究這些機(jī)制的概念困難[49]。在這本入門教材中，我們能夠簡(jiǎn)單介紹不同類型的多效性，其中許多是在分子生物學(xué)水平上研究的。分子基因多效性研究一個(gè)分子基因所具有的功能數(shù)量，例如當(dāng)一個(gè)基因與多種蛋白質(zhì)相互作用并催化多種反應(yīng)時(shí)。例如，這是對(duì)基因中蛋白質(zhì)-蛋白質(zhì)相互作用物及其催化反應(yīng)數(shù)量的生化研究。發(fā)育多效性是指突變（而非分子基因）是研究的單位，在這里，研究人員經(jīng)常檢查表型不同方面的遺傳和進(jìn)化自主性，與適應(yīng)度無(wú)關(guān)。這里的關(guān)鍵問(wèn)題通常包括對(duì)分子多效性的檢查以及順式調(diào)節(jié)2與蛋白質(zhì)編碼變體的相對(duì)重要性，遠(yuǎn)遠(yuǎn)超出了本教科書的范圍。選擇多效性是研究表型何時(shí)對(duì)適合度有多重影響。這種多效性的一個(gè)關(guān)鍵特征是，性狀被認(rèn)為是由選擇決定的，而不是個(gè)體的內(nèi)在屬性。這些例子可以追溯到一些基本的進(jìn)化文本，這些文本提出了一個(gè)對(duì)抗性多效性模型，該模型考察了構(gòu)成性對(duì)抗性多效性和多效性權(quán)衡基礎(chǔ)的衰老或突變的進(jìn)化，這是適應(yīng)的基礎(chǔ)【50】。一些人認(rèn)為拮抗性多效性在遺傳疾病中很常見(jiàn)【51】。鐮狀細(xì)胞病是一種常見(jiàn)的拮抗性多效性，當(dāng)基因的多重效應(yīng)對(duì)適應(yīng)性產(chǎn)生相反影響時(shí)。
圖5.3提供了一個(gè)非常簡(jiǎn)單的基因型-表型圖，說(shuō)明了加性多效性效應(yīng)。在這張圖中，基因G1、G2和G3代表了不同的基因，這些基因?qū)θN不同的表型P1起作用。P2和P3。例如，Gl影響P1和P2，G2影響P2和P3，G3影響P2和P3。注意，多效性通常是指遺傳相關(guān)性的同義詞。然而，為了更精確，區(qū)分直接多效性和間接多效性是有用的。前面所有的例子都提到了直接多效性，即一個(gè)基因?qū)Χ喾N表型有直接因果影響。這與前面討論的共同原因模型是平行的。間接多效性是指對(duì)P1產(chǎn)生因果影響的基因，而P1反過(guò)來(lái)又對(duì)P2產(chǎn)生因果影響。這是指第2章中討論的中介模型，其中P1是基因和P2之間的中介。在這兩種情況下，我們將觀察到兩種表型之間的遺傳相關(guān)性；然而，導(dǎo)致這一觀察的機(jī)制確實(shí)不同，在后一種模型中，盡管我們觀察到一種關(guān)聯(lián)，但基因和P2之間可能沒(méi)有生物學(xué)聯(lián)系。
最近有兩項(xiàng)研究使用PGSs研究冰島和美國(guó)的教育程度與出生兒童數(shù)量之間的多效性【52,53】。這兩項(xiàng)研究都發(fā)現(xiàn)，教育程度PGS顯著預(yù)測(cè)了兒童數(shù)量，基于回歸模型的遺傳協(xié)方差可用于量化預(yù)期的進(jìn)化變化。毫不奇怪，進(jìn)化變化的直接證據(jù)雖然很重要，但卻非常少。例如，在美國(guó)，由于自然選擇的結(jié)果，每代人減少一周的教育。即使結(jié)果被重新縮放考慮到缺失的遺傳力，遺傳選擇預(yù)測(cè)教育的變化不超過(guò)1.5個(gè)月左右。正如我們?cè)谄渌胤教岬降腫12]，考慮基因與環(huán)境的相互作用，如教育擴(kuò)張的收益，并考慮到變化是緩慢的，需要穩(wěn)定并持續(xù)幾代人，這一點(diǎn)至關(guān)重要。上述研究也未考慮死亡率選擇。
現(xiàn)在人們一致認(rèn)為多效性是不明確的。Pickrell及其同事[55]研究了42種表型以證明多效性，并表明幾個(gè)基因座與大量性狀相關(guān)。然后，他們利用這些基因座來(lái)識(shí)別具有多重遺傳原因的表型，并開發(fā)出一種方法來(lái)識(shí)別具有因果關(guān)系的成對(duì)性狀。這里他們展示了BMI是如何導(dǎo)致甘油三酯水平升高的。其他研究人員檢查了整個(gè)GWAS目錄，以確定多效性的患病率，目錄中報(bào)告的44個(gè)基因與一個(gè)以上的表型相關(guān)[56]。這些作者表明，多效性的程度與基因的平均效應(yīng)大小呈正相關(guān)，與具有給定數(shù)量的相關(guān)表型的基因的效應(yīng)大小方差呈負(fù)相關(guān)。正如第1章簡(jiǎn)要介紹的那樣，多效性普遍存在的知識(shí)導(dǎo)致其他人，如Boyle等人【57】認(rèn)為基因調(diào)控網(wǎng)絡(luò)是如此相互關(guān)聯(lián)，所有基因都以基因模型的形式影響核心疾病相關(guān)基因的功能。Gratten和Visscher【58】認(rèn)為這種“普遍的多效性”具有真正的個(gè)性化醫(yī)學(xué)和基因組編輯的含義，我們將在第14章和第15章中返回。

多性狀分析

WAS通常優(yōu)先考慮易于在不同隊(duì)列中一致測(cè)量的表型。在許多情況下，可能很難協(xié)調(diào)或測(cè)量感興趣的表型。因此，Rietveld及其同事引入了代理表型法[59]。代理表型法通過(guò)兩個(gè)階段的方法識(shí)別常見(jiàn)遺傳變異，首先對(duì)表型進(jìn)行GWA，然后使用獨(dú)立樣本測(cè)量原始GWA中發(fā)現(xiàn)的SNP與相關(guān)表型的關(guān)聯(lián)。上述作者將教育程度與第二階段的認(rèn)知能力、記憶力和無(wú)癡呆癥聯(lián)系起來(lái)。
Turley及其同事于2018年【60】對(duì)GWAS（MTAG）進(jìn)行了多重RAIT分析，這是一種允許對(duì)不同性狀的GWAS匯總統(tǒng)計(jì)數(shù)據(jù)進(jìn)行聯(lián)合分析的方法。在這里，作者展示了如何將MTAG應(yīng)用于GWAS的抑郁癥狀、神經(jīng)質(zhì)和主觀幸福感結(jié)果，產(chǎn)生了更多在原始個(gè)人GWAS中未分離的相關(guān)位點(diǎn)，并將PGSs解釋的方差增加到與理論預(yù)期相符的水平。與32.9相比。上述性狀在單性狀GWAS中鑒定出13個(gè)全基因組重要位點(diǎn)。MTAG使相關(guān)位點(diǎn)的數(shù)量分別增加到64、37和49個(gè)。這一增長(zhǎng)與樣本量較小的神經(jīng)質(zhì)GWAS尤其相關(guān)。在第12章中，我們提供了MTAG的一個(gè)示例應(yīng)用程序。

多基因評(píng)分和因果模型

在本書第2章的早期，我們概述了在我們的介紹性統(tǒng)計(jì)章節(jié)中可能出現(xiàn)的各種類型的多元因果模型。在回歸模型中，PGS可以被視為標(biāo)準(zhǔn)的連續(xù)變量，并且對(duì)于許多表型，目前已經(jīng)在相對(duì)較小的樣本（N<1000）中進(jìn)行了很好的預(yù)測(cè)分析（見(jiàn)方框5.2）。在本節(jié)中，我們將概述本書后面將探討的一些中心應(yīng)用程序。這些包括檢查基因混雜、基因-環(huán)境相互作用和孟德?tīng)栯S機(jī)分組。

基因混雜

遺傳混雜是指一個(gè)或多個(gè)外來(lái)變量至少部分解釋了PGS與表型之間的關(guān)聯(lián)（或缺乏關(guān)聯(lián)）的情況。2000年。埃里克·特克海默是行為遺傳學(xué)的創(chuàng)始人之一，他概述了行為的三條定律，遺傳學(xué)[61]。雖然“一切都是可遺傳的”一課很重要，但承認(rèn)“一切都是環(huán)境的”同樣重要如果我們研究各種疾病、行為和特征，它們?cè)诤艽蟪潭壬贤c非遺傳因素有關(guān)。研究人員一致表明，社會(huì)經(jīng)濟(jì)環(huán)境是健康、認(rèn)知能力和其他多種表型中最可靠和重復(fù)的預(yù)測(cè)因子【62-64】。

孟德?tīng)栯S機(jī)化

我們?cè)诘?章中詳細(xì)闡述了，有多種策略來(lái)估計(jì)因果效應(yīng)。
最理想的情況是進(jìn)行隨機(jī)對(duì)照試驗(yàn)。然而，就我們研究的許多結(jié)果而言，這根本不可行，也不道德。一種旨在近似這一點(diǎn)的替代設(shè)計(jì)是工具變量法，在這一研究領(lǐng)域被稱為孟德?tīng)栯S機(jī)法。因?yàn)槲覀冇幸徽聦ｉT討論這個(gè)主題（第13章），所以我們?cè)谶@里只簡(jiǎn)單地討論一下。孟德?tīng)栯S機(jī)化（MR）是一種利用遺傳信息檢驗(yàn)變量之間是否存在因果關(guān)系的技術(shù)。例如，高膽固醇會(huì)導(dǎo)致高血壓?jiǎn)幔空缥覀冊(cè)诘?3章中所注意到的，MR已經(jīng)證明使用PGSs非常有效。該技術(shù)依賴于一些需要牢記的重要假設(shè)。在MR中，通過(guò)誘導(dǎo)對(duì)感興趣的性狀具有強(qiáng)烈生物學(xué)效應(yīng)的基因，將因PGSs中的直接多效性而產(chǎn)生的“噪音”風(fēng)險(xiǎn)降至最低是至關(guān)重要的。因此，如果MR中使用PGS，建議不要使用高p值閾值。
這可能違反方法所需的假設(shè)。有關(guān)此問(wèn)題的詳細(xì)討論，請(qǐng)參閱Hemani等人[65]的討論和第13章。

混雜因素控制

為了描述這一點(diǎn)，我們使用了文獻(xiàn)中的兩個(gè)例子：精神分裂癥與父母第一次出生時(shí)的年齡之間的關(guān)系[66]，與平均生育年齡相比，孩子很?。瓷倥畱言校┖秃芾隙加胁煌纳鐣?huì)經(jīng)濟(jì)和心理健康結(jié)果。第一次出生時(shí)年齡的低尾和高尾的個(gè)體分布顯示。例如，兒童被診斷為精神分裂癥的可能性更高。這有著相當(dāng)大的影響，因?yàn)樵谠S多國(guó)家，第一胎年齡已經(jīng)推遲了大約4-6年[67]。問(wèn)題是，下一代是否會(huì)有更高的精神分裂癥患病率，或者，考慮到U型關(guān)聯(lián)，父母的生育年齡與精神分裂癥之間的這種關(guān)系是否是因果關(guān)系。如果基因混淆了這種關(guān)系，這種關(guān)聯(lián)可能是特定于某些人群的。因此，父母出生時(shí)年齡分布在不同時(shí)間或人群之間的變化可能不會(huì)影響該疾病的流行。當(dāng)然，對(duì)于父母的童年年齡與子女的健康和幸福之間的聯(lián)系，還有許多其他的解釋。這包括資源和社會(huì)經(jīng)濟(jì)地位、關(guān)系穩(wěn)定性和教育方面的差異，這些差異在年長(zhǎng)父母中表現(xiàn)得更高，從而影響孩子以后的結(jié)果【68】。
一種假說(shuō)認(rèn)為，基因混淆了父母初生年齡與兒童精神分裂癥發(fā)展之間的關(guān)系。多基因性是這一假說(shuō)的關(guān)鍵。從遺傳學(xué)角度來(lái)看，父母可能具有發(fā)展為精神分裂癥的遺傳傾向。例如，精神分裂癥的傾向可能導(dǎo)致與少女懷孕相關(guān)的突然和危險(xiǎn)的性行為，或?qū)е抡野閭H的問(wèn)題，從而推遲或阻止分娩。由于父母將基因傳給子女，父母年齡較大或較年輕的子女可能比其他人更容易患精神分裂癥，因此也更容易被診斷。根據(jù)這一假設(shè)，我們預(yù)計(jì)第一胎年齡與精神分裂癥之間的親子關(guān)系不是因果關(guān)系，而是由基因造成的。但我們?nèi)绾螜z驗(yàn)這個(gè)假設(shè)呢？PGS的應(yīng)用使這一點(diǎn)相對(duì)簡(jiǎn)單，幾項(xiàng)研究分析了精神分裂癥患者PGS在初生嬰兒各年齡段的分布情況【66,69】。
這些研究表明，父母患精神分裂癥的風(fēng)險(xiǎn)分布與子女患精神分裂癥的風(fēng)險(xiǎn)分布形狀相同。青少年父母和35歲以上父母的精神分裂癥PGS均升高。這表明，基因遺傳至少在一定程度上混淆了父母生育時(shí)機(jī)與兒童心理健康之間的關(guān)系。因此，在研究這種關(guān)聯(lián)時(shí)不考慮遺傳的模型可能有偏差估計(jì)。更準(zhǔn)確地說(shuō)，他們可能高估了父母生育年齡對(duì)子女心理健康狀況的因果影響。關(guān)于推遲生育對(duì)人口健康的影響的說(shuō)法也可能具有誤導(dǎo)性。

基因與環(huán)境互作以及異質(zhì)性

基因與環(huán)境相互作用是這一研究領(lǐng)域的核心和新興課題。
由于第6章介紹了詳細(xì)的理論、基因-環(huán)境相互作用的討論、許多實(shí)例和方法學(xué)問(wèn)題，因此我們?cè)诖藘H簡(jiǎn)要總結(jié)與PGSs相關(guān)的要點(diǎn)。在第二章中，我們還提供了幾個(gè)應(yīng)用示例，讓您了解如何從技術(shù)上處理關(guān)鍵問(wèn)題。
首先，在PGS應(yīng)用的背景下，重申與基因環(huán)境研究相關(guān)的“交互”的含義是有用的。在這里，我們區(qū)分基因?qū)Ρ硇偷闹苯佑绊懞团c環(huán)境的交互作用。第一個(gè)例子表明，保持環(huán)境條件不變，基因在個(gè)體之間變化時(shí)會(huì)導(dǎo)致表型差異。第二種情況描述了基于不同基因型對(duì)環(huán)境暴露的不同反應(yīng)。相互作用意味著在不同的環(huán)境中，基因?qū)Ρ硇偷挠绊憰?huì)有所不同。
第6章對(duì)這些方面進(jìn)行了說(shuō)明。
例如，Domingue及其同事利用健康和退休研究闡明了美國(guó)對(duì)失去配偶的不同反應(yīng)【70】。與生活中的其他壓力事件一樣，失去配偶可能會(huì)導(dǎo)致抑郁癥。然而，抑郁癥狀的發(fā)生程度和持續(xù)時(shí)間在個(gè)體之間有所不同。正如我們?cè)诘?章所闡述的，他們測(cè)試了一種稱為素質(zhì)壓力模型的理論，即主觀幸福感的遺傳傾向可能會(huì)緩沖失去配偶的不利影響，他們表明。雖然失去配偶后抑郁癥狀普遍增加，但與幸福感遺傳分?jǐn)?shù)較低的人相比，幸福感PGSs較高的美國(guó)成年人確實(shí)經(jīng)歷了較少的抑郁癥狀。在另一項(xiàng)研究中，Domingue及其同事【72】表明，PGS對(duì)吸煙的影響在出生隊(duì)列中增加。
在基因-環(huán)境相互作用研究中使用PGSs的建議可能很復(fù)雜，也可能有細(xì)微差別。在第6章的表6.2中，我們列出了多重挑戰(zhàn)，為什么它們存在問(wèn)題，以及潛在的解決方案，我們?cè)诖瞬辉僦貜?fù)。在這類研究中，我們感興趣的是模擬在不同環(huán)境中具有差異效應(yīng)的遺傳效應(yīng)。然而，指定不同環(huán)境的能力仍然具有挑戰(zhàn)性。理論上，考慮到可能的環(huán)境相互作用，運(yùn)行GWAS是理想的。實(shí)際上，這些研究的動(dòng)力不足。即使在英國(guó)生物銀行（UK Biobank）等擁有50萬(wàn)個(gè)體的大型樣本中，也很難區(qū)分某些關(guān)鍵環(huán)境因素，因?yàn)闃颖臼怯羞x擇性的，由更健康、社會(huì)經(jīng)濟(jì)地位更高的個(gè)體組成[73]。
在沒(méi)有能力做到這一點(diǎn)的情況下，我們還可以分離出哪些SNP應(yīng)該包括在分析中。第10章詳細(xì)討論了單核苷酸多態(tài)性的選擇，其中123多基因評(píng)分和遺傳結(jié)構(gòu)我們演示了如何創(chuàng)建和驗(yàn)證PGS。Rosenquist及其同事【74】利用FTO基因中的一個(gè)單一變體表明出生隊(duì)列與肥胖的遺傳易感性相互作用。因?yàn)镕TO有一種異常高效的變體，所以可以在該論文中使用一種變體。在許多工業(yè)化國(guó)家，食物供應(yīng)不受限制，加上久坐不動(dòng)的生活方式越來(lái)越多，這意味著在最近出生的人群中，肥胖等位基因的潛在“風(fēng)險(xiǎn)”更大。相反，Barcellos等人[75]的一項(xiàng)研究表明，提高教育水平有助于減少健康不平等。使用包含2018年GWAS教育成就所有等位基因的PGS。他們測(cè)試了PGS是否會(huì)緩和教育對(duì)健康的影響。他們利用1972年英格蘭和威爾士義務(wù)教育一年增長(zhǎng)的自然實(shí)驗(yàn)，發(fā)現(xiàn)教育縮小了肥胖基因風(fēng)險(xiǎn)最高和最低三分之一人群在不健康體型方面的健康差距。

結(jié)論

大多數(shù)應(yīng)用研究人員將執(zhí)行的大部分工作可能是將PGSs應(yīng)用于多種表型和各種環(huán)境。在這一廣闊而充滿活力的研究領(lǐng)域中，很難知道從何處著手。本章的目標(biāo)不僅是定義PGS并提供它們?nèi)绾纬霈F(xiàn)的背景，而且讓研究人員了解他們需要采取的一些更實(shí)際的步驟。因此，在圖5.1和附帶的討論中，我們提供了一個(gè)流程圖，從數(shù)據(jù)到驗(yàn)證和處理，生成PGS并將其用于預(yù)測(cè)，以及思考共享遺傳架構(gòu)和建模應(yīng)用的方法。我們的目標(biāo)是，除了提供潛在的解決方案和進(jìn)一步的閱讀之外，還將fag特殊的挑戰(zhàn)和問(wèn)題領(lǐng)域，我們?cè)诒?.1中進(jìn)行了總結(jié)。
PGSs是一種有用的工具，可將遺傳信息匯總到一個(gè)變量中，以應(yīng)用于進(jìn)一步的統(tǒng)計(jì)分析。我們?cè)噲D對(duì)它們的使用以及潛在的限制提出一個(gè)平衡的觀點(diǎn)。也許最成問(wèn)題的是，由于基于GWASs和迄今為止研究的人口歷史上缺乏多樣性，它們?cè)跉v史上不太適用于各種人口和群體。希望在未來(lái)幾年內(nèi)，這種情況會(huì)有所改變。我們還注意到，鑒于缺失、仍然缺失和隱藏的遺傳力問(wèn)題，PGS仍然是性狀真實(shí)遺傳力的代表。隨著GWASs樣本量的增加，以及超越常見(jiàn)變體的趨勢(shì)，該領(lǐng)域?qū)⒗^續(xù)擴(kuò)大。除了缺乏多樣性之外，當(dāng)前GWAS設(shè)計(jì)中的另一個(gè)重要缺陷是，在GWAS中發(fā)現(xiàn)的單核苷酸多態(tài)性信號(hào)可能被夸大了，因?yàn)檎鏚ong及其同事[76]最近所顯示的那樣，他們還標(biāo)記了父母養(yǎng)育的影響。
盡管一些研究人員仍將重點(diǎn)放在R2上，但對(duì)于某些研究問(wèn)題來(lái)說(shuō)，最大化預(yù)測(cè)并不總是最終和有用的目標(biāo)。了解主要遺傳標(biāo)記的基本生物學(xué)和功能可能使我們比統(tǒng)計(jì)解決方案和預(yù)測(cè)。由于多效性普遍存在，PGS通常也有一個(gè)共同的遺傳結(jié)構(gòu)。在這方面，探索相關(guān)表型、預(yù)測(cè)相關(guān)表型或進(jìn)行多序列分析可能是富有成效的途徑。我們還預(yù)計(jì)，在未來(lái)一段時(shí)間內(nèi)將取得相當(dāng)大的進(jìn)展，包括更好地測(cè)量表型，或從多種手段（如病歷）中獲得所謂的“深層表型”，以及優(yōu)化預(yù)測(cè)的機(jī)器學(xué)習(xí)算法。盡管PGS取得了巨大進(jìn)展，但目前尚不清楚是否有可能創(chuàng)建一種全基因組PGS，以充分識(shí)別臨床風(fēng)險(xiǎn)顯著增加的個(gè)體。PGS越來(lái)越多地與篩查、干預(yù)和生命規(guī)劃的臨床措施結(jié)合使用，但仍存在相當(dāng)大的爭(zhēng)議。在最后的倫理學(xué)討論（第14章）和未來(lái)方向（第15章）中，我們將討論P(yáng)GSs在臨床應(yīng)用中的使用。

練習(xí)：