连锁不平衡以及连锁不平衡衰减

作者&投稿:柴玉 (若有异议请与网页底部的电邮联系)
~

[连锁不平衡粗俗的说就是:这几个基因耍流氓,喜欢抱团遗传,不再随机。而连锁不平衡衰减是指在基因组上,随着物理距离的增大,两个连锁的的等位基因的连锁程度不断减小。]

LD衰减 图,在重测序类的文章中会经常出现群体遗传、GWAS等的文章里面 。

要理解LD衰减图,我们就必须先理解连锁不平衡(Linkage disequilibrium,LD)的概念。 连锁不平衡是由两个名词构成,连锁+不平衡。 前者,很容易让我们产生概念混淆;后者,让这个概念变得愈加晦涩。因此从一个类似的概念入手,大家可能更容易理解LD的概念,那就是基因的共表达。

基因的共表达,通常指的是两个基因的表达量呈现相关性。 比较常见的例子就是:转录组因子和靶基因间的关系。因为转录因子对它的靶基因有正调控作用,所以转录因子的表达量提高会导致靶基因的表达量也上调,两者往往存在正相关关系。这个正相关关系,可以使用相关系数r^2来度量,这个数值在-1~1之间。总而言之,相关性可以理解为两个元素共同变化,步调一致。

类似的,连锁不平衡(LD)就是度量两个分子标记的基因型变化是否步调一致,存在 相关性 的指标。如果两个SNP标记位置相邻,那么在群体中也会呈现基因型步调一致的情况。比如有两个基因座,分别对应A/a和B/b两种等位基因。如果两个基因座是相关的,我们将会看到某些基因型往往共同遗传,即某些单倍型的频率会高于期望值。

例如在下图2中,在群体中(A,a,B,b)各个基因型的频率已知的情况下,各种单倍型的期望频率(AB、Ab、aB、ab)都是可以计算出来。例如,AB的频率=(A的频率)X(B的频率)。但我们实际统计群体中各个单倍型的频率的时候,会观察到某些单倍型的频率会大于期望值,例如下图中的单倍型AB的理论频率是0.12,但观察到的实际频率是0.29。那么说明,基因型A更倾向于基因型B共同遗传。

这一般往往是由于在祖先的基因组中,A和B就是位于同一条染色体上,在传代过程中,这种共同遗传的关系被保留了下来。位点间的这种相关性,在杂交家系中一般被称为连锁(孟德尔老师豌豆实验中的发现),在自然群体中则一般被称为连锁不平衡。所以连锁不平衡中的“不平衡”,我认为可以理解为单倍型的频率分布偏离期望值,偏离了平衡。

这种不同基因座间的相关性,用一个数值来衡量就是D值(图2中有计算公式)。类似相关系数是标准化后的协方差,LD系数(r 2)则是标准化后的D值(图2中有计算公式),这个数值在0~1波动。r 2=0就是两个位点完全不相关,群体中单倍型分布是随机的(观测值=期望值)。r^2=1就是两个位点完全相关,某些基因型(A)只与特定的基因型(B)共同出现。

一般而言,两个位点在基因组上离得越近,相关性就越强,LD系数就越大。反之,LD系数越小。也就是说,随着位点间的距离不断增加,LD系数通常情况下会慢慢下降。这个规律,通常就会使用LD衰减图来呈现。

图形的解读

LD衰减图就是利用曲线图来呈现基因组上分子标记间的平均LD系数随着标记间距离增加而降低的过程。大概的计算原理就是先统计基因组上两两标记间的LD系数大小,再按照标记间的距离对LD系数进行分类,最终可以计算出一定距离的分子标记间的平均LD系数大小。如图3是黄瓜重测序文章中统计各个亚群体的LD衰减速度的图形。横坐标是物理距离(kb),纵坐标是LD系数(r^2)。

从图中我们可以看出,西双版纳这个亚群体(紫色线)在基因组上50kb距离的平均LD系数大小约为0.4,但到了100kb的距离,对应的平均LD系数大小则降低到了不到0.3。而且,我们从图中也可以观察到LD系数的衰减速度在不同的亚群体快慢不同,衰减速度是 india > East Asian& Eurasian > Xishuanbanna。那说明india群体的LD衰减距离最小,可能是india这个群体遗传多样性最高导致。这句话该如何理解呢?

实际上,LD衰减的速度在不同物种间或同物种的不同亚群体间,往往差异非常巨大。所以,通常会使用1个标准——“LD衰减距离”来描述LD衰减速度的快慢。

LD衰减距离通常指的是:当平均LD系数衰减到一定大小的时候,对应的物理距离。

“一定大小”是这个定义的关键点,但没有特别统一的标准,在不同文章中标准不同。常见的标准包括:a)LD系数降低到最大值的一半;b)LD系数降低到0.5以下;c)LD系数降低到0.1以下;d)LD系数降低到基线水平(但注意,不同材料的基线值是不同的。比如图3黄瓜群体的基线大概是0.1)。

所以,下次你在文章中看到“LDdecay distance is XXkb”的时候,别忘了看看作者使用的标准是什么。

如图3所示, LD系数衰退速度会受到不同因素的影响而有所不同。常见的因素包括:

1)物种类型LD存在的本质是两个位点的连锁遗传导致的相关性。 但这种相关性理论上会随着世代的增加、重组次数的增加而不断下降。所以,那些繁殖力强、时代间隔短的物种(例如,昆虫),其LD衰减的速度是非常快的。例如在家蚕和野蚕群体中,LD系数下降到最大值的1/2仅仅需要46bp和7bp的距离[3]。

2)群体类型相同物种的不同群体,由于其遗传背景不同,LD衰减速度也存在很大的差异 。驯化选择,会导致群体遗传多样性下降,位点间的相关性(连锁程度)加强。所以,通常驯化程度越高,选择强度越大的群体,LD衰减速度是最慢的。例如,栽培稻比野生稻通常更大的LD衰减距离。类似的,自然选择、遗传漂变导致的群体遗传多样性下降,也会减慢LD衰减的速度。

3)在染色体的位置染色体不同区域的LD衰减距离而是不同的。 通常着丝粒区更难重组,所以LD衰减更慢。而基因组上那些受选择的区域相比普通的区域,LD衰减速度也是更慢的[3]。

LD衰减速度,在群体遗传分析中本身是对群体特性的评估,与群体类型的特性(自然群体还是驯化群体,选择强度大小)是相关的。但在其他研究中还有更多的应用价值。

基于分子标记(例如,SNP芯片,GBS测序)的GWAS分析,其实并没有检测到功能突变,本质就是利用标记和功能突变的相关性(LD关系),来检测与性状相关的功能突变的位置。一般而言,LD系数大于0.8就是强相关。如果LD系数小于0.1,则可以认为没有相关性。如果LD衰减到0.1这么大的区间内都没有标记覆盖的话,即使这个区间有一个效应很强的功能突变,也是检测不到关联信号的。所以,通常可以通过比较LD衰减(到0.1)距离和标记间的平均距离,来判断标记是否对全基因组有足够的覆盖度。

而如果GWAS检测到显著关联的区间后,则可以通过进一步绘制局部的LD单体型块图,来进一步判断显著相关的SNP和目标基因间是否存在强LD关系。这个图形我们下一篇文章会介绍。

再提一个应用的例子。在之前的文章中我们提到过,在进行STRUCTURE分析的时候理论上必须输入不相关的位点。那么,就可以通过预估LD衰减到0.1的距离,来判断标记间的距离必须大于多少才能保证标记间不具相关性(LD<0.1)。

3.绘制方法

LD衰减图的绘制,实际上有两个步骤:

1)计算marker间两两的LD系数大小

这个可以使用haploview软件完成。计算的时候,只要设定一个关键的参数:区间大小。例如设定为5Mb,那么软件就会计算基因组上所有距离<5Mb的两两位点间的LD系数。实际上这个参数设定更大也没有意义,一般情况下位点间的相关性不会延伸到大于5Mb这么远的距离。

2)绘图

将LD系数按照对应的两个marker间的距离进行分类,例如:距离按照区间大小0 5k,5k 10k,10k~15k…..分别分类。如果重测序的数据,SNP标记密度较大,这个分类区间可以设置小一些;如果是简化基因组数据,SNP标记较为稀疏,则分类区间可以适当加大。然后计算每种距离分类的LD系数的均值。最后在利用均值绘制曲线图就ok了。这一步的绘图,使用excel或R语言都可以轻松完成。




外显子和基因组基本概念(二)
在遗传学中,群体、家系和先证者等概念是研究遗传性疾病的基础。基因和等位基因是遗传的基本单位,基因型和等位基因频率的计算是遗传学分析的关键。哈迪-温伯格定律描述了遗传平衡状态,而连锁不平衡和平衡则反映了基因间的相互关联性。基因型多样性如复合杂合子,显示了隐性遗传疾病的复杂性。表型则是基因...

果蝇的性状为什么会出现连锁不平衡呢?
好问题,很容易被忽略。下面这张图比较了二者的区别。来源: 吉林大学生物基础实验教学中心《果蝇的遗传实验ppt课件》纠正下一些错误地回答。这两个是不同的性状,黑檀体的基因表示为e,而黑体为b,并且他们在染色体上的位置是不同的,可用此进行基因连锁分析,如下。来源: 吉林大学生物基础实验教学中心...

下列属于HLA复合体遗传特征的是()
下列属于HLA复合体遗传特征的是()A.连锁不平衡 B.多态性 C.共显性遗传 D.等位基因非随机表达 E.单体型 正确答案:连锁不平衡;多态性;共显性遗传;等位基因非随机表达;单体型

群体遗传分析方法:LD,FST,eQTL
LD(连锁不平衡):计算使用plink, FST(遗传分化指数):计算使用vcftools,可视化分为箱线图和散点图,单组比较使用在染色体上的散点图,多组比较使用箱线图。 FST的原理,计算方法,可视化的方法 https:\/\/www.jianshu.com\/p\/bb0beec0ed63 haploPS和XP-EHH 平均测序深度: 等位基因...

动物免疫学-4-MHC分子
MHC多态性的魅力在于复等位基因的丰富性、共显性的微妙平衡,以及连锁不平衡现象,这些都为遗传研究和疾病防治提供了宝贵的信息。MHC I类分子,由跨膜的α链(区分为α1、α2、α3区)和β2m共同构建,它如一道敞开的大门,敞开在多数细胞表面,等待CD8的识别,而MHC II类分子则由α、β链组成,与...

邬荣领学术成就
邬荣领在学术界取得了卓越的成就,尤其是在遗传学、统计学和生物学等多个核心领域。他的贡献体现在多个方面:他发展了功能作图理论,并将其成功应用到实际研究中,推动了遗传图谱的构建。 他的研究深入到了连锁与连锁不平衡的组合模型,以及多倍体连锁分析和QTL(Quantitative Trait Loci,数量性状位点)...

2021-01-27林木全基因组关联分析(GWAS)研究进展与展望
2、但由于林木家系作图大多基于F1, F2或BC1等低世代杂交群体, 遗传变异丰富度较低和染色体重组事件有限, 导致QTL作图分辨率低且其遗传效应往往被高估。3、基于自然群体或种质资源群体的关联遗传学(association genetics)策略的提出, 为解析数量性状的遗传基础提供了新的途径。4、关联分析又称连锁不平衡(...

群体遗传学进展
然而,随着测序技术的普及和计算机软件的发展,近十年来,这一领域取得了显著进步,相关研究论文数量逐年增长,研究内容涵盖了遗传结构的形成、突变、重组、连锁不平衡、选择等因素的影响,以及基因进化方式和群体间的遗传分化等。DNA序列变异是群体遗传学的基础,同源DNA的分化程度是衡量结构的关键指标。通过...

群体遗传(种群遗传、种群基因组)基础知识
近交系数和近交抑制是衡量基因流动与遗传平衡的重要指标,它们揭示了近亲繁殖如何影响等位基因频率,以及对子代适应性的影响。而连锁不平衡,通过D值,揭示了物理关联、自然选择和突变如何影响配子频率的平衡状态。在现实世界中,我们通过遗传标志分析来揭示未知亲本的线索,但采样难题和群体结构的复杂性,使这...

缺失基因型填充
1.连锁不平衡:两个等位基因如果恰好在同一条染色体上,那么它们在遗传给子代的时候就不是随机分配的了,基本上在一起传递,我们就称两个基因是存在连锁关系的,基因在遗传时出现连锁的现象就叫做连锁不平衡。 2.单倍型:单倍体基因型的简称,指同一染色体上若干个决定同一性状的紧密连锁的基因构成的基因型,单倍型可以指...

平湖市19167228547: 如何计算连锁不平?如何计算连锁不平衡
栋卖儿童: LD值 D' R2 计算 几个遗传学基本概念 1. 连锁不平衡 2. linkerd dimorphisms 3. 单倍型 4. 基因型的频率是如何计算的?(公式) 5. 等位基因的频率如何计算出来的...

平湖市19167228547: 基因中什么叫作连锁不平衡,什么叫连锁 -
栋卖儿童:[答案] 基因A与基因B位于同一条染色体上,在减数分裂时进入同一子细胞,通俗的说就是:“基因A与基因B总是在一起”,这种现象就称为连锁. 如果在减数分裂的联会时期,同源染色体非姐妹染色单体发生了交叉互换,使得产生的子细胞中不完全是“...

平湖市19167228547: 连锁不平衡为啥指的是同一条染色体的等位基因 -
栋卖儿童: 连锁不平衡为啥指的是同一条染色体的等位基因 减数分裂的交叉互换是指同源染色体上非姐妹染色单体发生互换“对应部分”. 1、一般是指互换一个基因片段,如果这两个“对应部分”完全相同(比如:A和A),其效果和未互换一样,如果是等位基因(比如:A和a)则效果不同,即发生了基因重组.即等位基因发生了互换,这样和这一条染色体上的另一个基因就重新组合到一条染色体上了. 如图: 2、四分体时期,靠得最近的两个非姐妹染色单体最容易“纠缠不清”而发生互换. 3、等位基因就是指位于一对同源染色体上的相同位置上的控制相对性状的基因.如B和b ;A和a就是等位基因,而A和A B和B就不是等位基因.

平湖市19167228547: 影响群体连锁不平衡的因素有哪些 -
栋卖儿童: 1.年龄 2.人群规模 3.程序 4.人际关系

平湖市19167228547: 什么是连锁基因 -
栋卖儿童: 连锁基因是指两对(或两对以上)的等位基因位于同一对同源染色体上,在遗传时位于同一个染色体上的不同(非等位)基因常常连在一起不相分离,进入同一配子中.

平湖市19167228547: 连锁不平衡 :指分属两个或两个以上基因座位的等位基因同时出现在一...
栋卖儿童: 遗传分析仍是当前对致病相关基因识别、鉴定的主要方法,分为连锁分析和关联研究两种.由于人类基因组多态性的研究以及SNP分型技术的发展,目前全基因组连锁分析和关联研究亦变得切实可行.根据研究规模的大小,可以将疾病遗传分析...

平湖市19167228547: 什么是连锁作图和关联作图以及这两种基因作图方法的原理步骤和影响精确度的因素 -
栋卖儿童: 水稻若干性状的关联作图和连锁作图分析 李小白 【摘要】:产量和收获指数等相关农艺性状以及一些抗病性状皆受数量基因的控制.分析这些性状的遗传基础对利用分子辅助选择来改良目标性质而言是极其重要的.遗传作图是分析性状遗传基...

平湖市19167228547: 什么是基因组扫描
栋卖儿童: 全基因组扫描 遗传分析仍是当前对致病相关基因识别、鉴定的主要方法,分为连锁分析和关联研究两种.由于人类基因组多态性的研究以及SNP分型技术的发展,目前全基因组连锁分析和关联研究亦变得切实可行.根据研究规模的大小,可以...

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网