动植物重测序--全基因组关联分析GWAS

作者&投稿:在泥 (若有异议请与网页底部的电邮联系)
~ GWAS(Genome-wide association study)是对遗传多样性丰富的自然群体的每个个体进行基因组测序,结合目标性状的表型数据,基于一定的统计方法进行全基因组关联分析,可以快速获得影响目标性状表型变异的染色体区段或基因位点。

当然,GWAS可以应用于人的表型分析,这里暂时先说动植物的。

GWAS已经发表的物种:玉米水稻拟南芥大豆毛果杨番茄果蝇白虎疟原虫等,物种很丰富。因为不需要构建家系群体,像BSA遗传图谱还得杂交自交,作物植物之类的只杂交养大就得小半年时间,GWAS就直接采集自然群体就好也可以多地采样,这样变异范围广一些,做出来的结果适用性也比较强;其次就是一次性可以定位多个性状,基本是唯一的一个用于自然样本性状定位的分析方法;定位精度也高,可以直接获得与目标性状相关的基因。

①样本选择:自然群体,可以多品种多地域取样,原则上样本间不能有明显的亚群分化(例如生殖隔离等)即遗传背景差异小,如果样本间存在亚群分化,则每个亚群建议样本量在200个以上;

②样本数量:≥300个个体,每种性状能记录到表型的植株数尽量保证在200株以上;

③测序策略:有参选择WGS,无参选择简化基因组,测序数据量10x,如果样本数量很多500个样本以上,测5x即可。

※※另外非常重要的一点, 前期对采集样本的表型记录一定要准确详细 ,因为分析中要用到表型数据所以表型的记录也会对分析结果产生影响,原因:每次计算为单表型 GWAS 分析,在当前表型中,缺失样本不参与此次分析,导致有效个体数目减少;GWAS 通过统计模型找出影响表型差异的 SNP 及基因,记录不准确的话,可能会导致找到的SNP 或基因有很大的假阳性。

表型选择:生育期 叶子果实大小 枝茎长短弯曲程度 花瓣果实品质含糖量 抗病抗虫抗逆性,除此之外,基因的表达量也可作为表型分析叫做eWAS,代谢物类型也可叫做mWAS,只有想不到没有做不到。

分析流程其他软文有很多讲过的,我就不班门弄斧了,我把链接放在文末供参考。

1、家系样本是否可以进行 GWAS 分析?

通常禽类研究选择半同胞家系(由同父异母或异父同母所生子女的集合体成为半同胞家系)或全同胞家系(由同父同母所生子女的集合体称为全同胞家系)。理论上,其他动物也可以选择表型多样性丰富的家系样本进行GWAS 研究, 优先推荐选用 F2代群体。如果老师的 F2 代群体样本数少,也可以将 F1 代和 F2 代作为一个研究群体,在后续GWAS 分析过程中会有 KINSHIP(亲缘关系矩阵)去校正模型。

2、是否 GWAS 样本的表型分布必须呈现正态分布?

对于数量性状所选择的个体,在表型上尽量呈正态分布;若无法取到完全正态分布的样本的性状, 针对该类性状,在后续分析过程中采用非正态分布性状的分析方法对其进行校正,以保证分析结果的可靠性。

3、是否一定要超过 200 个样本才能进行 GWAS 分析?

基于 GWAS 文章中的样本数和我们的项目经验,推荐选取 200 个以上的样本,以尽可能保证分析结果的可靠性。但是对于一些珍稀的物种研究,材料相对稀少且难以获得,如老虎,熊猫,金丝猴等,可适当减少样本个数。 如果研究内容是由单基因控制的性状,其实材料少也可以得到不错的结果。但如果是复杂性状,少量样本的关联分析结果不可信。

4、如何降低分析结果的假阳性?

在全基因组关联分析中,前期对样本的采集情况(表型分布均匀,环境一致)会对后续分析的假阳性结果存在最大的影响,在分析过程中会采用如下方法降低分析结果的假阳性:a)结合群体分层信息,利用混合线性模型,对结果进行校正; b)必要时还会采取多种线性模型进行分析降低假阳性;c)采用 Bonferroni 校正法来校正 GWAS 分析中多重假设检验后的 P 值可以降低假阳性的概率。因此,前期对样品的采集及表型的记录需要准确详细。

5、得到的结果如何验证?

a)已发表的本物种或相近物种的QTL或基因比较分析;b)若没有已发表的,可通过家系群体QTL分析进行验证;c)结合转录组或者表达谱分析,验证相关区域或者位点调控的通路信息。

参考学习:

1、 全基因组关联分析 (GWAS) - 简介

2、 全基因组关联分析学习资料(GWAS tutorial)


为什么拟南芥被定为测试基因组全序列的第一种植物?
第一:拟南芥的优点是植株小、每世代繁殖时间短、结实多、生活力强培育方便简单。第二:拟南芥的基因组是目前已知植物基因组中最小的。因此研究其全基因组及克隆基因都相对容易。第三:拟南芥是自花受粉植物,基因高度纯合,用各种理化因素处理拟南芥,容易获得突变型。因此拟南芥被选定为第一种模式植物。

Nature Plants | 中国科学院植物研究所葛颂研究组证实水稻是多次起源...
针对这一争议,中国科学院植物研究所葛颂研究组基于1578份水稻和野生稻样本的重测序数据,采用一种新的分析策略,探讨了亚洲稻的起源和驯化历史。研究首先厘清了水稻和野生稻的群体遗传结构和群体动态历史,发现水稻包括6个品种群(indica, aus, rayada, aromatic, temperate japonica和tropical japonica),...

我研究的植物,其基因组测序就要完成了,我能做哪些研究?
1、常规sanger测序:cDNA文库构建,EST测序,菌液测序,PCR产物测序,T载体克隆测序 2、基因序列分析:引物设计合成,全基因合成,多肽合成,SNP多态性分析,外显子测序,STR\/SSR检测分析,稳定细胞株筛选,载体构建与表达 3、核酸提取:植物,动物,细菌等各种组织DNA、RNA提取 4、分子检测:Real-time PC...

如何根据基因测序分析结果找通路
对230份亚洲棉和13份草棉重测序,进行基因组比对、系统发育树、群体结构分析、PCA、LD和选择性清除分析得出亚洲棉和草棉(A)与雷蒙德氏棉同时进行了分化;亚洲棉起源于中国南部,随后被引入长江和黄河地区,大多数具有驯化相关特性的种质都经历了地理隔离(图2)。图2 二倍体棉群体进化和群体结构分析 ...

什么是基因测序?有什么应用?
基因测序是一种新型基因检测技术百,能够从血液或唾液度中分析测定基因全序列,预测罹患多种疾病的可能性,个体知的行为特征及行为合理。基因测序技术能锁定个人病变基因,提前预防和治道疗。基因测序相关产品和技术已由实验室专研究演变到临床使用,可属以说基因测序技术,是下一个改变世界的技术。 基因检测有什么用?第一...

植物转录因子研究利器:DAP-seq实验分析流程及案例分享
非植物样本理论上可行,但由于DAP是植物的表达系统,无法保证后续结果。另外,非转录因子的蛋白也不保证后续结果。2. 具体步骤主要步骤包括DNA文库构建、蛋白表达、蛋白与文库的结合反应、文库PCR加接头及定量检测、上机测序、生信分析等。(1)组织材料的全基因组 DNA 提取,并构建 DNA 文库;(2)构建...

植物基因组怎么测序
与植原体相关的质粒首先在玉米丛生植原体中报道。直到最近,已经报道了23种来自各种植原体菌株的质粒并进行了测序。植原体是一种特殊的多形性无细胞壁的细菌,寄生在植物的韧皮部筛管中,可以通过昆虫进行传播,引起世界范围内数百种植物发生病害,其中包括一些重要的经济作物,如小麦,玉米,花生等,造成...

世界首个茶树基因组测序研究是何时开始的?
根据报道,2017年3月初中中国科学院昆明植物研究所3名中科院院士吴征镒、周俊、孙汉董的大力推动下,一个在世界生物学界和推动普洱茶产业发展上均具有重大意义和经济价值的科研创新项目世界上第一个茶树基因组测序计划已在昆明正式启动。据介绍,首创开展的对云南大叶茶的全基因组测序,是继人类开展人类基...

城市环境研究所朱永官院士团队在植物特性调控叶际微生物组中取得进展...
中国科学院城市环境研究所朱永官院士团队在土壤-植物系统微生物生态研究领域取得重大突破。<\/他们以蔬菜作为研究焦点,通过高通量测序、全基因组测序等尖端技术,深入探究原生生物群落的动态特性及其与病原菌的微妙关系。林晨烁博士生的卓越贡献使得成果得以发表在权威期刊ISME Communications和Environmental ...

高通量测序技术与转基因分子特征
4、高通量测序技术解析转基因分子特征平台都有哪些?目前可用于转基因测序分析的测序平台主要有Roche\/455,Illumina HisSeq,Solid,Heliscope,以及三代测序平台PacBio SMRT,Nanopore纳米孔测序等等。不同的测序具有不同优势。5、基于高通量测序技术的转基因生物分子特征分析方法都有哪些?(1)基于全基因组...

东市区13158093995: 全基因组测序,有必要做吗 -
错乳安痛: 人类基因组大小3G, 重测序一般需要测定至少20x以上的数据(数据乘数高的话对于信息分析是有利的),也就是说一般需要测定60G的数据,如果1G按照5000元算的话,需要30万元. 全基因组重测序是对已知基因组序列的物种进行不同个体的基因组测序,并在此基础上对个体或群体进行差异性分析.基于全基因组重测序技术,人们可以快速进行资源普查筛选,寻找到大量遗传变异,实现遗传进化分析及重要性状候选基因的预测.随着测序成本降低和拥有参考基因组序列物种增多,全基因组重测序成为动植物育种和群体进化研究迅速有效的方法.

东市区13158093995: gwas和全基因组重测序的区别 -
错乳安痛: 基于第二代高通量测序技术,对于有参考序列的物种,针对不同的真菌菌株,可通过全基因组重测序的方法获得全基因组范围内完整的变异信息,讨论群体的遗传结构、影响群体遗传平衡的因素以及物种形成的机制,定位重要性状位点,为后续...

东市区13158093995: 全基因组重测序的技术路线 -
错乳安痛: 提取基因组DNA,利用Covaris进行随机打断,电泳回收所需长度的DNA片段(0.2~5Kb),加上接头, 进行cluster制备 (Solexa)或E-PCR (SOLiD),最后利用Paired-End(Solexa)或者Mate-Pair(SOLiD)的方法对插入片段进行重测序.图1-1,...

东市区13158093995: 如何去锁定或初步筛选研究相关snp位点 -
错乳安痛: 这个要看研究的对象了1. 如果是单基因遗传,二代测序这个比较好做,特别是那种罕见遗传的疾病,可以通过外显子测序(因为罕见遗传病大部分都是外显子的突变造成的),对一个家系的几个个体进行测序,筛选低频突变,随后找那种能改变蛋白功能的突变,最后做共分离分析. 2. 如果是多基因病或者质量性状定位,那么2个方法,1,全基因组关联分析GWAS,用散发型个体,做关联分析.不过这种方法要的样本量比较大,一般都要大几百个,多的都要好几千. 2.基因家系的连锁分析,这个主要是定位,然后在后续做一些东西,一般用芯片或者全基因组重测序或者简化基因组测序.

东市区13158093995: 如何查找某一菌株的全基因组数据 -
错乳安痛: UCSC上有,输入基因名,选对物种即可

东市区13158093995: 现在已经有了物种全基因组测序,该怎么对该物种每个基因进行分析呢? -
错乳安痛: 这个问题要是能够完美回答就没有那么多国内外生物学家仍在努力奋斗了.事实上,全基因测序得到就如一本“天书”,我们还是像以前那样,比如研究某个基因,任然要做很多实验,各个层次的,分子的蛋白的,研究基因产物的功能结构,和...

东市区13158093995: 重测序比较两个样品之间的差异,为什么要跟参考基因 -
错乳安痛: 基因组调研图研究是对于没有基因组参考序列的物种,基于小片段文库的低深度测序数据,可以有效地评估基因组大小、GC含量、杂合度高低以及重复序列含量等信息,是全面了解某一物种基因组特征的有效方法;此外,通过基因组调研分析...

东市区13158093995: snp标记怎样判断有具备多态性 -
错乳安痛: SNP是分布在动物基因组中非常常见的一种分子标记.在人体中每1000bp就可能有一个SNP.需找SNP的目的是为了做连锁分析,在现在先进的技术里,还可以做全基因组关联分析(GWAS).然后说说标签SNP,这个涉及到单倍型的问题(...

东市区13158093995: 什么是Sanger测序,sanger测序的应用领域,Sanger测序的优势 -
错乳安痛: 被检测的DNA碱基顺序依次读出800bp以上,sanger测序是一代所有测序和新一代所有测序的金标准,即:目前所有基因检测的国际金标准,是包括荧光定量PCR Taqman探针法、普通PCR法、芯片法、二代测序法、质谱法等方法的金标准. ...

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网