浅析GENIE3基因调控网络推断

作者&投稿:单鲁 (若有异议请与网页底部的电邮联系)
~

GENIE3 ( GE ne N etwork I nference with E nsemble of tree s), 使用基于树的集成学习算法,来通过基因表达数据来推断基因调控网络。

GENIE3内置了两种基于树的集成学习算法,Random Forests 和Extra-Trees. 集成学习,组合多个相对较弱的学习算法以期获得更好的性能。随机森林则是有多个决策树来构成的。水平有限,本文将简单讲解Random Forests,随机森林如何应用于基因调控网络的推断。

首先先介绍一下决策树, 它是基于if-then-else 规则的学习算法。举一个例子,假设我们想知道基因表达量是否受组蛋白修饰的影响,于是我们可以获取这些数据:

Chip-seq测序分析而来的组蛋白修饰数据,比如H3K4me1, H3K36me3, H3K27ac。和RNA-Seq分析得到基因基因表达量数据。然后我们通过分析整理得出一张组蛋白修饰富集区域和相应区域所在基因的表达量变化的一张表格。

表格中0代表没有显著富集,1代表在gene所在位置有显著富集, up,down分别表示对应基因表达量是上调还是下调。当然上面这个数据,是我故意编的,与实际数据应该差得很远,不作真,仅为方便演示。然后我们就可以根据组蛋白修饰富集情况来得出一个简单的决策树:

类似上面这种,根据一些条件,来判断类别的应用称为分类。比如一个课题组坑不坑;一个西瓜是好还是坏;明天是下雨,下雪,还是下东海,等。

不过,当前我们要讨论的是基因间的调控关系, 在生物体内,基因调控机制是复杂的,一个基因受多个转录因子调控,一个转录因子调控多个基因。我们不能简单的判断一个基因是否调控另一个基因。我们还需要考虑转录因子和靶基因的调控关系。

这种调控关系,我们采用回归的方式来获取。回归用于预测连续的、具体的数值。比如根据房子大小,位置,楼层,朝向,来预测房子的售价;根据靶基因的多个转录因子基因表达量来预测靶基因的表达量。

上图中,gene1,2,3是转录因子, gene4是受gene1,2,3调控的靶基因。从上图决策树可以看出,gene4的表达受gene1,2,3的调控作用。它是一个很简单的回归树。gene1,2,3对gene4的调控作用不一,从而可以得到不同重要性分数。

私以为,上图回归树思想为GENIE3用于构建调控网络关系的重要原因之一。当然作者没直接用回归决策树,而是使用基于决策树的集成学习算法,当然是因为决策树有缺点了。不过基本调控关系的构建思想还是回归树了。

还有必须提及的是,上面的例子是我自定义的,决策树是手动构建的,比如分类的例子中,第一次选择H3K36me3是否富集作为分类标准,第二次选择H3K4me1是否富集作为分类标准等。在回归的例子中,第一次分类选择Gene3是否<1000来作为分类标准,第二次又选择什么作为分类标准。

这在实际使用决策树时,并不是人为选择的,实际应用中,通常输入属性或特征有几百上千上万的都有。在基因调控关系构建过程中,也是选择几百个转录因子作为输入的,预测靶基因的。这并不是人为选择,而是通过算法计算挑选而来的。 决策树中同一数据 ,使用了不同的分类标准,谁先谁后,画出的树不一样,最后的效果都是不一样的。不过这也不是本文重点,就不在提及,感兴趣的童鞋可以区搜索“决策树 CART”。

三个臭皮匠,顶个诸葛亮。由于单使用一个决策树,来进行预测。其结果容易受异常值的影响,且容易发生过拟合(虽然GENIE3,不通过训练模型,来预测新的调控关系,但是如果过拟合发生,则可能会得出错误的调控关系)。所以随机森林(RF)整合多个决策树,综合考虑不同决策树的输出结果,来得到最终结果。

随机森林的随机体现在两个方面:

这样的随机避免了异常样本,或特征对结果的影响。最终结果将参考所有决策树的输出结果,在分类任务,可通过投票来决定最终的结果属于哪一类。在回归任务中,可以将决策树的输出结果进行平均。

如果明白前面回归树来预测靶基因表达量,下面的图片就好理解了。

上图中 Expression data 是行为样本,列为基因。这与GENIE3的R包的输入(行为基因,里为样本)是不一致的,但这没什么关系,因为R包里会将输入转置再进行运算的。

图中有G个基因,将会以每个基因作为输出(靶基因表达量),其余基因作为输入(调控基因表达量)来构建G个随机森林模型。进而计算每一个模型中,每个调控基因对靶基因的重要性,从而得出它们之间的调控关系。然后根据所有模型的调控关系进行排序。

有一点需要注意的是,在上图中,是将除挑选为靶基因以外的所有基因都作为输入基因(regulatory genes)。然而作者建议指定regulatory genes, 这时,当挑选的靶基因不在regulatory genes时,输入基因都是regulatory genes,当挑选的靶基因在regulatory genes时,输入基因是除台挑选靶基因意外的其余regulatory genes.

GENIE3的使用简单,参考文档 https://bioconductor.org/packages/release/bioc/vignettes/GENIE3/inst/doc/GENIE3.html

GENIE3有Python版本和R版本,熟悉这两种语言的童鞋,可以去看一下源码。

有些东西没写,有些也没写清楚。以后再改一下吧~




pokegenie安卓安卓APK如何下载
poke genie手机版简介:poke genie—安全,准确,快捷—是成为超强pokemon go训练师的必备工具。强大的自动文字识别使精确的iv值查询易如反掌。只需打开精灵页面,按下poke genie悬浮按钮即可获得iv结果。不需要手动输入任何资料。软件亮点:1、宝可梦图鉴2、免登入,从荧幕直接计算iv和pvpiv。零风险!3、...

pokegenie安卓安卓游戏如何下载
poke genie手机版简介:poke genie—安全,准确,快捷—是成为超强pokemon go训练师的必备工具。强大的自动文字识别使精确的iv值查询易如反掌。只需打开精灵页面,按下poke genie悬浮按钮即可获得iv结果。不需要手动输入任何资料。软件亮点:1、宝可梦图鉴2、免登入,从荧幕直接计算iv和pvpiv。零风险!3、...

pokegenie怎么设置中文如何下载
poke genie手机版简介:poke genie—安全,准确,快捷—是成为超强pokemon go训练师的必备工具。强大的自动文字识别使精确的iv值查询易如反掌。只需打开精灵页面,按下poke genie悬浮按钮即可获得iv结果。不需要手动输入任何资料。软件亮点:1、宝可梦图鉴2、免登入,从荧幕直接计算iv和pvpiv。零风险!3、...

索尼Z3哪些系统软件可以删除
DualShockManager 链接PS3 PS4手柄的(可删,不建议删)EnchantedForest 动态壁纸:魔法森林(可删)ExperienceFlow2LiveWallpaper Xperia动态壁纸(可删)ExternalKeyboardJP 日文键盘布局(可删)ExternalKeyboardInternational 国际键盘布局(可删,不建议删)FaceLock 面部解锁(可删)Galaxy4 动态壁纸:黑洞(可删)GenieWidget 谷歌...

余姚市18579423203: 全息医学的第一节 全息医学基本理论 -
秘研迁迪: 20世纪80年代,古老的中华大地上,诞生了《宇宙全息统一论》这一融自然科学、社会科学、思维科学和哲学为一体的新兴学科.特别是在医学中的应用更是令人注目.将全息论的诸多规律如宇宙全息律、生物全息律、时间全息律等应用到医疗...

余姚市18579423203: 基因调控网络的动力学及其演化方面的建模需要什么计算机方面的知识 -
秘研迁迪: 本文的主要工作如下. 提出了交通流驱动机制、双向选择机制和双向吸引机制,建立了一系列权重网络演化模型,重现了实际权重网络中所观察到的节点权重、边权重和连接度的幂率特性,以及小世界特性、节点度和权重的非线性相关性等

余姚市18579423203: 如何研究基因调控信号通路 -
秘研迁迪: 代谢通路:目前在通路数据库(PATHWAY database) 中代谢通路是建立得最好的,有大约90个参考代谢途径的图形.每个参考代谢途径是一个由酶或EC号组成的网络.利用如下方法可通过计算机构建出生物体特有 的代谢通路:先根据基因的序列相似性和位置相关性确定基因组中酶的基因.然后合理地安排EC号.最后将基因组中的基因和参照通路中用EC号编号的基因产物 结合起来.

余姚市18579423203: 怎样理解基因表达是一个完整复杂的网络调控过程 -
秘研迁迪: 基因调控是现代分子生物学研究的中心课题之一.因为要了解动植物生长发育规律.形态结构特征及生物学功能,就必须搞清楚基因表达调控的时间和空间概念,掌握了基因调控机制,就等于掌握了一把揭示生物学奥秘的钥匙.基因表达调控主要表现在以下几个方面:①转录水平上的调控;②mRNA加工、成熟水平上的调控;③翻译水平上的调控;基因表达调控的指挥系统有很多种,不同生物使用不同的信号来指挥基因调控.原核生物和真核生物之间存在着相当大差异.原核生物中,营养状况、环境因素对基因表达起着十分重要的作用;而真核生物尤其是高等真核生物中,激素水平、发育阶段等是基因表达调控的主要手段,营养和环境因素的影响则为次要因素.

余姚市18579423203: 为什么说物理学不是一门学科 -
秘研迁迪: 启示:物理系统的相变,比如冰和水蒸气之间的相变,能够让你更深入地了解其他科学问题,包括进化.这是有些道理的.例如,许多物理学家会告诉你这样的故事:对于物理学家在生物学领域的努力,生物学家是如何不屑一顾的,他们会认为...

余姚市18579423203: 真核生物基因表达调控有哪些环节 -
秘研迁迪: 真核生物基因表达调控与原核生物有很大的差异.原核生物同一群体的每个细胞都和外界环境直接接触,它们主要通过转录调控,以开启或关闭某些基因的表达来适应环境条件(主要是营养水平的变化),故环境因子往往是调控的诱导物.而大...

余姚市18579423203: 生命科学发展方向,急!!!!! -
秘研迁迪: (一):GTL计划分析 上个世纪分子生物学的突破性成果成为生命科学的生长点,使生命科学在自然科学中的位置起了革命性的变化;蛋白质、酶、核酸等生物大分子的结构、功能和相互关系的揭示为研究生命现象的本质和活动规律奠定了理论...

余姚市18579423203: miRNA表达谱的生物信息学分析有哪些方面的内容 -
秘研迁迪: 归一化 microRNA芯片采用的归一化的方法为quantile normalization,loess normalization. 差异基因筛选 microRNA的差异筛选,同表达谱的筛选方法是一致的,参见表达谱的差异基因筛选. miRNA靶基因预测 microRNA结合在靶基因的3' UTR...

余姚市18579423203: 生殖是生物体什么向什么传递遗传信息的过程,是生物的 -
秘研迁迪: 试题答案:【答案】(1)遗传;生殖;遗传;变异;(2)小;性状;无性生殖;同一亲本;有性生殖;不同的亲本;(3)从简单到复杂;从低等到高等;从水生到陆生. 试题解析:【解析】试题分析:(1)亲子代之间的在性状上相似性叫遗传...

余姚市18579423203: 遗传信息是指 -
秘研迁迪: 果断选B. 遗传信息中的DNA范围要远大于具有遗传效应的DNA范围(前者在包含了“能够直接指导或间接调控蛋白质合成的碱基序列”的基础上还包含了“不能够直接指导或间接调控蛋白质合成的碱基序列”),再加上我们平时对“DNA”的定义以及理解来看(即所有DNA分子是可以复制并传递给下一代的),DNA片段都具有遗传信息,但不一定具有遗传效应. 综上,没有遗传效应的DNA片段可以具有遗传信息.

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网