基因序列优化的意义是什么?

作者&投稿:靳赖 (若有异议请与网页底部的电邮联系)
生物序列比对的研究意义是什么?~

序列比较是生物信息学中最基本、最重要的操作,通过序列比对可以发现生物序列中的功能、结构和进化的信息。序列比较的根本任务是:通过比较生物分子序列,发现它们的相似性,找出序列之间共同的区域,同时辨别序列之间的差异。在分子生物学中,DNA或蛋白质的相似性是多方面的,可能是核酸或氨基酸序列的相似,可能是结构的相似,也可能是功能的相似。一个普遍的规律是序列决定结构,结构决定功能。研究序列相似性的目的之一是,通过相似的序列得到相似的结构或相似的功能。这种方法在大多数情况下是成功的,当然,也存在着这样的情况,即两条序列几乎没有相似之处,但分子却折叠成相同的空间形状,并具有相同的功能。这里先不考虑空间结构或功能的相似性,仅研究序列的相似性。研究序列相似性的另一个目的是通过序列的相似性,判别序列之间的同源性,推测序列之间的进化关系。这里,将序列看成由基本字符组成的字符串,无论核酸序列还是蛋白质序列,都是特殊的字符串.
http://www.lmbe.seu.edu.cn/chenyuan/xsun/bioinfomatics/Web/CharpterThree/3.1.htm

1.2 遗传算法的原理
遗传算法GA把问题的解表示成“染色体”,在算法中也即是以二进制编码的串。并且,在执行遗传算法之前,给出一群“染色体”,也即是假设解。然后,把这些假设解置于问题的“环境”中,并按适者生存的原则,从中选择出较适应环境的“染色体”进行复制,再通过交叉,变异过程产生更适应环境的新一代“染色体”群。这样,一代一代地进化,最后就会收敛到最适应环境的一个“染色体”上,它就是问题的最优解。


一、遗传算法的目的
典型的遗传算法CGA(Canonical Genetic Algorithm)通常用于解决下面这一类的静态最优化问题:
考虑对于一群长度为L的二进制编码bi,i=1,2,…,n;有
bi∈{0,1}L (3-84)
给定目标函数f,有f(bi),并且
0<f(bi)<∞
同时
f(bi)≠f(bi+1)
求满足下式
max{f(bi)|bi∈{0,1}L} (3-85)
的bi。
很明显,遗传算法是一种最优化方法,它通过进化和遗传机理,从给出的原始解群中,不断进化产生新的解,最后收敛到一个特定的串bi处,即求出最优解。


二、遗传算法的基本原理
长度为L的n个二进制串bi(i=1,2,…,n)组成了遗传算法的初解群,也称为初始群体。在每个串中,每个二进制位就是个体染色体的基因。根据进化术语,对群体执行的操作有三种:
1.选择(Selection)
这是从群体中选择出较适应环境的个体。这些选中的个体用于繁殖下一代。故有时也称这一操作为再生(Reproduction)。由于在选择用于繁殖下一代的个体时,是根据个体对环境的适应度而决定其繁殖量的,故而有时也称为非均匀再生(differential reproduction)。
2.交叉(Crossover)
这是在选中用于繁殖下一代的个体中,对两个不同的个体的相同位置的基因进行交换,从而产生新的个体。
3.变异(Mutation)
这是在选中的个体中,对个体中的某些基因执行异向转化。在串bi中,如果某位基因为1,产生变异时就是把它变成0;反亦反之。
遗传算法的原理可以简要给出如下:
choose an intial population
determine the fitness of each individual
perform selection
repeat
perform crossover
perform mutation
determine the fitness of each individual
perform selection
until some stopping criterion applies
这里所指的某种结束准则一般是指个体的适应度达到给定的阀值;或者个体的适应度的变化率为零。
三、遗传算法的步骤和意义
1.初始化
选择一个群体,即选择一个串或个体的集合bi,i=1,2,...n。这个初始的群体也就是问题假设解的集合。一般取n=30-160。
通常以随机方法产生串或个体的集合bi,i=1,2,...n。问题的最优解将通过这些初始假设解进化而求出。
2.选择
根据适者生存原则选择下一代的个体。在选择时,以适应度为选择原则。适应度准则体现了适者生存,不适应者淘汰的自然法则。
给出目标函数f,则f(bi)称为个体bi的适应度。以

(3-86)


为选中bi为下一代个体的次数。
显然.从式(3—86)可知:
(1)适应度较高的个体,繁殖下一代的数目较多。
(2)适应度较小的个体,繁殖下一代的数目较少;甚至被淘汰。
这样,就产生了对环境适应能力较强的后代。对于问题求解角度来讲,就是选择出和最优解较接近的中间解。
3.交叉
对于选中用于繁殖下一代的个体,随机地选择两个个体的相同位置,按交叉概率P。在选中的位置实行交换。这个过程反映了随机信息交换;目的在于产生新的基因组合,也即产生新的个体。交叉时,可实行单点交叉或多点交叉。
例如有个体
S1=100101
S2=010111
选择它们的左边3位进行交叉操作,则有
S1=010101
S2=100111
一般而言,交叉幌宰P。取值为0.25—0.75。
4.变异
根据生物遗传中基因变异的原理,以变异概率Pm对某些个体的某些位执行变异。在变异时,对执行变异的串的对应位求反,即把1变为0,把0变为1。变异概率Pm与生物变异极小的情况一致,所以,Pm的取值较小,一般取0.01-0.2。
例如有个体S=101011。
对其的第1,4位置的基因进行变异,则有
S'=001111
单靠变异不能在求解中得到好处。但是,它能保证算法过程不会产生无法进化的单一群体。因为在所有的个体一样时,交叉是无法产生新的个体的,这时只能靠变异产生新的个体。也就是说,变异增加了全局优化的特质。
5.全局最优收敛(Convergence to the global optimum)
当最优个体的适应度达到给定的阀值,或者最优个体的适应度和群体适应度不再上升时,则算法的迭代过程收敛、算法结束。否则,用经过选择、交叉、变异所得到的新一代群体取代上一代群体,并返回到第2步即选择操作处继续循环执行。
图3—7中表示了遗传算法的执行过程。

图3-7 遗传算法原理
1.3 遗传算法的应用
遗传算法在很多领域都得到应用;从神经网络研究的角度上考虑,最关心的是遗传算法在神经网络的应用。在遗传算法应用中,应先明确其特点和关键问题,才能对这种算法深入了解,灵活应用,以及进一步研究开发。
一、遗传算法的特点
1.遗传算法从问题解的中集开始嫂索,而不是从单个解开始。
这是遗传算法与传统优化算法的极大区别。传统优化算法是从单个初始值迭代求最优解的;容易误入局部最优解。遗传算法从串集开始搜索,复盖面大,利于全局择优。
2.遗传算法求解时使用特定问题的信息极少,容易形成通用算法程序。
由于遗传算法使用适应值这一信息进行搜索,并不需要问题导数等与问题直接相关的信息。遗传算法只需适应值和串编码等通用信息,故几乎可处理任何问题。
3.遗传算法有极强的容错能力
遗传算法的初始串集本身就带有大量与最优解甚远的信息;通过选择、交叉、变异操作能迅速排除与最优解相差极大的串;这是一个强烈的滤波过程;并且是一个并行滤波机制。故而,遗传算法有很高的容错能力。
4.遗传算法中的选择、交叉和变异都是随机操作,而不是确定的精确规则。
这说明遗传算法是采用随机方法进行最优解搜索,选择体现了向最优解迫近,交叉体现了最优解的产生,变异体现了全局最优解的复盖。
5.遗传算法具有隐含的并行性
遗传算法的基础理论是图式定理。它的有关内容如下:
(1)图式(Schema)概念
一个基因串用符号集{0,1,*}表示,则称为一个因式;其中*可以是0或1。例如:H=1x x 0 x x是一个图式。
(2)图式的阶和长度
图式中0和1的个数称为图式的阶,并用0(H)表示。图式中第1位数字和最后位数字间的距离称为图式的长度,并用δ(H)表示。对于图式H=1x x0x x,有0(H)=2,δ(H)=4。
(3)Holland图式定理
低阶,短长度的图式在群体遗传过程中将会按指数规律增加。当群体的大小为n时,每代处理的图式数目为0(n3)。
遗传算法这种处理能力称为隐含并行性(Implicit Parallelism)。它说明遗传算法其内在具有并行处理的特质。
二、遗传算法的应用关键
遗传算法在应用中最关键的问题有如下3个
1.串的编码方式
这本质是问题编码。一般把问题的各种参数用二进制编码,构成子串;然后把子串拼接构成“染色体”串。串长度及编码形式对算法收敛影响极大。
2.适应函数的确定
适应函数(fitness function)也称对象函数(object function),这是问题求解品质的测量函数;往往也称为问题的“环境”。一般可以把问题的模型函数作为对象函数;但有时需要另行构造。
3.遗传算法自身参数设定
遗传算法自身参数有3个,即群体大小n、交叉概率Pc和变异概率Pm。
群体大小n太小时难以求出最优解,太大则增长收敛时间。一般n=30-160。交叉概率Pc太小时难以向前搜索,太大则容易破坏高适应值的结构。一般取Pc=0.25-0.75。变异概率Pm太小时难以产生新的基因结构,太大使遗传算法成了单纯的随机搜索。一般取Pm=0.01—0.2。
三、遗传算法在神经网络中的应用
遗传算法在神经网络中的应用主要反映在3个方面:网络的学习,网络的结构设计,网络的分析。
1.遗传算法在网络学习中的应用
在神经网络中,遗传算法可用于网络的学习。这时,它在两个方面起作用
(1)学习规则的优化
用遗传算法对神经网络学习规则实现自动优化,从而提高学习速率。
(2)网络权系数的优化
用遗传算法的全局优化及隐含并行性的特点提高权系数优化速度。
2.遗传算法在网络设计中的应用
用遗传算法设计一个优秀的神经网络结构,首先是要解决网络结构的编码问题;然后才能以选择、交叉、变异操作得出最优结构。编码方法主要有下列3种:
(1)直接编码法
这是把神经网络结构直接用二进制串表示,在遗传算法中,“染色体”实质上和神经网络是一种映射关系。通过对“染色体”的优化就实现了对网络的优化。
(2)参数化编码法
参数化编码采用的编码较为抽象,编码包括网络层数、每层神经元数、各层互连方式等信息。一般对进化后的优化“染色体”进行分析,然后产生网络的结构。
(3)繁衍生长法
这种方法不是在“染色体”中直接编码神经网络的结构,而是把一些简单的生长语法规则编码入“染色体”中;然后,由遗传算法对这些生长语法规则不断进行改变,最后生成适合所解的问题的神经网络。这种方法与自然界生物地生长进化相一致。
3.遗传算法在网络分析中的应用
遗传算法可用于分析神经网络。神经网络由于有分布存储等特点,一般难以从其拓扑结构直接理解其功能。遗传算法可对神经网络进行功能分析,性质分析,状态分析。
遗传算法虽然可以在多种领域都有实际应用,并且也展示了它潜力和宽广前景;但是,遗传算法还有大量的问题需要研究,目前也还有各种不足。首先,在变量多,取值范围大或无给定范围时,收敛速度下降;其次,可找到最优解附近,但无法精确确定最扰解位置;最后,遗传算法的参数选择尚未有定量方法。对遗传算法,还需要进一步研究其数学基础理论;还需要在理论上证明它与其它优化技术的优劣及原因;还需研究硬件化的遗传算法;以及遗传算法的通用编程和形式等

  密码子优化,每个氨基酸对应2-3个密码子,而这些密码子在真核和原核生物中使用的频率病毒相同,有时候为了有效在真核细胞中表达来自于原核或其它生物的基因,就不得不把密码子替换掉,用真核生物喜欢的密码子替代原来的密码子,但并不改变氨基酸序列,称为基因序列优化。


原核系统中影响外源基因表达效率的主要因素?
上述几种载体优化策略主要目的是提高外源基因的转录和翻译效率,然而,高水平表达的外源蛋白能否在植物细胞内稳定存在以及积累量的多少是植物遗传转化中需要考虑的另一重要问题。 近几年的研究发现,如果某些外源基因连接上适当的定位信号序列,使外源蛋白产生后定向运输到细胞内的特定部位,例如:叶绿体、内质网、液泡等,则可...

人类基因组序列图绘制的意义?
随着人类基因组序列图的最终完成,SNP(单核苷酸多态性,即序列差异)的发现以及比较基因组学古代DNA、“食物基因组计划”、“病原与环境基因组计划”(主要是致命致病学)以及与之有关的人类易感性有关序列的推进,有科学、经济、医学意义的主要物种的基因组序列图都将问世.我们从序列中得到的信息,...

基因合成密码子优化
基因工程的关键是设计智能合成基因,以在不同宿主中高效生产重组蛋白。然而,并非所有基因都能在不同表达系统中成功表达蛋白质。基因的内在序列特性,如稳定性、密码子偏好性、GC含量和mRNA二级结构等,在翻译过程中起着重要作用。遗传密码由64个不同的核苷酸密码子组成,可组成20个氨基酸。密码子优化是指...

基因合成
接着,引物合成如同指挥家的指挥棒,引导PCR扩增,精准捕捉目标基因片段。然后,通过克隆技术,将PCR产物无缝嵌入载体,如同镶嵌宝石,形成稳定的基因表达平台。最后,通过Sanger测序的验证,确认合成的基因与目标序列完美契合,宣告基因合成的胜利。三、基因合成的广泛应用 1. 基因优化,提升表达效能基因的结构...

东南大学师生将校训存入DNA序列,此举都有什么重大的意义?
此次东南大学的研究师生将校训存入DNA序列,在这个实验过程当中。改进了国外基因测序机器过于庞大且操作繁琐的特点。众所周知,我国也在进行基因测序实验的专项攻关。这种小型的基因测序机器不但可以简化测序流程,优化实验时间,而且还可以减少国家对于基因测序领域的投资费用。具有非常重大的意义。二:简化了DNA...

水稻基因组计划的意义价值
任何一个生物的全基因组序列都蕴藏着这一生物的起源、进化、发育、生理等重要信息。水稻是全球半数以上人口赖以生存的粮食作物,对于人类生活、粮食安全具有至关重要的意义。研究表明,水稻共有12条染色体,它们记录着与水稻的高产优质、美味香色以及与生长期、抗病抗虫、耐旱耐涝、抗倒伏等所有性状相关的...

行政管理都包括那些方面?
行政管理工作包括:行政事务管理、办公事务管理、人力资源管理、财产会计管理四个方面。随着社会的发展,行政管理的对象日益广泛,包括经济建设、文化教育、市政建设、社会秩序、公共卫生、环境保护等各个方面。自从产生国家以来,就有了行政管理但是直到19世纪末才开始形成为一门学科。它经历了以下三个发展时期...

人类的基因组计划的重要意义是什么?
测出人类基因组DNA的30亿个碱基对的序列,发现所有人类基因,找出它们在染色体上的位置,破译人类全部遗传信息。在人类基因组计划中,还包括对五种生物基因组的研究:大肠杆菌、酵母、线虫、果蝇和小鼠,称之为人类的五种“模式生物”。HGP的目的是解码生命、了解生命的起源、了解生命体生长发育的规律、认识...

基因合成的优点?
1.基因合成可获得自然界中无法以常规实验手段得到的基因。2.基因合成因其可以人为设计和操控,研究人员可设计创造自然界中不存在的基因序列为生命科学领域的发展开辟了全新的途径。3.基因合成可以实现对已知基因序列进行密码子优化或者氨基酸序列突变,以达到对该基因进行高效表达或获得新的生物特性等研究目的...

论述多序列联配的意义是什么
多序列联配有助于研究生物进化和基因功能。多序列联配是将有系统进化关系的蛋白质或核酸序列进行比对,将相同的氨基酸或碱基排列在同一列上。这种方法可以揭示序列之间的同源关系,即它们来自共同的祖先。多序列联配在研究生物进化、基因功能以及结构与进化之间的关系方面起着重要的作用。

大石桥市13318819360: 基因序列优化的意义是什么? -
愚郊附桂:[答案] 密码子优化,每个氨基酸对应2-3个密码子,而这些密码子在真核和原核生物中使用的频率病毒相同,有时候为了有效在真核细胞中表达来自于原核或其它生物的基因,就不得不把密码子替换掉,用真核生物喜欢的密码子替代原来的密码子,但并不...

大石桥市13318819360: 什么是基因优化技术 -
愚郊附桂: 基因优化技术包括基因改良和基因保鲜,基因改良就是改变基因序列中劣质基因,目的...用药抑制身体症状来和身体即和大自然作对,因为和大自然作对最后不会有什么好...

大石桥市13318819360: 基因组全序列测定有何意义?(详细回答) -
愚郊附桂: 大体上讲,对生命的基因水平分类有很大的作用,通过比对可以进一步研究各种动植物之间的基因差别,进而探讨物种之间功能基因的差异,理论上讲可以促进人体组织的重建,但是这个技术还没有达到. 从细节上来说就有很多特殊的作用了,比如对致病基因的研究,对检测技术的探讨等等,物种不一样,全序列测定的意义也就不同. 希望可以给你思路,查阅文献资料加以补充.

大石桥市13318819360: 基因测序的目的是什么?有什么作用 -
愚郊附桂: 个人基因组测序首先可以知道自己的基因组序列,中源协和对比到正常基因组上可以查看是否存在突变与异常,能够检测出基因是否异常,会否导致疾病等,预测疾病风险,价值很大的.

大石桥市13318819360: 急!!悬赏!基因序列高度保守意味什么有何意义 -
愚郊附桂: 一般来说:基因序列高度保守说明相对于其他基因这个基因对于这个物种的生存有相当重要的意义,通常称他们为管家基因.他们可能编码一些非常重要的蛋白质.一旦这个基因发生突变,那么这个物种可能发生严重的疾病甚至致死. 还有些情况比较特殊比较miRNA通常来说都是保守的,但是通过实验发现,有些却是可缺少的. 不过正常情况下前一种的理论比较好理解.

大石桥市13318819360: 人类的基因组计划的重要意义是什么? -
愚郊附桂:[答案] 人类基因组计划对生命科学的研究和生物产业的发展具有非常重要的意义,它为人类社会带来的巨大影响是不可估量的.إ首先,获得人类全部基因序列将有助于人类认识许多遗传疾病以及癌症等疾病的致病机理,为分子...

大石桥市13318819360: 基因扩增PCR条件的优化目的是什么?
愚郊附桂: 基因扩增PCR条件的优化目的:为提高PCR检测乙型肝炎病毒(HBV)的特异性和灵敏度,降低成本,对PCR条件进行优化

大石桥市13318819360: DNA测序技术的意义 -
愚郊附桂: DNA测序方法的飞速发展让我们不仅知晓了人类的全基因组序列,小麦、水稻、家蚕以及很多细菌的序列也都尽在掌握,这时探明一段序列所代表的生物学意义成了科学家的新目标. 通过对人类基因组序列的分析,科学家发现30亿对核苷酸组...

大石桥市13318819360: 基因测序有什么重要意义? -
愚郊附桂: 可以知道人类的基因组成,了解那些遗传病的碱基对,就可以治疗那么很难治愈的病了,如帕金森综合征,

大石桥市13318819360: 我真的想知道全基因组序列测定的意义,别给我人类、微生物等单方面的答案啊!我要总的意义! -
愚郊附桂: 因为人从一个单细胞(受精卵)变成完整的人,所有的信息都在基因组序列里面 虽然现在的技术还无法解决很多难题,比如所有...

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网