基因、蛋白等的命名

作者&投稿:公毛 (若有异议请与网页底部的电邮联系)
~

本文介绍了基因、蛋白、引物、载体、限制酶切位点、酶、微生物的命名规则。由于涉及领域宏大,全面的细则以报告或文件的形式发表,本文只是对各类的命名做形而上的简介,同时融合了笔者的一些认识,在必要之处例证说明。笔者并非做以上所有领域的研究,只是困惑于文献中出现的种种名词,方做以下梳理。如需了解详细命名法,十分推荐参考那些冗长的原始定则或请教各领域专家,也许参考分类相关及其领域的文献能更容易地领略那些命名的方法。

基因部分以 植物 为对象,许多个性化的命名未来得及补充,待日后添加。微生物部分介绍了细菌、真菌及病毒在物种层次及种群层次的命名情况。

基因名无论全称或简称,无论长短均需 斜体

基因名通常是 反映基因的功能或特性

文章 首次出现 的基因应全写,后可简写。

完整基因名 包括前缀、主体、后缀,前缀主要是物种名,后缀反映基因超家族、家族、亚族及基因次第等信息,例如 Arabidopsis thaliana EXPANSIN A1 ;简写时前缀与基因名可缩写,例如 AtEXPA1 [1, 2] 。这个完整的基因名表示该基因来源于 Arabidopsis thaliana ,且为拥有 EXPANSIN 结构的首个(A)基因家族中的第一个基因。(关于基因家族后面解释)

简写基因名的主体是 三个字母 ,即反映基因功能或特性词汇的首字母缩写。野生型该三字母大写,突变型该三字母小写。

基因名的后缀实际在不同基因家族中有不同的含义,这是由于不同基因家族的体量不同,能够划分的层次有别。大的基因家族可以划分出基因超家族(superfamily)、基因家族(family)、亚族(subfamily)、基因(gene)几个层次(图1)。 基因超家族 包括序列结构相似,功能却有不同的若干基因家族。功能不同是氨基酸序列差异的结果,相比碱基序列,氨基酸变异更灵敏,只需改变一个碱基便可导致氨基酸的替换,因此存在序列差异不很大,氨基酸差异即显著的情况。 基因家族 通常包括序列结构相似、功能也相似的多个基因;如果基因家族所含基因众多,便可从中划分若干亚族。 亚族 通常存在于不同物种间,即受物种分化而形成,与原亚族相比,结构相似,功能有一定差异。

尽管不同基因家族的后缀类型多样,仍然有可总结的 共性

(1)不同层次可依次用大写罗马字母(A, B, C, …)、阿拉伯数字(1, 2, 3, …)、小写罗马字母(a, b, c, …)、阿拉伯数字(1, 2, 3, …)表示,如 CYP2B1 ,表示CYP系列(细胞色素P450)第二个基因家族,第二个亚族的第一个基因 [3] 。由于层级不定,一个基因的名称中可以只出现一种编号,且编号可选择性使用,如 AtEXPA1 ,表示来源于At的EXP系列第一个基因家族的第一个基因 [1] 。

(2)等位突变基因用基因名加连字号和数字表示,如 expA1-1 表示 EXPA1 的等位突变基因。

(3)野生型基因和突变基因的 蛋白产物名称 与其各自的基因名相同,只是书写要用正体,如EXPA或expA1-1。

(4)种属名的首字母缩写放在最前面,用以表示不同的物种;如果两个物种种属名的首字母缩写相同,则须在其种属名缩写后加一区别性字母。

个性

(1)一些具有特殊用途的保留字。基因名末尾的P代表假基因(如 ACTBP2 = actin beta pseudogene 2 ,表示ACT系列第二个基因家族的第二个假基因),BP代表结合蛋白,L代表类似的,R代表受体或调节因子,N或NH代表抑制子 [4] 。

(2)……

其他

(1)DNA片段的命名。由四部分组成。第一部分用D表示DNA;第二部分用0、1、2、...、22、X、Y、XY表示DNA片段所在的染色体位置,其中0代表还不知染色体位置,而XY表示片段在X和Y染色体上都有该片段;第三部分表示用探针检测到的DNA片段的复杂程度,S代表这是一条独一无二的DNA片段,Z代表在染色体一个单一位置重复出现的DNA片段,F代表在多条染色体上都存在同源序列但还没有定义家族的DNA片段;第四部分为区分不同的DNA片段加上一个数字编号 [4] 。例如微卫星DNA标签DXS990,表示染色体X上独一无二的编号为990的DNA片段。

蛋白名与对应的基因名相同,只是书写时用正体。

引物命名尚未有统一标准,所见名均为缩写或俗名(如T7,pAc5-5等),全称通常能反映 引物退火点位 ,包括结合对象、结合片段名、结合位点的碱基定位等信息。例如,ITS1引物的全名为nu-SSU-1787-5',“nu-SSU”表明该引物退火于细胞核rDNA的小亚基处(nuclear Small SUbunit of ribosomal DNA),“1787”代表引物5’末端参考 Saccharomyces cerevisiae Meyen exHansen标准序列的碱基定位,“5’”表明引物退火到编码链,若为“3’”则表明引物退火到非编码链? [5] 。

载体(Vector)是在基因工程重组DNA技术中将DNA片段(目的基因)转移至受体细胞的一种能自我复制的DNA分子。常见载体包括细菌质粒、噬菌体和动植物病毒等。

载体的命名没有统一的规定,由研究者自行命制,名称通常能反映 载体的类型、实验编号、特性 等信息。通常的载体名首字母为小写的“p”(穿梭载体等少数例外),例如质粒载体pBR322,“p”代表载体,“BR”为两位研究者Bolivar和Rogigerus姓氏的字首,“322”是实验编号;pUC8质粒载体,“UC”表示该载体首先由美国加州大学(University of California)学者构建(1987年),“8”是实验编号;pYAC载体中“YAC”是酵母人工染色体(yeast artificial chromosome)的英文首字母。载体名的含义可参考载体构建时发表的原始文献。

限制酶切位点的名字有统一的规定,即酶切位点首次发现的 物种属名首字母****+****种加词前两字母****+****(实验菌株)****+****编号 。如果名中有实验菌株号,则编号在各菌株中从1开始,若名中无实验菌株号,编号从该物种发现的第一个限制性位点开始连续编。此外,属名首字母+种加词前两字母需斜体,其余正体。

例如, Eco RⅠ,表示该位点发现于大肠杆菌 Escherichia coli ,实验菌株R的第1种限制性位点。 Hin dⅢ,表示该位点发现于流感嗜血杆菌 Haemophilus influenzae ,实验菌株d的第3种限制性位点。 Bgl Ⅱ,表示该位点发现于球芽孢杆菌 Bacillus globigii ,第2种限制性位点。

目前国际上通用的酶系统分类是国际生物化学和分子生物学联合会(International Union of Biochemistry and Molecular Biology, IUBMB)的命名委员会(Nomenclature committee)于1961年提出的,首先是根据 酶催化的化学反应性质 分为 六大类 ,分别用数字1-6表示(表1)。

每个大类中,再根据 底物中被作用的基团或键的特点 ,分为若干 亚类 ,用阿拉伯数字表示;每一亚类又根据 接收电子的受体 不同分为若干 亚亚类 ,同样用阿拉伯数字表示;而亚亚类中的酶依次用阿拉伯数字编号。每一种酶都可以由此获得一个独一无二的由4个阿拉伯数字组成的编号,编号前加上EC表示酶学委员会(Enzyme Commission)的缩写。如 甘油脱氢酶 (Glycerol Dehydrogenase)的编号是EC 1.1.1.6,表示该酶属于氧化还原酶类,作用于底物的CH—OH基团,以NAD + 或NADP + 为电子受体,在这一亚亚类中排在第6个。

1961年公布酶系统分类以前,酶的命名相当混乱,往往使用习惯名,故常有一酶数名、一名数酶的情况出现。为改变这种状况,NC-IUBMB建议,每一种酶都给予一个系统名和一个习惯名。

系统名 要求明确表明酶的地物和催化反应的性质,因此系统名由底物名称和催化反应类型两部分组成,如葡萄糖异构酶。如果 有两个或两个以上底物 ,则需表明所有底物名称,不同底物名称用“:”隔开,如乳酸:NAD + 脱氢酶。如果 底物之一是水 ,通常水可以省略,如乙酰胆碱:水乙酰水解酶通常写作乙酰胆碱乙酰水解酶。

习惯名 有的是根据酶作用的底物命名,如淀粉酶、蛋白酶等。有的还加上酶的来源以区分不同来源的同一类酶,如胃蛋白酶、胰蛋白酶等。有的根据酶催化反应的性质命名,如水解酶、氧化酶、还原酶等。有的根据酶的地物结合反应性质命名,如乳酸脱氢酶、葡萄糖氧化酶等。绝大多数酶的英文以“ase”为后缀,如Ligase(连接酶)、Hydrolase(水解酶)等,但少数例外,如Pepsin(胃蛋白质酶)等。

酶学委员会规定,在以酶为主要论题的文章中,首先要将酶的编号、系统命名和来源标示清楚,然后可以按照个人习惯,使用习惯名或系统名。

值得注意的是,酶的系统分类和命名无法区分不同的同工酶(Isozyme),为了更准确地描述某种同工酶需要指明同工酶的类型。

细菌与真菌的命名遵循一般物种的命名法则,即采用拉丁二名法或三名法。

同一种细菌/真菌,不同来源的个体在实验室中无性培养形成的种群称不同的 菌株 (Strain)。

菌株 (Strain,又称品系),表示同种微生物不同来源的纯种培养,从自然界中分离得到的每一个微生物纯培养都可称一个菌株。

菌株的命名 根据实验需要确定,一般可用字母加编号表示(字母多数表示实验室、产地或特征等信息,编号则为序号)。

病毒的命名分为 俗名法 拉丁双名法 。尽管双名法是相对规范的命名法,使用时通常习惯用俗名,甚至有些病毒只有俗名,未命双名,如新型冠状病毒SARS-CoV-2(Severe Acute Respiratory Syndrome Coronavirus 2)。

俗名法对同一种病毒会出现多名的情况,如烟草花叶病毒,可以是Tobacco mosaic Virus(TMV),Nicotiana Virus 1(烟草病毒1号=烟草花叶病毒)。对于同一物种发现的多种病毒,可以在编号上体现,如烟草蚀斑病毒Nicotiana Virus 7。然而,过去的俗名中,许多同一物种不同编号的病毒实际为不同毒株而已,可见,俗名法一度相当混乱。

特别地, 噬菌体病毒 常使用代号命名(字母和数字),如噬菌体T2、T4、T6。实际上,噬菌体也有拉丁学名,在“属”、“种”阶元上,称之为某某噬菌体属、某某噬菌体(图2) [7] 。

病毒 毒株 相当于细菌菌株。关于毒株的命名通常是根据实验需要、病毒变异情况、次序进行命名。如对某病毒进行多毒株培养,每一宿主的毒株需逐一编号,结合字母与数字。根据病毒变异情况,例如SARS-CoV-2,天然出现的主要毒株被命名为α、β、δ(即AY.4进化分支)、Ο等,其中各自的变异型以字母、数字命制,如Ο的变种BA.2亚型毒株。

关于病毒的命名可参考知乎答主“Vigorous Cooler”的回答 [8] :

病毒是如何命名的? - Vigorous Cooler的回答 - 知乎。

[1] Kende H, Bradford K, Brummell D, et al. Nomenclature for members of the expansin superfamily of genes and proteins[J]. Plant Mol Biol. 2004, 55(3): 311-314.
[2] 牛艳梅,沈文涛,周鹏. Expansin超级家族的进化与命名[J]. 广东农业科学. 2007(08): 133-135.
[3] 唐振华,胡刚. 细胞色素P450基因的命名及其基因表达的调控[J]. 昆虫知识. 1993(05): 311-314.
[4] 杨泉胜,杨岐生. 人类基因命名的规则和过程[J]. 生命的化学. 2000(04): 179-181.
[5] Andrea G, Paula T D. A nomenclature for fungal PCR primers with examples from intron-containing SSU rDNA[J]. Mycologia. 1996, 88(5).
[6] 袁勤生. 酶与酶工程[M]. 第2版. 上海: 华东理工大学出版社, 2012.
[7] 冯烨,刘军,孙洋,等. 噬菌体最新分类与命名[J]. 中国兽医学报. 2013, 33(12): 1954-1958.
[8] 病毒是如何命名的? - Vigorous Cooler的回答 - 知乎.




单细胞蛋白详细资料大全
单细胞蛋白中重要的是酵母蛋白、细菌蛋白和藻类蛋白,它们的化学组成中一般以蛋白质、脂肪为主。基本介绍 中文名 :单细胞蛋白 别名 :微生物蛋白 分类 :石油蛋白、甲醇蛋白、甲烷蛋白等 命名日期 :1967年 分类,优点,生产过程,营养特性,举例,酵母蛋白,细菌蛋白,藻类蛋白,生物种类,套用...

血液凝固的凝血因子
血液和组织中直接产于凝血的物质统称为凝血因子(coagulation factors)。公认的凝血因子共有12种,国际命名法用罗马数字编号。此外,还有前激肽释放酶,激肽原以及来自血小板的磷脂等也都直接参与凝血过程。凝血因子中,因子IV是离子,其余凝血因子均是蛋白质,其中因子II、VII、IX、X、XI、XII均为蛋白...

肌联蛋白的英文全称是什么??
并在耦联和协调心肌的舒缩运动中发挥着重要作用.该文主要对肌联蛋白在心肌舒缩中的功能、信号传导机制以及肌联蛋白与心肌病的关系。肌联蛋白的简称:Titin,根据IUPAC(国际纯粹与应用化学联合会)命名规则,肌联蛋白的名字足足有189819个字母。下面的这好似乱码的英文字母只是其中的一部分:Methionylthreo...

病程相关蛋白指什么?
序号按各PR蛋白在十二烷基磺酸钠—聚丙烯酰胺凝胶电泳(SDS-PAGE)时迁移率快慢排出。同种或同一品种植物产生几种分子量相同的PR蛋白,则根据它们在无SDS的PAGE中迁移率大小在其序号后分别加上字母a,b,c等。例如,珊西nc烟中产生的b1、b2和b3分别命名为Xanthi-nc PR-1a,Xanthi-nc PR-1b和Xanthi-nc PR-1c。

医学CRP指什么
医学CRP是指C-反应蛋白,CRP英文全称是C-reactive protein。C-反应蛋白是在机体受到感染或组织损伤时血浆中一些急剧上升的蛋白质(急性蛋白),激活补体和加强吞噬细胞的吞噬而起调理作用,清除入侵机体的病原微生物和损伤,坏死,凋亡的组织细胞。‍CRP不仅是一种非特异的炎症标志物,其本身直接参与...

为什么早产体弱宝宝要补充乳铁蛋白?
乳铁蛋白(LactoferrinLF)是乳汁中一种重要的非血红素铁结合糖蛋白,因与铁结合形成的复合物呈红色,故称之为“红蛋白”。1961年,Blanc和Isliker将从人乳中分离获得的此种蛋白正式命名为乳铁蛋白。在发现之初,乳铁蛋白被认为是一种与铁转运和存储有关的蛋白,所以又称之为乳转铁蛋白(Lactotransferrin)...

宝宝总是生病,抵抗力太差,要补充乳铁蛋白么?
乳铁蛋白(LactoferrinLF)是乳汁中一种重要的非血红素铁结合糖蛋白,因与铁结合形成的复合物呈红色,故称之为“红蛋白”。1961年,Blanc和Isliker将从人乳中分离获得的此种蛋白正式命名为乳铁蛋白。在发现之初,乳铁蛋白被认为是一种与铁转运和存储有关的蛋白,所以又称之为乳转铁蛋白(Lactotransferrin)...

C-反应蛋白是什么意思.
C-反应蛋白(C-reactive protein,简称CRP,以下均简称CRP)。是在机体受到感染或组织损伤时血浆中一些急剧上升的蛋白质(急性蛋白),激活补体和加强吞噬细胞的吞噬而起调理作用,清除入侵机体的病原微生物和损伤,坏死,凋亡的组织细胞。

凝血因子有哪些?
凝血因子是参与血液凝固过程的各种蛋白质组分,为统一命名,世界卫生组织按其被发现的先后次序用罗马数字编号, 有凝血因子Ⅰ,Ⅱ,Ⅲ,Ⅳ,Ⅴ,Ⅶ,Ⅷ,Ⅸ,Ⅹ,Ⅺ,Ⅻ, ⅩⅢ等。1.凝血因子的生理作用是,在血管出血时被激活,和血小板粘连在一起并且补塞血管上的漏口。这个过程被称为凝血。它们部分...

蛋白质在人体中的合成过程
简单地说,人体的筋肉和血液,荷尔蒙激素、毛发、指甲、血管、内脏、骨骼都是由蛋白质造成的。3、蛋白质的组成 蛋白质是以氨基酸为基本单位的生物大分子,蛋白质是由许多胺基酸以键连接成链所组成,连接100个以上的氨基酸称为蛋白质。1838年,荷兰化学家Gerald Ian Muldr (1802-1880)把蛋白质命名为...

东湖区19861733485: 如何正确使用基因/蛋白质的名称格式 -
朱斧塞可: 1 一般规则 在你的文章中使用大家都认可的基因/蛋白质的名称和符号(见下文) 有时认可的基因/蛋白质的名称或符号已经不再有效.这种情况下,第一次提到的基因/蛋白质,需要先列出经批准的名称,然后再添加括号说明(以前被称为XXX)...

东湖区19861733485: 基因命名是怎么命名的 -
朱斧塞可: 这个,基本上,你随便命名,一般就是基因的名字加上引物在基因上所处的位置,再加上f或者r

东湖区19861733485: 基因命名规则是怎样的 -
朱斧塞可: 现在国际各权威性生命学科杂志也制定了明确的要求,这些要基本上和以上两大命名系统相一致.综合起来,规定如下:大肠杆菌和其它细菌: 基因座的命名统一用斜体,用三个英文缩写字母表示,表型第一个字母大写,用正体.基因型三个...

东湖区19861733485: 如何命名和书写基因 -
朱斧塞可: 限制性内切酶的命名法 已发现的限制酶种类众多,Smith H O和Nathans D与1973年提出了一个命名系统,已被学术界接受,其命名原则是根据分离出这种酶的细菌的分类学上的属名,种名和菌株名来命名. 酶的名称的第一个字母是该细菌属名...

东湖区19861733485: 新的基因突变如何命名 -
朱斧塞可: 如果没有表现型,只是单个碱基对突变,属于SNP,不是突变.还有就是RNA的alternative splicing,也不是突变,命名为transcription variation of XXX.只有有明显的表型,才为突变. 不用命名.报告为XXX,YYYmutation就可以了.

东湖区19861733485: 微生物基因命名法 -
朱斧塞可: 基因名称,一般都用三个小写英文字母来表示,且应排成斜体(书写时可在其下划一底线);若同一基因有不同位点,可在基因符号后加一正体大些字母或数字,如lacZ等; 附加两个:基因表达产物——蛋白质的名称,一般用3个大写英文字母(或1个大写、2个小写)表示,并必须用正体;抗性基因,一般把“抗”用大写R注在基因符号的右上角,如抗链霉素的基因即为strR(R在右上角)

东湖区19861733485: 基因包括什么,蛋白质包括什么 -
朱斧塞可: 基因 是具有遗传效应的DNA片段,包括核苷酸,再细分就是脱氧核糖、磷酸、碱基 蛋白质 蛋白质的种类繁多,结构复杂,迄今为止没有一个理想的分类方法.着眼的测面不同,分类也就各异,例如从蛋白质形状上,可将它们分为球状蛋白质及...

东湖区19861733485: 染色体 基因、DNA、蛋白质? -
朱斧塞可: 基因是有遗传效应的DNA片段,基因在染色体上呈直线排列,染色体是基因的载体. 基因的表达是通过DNA控制蛋白质的合成来实现的. DNA分子的脱氧核苷酸的排列顺序决定了信使RNA中核糖核苷酸的排列顺序,信使RNA中核糖核苷酸的排列顺序又决定了氨基酸的排列顺序,氨基酸的排列顺序最终决定了蛋白质的结构和功能的特异性,从而使生物体表现出各种遗传特性.答:dna

东湖区19861733485: 如何根据蛋白质得出其相应的基因名称? -
朱斧塞可: 大家好:最近想构建蛋白质的了蛋白质的名称,却不知编码这个蛋白质的基因的名称 比如编码血红蛋白、胰岛素的基因的名称 请大家指教!1、首先你写出正确的英文蛋白质名:insulin,hemoglobin 2、到HGNC网站: 输入以上单词进行查询 3、查询结果:inslin:的基因名字INS hemoglobin有很多对应,因为hemoglobin是有很多亚基的,比如你要研究alpha 1亚基,那基因名字就是HBA1喽 就这么简单了. 如果你想批量查询就去吧HGNC数据库下来,就ok了. 投票似乎是有积分限制的,只有超过一定分数的人才有投票的权力,加油吧

东湖区19861733485: 蛋白质家族和基因家族对蛋白和基因是怎样分类的? -
朱斧塞可: 简单来说按功能分类,详细来分是根据其序列相似性. 比如蛋白质 苷化家族1 glycoside hydrolases family 1 都是一类酶蛋白,用于水解糖苷键

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网