字符编码的GB2312

作者&投稿:答鬼 (若有异议请与网页底部的电邮联系)
计算机字符编码中GBK GB2312 GB18030有什么区别 谁包含的东西多?谁更早?~

1、GBK和GB2312 都是16位的。
2、GBK支持简体中文和繁体中文,而GB2312只支持简体中文,GBK里面包含了GB2312,用GBK比较多。
3、GB18030是32位的,它支持简体中文、繁体中文 藏文、蒙文、维吾尔文等主要的少数民族文字,包含GBK和GB2312。
4、从GB2312(1980年)、GBK(1995年)到GB18030(2000年),这些编码方法是向下兼容的。

扩展资料GB2312收录简化汉字及一般符号、序号、数字、拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符号、汉语注音字母,共 7445 个图形字符。
其中包括6763个汉字,其中一级汉字3755个,二级汉字3008个;包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。
GB2312中对所收汉字进行了“分区”处理,每区含有94个汉字/符号。这种表示方式也称为区位码。
它是用双字节表示的,两个字节中前面的字节为第一字节,后面的字节为第二字节。习惯上称第一字节为“高字节” ,而称第二字节为“低字节”。“高位字节”使用了0xA1-0xF7(把01-87区的区号加上0xA0),“低位字节”使用了0xA1-0xFE(把01-94加上0xA0)。
以GB2312字符集的第一个汉字“啊”字为例,它的区号16,位号01,则区位码是1601,在大多数计算机程序中,高字节和低字节分别加0xA0得到程序的汉字处理编码0xB0A1。计算公式是:0xB0=0xA0+16, 0xA1=0xA0+1。
参考资料来源:百度百科-计算机编码

总体说来,GBK包括所有的汉字,包括简体和繁体。而gb2312则只包括简体汉字。

gb2312,全称是GB2312-80《信息交换用汉字编码字符集 基本集》,1980年发布,是中文信息处理的国家标准,在大陆及海外使用简体中文的地区(如新加坡等)是强制使用的唯一中文编码。P-Windows3.2和苹果OS就是以GB2312为基本汉字编码, Windows 95/98则以GBK为基本汉字编码、但兼容支持GB2312。GB码共收录6763个简体汉字、682个符号,其中汉字部分:一级字3755,以拼音排序,二级字3008,以偏旁排序。该标准的制定和应用为规范、推动中文信息化进程起了很大作用。
GBK: 汉字国标扩展码,基本上采用了原来GB2312-80所有的汉字及码位,并涵盖了原Unicode中所有的汉字20902,总共收录了883个符号, 21003个汉字及提供了1894个造字码位。 Microsoft简体版中文Windows 95就是以GBK为内码,又由于GBK同时也涵盖了Unicode所有CJK汉字,所以也可以和Unicode做一一对应。

GB2312 也是ANSI编码里的一种,对ANSI编码最初始的ASCII编码进行扩充,为了满足国内在计算机中使用汉字的需要,中国国家标准总局发布了一系列的汉字字符集国家标准编码,统称为GB码,或国标码。其中最有影响的是于1980年发布的《信息交换用汉字编码字符集 基本集》,标准号为GB 2312-1980,因其使用非常普遍,也常被通称为国标码。GB2312编码通行于我国内地;新加坡等地也采用此编码。几乎所有的中文系统和国际化的软件都支持GB 2312。
GB 2312是一个简体中文字符集,由6763个常用汉字和682个全角的非汉字字符组成。其中汉字根据使用的频率分为两级。一级汉字3755个,二级汉字3008个。由于字符数量比较大,GB2312采用了二维矩阵编码法对所有字符进行编码。首先构造一个94行94列的方阵,对每一行称为一个“区”,每一列称为一个“位”,然后将所有字符依照下表的规律填写到方阵中。这样所有的字符在方阵中都有一个唯一的位置,这个位置可以用区号、位号合成表示,称为字符的区位码。如第一个汉字“啊”出现在第16区的第1位上,其区位码为1601。因为区位码同字符的位置是完全对应的,因此区位码同字符之间也是一一对应的。这样所有的字符都可通过其区位码转换为数字编码信息。GB2312字符的排列分布情况见表1-4。
表1-4 GB2312 字符编码分布表 分区范围 符号类型 第01区 中文标点、数学符号以及一些特殊字符 第02区 各种各样的数学序号 第03区 全角西文字符 第04区 日文平假名 第05区 日文片假名 第06区 希腊字母表 第07区 俄文字母表 第08区 中文拼音字母表 第09区 制表符号 第10-15区 无字符 第16-55区 一级汉字(以拼音字母排序) 第56-87区 二级汉字(以部首笔画排序) 第88-94区 无字符 GB2312字符在计算机中存储是以其区位码为基础的,其中汉字的区码和位码分别占一个存储单元,每个汉字占两个存储单元。由于区码和位码的取值范围都是在1-94之间,这样的范围同西文的存储表示冲突。例如汉字‘珀’在GB2312中的区位码为7174,其两字节表示形式为71,74;而两个西文字符‘GJ’的存储码也是71,74。这种冲突将导致在解释编码时到底表示的是一个汉字还是两个西文字符将无法判断。
为避免同西文的存储发生冲突,GB2312字符在进行存储时,通过将原来的每个字节第8bit设置为1同西文加以区别,如果第8bit为0,则表示西文字符,否则表示GB2312中的字符。实际存储时,采用了将区位码的每个字节分别加上A0H(160)的方法转换为存储码,计算机存储规则是此编码的补码,而且是位码在前,区码在后。例如汉字‘啊’的区位码为1601,其存储码为B0A1H,其转换过程为: 区位码 区码转换 位码转换 存储码 1001H 10H+A0H=B0H 01H+A0H=A1H B0A1H GB2312编码用两个字节(8位2进制)表示一个汉字,所以理论上最多可以表示256×256=65536个汉字。但这种编码方式也仅仅在中国行得通,如果您的网页使用的GB2312编码,那么很多外国人在浏览你的网页时就可能无法正常显示,因为其浏览器不支持GB2312编码。当然,中国人在浏览外国网页(比如日文)时,也会出现乱码或无法打开的情况,因为我们的浏览器没有安装日文的编码表。




在微型计算机内部,应用最普遍的字符编码是什么?
ASCII码。目前使用最广泛的西文字符集及其编码是 ASCII 字符集和 ASCII 码( ASCII 是 American Standard Code for Information Interchange 的缩写),它同时也被国际标准化组织( International Organization for Standardization, ISO )批准为国际标准。ASCII码使用7位2进制数表示一个字符,7位2进制数可以...

websphere和tomcat在使用中的区别
第一种(针对Tomcat 5 对POST请求有效,GET请求无效,因为Tomcat 5 对POST和GET请求时分别处理的)可以采用设置用户请求对象的编码形式,也就是以HttpServletRequest对象的编码的形式来进行用户请求的转码:\/\/将用户请求转码为GB2312、GB18030、GBK、UTF-8 等型,具体转为什么类型的编码以您的jsp文件的编码方式为准,java、...

Adobe Acrobat 8.0提示 找不到字体仿宋_GB2312楷体_GB2312
xp里面的楷体与仿宋是中国长城公司基于GB2312编码,仅支持6763个汉字,尽管收录的汉字已经覆盖中国大陆地区99.75%的使用频率,但对于人名、古汉语等方面出现的罕用字缺乏支持;Vista以后换用了由中国中易中标电子信息技术有限公司制作的两款字体。新款字体基于"CJK统一汉字编码字符集"即GB 13000标准,不包括扩展字符集在内支...

mysql的优点
3、价格:MySQL对多数个人来说是免费的。容易使用;与其他大型数据库的设置和管理相比,其复杂程度较低,容易学习。可移植性:能够工作在众多不同的系统平台上,例如:Windows、Linux、Unix、MacOS等。4、提供多语言支持,常见的编码如中文的GB231BIG5;支持大型的数据库。5、最大的优点是免费,在免费的...

ansi码只能收到固定长度的报文
为使计算机支持更多语言,通常使用0x80~0xFF范围的2个字节来表示1个字符.不同的国家和地区制定了不同的标准,由此产生了GB231,BIG5,JIS等各自的编码标准。这些使用2个字节来代表一个字符的各种汉字延伸编码方式,称为ANSI编码。在简体中文系统下,ANSI编码代表GB2312编码,在日文操作系统下,ANSI编码...

2代身份证中不让用的231个生僻字是哪些?
教育部、工信部等14个部委联合发布《关于在政府管理部门和社会公共服务信息中统一姓名采集应用规范的通知》, 进一步推动社会各用证部门按照“在信息系统的设计研发工作中 ,要实现对国家标准编码汉字GB18030或GB13000的全覆盖”的要求,加快信息系统升级改造,确保居民身份证的有效识读和相关业务的正常办理。

QQ密码中的UNICODE码是什么东西?
对于中文而言,Unicode 16编码里面已经包含了GB18030里面的所有汉字(27484个字),目前Unicode标准准备把康熙字典的所有汉字放入到Unicode 32bit编码中。简单地说,Unicode扩展自ASCII字元集。在严格的ASCII中,每个字元用7位元表示,或者电脑上普遍使用的每字元有8位元宽;而Unicode使用全16位元字元集。这使得Unicode能够...

淮滨县15794612555: 字符编码的GB2312 -
欧萧珍欣: GB2312 也是ANSI编码里的一种,对ANSI编码最初始的ASCII编码进行扩充,为了满足国内在计算机中使用汉字的需要,中国国家标准总局发布了一系列的汉字字符集国家标准编码,统称为GB码,或国标码.其中最有影响的是于1980年发布的...

淮滨县15794612555: 汉字国标GB2312 -
欧萧珍欣: GB2312码是中华人民共和国国家汉字信息交换用编码,全称《信息交换用汉字编码字符集——基本集》,由国家标准总局发布,1981年5月1日实施,通行于大陆.新加坡等地也使用此编码.GB 2312中对所收汉字进行了“分区”处理,每区含...

淮滨县15794612555: 常用汉字编码标准有哪些?GB2312 - 80共分多少个区?每个区有多少位? -
欧萧珍欣:[答案] 你学计算机吗?常用汉字编码标准有BIG-5GBK和GB2312-80.GB2312-80分为94个区,每个区包含94个字符,共收录汉字6763个.

淮滨县15794612555: GB2312字符集的详解有哪些呢?
欧萧珍欣: 字符集编码举例以GB2312字符集的第一个汉字“啊”字为例,它的区号16,位号01,则区位码是1601,在大多数计算机程序中,高字节和低字节分别加0xA0得到程序的汉字处理编码0xB0A1

淮滨县15794612555: 计算机字符编码中GBK GB2312 GB18030有什么区别 谁包含的东西多?谁更早? -
欧萧珍欣: 1、GBK和GB2312 都是16位的. 2、GBK支持简体中文和繁体中文,而GB2312只支持简体中文,GBK里面包含了GB2312,用GBK比较多. 3、GB18030是32位的,它支持简体中文、繁体中文 藏文、蒙文、维吾尔文等主要的少数民族文字,...

淮滨县15794612555: gbk2132是啥,解析一下 -
欧萧珍欣: 1、GB 2312是一个简体中文字符集,由6763个常用汉字和682个全角的非汉字字符组成.其中汉字根据使用的频率分为两级.一级汉字3755个,二级汉字3008个.由于字符数量比较大,GB2312采用了二维矩阵编码法对所有字符进行编码.首...

淮滨县15794612555: 怎样获取字符对应的GB2312编码 -
欧萧珍欣: 就进入了GB2312简体中文编码表 用Ctrl+F查找需要的字,就能找出相应字符代码了.字符编码(英语:Character encoding)也称字集码,是把字符集中的字符编码为指定集合中某一对象(例如:比特模式、自然数序列、8位组或者电脉冲),以便文本在计算机中存储和通过通信网络的传递.常见的例子包括将拉丁字母表编码成摩斯电码和ASCII.其中,ASCII将字母、数字和其它符号编号,并用7比特的二进制来表示这个整数.通常会额外使用一个扩充的比特,以便于以1个字节的方式存储.

淮滨县15794612555: GB2312 - 80是什么?干什么用的? -
欧萧珍欣: 1980年颁布了《信息交换用汉字编码字符集-基本集》的国标交换码,国家标准号为:GB2312-80,选入了6763个汉字,分为两级,一级字库中有3755个,是常用汉字,二级字库中有3008个,是次常用汉字;还选入了682个字符,包含有数字、一般符号、拉丁...

淮滨县15794612555: 到底是用GB2312还是UTF - 8 -
欧萧珍欣: GB2312编码大约包含6000多汉字(不包括特殊字符),编码范围为第一位b0-f7,第二位编码范围为a1-fe(第一位为cf时,第二位为a1-d3),计算一下汉字个数为6762个汉字.当然还有其他的字符.包括控制键和其他字符大约7573个字符编码...

淮滨县15794612555: gb2312用几位二进制表示一个字符 -
欧萧珍欣: 在使用GB2312的程序中,通常采用EUC储存方法,以便兼容于ASCII.浏览器编码表上的“GB2312”,通常都是指“EUC-CN”表示法. 每个汉字及符号以两个字节来表示.第一个字节称为“高位字节”(也称“区字节)”,第二个字节称为“低位字节”(也称“位字节”).2个字节 也就是16个二进制.

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网