请介绍汉字输入码(外码)、内码、汉字库的概念

作者&投稿:穰浩 (若有异议请与网页底部的电邮联系)
简述 汉字输入码,汉字内码,汉字字形码,汉字交换码区别~

计算机中信息的编码
在计算机中,各种信息都是以二进制编码的形式存在的;也就是说,不管是文字、图形、声音、动画,还是电影等各种信息,在计算机中都是以0和1组成的二进制代码表示的;计算机之所以能区别这些信息的不同,是因为它们采用的编码规则不同。比如:同样是文字,英文字母与汉字的编码规则就不同,英文字母用的是单字节的ASCII码,汉字采用的是双字节的汉字内码;但随着需求的变化,这两种编码有被统一的UNICODE码(由Unicode 协会开发的能表示几乎世界上所有书写语言的字符编码标准)所取代的趋势;当然图形、声音等的编码就更复杂多样了。这也就告诉我们,信息在计算机中的二进制编码是一个不断发展的、高深的、跨学科的知识领域。
1、字符(英文,包括字母、数字、标点、运算符等)编码
字符的编码采用国际通用的ASCII码(American Standard Code for Information Interchange,美国信息交换标准代码),每个ASCII码以1个字节(Byte)储存,从0到数字127代表不同的常用符号,例如大写A的ASCII码是65,小写a则是97。由于ASCII码只用了字节的七个位,最高位并不使用,所以后来又将最高的一个位也编入这套编码码中,成为八个位的延伸ASCII(ExtendedASCII)码,这套内码加上了许多外文和表格等特殊符号,成为目前常用的编码。基本的ASCII字符集共有128个字符,其中有96个可打印字符,包括常用的字母、数字、标点符号等,另外还有32个控制字符。标准ASCII码使用7个二进位对字符进行编码,对应的ISO标准为ISO646标准。下表展示了基本ASCII字符集及其编码:
字母和数字的ASCII码的记忆是非常简单的。我们只要记住了一个字母或数字的ASCII码(例如记住A为65,0的ASCII码为48),知道相应的大小写字母之间差32,就可以推算出其余字母、数字的ASCII码。
虽然标准ASCII码是7位编码,但由于计算机基本处理单位为字节(1byte = 8bit),所以一般仍以一个字节来存放一个ASCII字符。每一个字节中多余出来的一位(最高位)在计算机内部通常保持为0(在数据传输时可用作奇偶校验位)。由于标准ASCII字符集字符数目有限,在实际应用中往往无法满足要求。为此,国际标准化组织又制定了ISO2022标准,它规定了在保持与ISO646兼容的前提下将ASCII字符集扩充为8位代码的统一方法。ISO陆续制定了一批适用于不同地区的扩充ASCII字符集,每种扩充ASCII字符集分别可以扩充128个字符,这些扩充字符的编码均为高位为1的8位代码(即十进制数128~255),称为扩展ASCII码。下表展示的是最流行的一套扩展ASCII字符集和编码:
2、汉字的编码
(1)汉字内码
汉字信息在计算机内部也是以二进制方式存放。由于汉字数量多,用一个字节的128种状态不能全部表示出来,因此在1980年我国颁布的《信息交换用汉字编码字符集——基本集》,即国家标准GB2312-80方案中规定用两个字节的十六位二进制表示一个汉字,每个字节都只使用低7位(与ASCII码相同),即有128×128=16384种状态。由于ASCII码的34个控制代码在汉字系统中也要使用,为不致发生冲突,不能作为汉字编码,128除去34只剩94种,所以汉字编码表的大小是94×94=8836,用以表示国标码规定的7445个汉字和图形符号。
每个汉字或图形符号分别用两位的十进制区码(行码)和两位的十进制位码(列码)表示,不足的地方补0,组合起来就是区位码。把区位码按一定的规则转换成的二进制代码叫做信息交换码(简称国标码)。国标码共有汉字6763个(一级汉字,是最常用的汉字,按汉语拼音字母顺序排列,共3755个;二级汉字,属于次常用汉字,按偏旁部首的笔划顺序排列,共3008个),数字、字母、符号等682个,共7445个。
由于国标码不能直接存储在计算机内,为方便计算机内部处理和存储汉字,又区别于ASCII码,将国标码中的每个字节在最高位改设为1,这样就形成了在计算机内部用来进行汉字的存储、运算的编码叫机内码(或汉字内码,或内码)。内码既与国标码有简单的对应关系,易于转换,又与ASCII码有明显的区别,且有统一的标准(内码是惟一的)。

(2)汉字外码
无论是区位码或国标码都不利于输入汉字,为方便汉字的输入而制定的汉字编码,称为汉字输入码。汉字输入码属于外码。不同的输入方法,形成了不同的汉字外码。常见的输入法有以下几类:
按汉字的排列顺序形成的编码(流水码):如区位码;
按汉字的读音形成的编码(音码):如全拼、简拼、双拼等;
按汉字的字形形成的编码(形码):如五笔字型、郑码等;
按汉字的音、形结合形成的编码(音形码):如自然码、智能ABC。
输入码在计算机中必须转换成机内码,才能进行存储和处理。

(3)汉字字形码
为了将汉字在显示器或打印机上输出,把汉字按图形符号设计成点阵图,就得到了相应的点阵代码(字形码)。
全部汉字字码的集合叫汉字字库。汉字库可分为软字库和硬字库。软字库以文件的形式存放在硬盘上,现多用这种方式,硬字库则将字库固化在一个单独的存储芯片中,再和其它必要的器件组成接口卡,插接在计算机上,通常称为汉卡。
用于显示的字库叫显示字库。显示一个汉字一般采用16×16点阵或24×24点阵或48×48点阵。已知汉字点阵的大小,可以计算出存储一个汉字所需占用的字节空间。例:用16×16点阵表示一个汉字,就是将每个汉字用16行,每行16个点表示,一个点需要1位二进制代码,16个点需用16位二进制代码(即2个字节),共16行,所以需要16行×2字节/行=32字节,即16×16点阵表示一个汉字,字形码需用32字节。
即:字节数=点阵行数×点阵列数/8
用于打印的字库叫打印字库,其中的汉字比显示字库多,而且工作时也不像显示字库需调入内存。
可以这样理解,为在计算机内表示汉字而统一的编码方式形成汉字编码叫内码(如国标码),内码是惟一的。为方便汉字输入而形成的汉字编码为输入码,属于汉字的外码,输入码因编码方式不同而不同,是多种多样的。为显示和打印输出汉字而形成的汉字编码为字形码,计算机通过汉字内码在字模库中找出汉字的字形码,实现其转换。
例1:已知汉字"春"的国标码为343AH,求其机内码?
机内码=国标码+8080H=343AH+8080H=B4BAH
例2:用24×24点阵来表示一个汉字(一点为一个二进制位),则2000个汉字需要多少KB容量?
(24×24/8)×2000/1024=140.7KB≈141KB

1.机内码:在计算机内表示汉字的代码是汉字机内码,汉字机内码由国标码演化而来,把表示国标码的两个字节的最高位分别加“1”,就变成汉字机内码。
2.输入码: 汉字输入码是指直接从键盘输入的各种汉字输入方法的编码,属于外码。
一. 基本概念
Hanzi bianma汉字编码(Chinese character encoding )是为汉字设计的一种便于输入计算机的代码。由于电子计算机现有的输入键盘与英文打字机键盘完全兼容。因而如何输入非拉丁字母的文字(包括汉字)便成了多年来人们研究的课题。 汉字信息处理系统一般包括编码、输入、存储、编辑、输出和传输。编码是关键。不解决这个问题,汉字就不能进入计算机。
二. 途径
汉字进入计算机的三种途径 分别为:
①机器自动识别汉字:计算机通过"视觉"装置(光学字符阅读器或其他),用光电扫描等方法识别汉字。
②通过语音识别输入:计算机利用人们给它配备的"听觉器官",自动辨别汉语语音要素,从不同的音节中找出不同的汉字,或从相同音节中判断出不同汉字。
③通过汉字编码输入:根据一定的编码方法,由人借助输入设备将汉字输入计算机。

信息编码各国有各国不同的编码,国际上统一使用的编码为ASCII(美国标准信息交换代码),我国使用的有国标码BG(中文),和BIG5(中文繁体)两种。(1)国标码:是指我国1980年公布的“信息交换汉字编码字符集”,代号为“GB2312-80”。由连续的两个字节组成。
(2)机内码:在计算机内表示汉字的代码是汉字机内码,汉字机内码由国标码演化而来,把表示国标码的两个字节的最高位分别加“1”,就变成汉字机内码。
(3)输入码: 汉字输入码是指直接从键盘输入的各种汉字输入方法的编码,属于外码。
(4)字型点阵码:用点阵方式来构造汉字字型,然后存储在计算机内,构成汉字字模库。目的是为了能显示和打印汉字。编码的转换举例
汉字 区位码 16进制 国标码 机内码
文 4636 2E24H 4E44H CEC4H
“文”的区位码为4636,区码和位码分别用16进制表示即为“2E24H”, 0010 1110 0010 0100转换成国标码“4E44H”,0100 1110 0100 0100机内码为“CEC4H”, 1100 1110 1100 0100
国家标准信息交换用汉字字符集GB2312-80收录汉字6763个,按照汉字的使用频度分为两级,其中一级汉字3755个,二级汉字3008个。16至55区是一级汉字,56至87区是二级汉字。


请介绍汉字输入码(外码)、内码、汉字库的概念
(2)机内码:在计算机内表示汉字的代码是汉字机内码,汉字机内码由国标码演化而来,把表示国标码的两个字节的最高位分别加“1”,就变成汉字机内码。(3)输入码: 汉字输入码是指直接从键盘输入的各种汉字输入方法的编码,属于外码。(4)字型点阵码:用点阵方式来构造汉字字型,然后存储在计算机内...

什么叫汉字的编码?
汉字编码主要分为四大类:汉字输入码、汉字交换码、汉字内码和汉字字形码。(1)汉字的外部码 汉字的外部码简称外码,又叫输人码,是输人汉字的一组键盘符号。使用不同的输入方法,同一汉字的外部码不同。用户应选用易记忆、操作简单、位码少、重码少和输人速度快的外码。(2)汉字的内部码 汉字的...

用户从键盘上输入的汉字编码被称为?
汉字输入码 也称外码,是为了将汉字输入计算机而编制的代码,它是代表某一汉字的一级键盘符号。种类:流水码:根据汉字的排列顺序形成汉字编码,如区位码、国标码、电报码等。音码:根据汉字的“音”形成汉字编码,如全拼码、双拼码、简拼码等。形码:根据汉字的“形”形成汉字编码,如王码五笔、郑码、...

什么是汉字输入码、汉字内码、汉字字形码、汉字交换码?它们各用于什么...
根据应用目的的不 同,汉字编码分为外码、交换码、机内码和字形码。 1.外码(输入码)� 外码也叫输入码,是用来将汉字输入到计算机中的一组键盘符号。英文字母只有26个,可以把所有的字符都放到键盘上,而使用这种办法把所有的汉字都放到键盘上,是不可能的。所以汉字系统需要有自己的输入码...

什么是汉字的内码、外码?
由于ASCII码只用7位,所以,这个首位上的“1”就可以作为识别汉字代码的标志,计算机在处理到首位是“1”的代码时把它理解为是汉字的信息,在处理到首位是“0”的代码时把它理解为是ASCII码。2、外码:也叫输入码,是用来将汉字输入到计算机中的一组键盘符号。英文字母只有26个,可以把所有的字符都...

什么是汉字编码?
外码也叫输入码,是用来将汉字输入到计算机中的一组键盘符号。常用的输入码有拼音码、五笔字型码、自然码、表形码、认知码、区位码和电报码等,一种好的编码应有编码规则简单、易学好记、操作方便、重码率低、输入速度快等优点,每个人可根据自己的需要进行选择。2、交换码(国标码)计算机内部处理的...

什么是国标码?机内码\/机外码?字型码?
同,汉字编码分为外码、交换码、机内码和字形码。1.外码(输入码)�外码也叫输入码,是用来将汉字输入到计算机中的一组键盘符号。英文字母只有26个,可以把所有的字符都放到键盘上,而使用这种办法把所有的汉字都放到键盘上,是不可能的。所以汉字系统需要有自己的输入码体系,使汉字与键盘能...

汉字的四种主要编码为
汉字的四种主要编码为:外码、交换码、机内码和字形码。1、外码 外码是用来将汉字输入到计算机中的一组键盘符号。常用的输入码有拼音码、五笔字型码、自然码、表形码、认知码、区位码和电报码等。2、交换码 交换码计算机内部处理信息,用二进制代码表,需要采用信息交换码。3、机内码 机内码根据国标...

汉字外码是指什么?常用的汉字外码有哪些?
汉字输入码(外码)是指用户从键盘上键入汉字时所使用的汉字编码。内码是汉字在计算机内部存储,处理和传输用的信息编码。它必须与ASCII码兼容但又不能冲突。 常用的输入码:数字编码-区位码;拼音编码-全拼、双拼、微软拼音输入法、自然码、智能ABC、搜狗等等;字形编码-五笔、表形码、郑码输入法...

什么是汉字的内码、外码、交换码、字形码?
内码:指机内码,指计算机汉字系统中使用的二进制字符编码,是沟通输入、输出与系统平台之间的交换码。外码:指输入码,是用来将汉字输入到计算机中的一组键盘符号。常用的输入码有拼音码、五笔字型码、自然码、表形码、认知码、区位码和电报码等 。交换码:指用于交换文件所使用的编码。字形码:是汉字...

东乡县19177962123: 简述 汉字输入码,汉字内码,汉字字形码,汉字交换码区别 -
单于斩普鲁:[答案] 计算机中信息的编码 在计算机中,各种信息都是以二进制编码的形式存在的;也就是说,不管是文字、图形、声音、动画,... (如国标码),内码是惟一的.为方便汉字输入而形成的汉字编码为输入码,属于汉字的外码,输入码因编码方式不同而不同...

东乡县19177962123: 什么是汉字的内码、外码、交换码、字形码?
单于斩普鲁: 1、内码是指计算机汉字系统中使用的二进制字符编码,是沟通输入、输出与系统平台之间的交换码,通过内码可以达到通用和高效率传输文本的目的.如ASCII.2、外码...

东乡县19177962123: 计算机中常见的汉字编码有哪些? -
单于斩普鲁:[答案] 根据应用目的的不同,汉字编码分为外码、交换码、机内码和字形码. 1.外码(输入码) 外码也叫输入码,是用来将汉字输入到计算机中的一组键盘符号.目前常用的输入码有拼音码、五笔字型码、自然码、表形码、认知码、区位...

东乡县19177962123: 汉字的编码有几种?各有什么用途? -
单于斩普鲁: 汉字的编码分为外码、交换码、机内码、字形码和地址码.具体用途如下: 1、外码(输入码) 外码也叫输入码,是用来将汉字输入到计算机中的一组键盘符号.常用的输入码有拼音码、五笔字型码、自然码、表形码、认知码、区位码和电报码...

东乡县19177962123: 什么是外码 -
单于斩普鲁: 我们常说汉字的"内码"与"外码".内码是汉字在计算机内部存储,处理和传输用的信息编码.它必须与ASCII码兼容但又不能冲突.所以把国标码两个字节的最高位置'1',以区别于西文,这就是内码.汉字的输入码称为"外码".输入码...

东乡县19177962123: 汉字涉及到几种编码 -
单于斩普鲁:[答案] 汉字在计算机上的编码主要有三种:输入码、机,内码和输出码,1.用于输入的汉字的编码——输入码(外码)计算机上输入汉字的方法很多,如键盘编码输入、语音输入、手写输入、扫描输入等,其中键盘编码输入是最...

东乡县19177962123: 简述汉字内码与外码有何不同? -
单于斩普鲁: 内码是汉字在计算机内部存储,处理和传输用的信息编码.它必须与ASCII码兼容但又不能冲突. 所以把国标码两个字节的最高位置'1',以区别于西文,这就是内码.汉字的输入码称为"外码".输入码即指我们输入汉字时使用的编码.常见的外码分为数字编码(如区位码),拼音编码和字形编码(如五笔).

东乡县19177962123: 汉字的常用编码输入码、机内码、输出码各是什么意思? -
单于斩普鲁: 1.机内码:在计算机内表示汉字的代码是汉字机内码,汉字机内码由国标码演化而来,把表示国标码的两个字节的最高位分别加“1”,就变成汉字机内码. 2.输入码: 汉字输入码是指直接从键盘输入的各种汉字输入方法的编码,属于外码.一...

东乡县19177962123: 汉字在计算机内有几种编码?试简述每种编码的意义. -
单于斩普鲁: 汉字在计算机上的编码主要有三种:输入码、机,内码和输出码,1.用于输入的汉字的编码——输入码(外码) 计算机上输入汉字的方法很多,如键盘编码输入、语音输入、手写输入、扫描输入等,其中键盘编码输入是最容易实现和最常用的一...

东乡县19177962123: 在计算机中,汉字编码的内码和外码分别指的是什么? -
单于斩普鲁: 字形码:汉字字形码是表示汉字字形的字模数据,通常用点阵、矢量函数等方式表示,用点阵表示字形时,汉字字形码一般指确定汉字字形的点阵代码.字形码也称字模码,它是汉字的输出形式,随着汉字字形点阵和格式的不同,汉字字形码也...

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网