中文输入法(比如全拼)是GB编码还是UNICODE

作者&投稿:常满 (若有异议请与网页底部的电邮联系)
搜狗输入法在WORD里无法切换汉字~

一般输入法中的“全拼”输入的汉字是最全的了,但是也常常会出现找不到字的情况,这是因为GBK码中的汉字本来就严重不全的缘故。一般大家只好用造字程序造字,如果要造的字过多,严重的浪费了时间和精力。OFFICEXP中的“宋体-方正超大字符集”解决了这个问题,它能够输入《康熙字典》和《汉语大字典》中的所有汉字(据称如此)。——要注意的是,此“宋体-方正超大字符集”似乎只能在OFFICE中显示出来,连粘到写字版都会成墨丁的;网络上也如此,会变成原码的。

下面把OFFICEXP中关于此部份的帮助文档粘贴在下面,供参考:




汉字超大字符集(6万4千汉字)支持

国际标准化组织在 ISO10646-2000 的基本平面(BMP 或者 Unicode 3.0, 下简称 Unicode)编入了27,564 汉字(U+4E00~U+9FFF以及U+3400~U+4DFF),既是2000年3月在GB18030颁布时所建议支持的字汇。其中U+3400~U+4DFF部分的6582个汉字又称为扩展A。同时国际标准化组织还在ISO10646-2000 的第二平面扩展了42,711汉字(又称为扩展B)。该42,711 汉字的编码表已基本确定,尽管不排除未来微小变动的可能性。由于这42,711汉字编排在ISO10646-2000 的第二平面,所以编码需要4个字节。为了能够存取处理这些4字节字符,在Unicode 中引入了Surrogate 机制(在ISO10646-2000中命名为UTF-16)。根据这样一种机制, 在Unicode中用两个16位编码就可以对ISO10646-2000 第二平面中的汉字进行存取。
Microsoft 从Windows2000 (在Windows 98, Windows ME 及 Windows NT4 中没有)开始对这样一种机制提供支持。只要有相应的输入法和字库并且在应用程序中给予相应的支持,就应该能够输入显示上述提到的汉字。但是,要想得到对Surrogate全面的支持(包括在本帮助中能够正确显示),用户需先下载并安装Surrogate Package Surrogate 程序包。
Microsoft 在中文简体版Office XP 及相应多语言包中,专门开发了超大字符集中文字体(宋体-方正超大字符集)及增强型区位码。要安装宋体-方正超大字符集,请在安装界面上选择Office共享功能 –> 中文字体->中文超大字符集字体。如果您是从多语言包进行安装,请在安装界面上选择Office Shared Features- >Chinese fonts->Chinese Extended font。宋体-方正超大字符集字体包括了上面提到的全部27,564个汉字以及在第二平面中(42,711)选出的36,862个在中国大陆,香港特别行政区(以及部分台湾地区)使用的汉字。因此包括西文等常用字符在内,宋体-方正超大字符集共包括65,531个字符。要安装增强型区位码,请在安装界面上选择Office共享功能 –>中文可选用户输入方式->增强区位输入法 5.1 版。如果您是从多语言包进行安装,请在安装界面上选择Office Shared Features- >Alternative Input Methods->Enhanced Unicode IME。
利用增强型区位码输入法,用户可以通过输入汉字的Unicode(或Surrogate)来输入汉字。在增强型区位码的帮助文件中(在增强型区位码输入法状态条上按右键,进入帮助->输入法入门),特别详细介绍了如何得到汉字的Unicode(或Surrogate)码。而且同时给出了全部扩展A和扩展B汉字的码表。
在Word 2002 中,可以直接在 Word 2002 中输入Unicode码,然后按Alt+X 转换成汉字。对于扩展B的汉字,请将前面两个“0”去掉。比如说,针对例子“ ”,Unicode 是00020000,则输入020000 ,然后按Alt+X即可。要想知道每个字符的Unicode,也可以将光标定位在汉字后面,然后按ALT+X,相应的Unicode码则会显示出来。



超大字符集/surrogate简介

尽管宋体-方正超大字符集中包括了6万4千多汉字,但是由于其中相当多的汉字读音很难确定,使得按拼音输入的方法难以实现。为此,微软公司专门扩展了原区位/内码/Unicode输入法,开发了增强型区位码。对于GBK中的汉字(即在Unicode 中U+4E00~U+9FFF),用户可以继续按原来的方式输入(通过输入区位码,GBK内码或Unicode码)。但是对于扩展A的汉字只能通过输入Unicode码,对于扩展B只能通过输入一种4字节的Surrogate码。总之,通过增强型区位码用户不仅可以输入GBK的汉字,而且可以顺利输入扩展A及扩展B的汉字。关键在于如何得到这些汉字的Unicode及Surrogate的码位。在本增强型区位码的帮助文件中,我们特别也放入了宋体-方正超大字符集支持的扩展A及扩展B汉字的码表。但是,我们不建议用户直接到浩如烟海的码表中直接去查
询。下面给出了一个相对简便的方法,可以帮助用户更快地查询到汉字的码位。用户在查询之前,应先按上述方法安装好宋体-方正超大字符集,以便在查询时确定汉字能够正常显示。
码表的格式如下:
汉字 Unicode(双字节)/Surrogate(四字节) 《康熙字典》页码 《汉语大字典》页码
针对BMP(GBK及Extension A)的汉字,取Unicode;针对扩展B的汉字,取Surrogate。
《康熙字典》页码格式为:xxxx.xxx 《汉语大字典》页码的格式为:xxxxx.xxx。这里特别要注明的是这里数据来源于1958年1月第一版的《康熙字典》。
这里小数点前为该汉字在字典中的页码,小数点后两位为该汉字在该页中的位置。如果最后一位为“0” 表示该汉字确实在该页内。如果后一位为“1”, 则表示该汉字并不在该页中,此时数点后两位则代表按笔画数该汉字应该排在该页的第几个。
在这里举三个例子:
㐀 U+3400 0078.010 10015.030 (扩展A的汉字,在《康熙字典》78页,第1个字。输入该汉字,只须在Unicode输入模式下输入3400)。
㑢 U+3462 0106.041 10156.141 (扩展A的汉字,不在《康熙字典》中。但是按偏旁部首及比画数,该汉字应排在《康熙字典》106页,第4个字。输入该汉字,只须在Unicode输入模式下输入3462)。
𠀀 D840DC00 00020000 0075.060 10011.070 (扩展B的汉字,在《康熙字典》75页,第6个字。这里D840DC00是它的Surrogate 编码,0002000是它的Unicode码。输入该汉字,只须在Unicode输入模式下输入Surrogate 码D840DC00)
所以,用户只需就要查找汉字在《康熙字典》(或《汉语大字典》)中相应的页码(《康熙字典》的xxxx.xxx或《汉语大字典》的xxxxx.xxx),并在搜索中将该页码字符串作为关键字进行搜索,找到相应的Unicode或Surrogate,然后激活本输入法即可进行输入。
在Word2002中,可以直接在Word2002中输入Unicode码,然后按Alt+X 转换成汉字。对于扩展B的汉字,请将前面两个“0”去掉。比如说,针对上面例子 (𠀀,Unicode 是00020000),则输入020000 ,然后按Alt+X即可。要想知道每个字符的Unicode,也可以将光标定位在汉字后面,然后按ALT+X,相应的Unicode码则会显示出来。



如何输入超大字符集汉字

尽管宋体-方正超大字符集中包括了6万4千多汉字,但是由于其中相当多的汉字读音很难确定,使得按拼音输入的方法难以实现。为此,微软公司专门扩展了原区位/内码/Unicode输入法,开发了增强型区位码。对于GBK中的汉字(即在Unicode 中U+4E00~U+9FFF),用户可以继续按原来的方式输入(通过输入区位码,GBK内码或Unicode码)。但是对于扩展A的汉字只能通过输入Unicode码,对于扩展B只能通过输入一种4字节的Surrogate码。总之,通过增强型区位码用户不仅可以输入GBK的汉字,而且可以顺利输入扩展A及扩展B的汉字。关键在于如何得到这些汉字的Unicode及Surrogate的码位。在本增强型区位码的帮助文件中,我们特别也放入了宋体-方正超大字符集支持的扩展A及扩展B汉字的码表。但是,我们不建议用户直接到浩如烟海的码表中直接去查
询。下面给出了一个相对简便的方法,可以帮助用户更快地查询到汉字的码位。用户在查询之前,应先按上述方法安装好宋体-方正超大字符集,以便在查询时确定汉字能够正常显示。
码表的格式如下:
汉字 Unicode(双字节)/Surrogate(四字节) 《康熙字典》页码 《汉语大字典》页码
针对BMP(GBK及Extension A)的汉字,取Unicode;针对扩展B的汉字,取Surrogate。
《康熙字典》页码格式为:xxxx.xxx 《汉语大字典》页码的格式为:xxxxx.xxx。这里特别要注明的是这里数据来源于1958年1月第一版的《康熙字典》。
这里小数点前为该汉字在字典中的页码,小数点后两位为该汉字在该页中的位置。如果最后一位为“0” 表示该汉字确实在该页内。如果后一位为“1”, 则表示该汉字并不在该页中,此时数点后两位则代表按笔画数该汉字应该排在该页的第几个。
在这里举三个例子:
㐀 U+3400 0078.010 10015.030 (扩展A的汉字,在《康熙字典》78页,第1个字。输入该汉字,只须在Unicode输入模式下输入3400)。
㑢 U+3462 0106.041 10156.141 (扩展A的汉字,不在《康熙字典》中。但是按偏旁部首及比画数,该汉字应排在《康熙字典》106页,第4个字。输入该汉字,只须在Unicode输入模式下输入3462)。
𠀀 D840DC00 00020000 0075.060 10011.070 (扩展B的汉字,在《康熙字典》75页,第6个字。这里D840DC00是它的Surrogate 编码,0002000是它的Unicode码。输入该汉字,只须在Unicode输入模式下输入Surrogate 码D840DC00)
所以,用户只需就要查找汉字在《康熙字典》(或《汉语大字典》)中相应的页码(《康熙字典》的xxxx.xxx或《汉语大字典》的xxxxx.xxx),并在搜索中将该页码字符串作为关键字进行搜索,找到相应的Unicode或Surrogate,然后激活本输入法即可进行输入。
在Word2002中,可以直接在Word2002中输入Unicode码,然后按Alt+X 转换成汉字。对于扩展B的汉字,请将前面两个“0”去掉。比如说,针对上面例子 (𠀀,Unicode 是00020000),则输入020000 ,然后按Alt+X即可。要想知道每个字符的Unicode,也可以将光标定位在汉字后面,然后按ALT+X,相应的Unicode码则会显示出来。

如果是Unicode或UTF8则一样
如果是GB2312就算是同样的字也不一样,要看你是怎么设置的。

这里需要涉及编码的问题
日文编码JIS和简体中文GB中相同编码的字实际代表不同的字符
现在的操作系统都使用Unicode。(Windows的记事本,还有剪贴板里面的纯文本,在内存内都是Unicode储存的)
有些程序碰到不是Unicode的都会适应,从编码表里面转换到Unicode显示出来。
所以IE,记事本这些程序最终都是以Unicode呈现,而不管原本数据是什么编码
实际上各种编码对于浏览器和操作系统都有规定一个默认的字体
我总结了一下,只要笔画相同他们都是一个字(除了少数汉字写法不同,是字体的原因)
传统繁体字被编在Unicode较前部分,而简体字(正确的说是简化字)被当作异体字垃圾字等待未来彻底消除而排在后面。
简体字和繁体字是两个不一样的字,即使觉得一样也是程序转换的结果。
注意大部分输入法在输入的时候还会告诉文本框当前输入法的编码,输入法可以设置为Unicode。
遇到带格式的文本框比如Word或者写字板的RTF文本框这种的,还会在输入的文字里面标记文字的语言。粘贴的话就不会。
日语有简体和繁体,繁体大部分都保留码内,除了一些生僻字异体字还有中文的简化字。
所以希望用日语词典的时候最好用日文编码内的字符,不要使用中文简化字。

  在ASCII中:英文字符占一个编码位置(单字节),而中文就要占两个位置(双字节)了
在Unicode中:英文中文都是占两个编码位置(双字节),现在的操作系统用的都是Unicode编码,所以这时中文就不用进行转换为单字节进行运行了,效率就提高了;最重要的一点是Unicode几乎支持所有的语言编码,所以。。。
unicode不由字体来支持,应该是由操作系统的“字体服务”来支持。
就是说,在支持unicode的字体服务的驱动下,每个字体都涵盖并支持部分unicode 的字符。
宋体只是涵盖部分较大,但也不全。黑体、楷体涵盖部分较小只有gb3212重叠的部分。
西文字体只涵盖unicode中latin-1的部分。都该说支持unicode。
另外,涵盖部分较大的中文字体,有微软雅黑、微软正黑、文泉驿正黑、微米黑等等

一般的拼音输入法,包括微软的的全拼输入法,既支持GB-2312字符集,又支持GBK字符集,用户可自由选择。

紫光华宇拼音输入法 V6.5以后版本开始支持Unicode字符集,可输出75000多个汉字了。可在西文操作系统、繁体中文操作系统下安装使用。目前
紫光华宇拼音输入法 (即紫光拼音输入法)最新版是unispim6.7.1.36,下载地址:http://bbs.unispim.com/viewthread.php?tid=13603&extra=page%3D1


中文输入法(比如全拼)是GB编码还是UNICODE
一般的拼音输入法,包括微软的的全拼输入法,既支持GB-2312字符集,又支持GBK字符集,用户可自由选择。紫光华宇拼音输入法 V6.5以后版本开始支持Unicode字符集,可输出75000多个汉字了。可在西文操作系统、繁体中文操作系统下安装使用。目前紫光华宇拼音输入法 (即紫光拼音输入法)最新版是unispim6.7.1.36,下载地址:http:\/\/b...

百度输入法三种输入模式介绍
   百度输入法目前支持全拼、简拼和中英文混拼三种模式:全拼输入是拼音输入法最基本的输入模式。在全拼模式下,输入词条的完整拼音即可得到相应的候选字词,如需输入“百度”时,输入“baidu”即可得到候选:简拼是通过输入声母或声母的首字母来进行输入的一种模式。在简拼模式下,百度输...

搜狗输入法全拼和双拼有哪些区别
【全拼】全拼,一种输入法,使用全拼双音汉字输入法。既可以输入单个汉字,也可以输入双字词汇。这个输入法有两个功能:1.打出偏旁,你只要在里面输入pianpang就会出现偏旁,然后选4会出现匚。2.可以打繁体字,比如要打机的繁体字,你在里面输入ji,再在里面找就能找到。不过用全拼打繁体字很慢。【双...

全拼是什么意思
全拼:一种输入法,使用全拼双音汉字输入法。既可以输入单个汉字,也可以输入双字词汇。 双拼:(也称双打)是一种建立在拼音输入法基础上的输入方法,可视为全拼的一种改进,它通过将汉语拼音中每个含多个字母的声母或韵母各自映射到某个按键上,使得每个音都可以用最多两次按键打出(具体请看后文“概念...

比如全拼,双拼,郑码,五笔等 汉字输入法基本程序
郑码:骤:xcxg 怨:ryw 双拼的键盘可以自定义的,所以不惟一,不好说。

电脑键盘全拼怎么调
在输入法里选择全拼输入法即可。具体步骤如下:一、系统桌面右下角,找到输入法栏,点击把英文切换成中文状态,就可以拼音打字。二、可以按住键盘的shift键,可实现输入法的切换。三、新建一个文本文档,双击打开,在文档中打字,直接用空格和回车键切换。四、在中文状态下的拼音输入打字,直接显示中文字符...

中文简体拼音输入法中文简体全拼输入法
1、选择设置图标 2、打开手机 搜狗输入法 进入界面,点击我的,然后选择设置图标点击进入。3、开启繁体设置 4、进入搜狗设置界面后,在繁体设置后面选中勾选即可。5、繁体设置完成 6、然后打开此手机任编辑文本框,编辑文字即可看到已变成繁体字。取消繁体设置后面的勾选即可变回简体字。本文讲解到此结束...

百度、搜狗、紫光、QQ、哪个拼音输入法好?
2、智能学习功能:比如:“林永菁”,第一次输入码为:linyongjing(全拼),第二次只要输入lyj(声母)即可;又如:“福建儿童发展职业学院”,第一次输入“fujianertongfazhanzhiyexueyuan”,第二次只要输入“fjet”即可(前四个声母);3、支持各种专业词库:目前搜狗拼音输入法提供1239种词库下载(免费),...

常用的输入法主要有哪4种?比如拼音五笔一类的
你这样问,其实范围很广,比如拼音有:全拼,双拼。双拼有各种方案,如小鹤双拼等等。形码有:五笔 ,郑码,仓颉等。还有一些音形码:二笔,小鹤飞杨版等。这些都是电脑上面的输入方式。本人用的五笔。个人建议,也是五笔。当然如果你是拼音用户,你可以用小鹤双拼,等双拼熟练了,可以加上形码,也就是...

输入法的种类
1、搜狗输入法是搜狗(Sogou)公司于2006年6月推出的一款Windows\/Linux\/Mac平台下的汉字输入法。搜狗输入法是基于搜索引擎技术的、特别适合网民使用的、新一代的输入法产品,由于采用了搜索引擎技术,输入速度有了质的飞跃,在词库的广度、词语的准确度上,搜狗输入法都远远领先于其他输入法,用户还可以通过...

瀍河回族区19568832804: 中文输入法(比如全拼)是GB编码还是UNICODE -
貊矩异烟: 在ASCII中:英文字符占一个编码位置(单字节),而中文就要占两个位置(双字节)了 在Unicode中:英文中文都是占两个编码位置(双字节),现在的操作系统用的都是Unicode编码,所以这时中文就不用进行转换为单字节进行运行了,效率...

瀍河回族区19568832804: 打字法有哪些
貊矩异烟: 1、打字法也叫中文输入法.中文输入法是指为了将汉字输入计算机或手机等电子设备而采用的编码方法,是中文信息处理的重要技术.英文字母只有26个,它们对应着键...

瀍河回族区19568832804: 输入法输入的叫编码,输出的叫什么 -
貊矩异烟: 输入法输入的叫编码,输出的叫字符,即文字或图形符号.多元输入法(多元汉字与图形符号输入法)现有24万条编码,可以打出国际标准万国码6.2版所有7.68余万汉字(包括简繁日韩汉字和越南喃字),数万图形符号(包括多国文字、韩朝所有谚文、盲文、易经卦符、各种符号及新增的千余个表情符号),九万条词汇(包括成语、俗语、歇后语、常用语、地名及名人名言)等.例如【土】字的编码为“ps”,输入ps,即见“土”字.【狗】字的编码为“xv”,输入xv,即见“狗”字;输入slxv 即见【🐕;🐩;🐶】.其中sl为“图形符号·表情符号”识别码.

瀍河回族区19568832804: 拼音输入法里面的全拼和双拼有什么区别? -
貊矩异烟: 是两种不同的中文输入法 全拼输入法的概念界定 1全拼输入法的行为描绘. 全拼输入法是众多电脑汉字输入法中一种比较常用的输入法,是按照汉语拼音规则输入全部字母的方法,其实就是汉语拼音输入法.比如我们要在电脑里输入"为"字,只...

瀍河回族区19568832804: 汉字输入法有哪些,各有什么特点?
貊矩异烟: 通用的有~~~~紫光: 紫光拼音输入法是一个完全面向用户的,基于汉语拼音的中文字、词及短语输入法.提供全拼和双拼功能,并可以使用拼音的不完整输入(简拼).双拼输入时可以实时提示双拼编码信息,无需记忆.大容量精选词库,收...

瀍河回族区19568832804: 输入法的英语怎么说??? -
貊矩异烟: “输入法”的英语怎么说? 输入法: Input Method释义:文字或符号的编码方法 种 类:中文(拼音、形码、音形码)、日文 软件类型:百度、 惠邦五行码、搜狗、极点 典型编码:拼音(全拼和双拼)、五笔、二笔输入法: 输入法是指为将...

瀍河回族区19568832804: 汉字的类型 -
貊矩异烟: 汉字编码方式很多,有国标码(GB2312_1980),大五码,GBK,简体18030,区位码,电报码,还有它们的变形:unicode 大端小端码,UTF-8,UTF-*,HZ 等等.输入呢,有全拼,双拼,五笔,拼音,智能,等等.主要是...

瀍河回族区19568832804: 计算机输入汉字和输出汉字用的是什么码 -
貊矩异烟: 在输入汉字时使用英文ASCII码, 在输出汉字时使用双字节中文码. 计算机只识别由0、1组成的代码,ASCII码是英文信息处理的标准编码,汉字信息处理也必须有一个统一的标准编码.汉字交换码(国标码)主要用于汉字信息交换,《信息交...

瀍河回族区19568832804: 中文属于Unicode 编码吗? -
貊矩异烟: Unicode是国际标准字符集,可译为万国码或统一码等,这是电脑系统采用字库的字符集标准,包含中日韩越汉字和世界上绝大多数语言文字,便于实现全球间信息交流.其标准的版本不断更新,第6版的汉字数达7.67万以上. WindowsXP~...

瀍河回族区19568832804: GBK大字符集的汉字是不是就是GB码的汉字 -
貊矩异烟: 大字符集汉字是一种汉字扩展内码规范(GBK)中定义的汉字.使用这个汉字集有利于与港澳台交流,Win95中有五种输入法可以输入GBK汉字.但到了Win98,为了精简系统、优化性能,将GB和GBK两个汉字集的输入法进行了合并.除了区...

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网