如何区分汉字和西文字符

作者&投稿：钭巧（若有异议请与网页底部的电邮联系）

分辨中文字符和西文字符~

1、可以通过识别字符编码的长短实现。
由于英文字符只占一个位，而中文字符占两位，但是在国际字符编码标准unicode中，所有的文字都占两位，所以unicode中所有的英文数字第一个byte的值绝对是0x00，只要两个字节两个字节的读取，通过判断第一个字符是不是0x00就可以判断中文字符和英文字符。
但是请注意，unicode是有大端和小端编码之分的，两者字符识别的顺序刚好相反，所以请注意，使用小端编码的话0x00就会在前面，windows中都是使用的小段编码。还有在文本文件中，unicode是有dom头的，注意不要把文件头读进去。
2、根据每个字节转化为数字判断。
大家知道西文字符主要是指ASCII码，它用一个字节表示。且这个字符转换成数字之后，该数字是大于0的，而汉字是两个字节的，第一个字节的转化为数字之后应该是小于0的，因此可以根据每个字节转化为数字之后是否小于0，判断它是否是汉字。

扩展资料
在台湾、香港与澳门地区，使用的是繁体中文字符集。而1980年发布的GB2312面向简体中文字符集，并不支持繁体汉字。在这些使用繁体中文字符集的地区，一度出现过很多不同厂商提出的字符集编码，这些编码彼此互不兼容，造成了信息交流的困难。
为统一繁体字符集编码，1984年，台湾五大厂商宏碁、神通、佳佳、零壹以及大众一同制定了一种繁体中文编码方案，因其来源被称为五大码，英文写作Big5，后来按英文翻译回汉字后，普遍被称为大五码。
大五码是一种繁体中文汉字字符集，其中繁体汉字13053个，808个标点符号、希腊字母及特殊符号。大五码的编码码表直接针对存储而设计，每个字符统一使用两个字节存储表示。
第1字节范围81H－FEH，避开了同ASCII码的冲突，第2字节范围是40H－7EH和A1H－FEH。因为Big5的字符编码范围同GB2312字符的存储码范围存在冲突，所以在同一正文不能对两种字符集的字符同时支持。

很多作者朋友投稿，对杂志社征稿函中的“字符数”表示不理解。他们觉得，“字符数”不就是“汉字数”吗？其实不然，这是两码事。

很多作者朋友投稿，对杂志社征稿函中的“字符数”表示不理解。他们觉得，“字符数”不就是“汉字数”吗？其实不然，这是两码事。

字符的定义是：字符是电子计算机或无线电通信中字母、数字、符号的统称，其是数据结构中最小的数据存取单位，通常由8个二进制位(一个字节)来表示一个字符。

在ASCII 编码中，一个英文字母字符存储需要1个字节。在 GB 2312 编码或 GBK 编码中，一个汉字字符存储需要2个字节。

可见，字符数≠汉字数。字符数包括汉字数、标点符号和空格。显然，字符数>汉字数。

那么，如何查看一篇稿子的字符数呢？

举例说明：

字符的定义是：字符是电子计算机或无线电通信中字母、数字、符号的统称，其是数据结构中最小的数据存取单位，通常由8个二进制位(一个字节)来表示一个字符。

在ASCII 编码中，一个英文字母字符存储需要1个字节。在 GB 2312 编码或 GBK 编码中，一个汉字字符存储需要2个字节。

可见，字符数≠汉字数。字符数包括汉字数、标点符号和空格。显然，字符数>汉字数。

那么，如何查看一篇稿子的字符数呢？

举例说明：

鼠标单击稿件左下方的“字数”，会弹出一个“字数统计”的弹窗。上面会显示“页数”、“字数”、“字符数（不计空格）”、“字符数（计空格）”、“段落数”、“非中文单词”、“中文字符”等信息。

作为期刊投稿的作者而言，我们需要关注的是：“字符数（计空格）”。这个就是我们发表论文时，提及的“字符数”。

以上就是“字符数”的查阅方法。

为什么期刊收稿时，会着重强调“字符数”而不是“汉字数”呢？就让小坤给大家做一下简单科普吧！

期刊是按照版面收费的，一个版面就是一个单面，可表示为1P。作者投稿后，编辑要按照期刊的要求进行排版。每个版面不仅包括汉字、还有标点符号、段落空格、以及图表等。所以，收稿时，要按照包含空格的字符数计算，而不是汉字数。

字符数越多，意味着占的版面也就越多。一个期刊通常从几十页到两三百页不等，每一期的页数都是固定的，版面也是有限的。

杂志社作为一个事业单位或者企业，在期刊运营过程中，要付出成本投入，所以本质上，也需要盈利。如果您的稿子占用的版面越多，所需要缴纳的费用当然也会越多。

因此，如果您的稿子超出一定字符，编辑通常会询问，是否需要对字符数进行删减。如果不做删减，肯定就不能按照1个版面计算的。

一、汉字：两个字符，西文一个字符，汉字第一个字符的第一位必须为1，所以ABF4，D1E3，C2B7是汉字，78，55是西文。

二、西文字符：主要是ASCII码，用一个字节表示。且这个字符转换成数字之后，该数字是大于0的。而汉字是两个字节的，第一个字节的转化为数字之后应该是小于0的，因此可以根据每个字节转化为数字之后是否小于0，判断它是否是汉字。

扩展资料：

ASCII 码使用指定的7 位或8 位二进制数组合来表示128 或256 种可能的字符。使用7 位二进制数（剩下的1位二进制为0）来表示所有的大写和小写字母，数字0 到9、标点符号，以及在美式英语中使用的特殊控制字符。其中：

0～31及127(共33个)是控制字符或通信专用字符（其余为可显示字符），如控制符：LF（换行）、CR（回车）、FF（换页）、DEL（删除）、BS（退格)、BEL（响铃）等；通信专用字符：SOH（文头）、EOT（文尾）、ACK（确认）等；ASCII值为8、9、10 和13 分别转换为退格、制表、换行和回车字符。

参考资料来源：百度百科-ascii码

汉字两个字符，西文一个字符，汉字第一个字符的第一位必须为1．所以ABF4D1E3C2B7是汉字，78、55是西文。

ASCII码：

一个英文字母(不论大小写)占用一个字节的空间。一组二进制数字，在计算机中用作数字单位，通常为8位。转换为小数，最小值为-128，最大值为127。例如，ASCII码是一个字节。

UTF－8编码：

一个英文字符等于一个字节，一个中文字符（包括繁体字符）等于三个字节。中文标点是三个字节，英文标点是一个字节。

Unicode编码：

英文等于两个字节，中文一个（包括繁体字）等于两个字节。中文标点是两个字节，英文标点是两个字节。

扩展资料：

在ASCII编码中，字母数字字符存储需要1个字节。在gb2312编码或GBK编码中，一个汉字存储需要2字节。

在UTF-8编码中，字母字符存储为1字节，中文字符存储为3-4字节。在UTF-16编码中，字母字符或汉字字符存储需要两个字节（Unicode扩展中的一些汉字存储需要四个字节）。

在UTF－32编码中，需要四个字节来存储世界上的任何字符。

参考资料来源：百度百科-字节

参考资料来源：百度百科-字符

参考资料来源：百度百科-字符编码

中文没有数字开头的，最小的是A000，而且是成对出现的。ABF4D1E3C2B7是中文，7855是西文。

为什么我国古代人造的字是方块字,而西方大多是字母呢?
第二，汉字和西方文字的书写工具不同。无论是汉字还是西方文字，最早都主要是用刻刀，刻在比较硬的东西上。龟甲、兽骨，石头、泥板等等。不过到了后来，中西方的书写工具就发生了很大的变化。中国发明了毛笔，用毛笔把文字写在竹简上。西方则用的是芦苇笔或者鹅毛笔，把文字写在羊皮纸或者莎草纸上。这...

分辨中文字符和西文字符
2、根据每个字节转化为数字判断。大家知道西文字符主要是指ASCII码，它用一个字节表示。且这个字符转换成数字之后，该数字是大于0的，而汉字是两个字节的，第一个字节的转化为数字之后应该是小于0的，因此可以根据每个字节转化为数字之后是否小于0，判断它是否是汉字。

我国的汉字与英语等西方文字相比最大的区别是什么
2、辨识度高人类的眼睛视野总是一个面，而不是一条线，所以线性排列不易辨认；排成方块一目了然。拼音文字=线形文字；汉字=方块文字。汉字比拼音文字有更高的阅读效率。3、易懂，具有关联性例如，“被”是一个形声字兼会意字。如果从形声字的角度来看，“被”字左边的“衣”字旁表示意义，...

word什么是西西文字word里西文是什么意思
西西文字将汉字的形状和西方字母的发音结合起来，每个汉字都有一个对应的西方字母表示其发音。这种文字系统可以帮助西方人更容易地学习和记忆汉字，同时也方便他们在书写和交流中使用汉字。西西文字在跨文化交流和教育中起到了重要的作用，促进了不同文化之间的理解和交流。一般西文就指文档中半角输入英文 ...

我国的汉字与英语等西方文字相比最大的区别是什么
汉字源远流长，是象形文字的代表。汉字的优势在于，是二维的表现方式。英文是单纯的字母组合，是发散的。汉字的重复利用率非常高，历代积累的汉字总数以万计，康熙字典就收录了4万多，专家指出常用仅三千五，选取当代的常用字作为学习和使用汉字的重点，是历代历朝整理和教学汉字的一个重要内容。历史上的...

为什么中国是意音文字,西方是拼音文字
中国文字的发展可以划分为三个大阶段。从甲骨文字到西周铭文是一个阶段，属于上古文字，以图形、会意为基础；周宣王以后的籀文到秦小篆是第二个阶段，以转注、形声为主，对物理世界的形态的依赖大大减弱，抽象性更强，秦汉时代的隶书以下是最后一个阶段，这个阶段已经少有新文字的创造，更多是对字的写法...

人们为什么容易出现把汉字的字跟拉丁字母的笔画类比的错觉?
500年前我国部分穆斯林少数民族中曾经使用“小经”文字，这种文字是一种阿拉伯文字。用阿拉伯字母来拼写汉语，比唐代守温用汉字来表示声母和韵母又进了一步。共有36个字，其中4个字母是特有的，这可能是我国最早的用来拼写汉语的拼音文字，它不再带有汉字的痕迹，完全采用拼音字母。“小经“同时也为东乡、...

汉字的起源与演变的详细介绍
甲骨文字:为商朝后期用写或刻的方式,在龟甲、兽骨上所留下的文字,其内容多为卜辞,也有少数为记事辞。甲骨文大部分符合象形、会意的造字原则,形声字只占20%。其文字有刀刻的,有的填满朱砂,也有直接朱书墨书的。因文字多为图画文字中演变而成的,象形程度高,且一字多体,笔画不定。这说明中国的文字在殷商时期...

汉字与其他文字的区别在哪里?
它和言语联络过于紧密。从某种意义上说，这是言语的一种重复方式。而作为表意文字的汉字，它不仅仅具有言语性的功能，还成了一个很独立的系统。咱们就算不识字，根据字形，就能猜中文字想表达什么。这就使得汉字比表音文字具有更强大的表现力。以上四点，便是汉字可以长盛不衰的根本原因。

计算机西文文字是指哪些?
，如控制符：LF（换行）、CR（回车）、FF（换页）、DEL（删除）、BS（退格）、BEL（响铃）等；通信专用字符：SOH（文头）、EOT（文尾）、ACK（确认）等；ASCII值分别为8、9、10和13转换为退格符、制表符、换行符和回车符。它们没有特定的图形显示，但是可以根据应用程序对文本显示有不同的效果。

中卫市18218803608： 如何判断一个数是西文字符还是汉字字符 - ？
子知思可： 大家知道西文字符主要是指ASCII码,它用一个字节表示.且这个字符转换成数字之后,该数字是大于0的,而汉字是两个字节的,第一个字节的转化为数字之后应该是小于0的,因此可以根据每个字节转化为数字之后是否小于0,判断它是否是汉字. 例如,设输入字为strin,则, If (strin.at(0) < 0) cout << ”是汉字” << endl; else cout << ”不是汉字” << endl;

中卫市18218803608： 在中西文兼容的计算机中,计算机怎样区别西文字符与汉字字符?急待解决 - ？
子知思可： 按字节的长短.中文用的是双字节字符,西文用的是单字节字符.

中卫市18218803608： 在中、西文兼容机中,简述计算机怎样区别西文字符和中文字符 - ？
子知思可： 西文字符用一个字节表示,中文字符用两个字节表示.

中卫市18218803608： 中西方兼容的计算机如何区分中西字符 - ？
子知思可： 简单地说,就是采用不同的编码来区分不同的字符,中英文之所以能够区分是因为编码不同,每个英文字母用一个字节来表示,而一个汉字用2个字节来表示. 计算机中最基本最常用的编码是ASCII编码,这个是国际标准,为世界上每一台计算机所支持.标准ASCII编码是采用7位二进制数编排的,其中包括了英文大小写字母、阿拉伯数字、常用标点、常用符号等共计128个字符.为了适应不同国家、不同语言的使用需要,还发展出了扩展ASCII码,将7位的标准ASCII码升级为8位,原标准ASCII码最高位置0,而扩展ASCII码最高位置1,这样就又多出了128个字符,可供不同国家、地区自行定义.

中卫市18218803608： 区别输入的字符是英文的还是中文或者是特殊字符 - ？
子知思可： 区别中文和英文字符的方法:String str = ＂我爱你,xr＂; char[] array = str.toCharArray(); int chineseCount = 0; int englishCount = 0; for (int i = 0; i

中卫市18218803608： 系统如何区分汉字和ASCII码字符?？
子知思可： 汉字的第一个字节的标志为“1”,第二个字节的标志位可以是“1”也可以是“0”; ASCII码字符的标志位为“0”

中卫市18218803608： 问计算机汉字个数和西文字符个数 - ？
子知思可： 汉字两个字符,西文一个字符,汉字第一个字符的第一位必须为1.所以ABF4 D1E3 C2B7是汉字,78 55 是西文.

中卫市18218803608： 计算机中的西文字符和中文字符的标准 - ？
子知思可： 英文、数字以及一些常用标点符号,给它们编了个码叫ASCII码,输出字符时,就取字符编码到操作系统的字库中取点阵绘制到屏幕上,ASCII码取值为0~255正好占用一个字节; 由于要显示多种语言,比如中文,字符种类比ASCII码可容纳的多多了,就采取扩展ASCII码的方式,用2个字节表示一个汉字,这两个字节的码值一般都大于128;那么汉字串就是2个字节为一个单位,如果遇到大于128的数字表示字符就取连续的2个字符来显示汉字,如果字符编码小于128呢就是英文字符和常用符号

中卫市18218803608： C语言判断汉字 - ？
子知思可： #include<stdio.h>intmain(){inti;unsignedchars[200];scanf(＂%s＂,s);for(i=0;s[i];i++)if(s[i]>127){printf(＂汉字＂);i++;}elseprintf(＂字母＂);return0;} 扩展资料 C++利用汉字的ASCII编码小于0的特性判断汉字 //coding:utf-8#...

中卫市18218803608： Windows下,一段文本内码50 43 CB F5 CA C7,这段文本中,含有( )A.2个汉字1个西文字符B.4个汉字2个西文符C.2个汉2个西文D.2个汉4个西文怎样区... - ？
子知思可：[答案] CB F5 CA C7 是16进制的表示表示为2进制是: 11001011 11110101 11001010 11000111 最高位都是1 而50 43表示为2进制是01010000 01000111 最高位为0 总结,ANSI编码格式中: 如果最高位为0那么这个字节就是西文字符, 所以50 43分别...

你可能想看的相关专题

星空见康网

如何区分汉字和西文字符

你可能想看的相关专题