一文带你了解编码集

作者&投稿:融宗 (若有异议请与网页底部的电邮联系)
~

编码集

1. ASCII编码:

127个字母 8个数据位足够存储字母、数字、符号,最大支持到0x7F。

2. GB2312编码  

每个汉字占据2个字节(高位和低位),16个数据。GB2312是对ASCII的中文扩展,共包含7000多个汉字。是计算机发展到中国后发展起来的编码,检测高位和低位,如果同时大于0x7F,则认为是GB2312,否则认为是ASCII编码。

相关推荐:《Python视频教程》

3. GBK(1995)和GB18030(2005/2000)

每个汉字占据2个字节,由于汉字的数量太大,GB2312不能满足需求。GBK包括了GB2312的所有内容,

同时增加了近20000个新的汉字(包括繁体)和符号 。只要求高位大于0x7F,低位可以小于0x7F,认为是中文。 

>  国家标准GB18030-2000《信息交换用汉字编码字符集基本集的补充》是我国继GB2312-1980和

GB13000-1993之后最重要的汉字编码标准,包含多种我国少数民族文字,其中收入汉字70000余个。

4.Unicode编码 

> 定长存储, 将所有语言都统一到一套编码集,通常使用2个字节,有的是4个字节。收录很全。

分为17个面,基本面采用2个字节,普通中文子也在基本面中,另外16个面是4个字节。

不兼容ASCII码,即存储的时候,对ASCII码前面补0,导致存储的数据变大。

5. utf-8---变长存储

> 国际标准组织(ISO)制定英文字符使用1个字节,沿用原来的ASCII码。

> 使用1~4个字节表示一个符号,中文存储使用3个字节(ascii码中的内容用1个字节保存欧洲的字符用2个字节保存东亚的字符用3个字节保存特殊符号用4个字节)

> Unicode是内存编码表示方案(规范),而utf-8是如何保存和传输Unicode的方案(实现)

> 优点:虽然内存汇总的数据都是Unicode,但当数据保存到磁盘或者用于网络传输时,使用utf-8会节省更多的流量和硬盘空间。

如何判断几个字节表示一个字符:

每个字节添加识别位,其中高位识别位为4位,低位识别位为2位。判断高位字节开头有几个1,可以确定共有几个字节来表示一个字符。

6. utf-8和Unicode对应关系

utf-8去掉识别位,变成unicode。




带你了解微信扫一扫条码信息查询功能,深度了解条码
微信扫一扫条码信息查询功能在现代社会中扮演着重要角色,它利用条形码技术,将信息编码成条纹,方便快捷地识别和获取物品信息。条形码技术在零售业、制造业、物流运输、医疗保健和文档管理等领域都有广泛应用,提升效率,加强数据管理。微信的“扫一扫”功能尤其实用,用户只需对准条码或二维码,即可显示商品详情...

招标文件编号是什么?一文带你了解
既是招标活动的主要依据,也是合同文件构成的重要内容,对招标人和中标人具有约束力;三是参考资料,供投标人了解分析与招标项目相关的参考信息,如项目地址、水文、地质、气象、交通等参考资料。更多关于工程\/服务\/采购类的标书代写制作,提升中标率,您可以点击底部官网客服免费咨询:https:\/\/bid.lcyff....

工业互联网-一文让你弄懂标识协议解析系统
揭开工业互联网标识协议解析系统神秘面纱 一、探索标识解析体系的奥秘本文将带你深入理解工业互联网标识解析体系,它由四个关键组件构成:标识编码、标识载体、标识解析系统和标识数据服务,如同万物的“身份证”系统,助力信息透明和高效流通。1.1 标识编码:万物的身份代码工业互联网的标识编码,就像机器和...

1分钟记住一副扑克,快速提升记忆能力。
探索记忆新大陆:1分钟扑克牌记忆法 扑克牌,这个源自东方的艺术瑰宝,历经沧桑后在欧洲绽放异彩。它的魅力在于那独特的花色,而今天,我们将用数字桩的魔法,解锁超快速的记忆能力。这项训练不仅限于扑克,它能提升你的联想力和编码技巧,甚至开发出你的右脑潜能。以下是13个数字桩的神奇步骤,带你领略...

谁知道POS机小票的字体都是什么?
“仿宋_GB2312”字体的编码字节采用了两种标准: 1、国标GB2312编码(zh_CNhp15CN) 国标GB2312是基于1980年发布的《信息交换用汉字编码字符集基本集》,是...根据您描述三星安卓智能手机般自带默认字体楷体喵呜少四种字体比较喵呜少字体您进入设置--显示--字体--选择字体进行设 已赞过 已踩过< 你对这个回答的评价...

python字符串占多少字节(2023年最新整理)
UTF-8的编码规则很简单,只有二条: 1)对于单字节符号,字节的第一位设为0,后7位为这个符号的Unicode码。也就是我们上文提到的向后兼容:对于英文字母,UTF-8编码和ASCII码是相同的。 2)对于使用X个字节存储的符号,第一个字节的前X位设置为1,第X+1位设置为0,后面字节的前2位一律设置为10,剩下的位置一次...

会计电算化论文
手工会计与电算化会计对会计信息的控制有很大的不同,我们通过以下分析了解会计电算化核算下会计内部控制...从以上工作流程可以看出, 会计电算化后,会计帐务的集中化处理,除原始数据的收集、审核、编码、输入由...应当符合国家统一 会计制度的要求, 采用中文或中外文对照,字迹清晰,作为会计档案保存,保存期限按《会计...

一文带你了解 Nebula 的存储设计和思考
用户关心的问题涵盖了边的value存储、强Schema设计、数据一致性、物理隔离以及Schema的管理。边的value存储遵循强Schema设计,通过编码策略,如定长string和offset指针,实现了高效的数据存储和读取。与Neo4j相比,Nebula的这种设计减少了序列化反序列化带来的开销。物理隔离则通过独立的目录和RocksDB实例来实现,...

什么是应用配置?三分钟带你快速了解应用配置介绍
配置文件是用来存储相关软件的一些信息,如初始化的信息,初始路径和帐号等等,方便程序的移植。硬编码型 (用开发语言来说就是hard code)即:将软件中配置的数据直接写死在代码中,例如:路径,IP,等待时间等。这种方式不利于数据的修改,但是另一方面来说如果某些数据比较重要且固定,用硬编码的方式...

vc6.0 代码注释怎么成这样了
比如:注释是中文,但编码变成UT8,或者其它,就会导致你这种情况。切换编码方式后,有时可以恢复,有时不行。搞清常用编码特性是解决字符集编码问题的基础。字符集编码的识别与转换、分析各种乱码产生的原因、编程操作各种编码字符串(例如字符数计算、截断处理)等都需要弄清楚编码的特性。了解一种字符集编码主要是要了解该...

武鸣县18071607690: 编码字符集是什么? -
徵秒苁蓉: GB2312码是中华人民共和国国家汉字信息交换用编码,全称《信息交换用汉字编码字符集--基本集》,由国家标准总局发布,1981年5月1日实施,通行于大陆.新加坡等地也使用此编码. GB2312收录简化汉字及符号、字母、日文假名等共...

武鸣县18071607690: 编码方式的编码方式 -
徵秒苁蓉: 搞清常用编码特性是解决字符集编码问题的基础.字符集编码的识别与转换、分析各种乱码产生的原因、编程操作各种编码字符串(例如字符数计算、截断处理)等都需要弄清楚编码的特性. 了解一种字符集编码主要是要了解该编码的编码范围...

武鸣县18071607690: 请问什么是文字解码方式?有何作用 -
徵秒苁蓉: 字符编码:字符编码就是以二进制的数字来对应字符集的字符,目前用得最普遍的字符集是ANSI,对应ANSI字符集的二进制编码就称为ANSI码,DOS和Windows系统都使用了ANSI码,但在系统中使用的字符编码要经过二进制转换,称为系统...

武鸣县18071607690: 计算机中为什么要对字符进行编码 -
徵秒苁蓉: 在电脑中输入字符时,电脑要自动把它转换为二进制数,才能存储在电脑中,所以电脑中一定要对字符进行编码,包括ASCII码和汉字编码.1、由于电路的复杂性因素,电脑中都使用二进制数,只有0和1两个数码,逢二进一,最容易用电路来表...

武鸣县18071607690: 如何快速记忆最基本的100个数字编码 -
徵秒苁蓉: 1.了解每一个编码的来源.数字编码的来源一般有三种:形象、谐音、熟语.看每一个编码是属于那种;2.从1-100读一两次数字和编码,读10~99的数字时不要把“十”字念出来,如21不应该念”ershiyi”,而是念”eryi”.这样就能较容易从...

武鸣县18071607690: 什么是国标码 -
徵秒苁蓉: 1.汉字信息的编码知识 ⑴国标码:是指我国1981年公布的“中华人民共和国国家标准信息交换汉字编码”,代号为“GB2312-80”.由连续的两个字节组成. 2.机内码:在计算机内表示汉字的代码是汉字机内码,汉字机内码由国标码演化而来...

武鸣县18071607690: 3,ascii编码和unicode编码的区别 -
徵秒苁蓉: 近日需要不同的编码,关于上述编码,一直迷迷糊糊,查了些资料,总算大致了解了, 下面全是从网上搜来的:1. ASCII和Ansi编码字符内码(charcter code)指的是用来代表字符的内码.读者在输入和存储文档时都要使用内码,内码分为单...

武鸣县18071607690: 什么是PHP编码? -
徵秒苁蓉: PHP程序设计中中文编码问题曾经困扰很多人,导致这个问题的原因其实很简单,每个国家(或区域)都规定了计算机信息交换用的字符编码集,如美国的扩展ASCII码,中国的GB2312-80,日本的JIS等.作为该国家/区域内信息处理的基础,...

武鸣县18071607690: 简单介绍一下:什么是机内码、国际码、输入码、ASCII码,以及它们的联系 -
徵秒苁蓉: 输入码、区位码、国标码与机内码 国家标准局1980年颁布的《信息交换用汉字编码字符集"基本集》(代号为GB2312 80)规定的汉字交换码作为国家标准汉字编码. GB2312 80中共有7445个字符符号: 汉字符号6763个 一级汉字3755个(按汉语拼音字母顺序排列) 二级汉字3008个(按部首笔划顺序排列) 非汉字符号682个 GB2312 80规定,我们知道,键盘是当前微机的主要输入设备,;输入码就是使用英文键盘输入汉字时的编码.目前,我国已推出的输入码有数百种,但用户使用较多的约为十几种,按输入码编码的主要依据,大体可分为顺序码、音码、形码、音形码四类,如“保”

武鸣县18071607690: 什么是字符集? -
徵秒苁蓉: AscI码就是将字符与特定的代码一一对应,比如编程的时候字符可以比较大小,'a'

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网