ISO8859的字符编码

作者&投稿:天露 (若有异议请与网页底部的电邮联系)
java怎样实现将GB2312编码的字符串转换为ISO-8859-1编码的字符串~

通过JDK1.6知道String类中getBytes(”编码“)方法可以讲一个数用指定的编码转成一个字节数组,String中通过指定的 charset解码指定的 byte 数组,构造一个新的 String。代码如下:
try{
String s = "java学习";
System.out.println(s);
String result = new String(s.getBytes("GB2312"),"iso-8859-1");
System.out.println(s);
} catch (UnsupportedEncodingException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}

扩展资料:
getBytes() 方法有两种形式:
1、getBytes(String charsetName): 使用指定的字符集将字符串编码为 byte 序列,并将结果存储到一个新的 byte 数组中。
2、getBytes(): 使用平台的默认字符集将字符串编码为 byte 序列,并将结果存储到一个新的 byte 数组中。
参考资料:
百度百科-getBytes()

Java使用ISO-8859-1编码是因为这种编码国际上是通用的,可以兼容很多国家的语言编码。我们国家的gbk编码格式是可以换成ISO-8859-1格式的。国际中通用的还有一种编码格式就是UTF-8能兼容世界上几乎所有的语言,在网络传输为了避免出现乱码,都采用这种编码方式。

十进 十六 字符 说明
制 进制
---------------------------------------------------------------
160 A0 无间断空间
161 A1 ? 倒置的叹号
162 A2 ¢ 美分标志
163 A3 £ 英镑标志
164 A4 € 货币标志
165 A5 ¥ 日元标志
166 A6 ? BROKEN BAR
167 A7 § 节标志
168 A8 ? 分音符号
169 A9 ? 版权标志
170 AA a 阴性顺序指示
171 AB ? 左指向双角引号
172 AC ? NOT SIGN
173 AD 软连字符
174 AE ? 已注册标志
175 AF ˉ 长音符号
176 B0 ° 度标志
177 B1 ± 正负标志
178 B2 2 上角标2
179 B3 3 上角标3
180 B4 ? 高音重音符号
181 B5 μ MICRO SIGN
182 B6 ? PILCROW SIGN
183 B7 · 中间点
184 B8 ? 变音符号
185 B9 1 上角标1
186 BA o 阳性顺序指示
187 BB ? 右指向双角引号
188 BC ? 普通分数四分之一
189 BD ? 普通分数二分之一
190 BE ? 普通分数四分之三
191 BF ? 倒置的问号
192 C0 à 拉丁大写字母A带抑音符号
193 C1 á 拉丁大写字母A带高音符号
194 C2 ? 拉丁大写字母A带抑扬音符号
195 C3 ? 拉丁大写字母A带鼻音符号
196 C4 ? 拉丁大写字母A带分音符号
197 C5 ? 拉丁大写字母A带上环符号
198 C6 ? 拉丁大写字母AE
199 C7 ? 拉丁大写字母C带变音符号
200 C8 è 拉丁大写字母E带抑音符号
201 C9 é 拉丁大写字母E带高音符号
202 CA ê 拉丁大写字母E带抑扬音符号
203 CB ? 拉丁大写字母E带分音符号
204 CC ì 拉丁大写字母I带抑音符号
205 CD í 拉丁大写字母I带高音符号
206 CE ? 拉丁大写字母I带抑扬音符号
207 CF ? 拉丁大写字母I带分音符号
208 D0 D 拉丁大写字母ETH
209 D1 ? 拉丁大写字母N带鼻音符号
210 D2 ò 拉丁大写字母O带抑音符号
211 D3 ó 拉丁大写字母O带高音符号
212 D4 ? 拉丁大写字母O带抑扬音符号
213 D5 ? 拉丁大写字母O带鼻音符号
214 D6 ? 拉丁大写字母O带分音符号
215 D7 × 乘法标志
216 D8 ? 拉丁大写字母O带删除符号
217 D9 ù 拉丁大写字母U带抑音符号
218 DA ú 拉丁大写字母U带高音符号
219 DB ? 拉丁大写字母U带抑扬音符号
220 DC ü 拉丁大写字母U带分音符号
221 DD Y 拉丁大写字母Y带高音符号
222 DE T 拉丁大写字母THORN
223 DF ? 拉丁小写字母SHARP S
224 E0 à 拉丁小写字母A带抑音符号
225 E1 á 拉丁小写字母A带高音符号
226 E2 a 拉丁小写字母A带抑扬音符号
227 E3 ? 拉丁小写字母A带鼻音符号
228 E4 ? 拉丁小写字母A带分音符号
229 E5 ? 拉丁小写字母A带上环符号
230 E6 ? 拉丁小写字母AE
231 E7 ? 拉丁小写字母C带变音符号
232 E8 è 拉丁小写字母E带抑音符号
233 E9 é 拉丁小写字母E带高音符号
234 EA ê 拉丁小写字母E带抑扬音符号
235 EB ? 拉丁小写字母E带分音符号
236 EC ì 拉丁小写字母I带抑音符号
237 ED í 拉丁小写字母I带高音符号
238 EE ? 拉丁小写字母I带抑扬音符号
239 EF ? 拉丁小写字母I带分音符号
240 F0 e 拉丁小写字母ETH
241 F1 ? 拉丁小写字母N带鼻音符号
242 F2 ò 拉丁小写字母O带抑音符号
243 F3 ó 拉丁小写字母O带高音符号
244 F4 ? 拉丁小写字母O带抑扬音符号
245 F5 ? 拉丁小写字母O带鼻音符号
246 F6 ? 拉丁小写字母O带分音符号
247 F7 ÷ 除法标志
248 F8 ? 拉丁小写字母O带删除符号
249 F9 ù 拉丁小写字母U带抑音符号
250 FA ú 拉丁小写字母U带高音符号
251 FB ? 拉丁小写字母U带抑扬音符号
252 FC ü 拉丁小写字母U带分音符号
253 FD y 拉丁小写字母Y带高音符号
254 FE t 拉丁小写字母THORN
255 FF ? 拉丁小写字母Y带分音符号




c语言字符ASCLL码顺序
00000000 0 00 NUL(null) 空字符 00000001 1 01 SOH(start of headling) 标题开始 00000010 2 02 STX (start of text) 正文开始 00000011 3 03 ETX (end of text) 正文结束 00000100 4 04 EOT (end of transmission) 传输结束 ...

网页传字符串,保存进数据库是长度超长的问题
name = new String(name.get("ISO-8859-1"),"GBK");前面ISO-8859-1是你得到name是的编码,后面gbk转换后的编码 一般UTL不是ISO-8859-1就是unicode

控制字符的其他信息
US-ASCII控制字符Seq 十进 十六进 缩写 字符名  00 0x00 NUL Null (空) ^A 01 0x01 SOH Start of Heading (报头开始) ^B 02 0x02 STX Start of Text (正文开始) ^C 03 0x03 ETX End of Text (正文结束) ^D 04 0x04 EOT End of ...

日喀则市19129758072: iso - 8859 - 1 是什么编码 -
豆心复方: Java使用ISO-8859-1编码是因为这种编码国际上是通用的,可以兼容很多国家的语言编码.我们国家的gbk编码格式是可以换成ISO-8859-1格式的.国际中通用的还有一种编码格式就是UTF-8能兼容世界上几乎所有的语言,在网络传输为了避免出现乱码,都采用这种编码方式.

日喀则市19129758072: pageEncoding="ISO - 8859 - 1"就是utf - 8吗?是一样的吗? -
豆心复方: ISO-8859-1编码是单字节编码,向下兼容ASCII,其编码范围是0x00-0xFF,0x00-0x7F之间完全和ASCII一致,0x80-0x9F之间是控制字符,0xA0-0xFF之间是文字符号 UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码.由Ken Thompson于1992年创建.现在已经标准化为RFC 3629.UTF-8用1到6个字节编码UNICODE字符.用在网页上可以同一页面显示中文简体繁体及其它语言(如英文,日文,韩文)开发程序中一般都是使用utf-8

日喀则市19129758072: 什么是ISO8859 - 1,ISO8859 - 2,ISO8859 - 3 -
豆心复方: ISO8859 不是一个标准,而是一系列的标准,这套字符集与编码系统的共同特色是,以同样的码位对应不同字符集.ISO8859-1 字符集,也就是 Latin-1,是西欧常用字符,包括德法两国的字母.ISO8859-2 字符集,也称为 Latin-2,收集了东欧字符.ISO8859-3 字符集,也称为 Latin-3,收集了南欧字符.更多定义可见参考

日喀则市19129758072: python怎么解码ISO - 8859 - 2格式.并转换为utf - 8 -
豆心复方: 比如str是ISO-8859-2格式的字符串, 你需要先解码:str = str.decode("ISO-8859-2"),这样返回的就是unicode的str, 然后再使用个utf8编码:str = str.encode("utf-8"),这样就是utf8的了. 也就是str=str.decode("ISO-8859-2").encode("utf-8") 如...

日喀则市19129758072: Java几种常见的编码格式 -
豆心复方: ASCII 码 学过计算机的人都知道 ASCII 码,总共有 128 个,用一个字节的低 7 位表示,0~31 是控制字符如换行回车删除等;32~126 是打印字符,可以通过键盘输入并且能够显示出来. ISO-8859-1 128 个字符显然是不够用的,于是 ISO 组织在 ...

日喀则市19129758072: iso - 8859 - 1、utf - 8和gb2312的区别 -
豆心复方: ISO8859-1,通常叫做Latin-1.Latin-1包括了书写所有西方欧洲语言不可缺少的附加字符.而gb2312是标准中文字符集.UTF-8 是 UNICODE 的一种变长字符编码,即 RFC 3629.简单的说——大字符集.可以解决多种语言文本显示问题,从而实现应用国际化和本地化.对系统来讲,UTF-8 编码可以通过屏蔽位和移位操作快速读写,排序更加容易.UTF-8 是字节顺序无关的,它的字节顺序在所有系统中都是一样的.因此 UTF-8 具有更高的性能. 不过如果是纯英文的话,用什么都可以,用GB2312也没问题.

日喀则市19129758072: java语句解释 -
豆心复方: public String handleString(String s) { try{byte bb[]=s.getBytes("iso-8859-1"); //将字符串s按iso-8859-1标准编码,并放到数据bb中 s=new String(bb); //将bb中的内容组成一个字符串,放到s中. } catch(Exception ee){} //捕获运行中出现的错误,不做处理 return s; //返回s } 整个方法的功能是将s按照iso-8859-1标准重新编码,返回编码后的字符串.方法不足的地方在于对发生的错误不做处理.改进的话,可以抛出交给外层或者返回null.

日喀则市19129758072: 常见的高清编码格式有哪些? -
豆心复方: 现在的高清音频格式有:DTS、Dolby Digital、Dolby TrueHD、LPCM等.视频格式,主要有:H.264、WMA-HD、MPEG2-TS、MPEG4和VC-1等.其中,H.264格式目前最为流行.

日喀则市19129758072: iso8859 - 1和iso - 8859 - 1有什么区别 -
豆心复方: ascii被iso8859-1包括着呢,一般欧美电脑的系统中字体的locale是latin-one 也正是iso8859-1,也就是说支持更多的非标准字符.详细的我一下子说不清,我摘一段wiki上的说明吧:ISO 8859-1 encodes what it refers to as "Latin alphabet no. 1," consisting of 191 characters from the Latin script. 你应该能看懂.多了这么些非ascii字符.给个最佳吧,实在不成那赞一个也行!

日喀则市19129758072: Unicode 和 UTF - 8 有何区别 -
豆心复方: 本文主要包括以下几个方面:编码基本知识,java,系统软件,url,工具软件等. 在下面的描述中,将以"中文"两个字为例,经查表可以知道其GB2312编码是"d6d0 cec4",Unicode编码为"4e2d 6587",UTF编码就是"e4b8ad e69687"....

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网