« UTF-8 和 Unicode 常见... | Blog首页 | j2ee 中关于 utf-8 的一些... »
2006/04/25
关于 UTF-8 编码
UNICODE 本身只是一个编码表,即规定了一个整型数值唯一对应于一个字符。 在我们现实中使用,经常会出现需要将一串字符编码为一串可以存储或者传输地字节。
UTF-8就是一种将一串字符转换为字节的编码。
UTF-8 可以表示 4个byte 的所有 Unicode。
UTF-8有如下一些约定:
1、0x00 - 0x7F 代表ASCII码,对应于 UCS码 (也成为UNICODE码):
U-00000000 - U-0000007F
2、所有大于0x7F 的UCS码使用 UTF-8编码时会编码为多个字节; 第一个字节的前几位代表这个USC码需要使用几个字节表示。 比如:
1110xxxx 10xxxxxx 10xxxxxx 可以表示 U-00000800 - U-0000FFFF 期间的UCS码, 而第一个字节的1110 表示这个 UCS码需要三个字节表示。
3、多字节编码的每个字节都有自己的标识位 10 开头 (11开头的必定用于第一位),因此和以01开头的 ASCII 码没有冲突。
4、UTF-8编码一个UCS码理论上最长可以为6个字节,表示2 (31) 个UCS码
5、字节 0xFE 和 0xFF 在 UTF-8 编码中从未用到.
阿涂
发表于
2006-04-25 19:01
阅读(400)
评论(
0)
引用(
0)
Java
所有人可见
相关内容
回复列表每两分钟自动刷新一次,想立即刷新吗?点击这里







