«  UTF-8 和 Unicode 常见...   |   Blog首页   |   j2ee 中关于 utf-8 的一些... »

2006/04/25

关于 UTF-8 编码

UNICODE 本身只是一个编码表,即规定了一个整型数值唯一对应于一个字符。 在我们现实中使用,经常会出现需要将一串字符编码为一串可以存储或者传输地字节。

UTF-8就是一种将一串字符转换为字节的编码。

UTF-8 可以表示 4个byte 的所有 Unicode。

UTF-8有如下一些约定:

1、0x00 - 0x7F 代表ASCII码,对应于 UCS码 (也成为UNICODE码):

        U-00000000 - U-0000007F

2、所有大于0x7F 的UCS码使用 UTF-8编码时会编码为多个字节; 第一个字节的前几位代表这个USC码需要使用几个字节表示。 比如:

1110xxxx 10xxxxxx 10xxxxxx 可以表示 U-00000800 - U-0000FFFF 期间的UCS码, 而第一个字节的1110 表示这个 UCS码需要三个字节表示。

3、多字节编码的每个字节都有自己的标识位 10 开头 (11开头的必定用于第一位),因此和以01开头的 ASCII 码没有冲突。

4、UTF-8编码一个UCS码理论上最长可以为6个字节,表示2 (31) 个UCS码

5、字节 0xFE 和 0xFF 在 UTF-8 编码中从未用到.

 

 

 

 

 

 

阿涂 发表于 2006-04-25 19:01  阅读(400) 评论( 0) 引用( 0) Java
所有人可见

  • 收藏文章:
  • save at del.icio.us
  • save at digg
  • save at my yahoo
  • save at blinklist
  • save at furl
  • save at simpy
  • save at blogmarks
  • submit at reddit
  • save at spurl
  • save at shadows
  • save at rawsugar
  • save at bloglines

引用

http://www.uuzone.com/app/trackBack.do?type=blog&trackBackID=98447

相关内容
更多..

回复列表每两分钟自动刷新一次,想立即刷新吗?点击这里

您的浏览器可能不支持Frame, 优友地带需要使用Frame才能显示正常页面!