Loving Coding & Visual Design

关于多字节字符的编码判断

ASCII和UTF-8在0x00到0x7F都是相同的编码。多字节字符的第一个字节编码范围是从0xC0到0xFD,表明接下来有多少个字节。其他字节范围都是从0xC0到0xBF。UTF-8编码中有一段从不使用0xFE and 0xFF.UTF-8作为ASCII在多字节字符方面的补充,所以和Unicode的定义稍有不同。Unicode是2个或4个字节的字符串,分别为UCS-2和UCS-4。将一个ASCII或Latin-1的字符转成UCS-2只需简单地在每个ASCII字节前插入0x00,转成UCS-4则须在每个ASCII字节前插入三个0x00。UTF8编码后的大小是不一定,不像Unicode。UTF8是有标志位的,第一个0为标志位,剩下的表示0x00到0x7F的内容。如果是1,跟着后面如果是10表示还有一个字节(0xxxxxxx 110xxxxxx),就是两个字节。所以110表示3个字节,1110就是四个,已此类推。

附:256位编码表



下一页


最 近 文 章

  1. 很酷的FLEX的三维应用测试 - Sun, 05 Aug 2007 15:37:54 +0000
  2. PHP Classes七月份PHP创新奖揭晓 - Thu, 02 Aug 2007 13:20:23 +0000
  3. PERL系统迁移中遇的问题 - Tue, 31 Jul 2007 03:55:52 +0000
  4. PHP上传GIF文件的安全溢出问题 - Wed, 18 Jul 2007 14:21:01 +0000
  5. DC的“FRAME NO. FULL”错误 - Fri, 06 Jul 2007 14:35:19 +0000
  6. 困扰了两个星期的奇怪符号 - Thu, 05 Jul 2007 10:31:37 +0000
  7. 关于Mysql Error “#1210 - Wrong arguments to” - Wed, 27 Jun 2007 13:17:48 +0000
  8. LifeHacker推荐的CSS免费预览工具-CSSVista - Mon, 25 Jun 2007 16:01:47 +0000
  9. Google Translate推出双语词典服务 - Fri, 22 Jun 2007 07:17:42 +0000
  10. 中国广东-五大恶意网站聚集地之一 - Tue, 19 Jun 2007 16:16:42 +0000