About History Blog Admin

关于多字节字符的编码判断

ASCII和UTF-8在0x00到0x7F都是相同的编码。多字节字符的第一个字节编码范围是从0xC0到0xFD，表明接下来有多少个字节。其他字节范围都是从0xC0到0xBF。UTF-8编码中有一段从不使用0xFE and 0xFF.UTF-8作为ASCII在多字节字符方面的补充，所以和Unicode的定义稍有不同。Unicode是2个或4个字节的字符串，分别为UCS-2和UCS-4。将一个ASCII或Latin-1的字符转成UCS-2只需简单地在每个ASCII字节前插入0x00，转成UCS-4则须在每个ASCII字节前插入三个0x00。UTF8编码后的大小是不一定，不像Unicode。UTF8是有标志位的，第一个0为标志位，剩下的表示0x00到0x7F的内容。如果是1，跟着后面如果是10表示还有一个字节（0xxxxxxx 110xxxxxx），就是两个字节。所以110表示3个字节，1110就是四个，已此类推。

附：256位编码表

很酷的FLEX的三维应用测试 - Sun, 05 Aug 2007 15:37:54 +0000
PHP Classes七月份PHP创新奖揭晓 - Thu, 02 Aug 2007 13:20:23 +0000
PERL系统迁移中遇的问题 - Tue, 31 Jul 2007 03:55:52 +0000
PHP上传GIF文件的安全溢出问题 - Wed, 18 Jul 2007 14:21:01 +0000
DC的“FRAME NO. FULL”错误 - Fri, 06 Jul 2007 14:35:19 +0000
困扰了两个星期的奇怪符号 - Thu, 05 Jul 2007 10:31:37 +0000
关于Mysql Error “#1210 - Wrong arguments to” - Wed, 27 Jun 2007 13:17:48 +0000
LifeHacker推荐的CSS免费预览工具-CSSVista - Mon, 25 Jun 2007 16:01:47 +0000
Google Translate推出双语词典服务 - Fri, 22 Jun 2007 07:17:42 +0000
中国广东-五大恶意网站聚集地之一 - Tue, 19 Jun 2007 16:16:42 +0000

About History Blog Admin

关于多字节字符的编码判断

最 近 文 章

最近文章