|
发表于 2010-7-20 16:40:50
|
显示全部楼层
来自 中国–广东–惠州–惠城区
本帖最后由 zwfgdlc 于 2010-7-20 16:42 编辑
UTF8的转换规则。- UCS-4 range (hex.) UTF-8 octet sequence (binary)
- 0000 0000-0000 007F 0xxxxxxx
- 0000 0080-0000 07FF 110xxxxx 10xxxxxx
- 0000 0800-0000 FFFF 1110xxxx 10xxxxxx 10xxxxxx
- 0001 0000-001F FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
- 0020 0000-03FF FFFF 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
- 0400 0000-7FFF FFFF 1111110x 10xxxxxx ... 10xxxxxx
复制代码 汉字在UNICODE表中的位置是0x4E00-0x9FCF,正好处于0000 0800-0000 FFFF这段.
所以是3个字节. |
|