博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Unicode,UTF-32,UTF-16,UTF-8到底是啥关系?
阅读量:4633 次
发布时间:2019-06-09

本文共 1700 字,大约阅读时间需要 5 分钟。

编码的目的,就是给抽象的字符赋予一个数值,好在计算机里面表示。常见的ASCII使用8bit给字符编码,但是实际只使用了7bit,最高位没有使用,因此,只能表示128个字符;ISO-8859-1(也叫Latin-1,或者直接8859)使用全8bit编码,可以看成是ASCII的超集,因为它的低128个字符编码和ASCII一样,也就是说,如果一个字符使用ASCII编码,那么转换成ISO-8859-1后,编码值不变。

但是,无论是ASCII,还是ISO-8859-1,都无法满足用来表示像中文这样的字符,所以,为了国际化的需要,诞生了Unicode编码。Unicode本质上是一套标准,而UTF-32,UTF-16,UTF-8是Unicode的三种不同实现方式。

 

Unicode

Unicode规定了一个数值范围,这个数值范围叫code space。Unicode的code space为0到10FFFF,这个空间里面的每一个数值,叫做一个code point,因此,Unicode总共有1114112个code point。Unicode中,在表示一个code point的时候,常常使用U+前缀,比如表示code point 201DF:U+201DF。

Unicode将code space中的code point分配给要编码的字符,有时一个字符用一个code point表示,有时一个字符会重复编码,也就是说可能不同的两个或者多个code point代表同一个字符,而有时候,可能连续多个code point表示一个字符,而这里面的每一个code point都表示一个其他的字符。code point和字符的关系如下图所示:

在上图中,A+一个小圈这个字符就有3种编码,其中U+00C5和U+212B虽然code point不同,但是代表的都是这个字符,而这个字符还可以看成是字母A和一个小圈组合而成,A的code point是U+0041,小圈的code point是U+030A,因此,用A和小圈的code point组合在一起,也可以表示这个字符。

Unicode规定了code space和code point,那计算机到底怎么表示这些code point呢?是直接使用,还是会做一些形式的转换呢?

 

UTF-32(UCS-4)

在计算机中,Unicode字符的code point会被表示成一个,后者多个code unit,code unit可以和code point一样,也可以不一样。UTF-32,或者说UCS-4就是Unicode最简单的实现方式。在UTF-32中,一个code unit使用32bit,4个字节,并且Unicode中的每一个code point,都有一个与它相等的code unit对应,换句话说,UTF-32对Unicode规定的code point没有做任何转换,直接拿过来用了。

 

UTF-16(UCS-2)

对于UTF-16,或者UCS-2来说,每一个code unit使用16bit,2个字节。对于Unicode中位于U+0000-U+FFFF的code point,UTF-16使用一个code unit表示,对于Unicode位于U+10000-U+10FFFF的code point,UTF-16使用一对code unit表示,这样成对的code unit叫做surrogate pairs。

 

UTF-8

对于UTF-8,使用8bit的code unit。对于Unicode中位于U+0000-U+007F的code point,UTF-8使用一个code unit表示,因此,编码方式和ASCII没有任何区别;对于U+0100-U+07FF,UTF-8使用2个code unit表示;对于U+0800-U+FFFF,UTF-8使用3个code unit表示;对于U+10000-U+10FFFF,UTF-8使用4个code unit表示。

 

转载于:https://www.cnblogs.com/chaoguo1234/p/9160826.html

你可能感兴趣的文章
物联网兴起 嵌入式系统安全日益受关注
查看>>
cocos2d-x 3.10 PageView BUG
查看>>
装饰器的基本使用:用户登录
查看>>
CSS选择器总结
查看>>
第三周-第08章节-Python3.5-文件修改详解
查看>>
npm修改淘宝原
查看>>
通过代理进行页面传值
查看>>
Vue-Resource请求PHP数据失败的原因
查看>>
搭建vue.js环境
查看>>
《xxx系统》分析
查看>>
/var/run/utmp文件操作函数
查看>>
经1503 20151453 张开拓
查看>>
web.py下获取get参数
查看>>
软件缺陷处理流程
查看>>
Docker - Install docker on CentOS
查看>>
ubuntu之路——day8.1 深度学习优化算法之mini-batch梯度下降法
查看>>
牛客网 二进制数
查看>>
vim中如何按一个键就保存文件
查看>>
scapy windows install
查看>>
Pandoc PDF 中文
查看>>