论Unicode和JavaScript的发展历史

时间：2021-10-14 来源：互联网编辑：宝哥软件园浏览：次

1.什么是Unicode？

Unicode来源于一个非常简单的思想：世界上所有的字符都包含在一个集合中，只要计算机支持这个字符集，所有的字符都可以显示，不会出现乱码字符。

它从0开始，给每个符号分配一个数字，称为“代码点”。例如，代码点0的符号为空(这意味着所有二进制位都为0)。

复制代码如下：U 0000=空。

在上式中，u表示紧跟其后的十六进制数是Unicode的码位。

目前，Unicode的最新版本是7.0版本，共有109，449个符号，包括74，500个中、日、韩文字符。大致可以认为，世界上现存的符号有三分之二以上来自东亚文字。比如中文‘好’的码点是十六进制的597D。

复制代码如下：U 597D=OK。

这么多符号，Unicode不是一次定义，而是分区定义的。每个区域可以存储65，536 (216)个字符，称为平面。目前有17 (25)个平面，这意味着现在整个Unicode字符集的大小是221。

前65536位称为基本平面(缩写为BMP)，其码点范围为0到216-1，用十六进制写时为U 0000到U FFFF。所有最常见的字符都放在这个平面上，这是Unicode定义和发布的第一个平面。

其余字符放在辅助平面上(缩写为SMP)，码点范围从U 010000到U 10FFFF。

第二，UTF-32和UTF-8。

Unicode只指定每个字符的代码点，编码方式涉及用什么样的字节顺序来表示这个代码点。

最直观的编码方式是每个码点用四个字节表示，字节的内容与码点一一对应。这种编码方法称为UTF-32。例如，代码点0由四个字节的0表示，代码点597D之前是两个字节的0。

复制代码如下： u 0000=0x 0000 0000 u 597d=0x 0000 597d。

UTF-32转换规则简单直观，搜索效率高。缺点是浪费空间。对于内容相同的英文文本，它将比ASCII编码大四倍。这个缺点是致命的，这导致实际上没有人使用这种编码方法。HTML5标准明确规定网页不应该编码成UTF-32。

人们真正需要的是一种节省空间的编码方法，这导致了UTF-8的诞生。UTF-8是一种可变长度编码方法，字符长度范围从1字节到4字节。常用字符越多，字节越短。前128个字符仅用一个字节表示，与ASCII码完全相同。

序列号范围字节0x 0000-0x 007 f10x 0080-0x 07 ff20x 0800-0x fffff 30 x 010000-0x 10 fff 4。

由于节省空间的特点，UTF-8已经成为互联网上最常见的网页编码。不过和今天的话题关系不大，就不赘述了。具体的转码方式请参考我多年前写的《字符编码笔记》。

三.UTF-16简介。

UTF-16编码介于UTF-32和UTF-8之间，结合了固定和可变长度编码方法的特点。

它的编码规则很简单：基本平面字符占用2字节，辅助平面字符占用4字节。也就是说，UTF-16的编码长度要么是2字节(U 0000到U FFFF)，要么是4字节(U 010000到U 10FFFF)。

那么就有一个问题，当我们遇到两个字节的时候，怎么知道是字符本身，还是需要和另外两个字节一起解读？

很聪明，但不知道是不是刻意设计的。在基本平面上，从U D800到U DFFF是一个空段，也就是说这些码点不对应任何字符。因此，这个空段可以用来映射辅助平面的字符。

具体来说，辅助平面中有220个字符，也就是说，至少需要20个二进制位来对应这些字符。UTF-16将这20位分成两半。前10位从U D800映射到U DBFF(空间大小210)，称为高位(H)，后10位从U DC00映射到UDBFF(空间大小210)，称为低位(L)。这意味着辅助平面字符被分成两个基本平面字符表示。

因此，当我们遇到两个字节，发现它们的码点在U D800和U DBFF之间时，就可以断定接下来两个字节的码点应该在U DC00和U DFFF之间，这四个字节必须一起解释。

4.UTF-16的转码公式。

Unicode码点转换为UTF-16时，首先要区分是基本平面字符还是辅助平面字符。如果是前者，则直接将代码点转换为对应的十六进制形式，长度为两个字节。

复制代码是：U 597D=0x597D。

如果是辅助平面字符，Unicode版给出了转码公式。

复制代码如下：h=math . floor((c-0x 10000)/0x 400)0x d 800 l=(c-0x 10000)%0x 4000x DC 00。

人物

例如，它是一个辅助平面字符，代码点为U 1D306。将其转换为UTF-16的计算过程如下。

复制代码如下：h=math . floor((0x1d 306-0x 10000)/0x 400)0x d 800=0x d 834 l=(0x1d 306-0x 10000)%0x 4000x DC 00=0x df 06。

所以，人物。

的UTF-16编码为0xD834 DF06，长度为四个字节。

5.JavaScript使用哪种编码？

JavaScript语言采用Unicode字符集，但只支持一种编码方式。

这种编码既不是UTF-16、UTF-8，也不是UTF-32。上述编码方法都没有在JavaScript中使用。

JavaScript用的是UCS-2！

不及物动词UCS-2编码

如何弹出一个UCS-2？这需要一点历史。

在互联网出现之前，有两个团队想要统一角色设定。一个是1988年成立的Unicode团队，一个是1989年成立的UCS团队。当他们发现对方的存在后，很快达成一致，世界上不需要两套统一的字符集。

1991年10月，两队决定合并角色设定。也就是说，从现在开始，只会发布一套字符集，那就是Unicode，如果对之前发布的字符集进行修改，那么UCS的代码点将与Unicode完全一致。

UCS的开发进度比Unicode快。1990年，第一个编码方法UCS-2发布，它使用2个字节用代码点表示字符。当时只有一个平面，是基本平面，所以2字节就够了。UTF-16编码最晚于1996年7月发布，并明确声明为UCS-2的超集，即基本平面字符遵循UCS-2编码，辅助平面字符定义4字节的表示方法。

两者的关系很简单，就是UTF-16取代UCS-2，或者UCS-2集成到UTF-16中。所以只有UTF-16，没有UCS-2。

七、JavaScript的诞生背景。

那么，为什么JavaScript没有选择UTF-16，而是使用了已经淘汰的UCS-2呢？

答案很简单：要么不想，要么不能。因为JavaScript语言出现的时候还没有UTF-16编码。

1995年5月，BrendanEich花了10天时间设计JavaScript语言。10月，第一个解释引擎问世。次年11月，网景正式向ECMA提交了语言标准(整个过程详见《JavaScript诞生记》)。对比UTF-16的发布时间(1996年7月)，可以看出当时网景公司没有其他选择，只有UCS-2是一种可用的编码方式！