手机版

字符集和字符编码(字符集放大器;编码)

时间:2021-10-09 来源:互联网 编辑:宝哥软件园 浏览:

我相信你已经遇到了。当你打开一个网页时,它会显示一堆乱码,比如“','?'?还记得HTTP中的接受字符集、接受编码、接受语言、内容编码和内容语言等头字段吗?这些就是我们接下来要讨论的。内容:1 .基础知识2。常见字符集和字符代码2.1。ASCII字符集代码2.2。GBXXXX字符集代码2.3。BIG5字符集代码3。好主意Unicode 3.1。UCS Unicode 3.2。UTF-323.3。UTF-163.4。UTF-84。接受字符集/进一步阅读接受编码/接受语言/内容类型/内容编码/内容语言参考1。基础知识计算机中存储的信息用二进制数表示;我们在屏幕上看到的字符,如英文和中文字符,都是二进制数转换的结果。一般来说,根据什么规则字符存储在计算机中,如' a ',它被称为'编码'。相反,解析和显示存储在计算机中的二进制数被称为“解码”,就像密码学中的加密和解密一样。在解码过程中,如果使用错误的解码规则,“A”将被解析为“B”或乱码。字符集:它是系统支持的所有抽象字符的集合。字符是各种文字和符号的总称,包括国字、标点符号、图形符号、数字等。字符编码:它是一组规则,可用于将一组自然语言字符(如字母或音节列表)与一组其他东西(如数字或电脉冲)进行匹配。也就是说,在符号集和数字系统之间建立对应关系是信息处理的一项基本技术。人们通常使用符号集(通常是单词)来表达信息。基于计算机的信息处理系统使用组件(硬件)的不同状态的组合来存储和处理信息。元素不同状态的组合可以表示数字系统的数字,所以字符编码就是把符号转换成计算机可以接受的数字系统的数字,这就是所谓的数字码。2.常用字符集及常用字符集的字符编码名称:ASCII字符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字符集等。为了准确地处理各种字符集的字符,计算机需要对字符进行编码,以便计算机能够识别和存储各种字符。2.1.ascii字符集编码ASCII(美国信息交换标准代码)是一种基于拉丁字母的计算机编码系统。主要用于显示现代英语,而其扩展版EASCII几乎无法显示其他西欧语言。它是目前最常见的单字节编码系统(但也有被Unicode超越的迹象),相当于国际标准ISO/IEC 646。ASCII字符集:主要包括控制字符(回车、退格、换行符等)。);可显示字符(英文大写和小写字符、阿拉伯数字和西方符号)。ASCII编码:将ASCII字符集转换成计算机可接受的数字系统的规则。用7位表示一个字符,共128个字符;但是,7位编码字符集只能支持128个字符。为了表示欧洲更常用的字符,对ASCII进行了扩展。ASCII扩展字符集使用8位来表示一个字符,总共256个字符。ASCII字符集映射到数字的编码规则如下图所示:

图1 ASCII编码表

图2扩展ASCII编码表ASCII最大的缺点是只能显示26个基本的拉丁字母、阿拉伯数字和英国标点符号,所以只能用来显示现代美式英语(以及处理英文中的外来词时,如naive、caflite等。所有口音都必须删除,即使这会违反拼写规则)。虽然EASCII已经解决了一些西欧语言的显示问题,但对于更多的其他语言仍然无能为力。因此,苹果放弃了ASCII,改用Unicode。2.2.gbxxxx字符集编码计算机的发明和后来的发展只在美国和一些西方发达国家使用过,而ASCII很好地满足了用户的需求。然而,为了显示中文,必须设计一套编码规则,将中文字符转换成计算机可接受的数字系统的数量。中国专家在第127号(EASCII)之后取消了那些奇怪的符号,规定小于127的字符和原来的字符有相同的含义,但是当两个大于127的字符连接在一起时,就意味着是一个汉字,第一个字节(他称之为高字节)是从0xA1到0xF7使用的,下一个字节(低字节)是从0xA1到0xFE,这样我们就可以把它们组合起来。在这些代码中,有数学符号、罗马和希腊字符。

版权声明:字符集和字符编码(字符集放大器;编码)是由宝哥软件园云端程序自动收集整理而来。如果本文侵犯了你的权益,请联系本站底部QQ或者邮箱删除。