HTML 字符集

要正确显示一个 HTML 页面,浏览器必须知道要使用的字符集 ( 字符编码 )

HTML 字符集

HTML 中,正确的字符编码是什么 ?

答案是没有统一字符集

  1. HTML5 中默认的字符编码是 UTF-8
  2. 在远古年代,比如 HTML 1 使用的字符编码是 ASCII 码
  3. 直到 HTML 4.01,ISO-8859-1 被认定为标准
  4. 随着 XML 和 HTML5 的出现,UTF-8 也终于到来了,解决了大量的字符编码问题

下面我们就来介绍这些字符集

ASCII

计算机信息 ( 数字、文字、图片 ) 在电子中是以二进制 1 和 0 ( 01000101) 进行存储的

为了规范字母数字字符的存储,创建了 ASCII (American Standard Code for Information Interchange),它为每个存储字符定义了一个独特的二元 7 位数字,支持 0-9 数字,大/小写英文字母 ( a-z、A-Z ) 和一些特殊的字符,比如 ! $ + - ( ) @ < >

由于 ASCII 使用一个字节 ( 7 位表示字符,1 位表示传输奇偶控制 ) ,所以它只能表示 128 个不同的字符。这些字符中有 32 个被保留作为其他控制目的使用

ASCII 的最大的缺点是,它排除了非英文字母

ASCII 今天仍然在广泛使用,尤其是在大型计算机系统中

更多 ASCII 的知识,可以访问我们的 ASCII 参考手册

Windows 中的 ANSI

ASCII 在 Windows 中是 ASCI 字符集的一部分

ANSI 是 ASCII 的扩展,加入了国际字符,使用一个完整的字节 ( 8 位 ) 来表示 256 个不同字符

ANSI 在 Windows 中编号为 Windows-1252,是 Windows 95 及其之前的 Windows 系统中默认的字符集

自从 ANSI 成为 Windows 中默认的字符集,所有的浏览器都支持 ANSI

更多 ANSI 的知识,可以访问 ANSI 参考手册

HTML 4 中的 ISO-8859-1

除了北美和欧洲等国家使用英文为母语外,大多数国家使用 ASCII 以外的字符,比如中国

于是在制定 HTML 2.0 标准时,将默认的字符编码更改为 ISO-8859-1

ISO-8859-1 是 ASCII 的扩展,它加入了国际字符

与 ANSI 一样,它使用一个完整的字节 ( 8 位 ) 来表示 256 个不同字符

当浏览器在网页中检测到 ISO-8859-1 时,通常默认为 ANSI,因为除了 ANSI 有 32 个额外的字符这一点,其他方面 ANSI 基本等同于 ISO-8859-1

如果 HTML 4 网页使用了不同于 ISO-8859-1 的字符集,则需要在 <meta> 标签中指定

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">

HTML5 中默认的字符集是 UTF-8

所有的 HTML 4 处理器都支持 UTF-8,所有的 HTML5 和 XML 处理器都支持 UTF-8 和 UTF-16

更多 ISO-8859-1 的知识,可以访问我们的 ISO-8859-1 参考手册

HTML5 中的 Unicode ( UTF-8)

虽然 HTML 2 开始可以通过 <meta> 标签指定各种字符集,但字符集真的太多了,当要做一个国际站时,比如英语系国家可以使用 ISO-8859-1, 中国大陆则使用 GB2312,中国台湾则使用 big5,是不是很繁琐

因为以上所列的字符集是有限的,在多语言环境中是不兼容的,所以 Unicode 联盟 ( Unicode Consortium ) 开发了 Unicode 标准 ( Unicode Standard )

Unicode 标准覆盖了 ( 几乎 ) 所有的字符、标点符号和符号

Unicode 使文本的处理、存储和运输,独立于平台和语言

HTML5 中默认的字符编码是 UTF-8

更多 Unicode ( UTF-8 ) 的知识,可以访问我们的 Unicode 参考手册

关于   |   FAQ   |   我们的愿景   |   广告投放   |  博客

  简单教程,简单编程 - IT 入门首选站

Copyright © 2013-2018 简单教程 twle.cn All Rights Reserved.