Unicode 世界字符编码标准

背景

  • 世界上存在多种字符编码,编码格式太多且互不兼容,阻碍了信息的交流。
  • 为了统一世界上所有字符的编码,建立一个通行的标准,Unicode 世界字符编码标准出现了。
  • Unicode 本身不是一种编码方式,而是一个字符集 (Character Set)。它为世界上几乎所有的字符都分配了一个独一无二的编号,这个编号我们称为“码点 (Code Point)”。可类比全国唯一的身份证号理解。

核心概念

  • 为所有字符分配唯一的数字编号 (Unicode 编号)
    • 范围:0x000000 ~ 0x10FFFF (110 多万个)
    • 常用字符在 0x0000 ~ 0xFFFF 之间
    • 每个字符有一个 Unicode 编号
      • 十六进制表示,前缀 U+
    • 大部分中文编号范围:U+4E00 ~ U+9FFF
  • 仅规定字符的数字编号,不规定如何对应到二进制表示。对应到二进制表示的任务由具体的编码方式(详见 非Unicode编码Unicode编码)完成。
    • UTF-8GBK 等编码,它们是实现 Unicode 思想的具体规则,规定了如何将一个字符的 Unicode 码点转换为计算机可以存储和传输的二进制字节序列。

关联文章


文章作者: huan
版权声明: 本博客所有文章除特別声明外,均采用 CC BY-NC-ND 4.0 许可协议。转载请注明来源 huan !
  目录