发布日期:
2025-05-24
更新日期:
2025-05-24
文章字数:
336
阅读时长:
1 分
阅读次数:
Unicode 世界字符编码标准
背景
- 世界上存在多种字符编码,编码格式太多且互不兼容,阻碍了信息的交流。
- 为了统一世界上所有字符的编码,建立一个通行的标准,Unicode 世界字符编码标准出现了。
- Unicode 本身不是一种编码方式,而是一个字符集 (Character Set)。它为世界上几乎所有的字符都分配了一个独一无二的编号,这个编号我们称为“码点 (Code Point)”。可类比全国唯一的身份证号理解。
核心概念
- 为所有字符分配唯一的数字编号 (Unicode 编号)
- 范围:0x000000 ~ 0x10FFFF (110 多万个)
- 常用字符在 0x0000 ~ 0xFFFF 之间
- 每个字符有一个 Unicode 编号
- 大部分中文编号范围:U+4E00 ~ U+9FFF
- 仅规定字符的数字编号,不规定如何对应到二进制表示。对应到二进制表示的任务由具体的编码方式(详见 非Unicode编码、Unicode编码)完成。
- 如
UTF-8
,GBK
等编码,它们是实现 Unicode 思想的具体规则,规定了如何将一个字符的 Unicode 码点转换为计算机可以存储和传输的二进制字节序列。
关联文章