Unicode编码
Unicode(统一码) 是计算机行业的标准,用于对世界上大多数文字系统进行统一的编码、表示和处理。它为每个字符分配一个唯一的数字(称为码点),不受平台、程序或语言的限制。
Unicode 的核心特点
-
全球字符集
- 支持超过 14.9 万字符(截至 Unicode 15.1),涵盖现代和古代文字、符号、表情符号等。
- 包括中文、拉丁字母、阿拉伯文、日文、韩文、数学符号、货币符号等。
-
多种编码方式
- UTF-8(最常用,兼容 ASCII,变长编码,1~4 字节)
- UTF-16(Java、Windows 常用,2 或 4 字节)
- UTF-32(固定 4 字节,简单但占用空间大)
-
码点(Code Point)
- 每个字符对应一个唯一的十六进制编号,如:
A
→U+0041
中
→U+4E2D
😊
→U+1F60A
- 每个字符对应一个唯一的十六进制编号,如:
-
字符平面(Planes)
- 基本多文种平面(BMP, Plane 0):最常用的字符(如拉丁字母、汉字、阿拉伯文)。
- 补充多文种平面(SMP, Plane 1):历史文字、音乐符号等。
- 补充表意文字平面(SIP, Plane 2):罕见汉字(如扩展 CJK 字符)。
- 私人使用区(PUA, Plane 15-16):供自定义字符使用。
为什么 Unicode 重要?
- 解决乱码问题(如 ASCII 无法显示中文,GBK 与 Big5 不兼容)。
- 支持多语言混合文本(如同时显示中文、英文、阿拉伯文)。
- 统一表情符号和特殊符号(如 😊 在所有设备显示一致)。
- 确保跨平台兼容(网页、数据库、移动设备等)。
Unicode 与 ASCII 的区别
- ASCII(7 位)仅支持 128 字符(英文、数字、基本符号)。
- Unicode 扩展了 ASCII(UTF-8 的前 128 字符与 ASCII 完全一致)。