当前位置: 首页 > ds >正文

Unicode编码

Unicode(统一码) 是计算机行业的标准,用于对世界上大多数文字系统进行统一的编码、表示和处理。它为每个字符分配一个唯一的数字(称为码点),不受平台、程序或语言的限制。

Unicode 的核心特点

  1. 全球字符集

    • 支持超过 14.9 万字符(截至 Unicode 15.1),涵盖现代和古代文字、符号、表情符号等。
    • 包括中文、拉丁字母、阿拉伯文、日文、韩文、数学符号、货币符号等。
  2. 多种编码方式

    • UTF-8(最常用,兼容 ASCII,变长编码,1~4 字节)
    • UTF-16(Java、Windows 常用,2 或 4 字节)
    • UTF-32(固定 4 字节,简单但占用空间大)
  3. 码点(Code Point)

    • 每个字符对应一个唯一的十六进制编号,如:
      • AU+0041
      • U+4E2D
      • 😊U+1F60A
  4. 字符平面(Planes)

    • 基本多文种平面(BMP, Plane 0):最常用的字符(如拉丁字母、汉字、阿拉伯文)。
    • 补充多文种平面(SMP, Plane 1):历史文字、音乐符号等。
    • 补充表意文字平面(SIP, Plane 2):罕见汉字(如扩展 CJK 字符)。
    • 私人使用区(PUA, Plane 15-16):供自定义字符使用。

为什么 Unicode 重要?

  • 解决乱码问题(如 ASCII 无法显示中文,GBK 与 Big5 不兼容)。
  • 支持多语言混合文本(如同时显示中文、英文、阿拉伯文)。
  • 统一表情符号和特殊符号(如 😊 在所有设备显示一致)。
  • 确保跨平台兼容(网页、数据库、移动设备等)。

Unicode 与 ASCII 的区别

  • ASCII(7 位)仅支持 128 字符(英文、数字、基本符号)。
  • Unicode 扩展了 ASCII(UTF-8 的前 128 字符与 ASCII 完全一致)。
http://www.xdnf.cn/news/1786.html

相关文章:

  • 输入捕获模式测频率
  • C++多态(实现部分)(一)
  • 【缓存与数据库结合最终方案】伪从技术
  • ATV Launcher pro下载-ATV Launcher pro全网通用版
  • 4月22日复盘-开始卷积神经网络
  • 第十七届山东省职业院校技能大赛 中职组网络建设与运维赛项
  • 监督微调记忆,强化学习泛化:基础模型后训练的比较研究
  • 4月24号
  • NHANES指标推荐:TyG-WHtR
  • ROS-真机向虚拟机器人映射
  • Unity 资源合理性检测
  • 器件选型之二极管
  • 在C语言中获取1字节的每一位bit信息
  • NLP高频面试题(五十二)——深度学习优化器详解
  • ssrf与xxe
  • uniapp 仿小红书轮播图效果
  • Spring Boot 配置处理器深度解析:元数据驱动的工程实践
  • 从零开始:CTF中的XSS漏洞入门指南
  • 【OSG学习笔记】Day 7: 材质与光照——让模型“活”起来
  • 09前端项目----分页功能
  • open公司环境链接搭建代理和转发
  • oracle 锁的添加方式和死锁的解决
  • 企业为何要求禁用缺省口令?安全风险及应对措施分析
  • 【文献速递】NMR代谢组寻找预测DR发展的候选标志物
  • ‌RISC-V低功耗MCU动态时钟门控技术详解
  • go gin框架ShouldBindJSON不能接受’0‘值
  • js 的call 和apply方法用处
  • NeRF:原理 + 实现 + 实践全流程配置+数据集测试【Ubuntu20.04 】【2025最新版】
  • 3D模型文件格式之《glb/gltf格式介绍》
  • PostgreSQL 中的权限视图