当前位置: 首页 > news >正文

Java按字节长度截取字符串指南

在Java中,由于字符串可能包含多字节字符(如中文),直接按字节长度截取可能会导致乱码或截取不准确的问题。以下是几种按字节长度截取字符串的方法:

方法一:使用String的getBytes方法
java
public static String substringByBytes(String str, int byteLength) {
    if (str == null || str.isEmpty() || byteLength <= 0) {
        return "";
    }
    
    byte[] bytes = str.getBytes();
    if (byteLength >= bytes.length) {
        return str;
    }
    
    // 处理截取位置可能是多字节字符的情况
    int len = 0;
    for (int i = 0; i < str.length(); i++) {
        char c = str.charAt(i);
        len += (c <= 255) ? 1 : 2; // 假设非ASCII字符占2字节
        
        if (len > byteLength) {
            return str.substring(0, i);
        } else if (len == byteLength) {
            return str.substring(0, i + 1);
        }
    }
    return str;
}
方法二:指定字符编码处理
java
public static String substringByBytes(String str, int byteLength, String charsetName) 
        throws UnsupportedEncodingException {
    if (str == null || str.isEmpty() || byteLength <= 0) {
        return "";
    }
    
    byte[] bytes = str.getBytes(charsetName);
    if (byteLength >= bytes.length) {
        return str;
    }
    
    // 根据编码创建新的字符串
    return new String(bytes, 0, byteLength, charsetName);
}
方法三:更精确的字符编码处理
java
public static String substringByBytes(String str, int maxBytes, String charsetName) 
        throws UnsupportedEncodingException {
    if (str == null || charsetName == null || charsetName.isEmpty()) {
        return str;
    }
    
    byte[] bytes = str.getBytes(charsetName);
    if (bytes.length <= maxBytes) {
        return str;
    }
    
    // 处理截断可能导致的半个字符问题
    int nBytes = 0;
    int i = 0;
    for (; i < str.length(); i++) {
        char c = str.charAt(i);
        int charBytes = String.valueOf(c).getBytes(charsetName).length;
        if (nBytes + charBytes > maxBytes) {
            break;
        }
        nBytes += charBytes;
    }
    
    return str.substring(0, i);
}
使用示例
java
public static void main(String[] args) {
    String testStr = "你好,Java世界!Hello World!";
    
    try {
        System.out.println(substringByBytes(testStr, 10)); // 输出:你好,J
        System.out.println(substringByBytes(testStr, 15, "UTF-8")); // 输出:你好,Java
        System.out.println(substringByBytes(testStr, 20, "GBK")); // 输出:你好,Java世界!
    } catch (UnsupportedEncodingException e) {
        e.printStackTrace();
    }
}
注意事项
不同编码下字符占用的字节数不同:

UTF-8编码中,中文通常占3字节

GBK编码中,中文占2字节

ISO-8859-1编码中,所有字符占1字节

截取时需要考虑编码的字节边界,避免截断多字节字符导致乱码

性能考虑:对于大字符串频繁截取,建议缓存字节数组或使用更高效的算法

对于表情符号等特殊字符,可能需要额外处理

http://www.xdnf.cn/news/290737.html

相关文章:

  • JVM——Java对象的内存布局
  • Hive安装与配置教程
  • 详讲viewer查看器
  • Astro Canvas 数据中心→设备一览大屏操作指南
  • 基于 HTML5 的贪吃蛇小游戏实现
  • Oracle数据库从入门到掌握基础应用能力
  • 16. Qt系统相关:事件、定时器
  • 金融的本质是智融、融资的实质是融智、投资的关键是投智,颠覆传统金融学的物质资本中心论,构建了以智力资本为核心的新范式
  • 启发式算法-禁忌搜索算法
  • Python学习之路(七)-绘画and动画
  • 使用 JavaScript 实现数据导出为 Excel 和 CSV 文件
  • Ultra7-265K 和 技嘉Z890M-AORUS-ELITE-WIFI7主板 简单开箱测评
  • 《Python星球日记》第29天:Flask进阶
  • Unity-Shader详解-其四
  • python计算shp中每个区域的面积
  • Linux 怎么使用局域网内电脑的网络访问外部
  • android-ndk开发(6): 查看反汇编
  • 《算法导论(第4版)》阅读笔记:p7-p8
  • 售前赢单评分是越权吗?
  • 第二章-猜数游戏
  • 数据集-目标检测系列- 牙刷 检测数据集 toothbrush >> DataBall
  • 分析strtol(),strtoul()和strtod()三个函数的功能
  • 字符串哈希专题
  • 架构进阶:什么是数据架构,如何理解数据架构?(华为)
  • 从0开始学习大模型--Day01--大模型是什么
  • 什么是开放数据湖(Open Data Lake)?
  • 十大排序算法全面解析(Java实现)及优化策略
  • Kotlin 作用域函数全解析:let、run、with、apply、also 应该怎么选?
  • C++演讲比赛案例代码
  • [人机交互]理解与概念化交互