5赞

一旦UTF-8编码,如何截断一个java字符串以适应给定的字节数？

作者：jerry613 | 2023-09-05 09:26

如何解决《一旦UTF-8编码,如何截断一个java字符串以适应给定的字节数？》经验，为你挑选了4个好方法。

我如何截断一个java,String以便我知道一旦它是UTF-8编码它将适合给定数量的字节存储？

1> Matt Quail..：

这是一个简单的循环,它计算UTF-8表示的大小,并在超出时截断:

public static String truncateWhenUTF8(String s, int maxBytes) {
    int b = 0;
    for (int i = 0; i < s.length(); i++) {
        char c = s.charAt(i);

        // ranges from http://en.wikipedia.org/wiki/UTF-8
        int skip = 0;
        int more;
        if (c <= 0x007f) {
            more = 1;
        }
        else if (c <= 0x07FF) {
            more = 2;
        } else if (c <= 0xd7ff) {
            more = 3;
        } else if (c <= 0xDFFF) {
            // surrogate area, consume next char as well
            more = 4;
            skip = 1;
        } else {
            more = 3;
        }

        if (b + more > maxBytes) {
            return s.substring(0, i);
        }
        b += more;
        i += skip;
    }
    return s;
}

这会处理输入字符串中出现的代理项对.Java的UTF-8编码器(正确)将代理对输出为单个4字节序列而不是两个3字节序列,因此truncateWhenUTF8()将返回最长的截断字符串.如果忽略实现中的代理对,则截断的字符串可能会短于它们所需的短路.

我没有对该代码进行过大量测试,但这里有一些初步测试:

private static void test(String s, int maxBytes, int expectedBytes) {
    String result = truncateWhenUTF8(s, maxBytes);
    byte[] utf8 = result.getBytes(Charset.forName("UTF-8"));
    if (utf8.length > maxBytes) {
        System.out.println("BAD: our truncation of " + s + " was too big");
    }
    if (utf8.length != expectedBytes) {
        System.out.println("BAD: expected " + expectedBytes + " got " + utf8.length);
    }
    System.out.println(s + " truncated to " + result);
}

public static void main(String[] args) {
    test("abcd", 0, 0);
    test("abcd", 1, 1);
    test("abcd", 2, 2);
    test("abcd", 3, 3);
    test("abcd", 4, 4);
    test("abcd", 5, 4);

    test("a\u0080b", 0, 0);
    test("a\u0080b", 1, 1);
    test("a\u0080b", 2, 1);
    test("a\u0080b", 3, 3);
    test("a\u0080b", 4, 4);
    test("a\u0080b", 5, 4);

    test("a\u0800b", 0, 0);
    test("a\u0800b", 1, 1);
    test("a\u0800b", 2, 1);
    test("a\u0800b", 3, 1);
    test("a\u0800b", 4, 4);
    test("a\u0800b", 5, 5);
    test("a\u0800b", 6, 5);

    // surrogate pairs
    test("\uD834\uDD1E", 0, 0);
    test("\uD834\uDD1E", 1, 0);
    test("\uD834\uDD1E", 2, 0);
    test("\uD834\uDD1E", 3, 0);
    test("\uD834\uDD1E", 4, 4);
    test("\uD834\uDD1E", 5, 4);

}

更新了修改后的代码示例,它现在处理代理对.

2> mitchnull..：

您应该使用CharsetEncoder,getBytes()尽可能多的简单+副本可以将UTF-8字符切成两半.

像这样的东西:

public static int truncateUtf8(String input, byte[] output) {

    ByteBuffer outBuf = ByteBuffer.wrap(output);
    CharBuffer inBuf = CharBuffer.wrap(input.toCharArray());

    Charset utf8 = Charset.forName("UTF-8");
    utf8.newEncoder().encode(inBuf, outBuf, true);
    System.out.println("encoded " + inBuf.position() + " chars of " + input.length() + ", result: " + outBuf.position() + " bytes");
    return outBuf.position();
}

这对我来说很有用 - 可能效率较低,但更容易出错,而且适用于任何字符集.使用快速的`new String(output,0,output.length - returnValue,CHARSET)`可以很好地工作

3> sigget..：

这是我提出的,它使用标准的Java API,因此应该安全并兼容所有unicode古怪和代理对等.解决方案来自http://www.jroller.com/holy/entry/truncating_utf_string_to_the与检查添加为null并在字符串比maxBytes更少的字节时避免解码.

/**
 * Truncates a string to the number of characters that fit in X bytes avoiding multi byte characters being cut in
 * half at the cut off point. Also handles surrogate pairs where 2 characters in the string is actually one literal
 * character.
 *
 * Based on: http://www.jroller.com/holy/entry/truncating_utf_string_to_the
 */
public static String truncateToFitUtf8ByteLength(String s, int maxBytes) {
    if (s == null) {
        return null;
    }
    Charset charset = Charset.forName("UTF-8");
    CharsetDecoder decoder = charset.newDecoder();
    byte[] sba = s.getBytes(charset);
    if (sba.length <= maxBytes) {
        return s;
    }
    // Ensure truncation by having byte buffer = maxBytes
    ByteBuffer bb = ByteBuffer.wrap(sba, 0, maxBytes);
    CharBuffer cb = CharBuffer.allocate(maxBytes);
    // Ignore an incomplete character
    decoder.onMalformedInput(CodingErrorAction.IGNORE)
    decoder.decode(bb, cb, true);
    decoder.flush(cb);
    return new String(cb.array(), 0, cb.position());
}

4> billjamesdev..：

UTF-8编码具有一个简洁的特性,允许您查看字节集中的位置.

检查您想要的字符限制流.

如果它的高位为0,则它是一个单字节的字符,只需用0替换它就可以了.

如果它的高位为1,那么下一位是,那么你就是一个多字节字符的开头,所以只需将该字节设置为0就可以了.

如果高位为1但下一位为0,那么你就在一个字符的中间,沿着缓冲区返回,直到你找到一个高位为2或更多1的字节,然后用0.

示例:如果您的流是:31 33 31 C1 A3 32 33 00,您可以将字符串设置为1,2,3,5,6或7个字节长,但不能设置为4,因为这会将C1置于C1之后,是多字节char的开头.

@Alexander:那是因为他们搞砸了.这只是试图解决这个错误.代理对**没有UTF-8业务!**

推荐阅读

程序员
命名空间标识符的范围是什么？

如何解决《命名空间标识符的范围是什么？》经验，为你挑选了0个好方法。 ... [详细]
程序员
显示缓冲异步通道和通道之间差异的示例？

如何解决《显示缓冲异步通道和通道之间差异的示例？》经验，为你挑选了1个好方法。 ... [详细]
程序员
我需要按一个按钮来发推文

如何解决《我需要按一个按钮来发推文》经验，为你挑选了1个好方法。 ... [详细]
程序员
Visual Studio 2015 Update 1未显示当前的Git分支

如何解决《VisualStudio2015Update1未显示当前的Git分支》经验，为你挑选了1个好方法。 ... [详细]
程序员
限制在派生类中访问方法

如何解决《限制在派生类中访问方法》经验，为你挑选了1个好方法。 ... [详细]
程序员
除非内容溢出视口,否则居中对齐flexbox容器

如何解决《除非内容溢出视口,否则居中对齐flexbox容器》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何强制gradle打印或记录所有已执行的编译器命令？

如何解决《如何强制gradle打印或记录所有已执行的编译器命令？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Android BLE设备收到的结果非常不规律

如何解决《AndroidBLE设备收到的结果非常不规律》经验，为你挑选了0个好方法。 ... [详细]
程序员
R-定位两条曲线的交点

如何解决《R-定位两条曲线的交点》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在点击按钮时更改javascript中的被调用类？

如何解决《如何在点击按钮时更改javascript中的被调用类？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何使用路线操纵导航栏？

如何解决《如何使用路线操纵导航栏？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Kotlin是否支持monadic理解？

如何解决《Kotlin是否支持monadic理解？》经验，为你挑选了1个好方法。 ... [详细]
程序员
推送intel-xdk文件后,Pixi.js触摸事件没有在iPhone上触发

如何解决《推送intel-xdk文件后,Pixi.js触摸事件没有在iPhone上触发》经验，为你挑选了0个好方法。 ... [详细]
程序员
这种类型有一个构造函数,必须在这里初始化--Kotlin

如何解决《这种类型有一个构造函数,必须在这里初始化--Kotlin》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何使用python-tesseract获取Hocr输出

如何解决《如何使用python-tesseract获取Hocr输出》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么我得到远程:sh:2:语法错误:当我运行git push heroku master时,未终止引用的字符串

如何解决《为什么我得到远程:sh:2:语法错误:当我运行gitpushherokumaster时,未终止引用的字符串》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用java在base -2中创建二进制数组

如何解决《使用java在base-2中创建二进制数组》经验，为你挑选了1个好方法。 ... [详细]
程序员
将波特率设置为esp8266为9600

如何解决《将波特率设置为esp8266为9600》经验，为你挑选了1个好方法。 ... [详细]
程序员
找不到Digest/MD5.pm directadmin

如何解决《找不到Digest/MD5.pmdirectadmin》经验，为你挑选了1个好方法。 ... [详细]
程序员
绘制Pandas Multiindex条形图

如何解决《绘制PandasMultiindex条形图》经验，为你挑选了1个好方法。 ... [详细]

jerry613

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章