12赞

Java App:无法正确读取iso-8859-1编码文件

作者：mobiledu2402851323 | 2023-08-31 12:05

如何解决《JavaApp:无法正确读取iso-8859-1编码文件》经验，为你挑选了3个好方法。

我有一个编码为iso-8859-1的文件,其中包含ô等字符.

我正在使用java代码读取此文件,例如:

File in = new File("myfile.csv");
InputStream fr = new FileInputStream(in);
byte[] buffer = new byte[4096];
while (true) {
    int byteCount = fr.read(buffer, 0, buffer.length);
    if (byteCount <= 0) {
        break;
    }

    String s = new String(buffer, 0, byteCount,"ISO-8859-1");
    System.out.println(s);
}

然而,ô字符总是乱码,通常打印为？.

我已经阅读了这个主题(并且在路上学到了一点),例如

http://www.joelonsoftware.com/articles/Unicode.html

http://bugs.sun.com/bugdatabase/view_bug.do?bug_id=4508058

http://www.ingrid.org/java/i18n/utf-16/

但仍然无法使这个工作

有趣的是,这适用于我的本地电脑(xp),但不适用于我的Linux机箱.

我已经检查过我的jdk支持所需的字符集(它们是标准的,所以这并不令人惊讶)使用:

System.out.println(java.nio.charset.Charset.availableCharsets());

Jon Skeet.. 14

我怀疑您的文件实际上并未编码为ISO-8859-1,或者System.out不知道如何打印该字符.

我建议检查第一个,检查文件中的相关字节.要检查第二个,请检查字符串中的相关字符,然后将其打印出来

 System.out.println((int) s.getCharAt(index));

在这两种情况下,结果应为244十进制; 0xf4十六进制.

有关一般建议,请参阅我关于Unicode调试的文章(提供的代码在C#中,但很容易转换为Java,原理相同).

顺便说一句,顺便说一句,我用一个InputStreamReader正确的编码来包装流- 它比"手动"创建新的字符串更容易.我意识到这可能只是演示代码.

编辑:这是一个非常简单的方法来证明控制台是否可以工作:

 System.out.println("Here's the character: \u00f4");

Zach Scriven.. 9

将文件解析为固定大小的字节块并不好 - 如果某个字符有跨越两个块的字节表示怎么办？使用InputStreamReader带有适当字符编码的代码:

 BufferedReader br = new BufferedReader(
         new InputStreamReader(
         new FileInputStream("myfile.csv"), "ISO-8859-1");

 char[] buffer = new char[4096]; // character (not byte) buffer 

 while (true)
 {
      int charCount = br.read(buffer, 0, buffer.length);

      if (charCount == -1) break; // reached end-of-stream 

      String s = String.valueOf(buffer, 0, charCount);
      // alternatively, we can append to a StringBuilder

      System.out.println(s);
 }

顺便说一句,记得检查unicode字符是否确实可以正确显示.您还可以将程序输出重定向到文件,然后将其与原始文件进行比较.

正如Jon Skeet所说,问题也可能与控制台有关.试着System.console().printf(s)看看是否有区别.

1> Jon Skeet..：

我怀疑您的文件实际上并未编码为ISO-8859-1,或者System.out不知道如何打印该字符.

我建议检查第一个,检查文件中的相关字节.要检查第二个,请检查字符串中的相关字符,然后将其打印出来

 System.out.println((int) s.getCharAt(index));

在这两种情况下,结果应为244十进制; 0xf4十六进制.

有关一般建议,请参阅我关于Unicode调试的文章(提供的代码在C#中,但很容易转换为Java,原理相同).

顺便说一句,顺便说一句,我用一个InputStreamReader正确的编码来包装流- 它比"手动"创建新的字符串更容易.我意识到这可能只是演示代码.

编辑:这是一个非常简单的方法来证明控制台是否可以工作:

 System.out.println("Here's the character: \u00f4");

2> Zach Scriven..：

将文件解析为固定大小的字节块并不好 - 如果某个字符有跨越两个块的字节表示怎么办？使用InputStreamReader带有适当字符编码的代码:

 BufferedReader br = new BufferedReader(
         new InputStreamReader(
         new FileInputStream("myfile.csv"), "ISO-8859-1");

 char[] buffer = new char[4096]; // character (not byte) buffer 

 while (true)
 {
      int charCount = br.read(buffer, 0, buffer.length);

      if (charCount == -1) break; // reached end-of-stream 

      String s = String.valueOf(buffer, 0, charCount);
      // alternatively, we can append to a StringBuilder

      System.out.println(s);
 }

顺便说一句,记得检查unicode字符是否确实可以正确显示.您还可以将程序输出重定向到文件,然后将其与原始文件进行比较.

正如Jon Skeet所说,问题也可能与控制台有关.试着System.console().printf(s)看看是否有区别.

3> McDowell..：

@Joel - 您自己的答案确认问题是操作系统上的默认编码(UTF-8,Java已经选择的)和终端使用的编码(ISO-8859-1)之间的差异.

考虑以下代码:

public static void main(String[] args) throws IOException {
    byte[] data = { (byte) 0xF4 };
    String decoded = new String(data, "ISO-8859-1");
    if (!"\u00f4".equals(decoded)) {
        throw new IllegalStateException();
    }

    // write default charset
    System.out.println(Charset.defaultCharset());

    // dump bytes to stdout
    System.out.write(data);

    // will encode to default charset when converting to bytes
    System.out.println(decoded);
}

默认情况下,我的Ubuntu(8.04)终端使用UTF-8编码.使用此编码,打印出来:

UTF-8
？ô

如果我将终端的编码切换为ISO 8859-1,则打印出来:

UTF-
8ôÃ'

在这两种情况下,Java程序都会发出相同的字节:

5554 462d 380a f4c3 b40a

唯一的区别在于终端如何解释它接收的字节.在ISO 8859-1中,ô编码为0xF4.在UTF-8中,ô编码为0xC3B4.其他字符对于两种编码都是通用的.

推荐阅读

程序员
在flavor中使用不同的applicationID时的数据绑定错误

如何解决《在flavor中使用不同的applicationID时的数据绑定错误》经验，为你挑选了0个好方法。 ... [详细]
程序员
Swift三元运算符函数调用？

如何解决《Swift三元运算符函数调用？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Symfony 2.8和3.0中找不到资产

如何解决《在Symfony2.8和3.0中找不到资产》经验，为你挑选了2个好方法。 ... [详细]
程序员
在R-studio中使用Git:无法修改代码文件

如何解决《在R-studio中使用Git:无法修改代码文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Meteor的一个函数中使用.find().fetch()

如何解决《在Meteor的一个函数中使用.find().fetch()》经验，为你挑选了1个好方法。 ... [详细]
程序员
未捕获的SyntaxError:nodejs中的意外标记<

如何解决《未捕获的SyntaxError:nodejs中的意外标记<》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Makefile中创建模式规则依赖项可选？

如何解决《如何在Makefile中创建模式规则依赖项可选？》经验，为你挑选了1个好方法。 ... [详细]
程序员
为每个处理器虚拟机设置最佳处理器/核心数(VMware)

如何解决《为每个处理器虚拟机设置最佳处理器/核心数(VMware)》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何获取具有继承宽度的元素的宽度？

如何解决《如何获取具有继承宽度的元素的宽度？》经验，为你挑选了0个好方法。 ... [详细]
程序员
android.hardware.Camera $ EventHandler.handleMessage

如何解决《android.hardware.Camera$EventHandler.handleMessage》经验，为你挑选了2个好方法。 ... [详细]
程序员
Google地图的宽度和高度

如何解决《Google地图的宽度和高度》经验，为你挑选了1个好方法。 ... [详细]
程序员
带有Gradle和Webpack的Spring Boot

如何解决《带有Gradle和Webpack的SpringBoot》经验，为你挑选了0个好方法。 ... [详细]
程序员
Tableview首先重用单元格并显示错误数据

如何解决《Tableview首先重用单元格并显示错误数据》经验，为你挑选了1个好方法。 ... [详细]
程序员
创建一系列不同长度的序列

如何解决《创建一系列不同长度的序列》经验，为你挑选了1个好方法。 ... [详细]
程序员
快速评估大量输入值的数学表达式(函数)

如何解决《快速评估大量输入值的数学表达式(函数)》经验，为你挑选了0个好方法。 ... [详细]
程序员
包装使用基于事件的异步模式的库,用于Async/Await

如何解决《包装使用基于事件的异步模式的库,用于Async/Await》经验，为你挑选了1个好方法。 ... [详细]
程序员
有没有办法简单地将JSON数组值转换为javascript中的字符串

如何解决《有没有办法简单地将JSON数组值转换为javascript中的字符串》经验，为你挑选了1个好方法。 ... [详细]
程序员
x:绑定设计时间问题

如何解决《x:绑定设计时间问题》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在chocolatey'.config'文件中使用自定义参数？

如何解决《如何在chocolatey'.config'文件中使用自定义参数？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用循环/递归镜像矩阵中的行？

如何解决《使用循环/递归镜像矩阵中的行？》经验，为你挑选了0个好方法。 ... [详细]

mobiledu2402851323

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章