文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

java读取文件里面部分汉字内容乱码的解决方案

2024-04-02 19:55

关注

java读取文件里面部分汉字内容乱码

读取一个txt文件,到代码中打印出来,发票有部分汉字的内容是乱码的。

我开始的方式是这样的, 如下,这是完全错误的,汉字是两个字节的,如果每次读固定个字节,可能会把汉字截断。

就会出现部分乱码的情况。


package susq.path;​
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
​

public class WrongMethodReadTxt {
    public static void main(String[] args) throws IOException {
        ClassLoader classLoader = WrongMethodReadTxt.class.getClassLoader();
        String filePath = classLoader.getResource("").getPath() + "/expect1.txt";
​
        System.out.println(filePath);
​
        File file = new File(filePath);
        try (FileInputStream in = new FileInputStream(file)) {
            byte[] bytes = new byte[1024];
            StringBuffer sb = new StringBuffer();
            int len;
            while ((len = in.read(bytes)) != -1) {
                sb.append(new String(bytes, 0, len));
            }
            System.out.println(sb.toString());
        }
    }
}

如果存在汉字,就要按字符的方式读取:


package susq.path;​
import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
import java.io.IOException;
​

public class SysPath {
    public static void main(String[] args) throws IOException {
        ClassLoader classLoader = SysPath.class.getClassLoader();
        String filePath = classLoader.getResource("").getPath() + "/expect1.txt";
​
        System.out.println(filePath);
​
        File file = new File(filePath);
        try (BufferedReader br = new BufferedReader(new FileReader(file))) {
            StringBuffer sb = new StringBuffer();
            while (br.ready()) {
                sb.append(br.readLine());
            }
            System.out.println(sb);
        }
    }
}

java的IO流读取数据时,解决中文乱码,还有个别中文乱码问题

情况:用IO流读取数据时,若是不设置编码格式,出来的数据未必是我们所要的

解决:读取数据时,设置编码

代码:(字符串设置对应的编码即可,但这种方式,会导致个别中文乱码,貌似是byte[]导致的)


//这里我通过socket方式,获取流,并读取数据
    //代理需要外置配置(代理配置需要判断,若有配置,则添加,若无配置,则不添加)
    Socket socket = new Socket("192.168.99.100", 80);
 String url = "GET " + href + " HTTP/1.1\r\n\r\n";
 socket.getOutputStream().write(new String(url).getBytes());  
    InputStream is = socket.getInputStream();
    byte[] bs = new byte[1024]; 
 int i;
 StringBuilder str = new StringBuilder();
 while ((i = is.read(bs)) > 0) {
  //一定要加编码,不然,在输出到文件时,部分数据会乱
  str.append(new String(bs, 0, i,"UTF-8"));
        //由于socket读取不会断开,所以只能自断开连接读取
  if(new String(bs, 0, i,"UTF-8").contains("</html>")){
     break;
  }
 }

解决个别中文乱码问题:

代码:


//代理需要外置配置(代理配置需要判断,若有配置,则添加,若无配置,则不添加)
  Socket socket = new Socket("192.168.99.100", 80);
  //Socket socket = new Socket();
  String url = "GET " + href + " HTTP/1.1\r\n\r\n";
  socket.getOutputStream().write(new String(url).getBytes());
  InputStream is = socket.getInputStream();
  
  //解决个别中文乱码
  StringBuilder str = new StringBuilder("");
  InputStreamReader isr = new InputStreamReader(is,"UTF-8");
  BufferedReader br = new BufferedReader(isr);
  String line = null;  
  while ((line = br.readLine()) != null) {
    str.append(line + "\n");
       if(line.contains("</html>")){
        break;
       }
  }

以上为个人经验,希望能给大家一个参考,也希望大家多多支持编程网。

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯