侯体宗的博客
  • 首页
  • Hyperf版
  • beego仿版
  • 人生(杂谈)
  • 技术
  • 关于我
  • 更多分类
    • 文件下载
    • 文字修仙
    • 中国象棋ai
    • 群聊
    • 九宫格抽奖
    • 拼图
    • 消消乐
    • 相册

java出现乱码的原因与解决方法详解

Java  /  管理员 发布于 8年前   498

java在字符串中统一用Unicode表示。(推荐:java视频教程)

对于任意一个字符串:String string = “测试字符串”;

如果源文件是GBK编码,操作系统默认环境编码也为GBK,那么编译的时候,JVM将按照GBK编码将字节数组解析为字符,然后将字符转换为Unicode格式的字节数组,作为内部存储(字节数组→字符→Unicode字节数组)

当打印这个字符串时,JVM根据操作系统本地的语言环境,将Unicode转换为GBK,然后操作系统将GBK格式的内容显示出来。

当源码文件是UTF-8, 我们需要通知编译器源码的格式,javac -encoding utf-8 … , 编译时,JVM按照utf-8 解析成字符,然后转换为unicode格式的字节数组, 那么不论源码文件是什么格式,同样的字符串,最后得到的unicode字节数组是完全一致的,显示的时候,也是转成GBK来显示(跟OS环境有关)

乱码是如何产生的?

本质上都是由于字符串原本的编码格式与读取时解析用的编码格式不一致导致的。

乱码指的是程序显示出来的字符文本无法用任何语言去解读。一般情况下会包含大量的?。乱码问题是所有计算机用户或多或少会遇到的问题。

造成乱码的原因就是因为使用了错误的字符编码去解码字节流,因此当我们在思考任何跟文本显示有关的问题时,请时刻保持清醒:当前使用的字符编码是什么。只有这样,我们才能正确分析和处理乱码问题。

例如最常见的网页乱码问题。如果你是网站技术人员,遇到这样的问题,需要检查以下原因:

1、服务器返回的响应头Content-Type没有指明字符编码

2、网页内是否使用META HTTP-EQUIV标签指定了字符编码

3、网页文件本身存储时使用的字符编码和网页声明的字符编码是否一致

java代码中的乱码问题如何解决呢?

例如:String s = “测试字符串”;

System.out.println( new String(s.getBytes(),"UTF-8")); //错误,因为getBytes()默认使用GBK编码, 而解析时使用UTF-8编码,肯定出错。

其中getBytes()是将Unicode转换为操作系统默认格式的字节数组,即“测试字符串”的GBK格式,new String (bytes, Charset) 中的charset 是指定读取byte的方式,这里指定为UTF-8,即把bytes的内容当做UTF-8来读取。

如下两种方式得到的结果都是正确的,因为它们的源内容编码和解析用的编码是一致的。

System.out.println( new String(s.getBytes(),"GBK"));System.out.println( new String(s.getBytes("UTF-8"),"UTF-8"));

那么,如何利用getBytes 和 new String() 来进行编码转换呢?

网上流传着一种错误的方法:

GBK--> UTF-8: new String( s.getBytes("GBK") , "UTF-8);

这种方式是完全错误的,因为getBytes 的编码与 UTF-8 不一致,肯定是乱码。

但是为什么在tomcat 下,使用 new String(s.getBytes(“iso-8859-1”) ,”GBK”) 却可以用呢?

答案是:

tomcat 默认使用iso-8859-1编码, 也就是说,如果原本字符串是GBK的,tomcat传输过程中,将GBK转成iso-8859-1了,默认情况下,使用iso-8859-1读取中文肯定是有问题的。

那么我们需要将iso-8859-1 再转成GBK, 而iso-8859-1 是单字节编码的,即他认为一个字节是一个字符, 那么这种转换不会对原来的字节数组做任何改变,因为字节数组本来就是由单个字节组成的。

如果之前用GBK编码,那么转成iso-8859-1后编码内容完全没变, 则 s.getBytes(“iso-8859-1”) 实际上还是原来GBK的编码内容则 new String(s.getBytes(“iso-8859-1”) ,”GBK”) 就可以正确解码了。 所以说这是一种巧合。

如何正确的将GBK转UTF-8 ? (实际上是unicode转UTF-8)

//利用getBytes将unicode字符串转成UTF-8格式的字节数组,然后用utf-8 对这个字节数组解码成新的字符串new String( s.getBytes("utf-8") , "utf-8");UTF-8 转GBK原理也是一样new String( s.getBytes("GBK") , "GBK");

其实核心工作都由getBytes(charset)做了。getBytes的JDK描述:Encoding this String into a sequence of bytes using the named charset,storing the result into a new byte array.

OutputStreamWriter w1 = new OutputStreamWriter(new FileOutputStream("D:\\file1.txt"),"UTF-8");InputStreamReader( stream, charset)

可以帮助我们轻松的按照指定编码读写文件。

附录:
HttpClient post请求中文乱码问题解决

最近接到现场同事反馈,在掉接口的过程中,厂家收到的请求报文中文是乱码的。我检查了版控的代码,找到如下解决办法:

原始代码(中文乱码):

HttpPost httpPost = new HttpPost(url);DefaultHttpClient httpClient = new DefaultHttpClient();//请求头httpPost.setHeader("Accept", MediaType.APPLICATION_JSON);httpPost.setHeader("Content-Type", "application/json;charset=UTF-8");//请求实体StringEntity reqEntity = new StringEntity(reqStr);httpPost.setEntity(reqEntity);//获取响应HttpResponse httpResp = httpClient.execute(httpPost);HttpEntity respEntity = httpResp.getEntity();

解决办法:

方法一://请求实体HttpEntity reqEntity = new ByteArrayEntity(reqStr.getBytes("UTF-8"));//StringEntity reqEntity = new StringEntity(reqStr);httpPost.setEntity(reqEntity);方法二://请求实体StringEntity reqEntity = new StringEntity(reqStr,Charset.forName("UTF-8"));httpPost.setEntity(reqEntity);

更多java知识请关注java基础教程栏目。

以上就是java出现乱码的原因与解决方法详解的详细内容,更多请关注其它相关文章!


  • 上一条:
    java中判断是否是闰年的方法详解
    下一条:
    java中如何判断字符串是否是int
  • 昵称:

    邮箱:

    0条评论 (评论内容有缓存机制,请悉知!)
    最新最热
    • 分类目录
    • 人生(杂谈)
    • 技术
    • linux
    • Java
    • php
    • 框架(架构)
    • 前端
    • ThinkPHP
    • 数据库
    • 微信(小程序)
    • Laravel
    • Redis
    • Docker
    • Go
    • swoole
    • Windows
    • Python
    • 苹果(mac/ios)
    • 相关文章
    • 在java中实现的脱敏工具类代码示例分享(0个评论)
    • zookeeper安装流程步骤(0个评论)
    • 在java中你背的“八股文”可能已经过时了(2个评论)
    • 在php8.0+版本中使用属性来增加值代码示例(3个评论)
    • java 正则表达式基础,实例学习资料收集大全 原创(0个评论)
    • 近期文章
    • 在go中实现一个常用的先进先出的缓存淘汰算法示例代码(0个评论)
    • 在go+gin中使用"github.com/skip2/go-qrcode"实现url转二维码功能(0个评论)
    • 在go语言中使用api.geonames.org接口实现根据国际邮政编码获取地址信息功能(1个评论)
    • 在go语言中使用github.com/signintech/gopdf实现生成pdf分页文件功能(0个评论)
    • gmail发邮件报错:534 5.7.9 Application-specific password required...解决方案(0个评论)
    • 欧盟关于强迫劳动的规定的官方举报渠道及官方举报网站(0个评论)
    • 在go语言中使用github.com/signintech/gopdf实现生成pdf文件功能(0个评论)
    • Laravel从Accel获得5700万美元A轮融资(0个评论)
    • 在go + gin中gorm实现指定搜索/区间搜索分页列表功能接口实例(0个评论)
    • 在go语言中实现IP/CIDR的ip和netmask互转及IP段形式互转及ip是否存在IP/CIDR(0个评论)
    • 近期评论
    • 122 在

      学历:一种延缓就业设计,生活需求下的权衡之选中评论 工作几年后,报名考研了,到现在还没认真学习备考,迷茫中。作为一名北漂互联网打工人..
    • 123 在

      Clash for Windows作者删库跑路了,github已404中评论 按理说只要你在国内,所有的流量进出都在监控范围内,不管你怎么隐藏也没用,想搞你分..
    • 原梓番博客 在

      在Laravel框架中使用模型Model分表最简单的方法中评论 好久好久都没看友情链接申请了,今天刚看,已经添加。..
    • 博主 在

      佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 @1111老铁这个不行了,可以看看近期评论的其他文章..
    • 1111 在

      佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 网站不能打开,博主百忙中能否发个APP下载链接,佛跳墙或极光..
    • 2016-11
    • 2018-03
    • 2020-03
    • 2023-05
    • 2023-11
    • 2024-01
    Top

    Copyright·© 2019 侯体宗版权所有· 粤ICP备20027696号 PHP交流群

    侯体宗的博客