Java自学者论坛

 找回密码
 立即注册

手机号码,快捷登录

恭喜Java自学者论坛(https://www.javazxz.com)已经为数万Java学习者服务超过8年了!积累会员资料超过10000G+
成为本站VIP会员,下载本站10000G+会员资源,会员资料板块,购买链接:点击进入购买VIP会员

JAVA高级面试进阶训练营视频教程

Java架构师系统进阶VIP课程

分布式高可用全栈开发微服务教程Go语言视频零基础入门到精通Java架构师3期(课件+源码)
Java开发全终端实战租房项目视频教程SpringBoot2.X入门到高级使用教程大数据培训第六期全套视频教程深度学习(CNN RNN GAN)算法原理Java亿级流量电商系统视频教程
互联网架构师视频教程年薪50万Spark2.0从入门到精通年薪50万!人工智能学习路线教程年薪50万大数据入门到精通学习路线年薪50万机器学习入门到精通教程
仿小米商城类app和小程序视频教程深度学习数据分析基础到实战最新黑马javaEE2.1就业课程从 0到JVM实战高手教程MySQL入门到精通教程
查看: 636|回复: 0

关于C#(生僻字、繁体字)和Java的URL转码GBK后结果不一样的问题解决

[复制链接]
  • TA的每日心情
    奋斗
    2024-4-6 11:05
  • 签到天数: 748 天

    [LV.9]以坛为家II

    2034

    主题

    2092

    帖子

    70万

    积分

    管理员

    Rank: 9Rank: 9Rank: 9

    积分
    705612
    发表于 2021-9-4 10:52:49 | 显示全部楼层 |阅读模式

    业务背景:

           服务端是用Java写的,客户端的是使用C#写的,他们交互以客户端以http协议方式请求服务端,http请求方式要求URL转码为GBK。但是后来发现,服务端收到客户端提交的GBK字符,偶尔会有乱码。于是将同一个字符串分别用URL转换GBK,然后发现只有一点点不一样。
     
    示例如下:
           字符串:赟俶鎮臨釵阁紅昇號瀍業區號鋕發廠劉東區灣業區實業蘭創黃鐰甪恆
           C#转码结果:
    %daS%82m%e6%82%c5R%e2O%b8%f3%bct%95N%cc%96%9ee%98I%85%5e%cc%96%e4k%b0l%8fS%84%a2%96%7c%85%5e%9e%b3%98I%85%5e%8c%8d%98I%ccm%84%93%fcS%e8A%aef%90a
     
          Java转码结果:
    %DA%53%82%6D%E6%82%C5%52%E2%4F%B8%F3%BC%74%95%4E%CC%96%9E%65%98%49%85%5E%CC%96%E4%6B%B0%6C%8F%53%84%A2%96%7C%85%5E%9E%B3%98%49%85%5E%8C%8D%98%49%CC%6D%84%93%FC%53%E8%41%AE%66%90%61
     
        对比结果截图:
      
     
     
    找了很久的原因都没有发现时什么问题,最后查了一下GBK字符的 范围
     
    发现JAVA转出来是正确的,C#转出来是错误的。每个汉子字符转出GBK应该都睡四个字节码,C#中有些字转出来只有三个字符(当然每两个字符会以%拼接),盯着C#转出来的字节码和GBK进行对比,发现C#中最后一个字母有些是大于F的,看到GBK字符集中是没有最大就到F不可能有什么NMSWZ等这些字母。猜测三个字母中应该最后一个字母是需要转出16进制的。然会就试着转了一下,果然和Java的一样的。
     
    以下是C#的代码:
     1 public static void ConvertURLGBKEnCode()
     2         {
     3             string str2 = "赟俶鎮臨釵阁紅昇號瀍業區號鋕發廠劉東區灣業區實業蘭創黃鐰甪恆";
     4 
     5             string str = string.Empty;
     6             string urlEnCodeStr = string.Empty;
     7             Regex reg = new Regex(@"[\u4e00-\u9fa5]");//正则表达式
     8             StringBuilder sb1 = new StringBuilder();
     9             for (int i = 0; i <= str2.Length - 1; i++)
    10             {
    11                 string tempStr = str2.ToString();
    12                 urlEnCodeStr = System.Web.HttpUtility.UrlEncode(tempStr, Encoding.GetEncoding("GBK"));
    13 
    14                 // 如果是汉子的话,将URL编码过后再进行16进制转换
    15                 if (reg.IsMatch(tempStr))
    16                 {
    17                     // 判断转码过后的字符,如果只有4位的话,代表最后一个字符需要转换成16进制行拼接
    18                     if (urlEnCodeStr.Length <= 4)
    19                     {
    20                         StringBuilder sb = new StringBuilder();
    21                         string firstStr = urlEnCodeStr.Substring(0, 3);
    22                         string LastStr = urlEnCodeStr.Substring(3, 1);
    23                         sb.Append(firstStr + "%");
    24                         byte[] targetData = Encoding.GetEncoding("GBK").GetBytes(LastStr);
    25                         for (int j = 0; j < targetData.Length; j++)
    26                         {
    27                             sb.Append(targetData[j].ToString("x2"));
    28                         }
    29                         sb1.Append(sb.ToString());
    30                     }
    31                     else
    32                     {
    33                         sb1.Append(urlEnCodeStr);
    34                     }
    35                 }
    36                 else
    37                 {
    38                     sb1.Append(urlEnCodeStr);
    39                 }
    40             }
    41 
    42             Console.WriteLine(sb1.ToString());
    43 
    44             Console.ReadLine();
    45         }
    View Code

     

    对于汉字中的生僻字和繁体字问题已经解决了,但是刚刚有跑一下特殊符号又郁闷了。

    将上面C#的代码 :if (reg.IsMatch(tempStr))  改为 if (urlEnCodeStr.Length > 1) 对于GBK中包含的特殊字符都是可以顺利转换的,但是,不是GBK字符符号的转换就没法确认了。

    如:符号:“-”

    C#转换结果:“-”;   Java:“-”

    字符:"("

    C# 转换结果: "(",而Java跑出来的结果却是"%28",关于这个左括号我查过了,是不属于GBK中的字符,应该也不算特殊字符,应该是直接显示的,像字母和数字以及"-"等字符一样,但就是不知道为什么,Java会转换成"%28"。

    关于这个不是GBK的字符,进行转换GBK的问题还有待研究。

     

    哎...今天够累的,签到来了1...
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    QQ|手机版|小黑屋|Java自学者论坛 ( 声明:本站文章及资料整理自互联网,用于Java自学者交流学习使用,对资料版权不负任何法律责任,若有侵权请及时联系客服屏蔽删除 )

    GMT+8, 2024-5-4 18:04 , Processed in 0.158078 second(s), 29 queries .

    Powered by Discuz! X3.4

    Copyright © 2001-2021, Tencent Cloud.

    快速回复 返回顶部 返回列表