JAVA高级面试进阶训练营视频教程

admin · 发表于 2021-4-25 11:54:04

最近需要用到按字节数截取字符串。在网上找了很多方法。

Encoding.Default.GetString采用的Default
Encoding.UTF8.GetBytes采用的是utf-8编码。这样当然是乱码。尤其出现中文时候。
对这类数据处理当然要用统一的编码来处理。

例子：1
string msg= Encoding.UTF8.GetString(Encoding.UTF8.GetBytes(strcode));
例子：2
string strcode="我是小明";
byte[] buffer=Encoding.UTF8.GetBytes(strcode);
string msg= Encoding.UTF8.GetString(buffer,0,buffer.Length);

实际结果是截取的结尾会出现乱码。原因是最后的字符是多个字节，被不完整的截取了。

改进后的办法如下：

        /// <summary>
        /// 按字节数截取字符串的方法(比SubString好用)
        /// </summary>
        /// <param name="source">要截取的字符串（可空）</param>
        /// <param name="NumberOfBytes">要截取的字节数</param>
        /// <param name="encoding">System.Text.Encoding</param>
        /// <param name="suffix">结果字符串的后缀（超出部分显示为该后缀）</param>
        /// <returns></returns>
        public static string SubStringByBytes(string source, int NumberOfBytes, System.Text.Encoding encoding, string suffix = "...")
        {
            if(string.IsNullOrWhiteSpace(source) || source.Length == 0)
                return source;

            if(encoding.GetBytes(source).Length <= NumberOfBytes)
                return source;

            long tempLen = 0;
            StringBuilder sb = new StringBuilder();
            foreach(var c in source)
            {
                Char[] _charArr = new Char[] { c };
                byte[] _charBytes = encoding.GetBytes(_charArr);
                if((tempLen + _charBytes.Length) > NumberOfBytes)
                {
                    if(!string.IsNullOrWhiteSpace(suffix))
                        sb.Append(suffix);
                    break;
                }
                else
                {
                    tempLen += _charBytes.Length;
                    sb.Append(encoding.GetString(_charBytes));
                }
            }
            return sb.ToString();
        }
        /// <summary>
        /// 按字节数截取字符串的方法(比SubString好用)
        /// </summary>
        /// <param name="source">要截取的字符串（可空）</param>
        /// <param name="NumberOfBytes">要截取的字节数</param>
        /// <param name="encoding">UTF-8，Unicode，GB2312...</param>
        /// <param name="suffix">结果字符串的后缀（超出部分显示为该后缀）</param>
        /// <returns></returns>
        public static string SubStringByBytes(string source, int NumberOfBytes, string encoding = "UTF-8", string suffix = "...")
        {
            return SubStringByBytes(source, NumberOfBytes, Encoding.GetEncoding(encoding), suffix);
        }

原理很简单，就是截取之前逐个先判断字符是否超出字节长度，如果超出则扔掉整个字符。

在JavaScript里面的Blob对象很容易获取字节长度： var len= new Blob(['字符串']).size;

JS代码是不是比较简洁？

		自动登录	找回密码
密码			立即注册

JAVA高级面试进阶训练营视频教程	Java架构师系统进阶VIP课程	分布式高可用全栈开发微服务教程	Go语言视频零基础入门到精通	Java架构师3期(课件+源码)
Java开发全终端实战租房项目视频教程	SpringBoot2.X入门到高级使用教程	大数据培训第六期全套视频教程	深度学习（CNN RNN GAN）算法原理	Java亿级流量电商系统视频教程
互联网架构师视频教程	年薪50万Spark2.0从入门到精通	年薪50万！人工智能学习路线教程	年薪50万大数据入门到精通学习路线	年薪50万机器学习入门到精通教程
仿小米商城类app和小程序视频教程	深度学习数据分析基础到实战	最新黑马javaEE2.1就业课程	从 0到JVM实战高手教程	MySQL入门到精通教程

JAVA高级面试进阶训练营视频教程

Java架构师系统进阶VIP课程

解决在C#（.net）按字节数截取字符串最后出现乱码的问题