Java自学者论坛

 找回密码
 立即注册

手机号码,快捷登录

恭喜Java自学者论坛(https://www.javazxz.com)已经为数万Java学习者服务超过8年了!积累会员资料超过10000G+
成为本站VIP会员,下载本站10000G+会员资源,会员资料板块,购买链接:点击进入购买VIP会员

JAVA高级面试进阶训练营视频教程

Java架构师系统进阶VIP课程

分布式高可用全栈开发微服务教程Go语言视频零基础入门到精通Java架构师3期(课件+源码)
Java开发全终端实战租房项目视频教程SpringBoot2.X入门到高级使用教程大数据培训第六期全套视频教程深度学习(CNN RNN GAN)算法原理Java亿级流量电商系统视频教程
互联网架构师视频教程年薪50万Spark2.0从入门到精通年薪50万!人工智能学习路线教程年薪50万大数据入门到精通学习路线年薪50万机器学习入门到精通教程
仿小米商城类app和小程序视频教程深度学习数据分析基础到实战最新黑马javaEE2.1就业课程从 0到JVM实战高手教程MySQL入门到精通教程
查看: 605|回复: 0

Python2和Python3中的字符串编码问题解决

[复制链接]
  • TA的每日心情
    奋斗
    2024-11-24 15:47
  • 签到天数: 804 天

    [LV.10]以坛为家III

    2053

    主题

    2111

    帖子

    72万

    积分

    管理员

    Rank: 9Rank: 9Rank: 9

    积分
    726782
    发表于 2021-4-21 11:22:40 | 显示全部楼层 |阅读模式

    Python2和Python3在字符串编码上是有明显的区别。

    在Python2中,字符串无法完全地支持国际字符集和Unicode编码。为了解决这种限制,Python2对Unicode数据使用了单独的字符串类型。要输入Unicode字符串字面量,要在第一个引号前加上'u'。Python2中普通字符串实际上就是已经编码(非Unicode)的字节字符串。

    在Python3中,不必加入这个前缀字符,否则是语法错误,这是因为所有的字符串默认已经是Unicode编码了。

    $ python2实例:

    >>> '张三'  #python2 会自动将字符串转换为合适编码的字节字符串
    '\xe5\xbc\xa0\xe4\xbf\x8a' #自动转换为utf-8编码的字节字符串

    >>> u'张三' #显式指定字符串类型为unicode类型, 此类型字符串没有编码,保存的是字符在unicode字符集中的代码序号
    u'\u5f20\u4fca'

    >>> '张三'.encode('utf-8')  #python2 已经自动将其转化为utf-8类型编码,因此再次编码(python2会将该字符串当作用ascii或unicode编码过)会出现错误。
    Traceback (most recent call last):
    File "<stdin>", line 1, in <module>
    UnicodeDecodeError: 'ascii' codec can't decode byte 0xe5 in position 0: ordinal not in range(128)

    >>> '张三'.decode('utf-8')  #python2 可以正常解码,返回的字符串类是无编码的unicode类型
    u'\u5f20\u4fca'

    >>> b'张三'   # ‘张三' 已被python2转换为utf-8编码,因此已为字节字符串
    '\xe5\xbc\xa0\xe4\xbf\x8a'

    >>> print '张三'
    张三

    >>> print u'张三'
    张三

    >>> print b'张三'
    张三

    $ python3实例:

    >>> '张三' #python3的字符串默认为unicode格式(无编码)
    '张三'

    >>> u'张三' #由于默认为unicode格式,因此字符串不用像python2一样显式地指出其类型,否则是语法错误。
    File "<stdin>", line 1
    u'张三'
    ^
    SyntaxError: invalid syntax

    >>> type('张三') #python3中文本字符串和字节字符串是严格区分的,默认为unicode格式的文本字符串
    <class 'str'>

    >>> '张三'.decode('utf-8') #因为默认的文本字符串为unicode格式,因此文本字符串没有decode方法
    Traceback (most recent call last):
    File "<stdin>", line 1, in <module>
    AttributeError: 'str' object has no attribute 'decode'

    >>> '张三'.encode('utf-8') #将文本字符串编码,转换为已编码的字节字符串类型
    b'\xe5\xbc\xa0\xe4\xbf\x8a'

    >>> type('张三'.encode('utf-8'))
    <class 'bytes'>

    >>> print ('张三'.encode('utf-8')) #对于已编码的字节字符串,文本字符串的许多特性和方法已经不能使用。
    b'\xe5\xbc\xa0\xe4\xbf\x8a'

    >>>print ('张三'.encode('utf-8'))
    b'\xe5\xbc\xa0\xe4\xbf\x8a'

    >>> print ('张三'.encode('utf-8').decode('utf-8'))  #必须将字节字符串解码后才能打印出来
    张三

    哎...今天够累的,签到来了1...
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    QQ|手机版|小黑屋|Java自学者论坛 ( 声明:本站文章及资料整理自互联网,用于Java自学者交流学习使用,对资料版权不负任何法律责任,若有侵权请及时联系客服屏蔽删除 )

    GMT+8, 2024-12-22 17:08 , Processed in 0.052692 second(s), 27 queries .

    Powered by Discuz! X3.4

    Copyright © 2001-2021, Tencent Cloud.

    快速回复 返回顶部 返回列表