设为首页收藏本站

恭喜Java自学者论坛（https://www.javazxz.com）已经为数万Java学习者服务超过8年了！积累会员资料超过10000G+！
成为本站VIP会员，下载本站10000G+会员资源，会员资料板块，购买链接：点击进入购买VIP会员

Java自学者论坛»论坛 › IT知识库 › Python › python爬虫中文乱码解决方法

发新帖

查看: 1110|回复: 0

python爬虫中文乱码解决方法

TA的每日心情

	奋斗 2025-3-18 14:43

签到天数: 805 天

[LV.10]以坛为家III

2053 主题	2111 帖子	73万积分

Rank: 9 Rank: 9 Rank: 9

积分: 731050

发消息

发表于 2021-9-1 11:50:53 | 显示全部楼层 |阅读模式

本站已经为数万IT学习者服务超过8年！成为本站VIP会员，免金币下载本站10000G+VIP会员资料！所有VIP资料>>

python爬虫中文乱码

前几天用python来爬取全国行政区划编码的时候，遇到了中文乱码的问题，折腾了一会儿，才解决。现特记录一下，方便以后查看。

我是用python的requests和bs4库来实现爬虫，这两个库的简单用法可参照python爬取当当网的书籍信息并保存到csv文件

乱码未处理前部分代码

   url = '要爬取的网页'
    r = requests.get(url, timeout=30)
    soup = BeautifulSoup(r.text, 'lxml')

乱码原因

我爬取的网页使用的编码是GBK。所以要按GBK编码，才能避免中文乱码。

解决乱码的代码

   url = '要爬取的网页'
    r = requests.get(url, timeout=30)
    r.encoding='GBK'   #增加encoding=‘GBK’，解决中文乱码问题
    soup = BeautifulSoup(r.text, 'lxml')

【原创声明】转载请标明出处：https://www.cnblogs.com/surecheun/p/9694052.html

哎...今天够累的，签到来了1...

回复

使用道具举报

发新帖

|手机版|小黑屋|Java自学者论坛 ( 声明：本站文章及资料整理自互联网，用于Java自学者交流学习使用，对资料版权不负任何法律责任，若有侵权请及时联系客服屏蔽删除 )

GMT+8, 2025-10-31 22:19 , Processed in 0.112222 second(s), 29 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表