JAVA高级面试进阶训练营视频教程

admin · 发表于 2021-5-16 08:06:24

爬取某个国外的网址，遇到的编码问题，在前段页面返回的数据是

亞洲私人珍&#34255

;賣，令仝好分享他為此

所傾注的心血與熱愛。

爬虫源码是：

url = 'http://www.bonhams.com/auctions/24026/lot/120/?category=list&length=100&page=1'

try:
    result = requests.get(url=url).text
except:
    result = requests.get(url=url).text
if 'javascript">setTimeout' in result:
    result = requests.get(url=url).text

如何处理？

url = 'http://www.bonhams.com/auctions/24026/lot/120/?category=list&length=100&page=1'

try:
    result = requests.get(url=url).text except: result = requests.get(url=url).text if 'javascript">setTimeout' in result: result = requests.get(url=url).text


from HTMLParser import HTMLParser
result_HTMLParser =  HTMLParser().unescape(result)
    
 print result_HTMLParser

打印原始网页代码

发现编码格式正常

html = '&lt;abc&gt;'
用Python可以这样处理：

import HTMLParser
html_parser = HTMLParser.HTMLParser()
txt = html_parser.unescape(html) #这样就得到了txt = '<abc>'
如果还想转回去，可以这样：

import cgi
html = cgi.escape(txt) # 这样又回到了 html = '&lt;abc&gt'

		自动登录	找回密码
密码			立即注册

JAVA高级面试进阶训练营视频教程	Java架构师系统进阶VIP课程	分布式高可用全栈开发微服务教程	Go语言视频零基础入门到精通	Java架构师3期(课件+源码)
Java开发全终端实战租房项目视频教程	SpringBoot2.X入门到高级使用教程	大数据培训第六期全套视频教程	深度学习（CNN RNN GAN）算法原理	Java亿级流量电商系统视频教程
互联网架构师视频教程	年薪50万Spark2.0从入门到精通	年薪50万！人工智能学习路线教程	年薪50万大数据入门到精通学习路线	年薪50万机器学习入门到精通教程
仿小米商城类app和小程序视频教程	深度学习数据分析基础到实战	最新黑马javaEE2.1就业课程	从 0到JVM实战高手教程	MySQL入门到精通教程

JAVA高级面试进阶训练营视频教程

Java架构师系统进阶VIP课程

Python 爬虫解决escape问题

浏览过的版块

JAVA高级面试进阶训练营视频教程

Java架构师系统进阶VIP课程

Python 爬虫 解决escape问题

浏览过的版块

Python 爬虫解决escape问题