JAVA高级面试进阶训练营视频教程

admin · 发表于 2021-9-3 16:24:20

最近由于公司的自动化测试工具需要将测试结果导出到excel中，奈何没有学SSH，导致无法在工具本身中添加（工具是开发做的），故转而使用python爬虫来做，开发过程中遇到了一个问题：

　　由于测试结果太多，需要翻页，而翻页时网址没有变化，这就导致抓取的时候没法依照网址去爬，遂去网上查找解决方法，最后找到利用urllib2提交post的方法来解决。

解决过程：

网址不变，而如果是用selenium的话，我又觉得太慢，毕竟selenium是用来做验收测试的，不是用来爬数据的。言归正传，利用urllib2提交post的方法来获取翻页数据的话，首先的找到网页对应的post，首先我找到了这个：

{'topage':'3'}

和这个：

{'pageNow':'3'}

(后者是正确的)

这需要大家自己去网页里找规律，不一定被放到了哪个位置，我因为工具是公司开发写的，我在他的页面代码里找到了如下这段：

所以确定是{'pageNow':'3'}是对的。

既然找到post的键值，那接下来的事就简单了：

 1  2 url = 网络地址
 3 #需要提交给表单键值对
 4 query = {'pageNow':'3'}
 5 
 6 #urllib.urlencode(query[, doseq])：将dict或者包含两个元素的元组列表转换成url参
 7 #数。例如 字典{'name': 'dark-bull', 'age': 200}将被转换为"name=dark-bull&
 8 #age=200"
 9 date = urllib.urlencode(query)
10 #向服务器端发送请求
11 post = urllib2.Request(url,date)
12 #接收服务端返回的内容
13 response  = urllib2.urlopen(request)
14 #转化为页面代码
15 page = response.read()
16 
17 
18 print page

以上，控制台上显示出来的就是第三页的代码，这时大家就可以用正则去匹配自己需要的东西了\(^o^)/~

		自动登录	找回密码
密码			立即注册

JAVA高级面试进阶训练营视频教程	Java架构师系统进阶VIP课程	分布式高可用全栈开发微服务教程	Go语言视频零基础入门到精通	Java架构师3期(课件+源码)
Java开发全终端实战租房项目视频教程	SpringBoot2.X入门到高级使用教程	大数据培训第六期全套视频教程	深度学习（CNN RNN GAN）算法原理	Java亿级流量电商系统视频教程
互联网架构师视频教程	年薪50万Spark2.0从入门到精通	年薪50万！人工智能学习路线教程	年薪50万大数据入门到精通学习路线	年薪50万机器学习入门到精通教程
仿小米商城类app和小程序视频教程	深度学习数据分析基础到实战	最新黑马javaEE2.1就业课程	从 0到JVM实战高手教程	MySQL入门到精通教程

JAVA高级面试进阶训练营视频教程

Java架构师系统进阶VIP课程

[python]利用urllib+urllib2解决爬虫分页翻页问题