Java自学者论坛

 找回密码
 立即注册

手机号码,快捷登录

恭喜Java自学者论坛(https://www.javazxz.com)已经为数万Java学习者服务超过8年了!积累会员资料超过10000G+
成为本站VIP会员,下载本站10000G+会员资源,会员资料板块,购买链接:点击进入购买VIP会员

JAVA高级面试进阶训练营视频教程

Java架构师系统进阶VIP课程

分布式高可用全栈开发微服务教程Go语言视频零基础入门到精通Java架构师3期(课件+源码)
Java开发全终端实战租房项目视频教程SpringBoot2.X入门到高级使用教程大数据培训第六期全套视频教程深度学习(CNN RNN GAN)算法原理Java亿级流量电商系统视频教程
互联网架构师视频教程年薪50万Spark2.0从入门到精通年薪50万!人工智能学习路线教程年薪50万大数据入门到精通学习路线年薪50万机器学习入门到精通教程
仿小米商城类app和小程序视频教程深度学习数据分析基础到实战最新黑马javaEE2.1就业课程从 0到JVM实战高手教程MySQL入门到精通教程
查看: 764|回复: 0

Python爬取mn52网站美女图片以及图片防盗链的解决方法

[复制链接]
  • TA的每日心情
    奋斗
    2024-11-24 15:47
  • 签到天数: 804 天

    [LV.10]以坛为家III

    2053

    主题

    2111

    帖子

    72万

    积分

    管理员

    Rank: 9Rank: 9Rank: 9

    积分
    726782
    发表于 2021-9-5 15:20:47 | 显示全部楼层 |阅读模式

    防盗链原理

    http标准协议中有专门的字段记录referer
    一来可以追溯上一个入站地址是什么
    二来对于资源文件,可以跟踪到包含显示他的网页地址是什么
    因此所有防盗链方法都是基于这个Referer字段
     
    so:很多网站使用防盗链的方法来设置反爬虫机制,设置这种机制后通过图片路由直接访问会返回403错误,

    其实解决办法很简单,加入header,然后把Referer写入即可!

    headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36',
            'Referer': url
        }

    本文爬取https://www.mn52.com/网站上面的清纯美女图片,代码如下;

    # 需要的库
    import requests
    import re
    import os
    from multiprocessing import Pool
    # 主函数
    def get_img(url):
        # 设置图片存储路径
        path = './mn52/'
        if not os.path.exists(path):
            os.mkdir(path)
        # 请求头,因为图片路由有防盗链设置所以在headers中添加'Referer': url
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36',
            'Referer': url
        }
        try:
            # 请求主页面路由
            response = requests.get(url=url,headers=headers)
            # print(response.text)
            # 正则提取并遍历获取分页面
            res_paging = re.findall('<div class="picbox">.*?<a href="(.*?)"',response.text,re.S)
            for i in res_paging:
                # 拼接分页面路由
                url_infos = 'https://www.mn52.com' + i
                # 请求分页面路由
                res_details = requests.get(url=url_infos,headers=headers)
                # 遍历获取图片路由
                res_detail = re.findall('<div class="img-wrap">.*?<img .*?rel="(.*?)"/>',res_details.text,re.S)
                for i in res_detail:
                    # 拼接图片路由
                    img_urls = 'https:'+i
                    # 给图片命名
                    filename = i.split('/')[-1]
                    # 判断图片是否已下载
                    if os.path.exists(path+str(filename)):
                        print('图片已存在')
                    else:
                        # 请求图片连接
                        res = requests.get(url=img_urls,headers=headers)
                        # 保存图片
                        with open(path+str(filename),'wb') as f:
                            f.write(res.content)
                            # 打印下载信息
                            print('正在下载:'+img_urls)
        except Exception as e:
            print(e)
    # 程序入口
    if __name__ == '__main__':
        # 构造完整路由
        urls = ['https://www.mn52.com/meihuoxiezhen/list_2_{}.html'.format(i) for i in range(1,94)]
        # 开启多进程
        pool = Pool()
        # 启动程序
        pool.map(get_img,urls)
        print('抓取完成')

    图片比较多,需要一些时间下载,控制台显示的下载过程

    打开文件查看图片是否下载成功

     

    done

    哎...今天够累的,签到来了1...
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    QQ|手机版|小黑屋|Java自学者论坛 ( 声明:本站文章及资料整理自互联网,用于Java自学者交流学习使用,对资料版权不负任何法律责任,若有侵权请及时联系客服屏蔽删除 )

    GMT+8, 2024-12-22 11:28 , Processed in 0.057843 second(s), 30 queries .

    Powered by Discuz! X3.4

    Copyright © 2001-2021, Tencent Cloud.

    快速回复 返回顶部 返回列表