Java自学者论坛

 找回密码
 立即注册

手机号码,快捷登录

恭喜Java自学者论坛(https://www.javazxz.com)已经为数万Java学习者服务超过8年了!积累会员资料超过10000G+
成为本站VIP会员,下载本站10000G+会员资源,会员资料板块,购买链接:点击进入购买VIP会员

JAVA高级面试进阶训练营视频教程

Java架构师系统进阶VIP课程

分布式高可用全栈开发微服务教程Go语言视频零基础入门到精通Java架构师3期(课件+源码)
Java开发全终端实战租房项目视频教程SpringBoot2.X入门到高级使用教程大数据培训第六期全套视频教程深度学习(CNN RNN GAN)算法原理Java亿级流量电商系统视频教程
互联网架构师视频教程年薪50万Spark2.0从入门到精通年薪50万!人工智能学习路线教程年薪50万大数据入门到精通学习路线年薪50万机器学习入门到精通教程
仿小米商城类app和小程序视频教程深度学习数据分析基础到实战最新黑马javaEE2.1就业课程从 0到JVM实战高手教程MySQL入门到精通教程
查看: 12817|回复: 0

在linux下python爬虫进程发生异常时自动重启直至正常结束的方法

[复制链接]
  • TA的每日心情
    奋斗
    2024-11-24 15:47
  • 签到天数: 804 天

    [LV.10]以坛为家III

    2053

    主题

    2111

    帖子

    72万

    积分

    管理员

    Rank: 9Rank: 9Rank: 9

    积分
    726782
    发表于 2021-4-13 14:50:31 | 显示全部楼层 |阅读模式

    之前在做爬虫的时候遇到一种情况,当网络情况不太好的时候,爬虫爬到的链接在urlopen时会因为无法正常连接而报URLError或者timeout的错误导致陈序报错而终止;但是这些错误在重新运行陈序后能够解决,因此为了避免重复手动重启程序的麻烦,就想写脚本来自动重启。

    思路很简单:
    1.首先脚本检测目标程序是否在运行。这里我们可以用pidof的返回值来判断。
    2.如果脚本检测到程序尚未运行或程序运行出错,重启程序。这里需要用到linux的$?变量,该变量能返回上一次命令的运行状态。其中0为运行正常,其他均为运行报错。
    3.如果程序正常运行结束,终止脚本

    例如我们要自动运行名为web_crawler.py的脚本,那么可以写如下shell脚本:

    #! /bin/bash
    pidof web_crawler.py # 检测程序是否运行
    while [ $? -ne 0 ]    # 判断程序上次运行是否正常结束
    do
        echo "Process exits with errors! Restarting!"
        python web_crawler.py    #重启程序
    done
    echo "Process ends!"
    

    PS1: 这只能处理网络状况不良引起连接出错的情况,通过重新尝试链接能够解决的。如果是遇到了由于网站被墙导致的链接错误,那么这个做法就很有问题了,因为无论你重复几次都无法打开链接。这种情况的解决方式要么是翻墙再运行爬虫,那么就是跳过被墙的链接——具体操作可以是用re匹配链接排除,也可以是用try在连接超时执行跳出操作。例如:

    try:
        res = urllib2.urlopen(rq, timeout=10) # use urllib2 package
    except urllib2.URLError, e:
        print "Timed out to connect to this URL"
        return None
    except socket.timeout: # use socket package
        print "Time out!"
        return None
    

    PS2:这里我们实际爬的是stanford cs224d上的链接然后下载内容,由于有些链接(pdf文件或者html网页)不包含文件后缀,保存的时候会比较麻烦。但是如果链接是网页的话那么res.headers.getheader('Content-Type') # urllib2或者rq = requests.get(url);r.headers['content-type'] # requests返回内容包含'text/html',利用这一点我们就可以识别出网页链接进行保存。

    参考:

    1. http://stackoverflow.com/questions/18883086/check-if-the-page-is-html-page-in-python
    2. http://stackoverflow.com/questions/20162678/linux-script-to-check-if-process-is-running-act-on-the-result
    3. http://stackoverflow.com/questions/90418/exit-shell-script-based-on-process-exit-code
    4. http://stackoverflow.com/questions/16778435/python-check-if-website-exists
    哎...今天够累的,签到来了1...
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    QQ|手机版|小黑屋|Java自学者论坛 ( 声明:本站文章及资料整理自互联网,用于Java自学者交流学习使用,对资料版权不负任何法律责任,若有侵权请及时联系客服屏蔽删除 )

    GMT+8, 2025-2-5 20:44 , Processed in 0.057553 second(s), 29 queries .

    Powered by Discuz! X3.4

    Copyright © 2001-2021, Tencent Cloud.

    快速回复 返回顶部 返回列表