Java自学者论坛

 找回密码
 立即注册

手机号码,快捷登录

恭喜Java自学者论坛(https://www.javazxz.com)已经为数万Java学习者服务超过8年了!积累会员资料超过10000G+
成为本站VIP会员,下载本站10000G+会员资源,会员资料板块,购买链接:点击进入购买VIP会员

JAVA高级面试进阶训练营视频教程

Java架构师系统进阶VIP课程

分布式高可用全栈开发微服务教程Go语言视频零基础入门到精通Java架构师3期(课件+源码)
Java开发全终端实战租房项目视频教程SpringBoot2.X入门到高级使用教程大数据培训第六期全套视频教程深度学习(CNN RNN GAN)算法原理Java亿级流量电商系统视频教程
互联网架构师视频教程年薪50万Spark2.0从入门到精通年薪50万!人工智能学习路线教程年薪50万大数据入门到精通学习路线年薪50万机器学习入门到精通教程
仿小米商城类app和小程序视频教程深度学习数据分析基础到实战最新黑马javaEE2.1就业课程从 0到JVM实战高手教程MySQL入门到精通教程
查看: 783|回复: 0

pandas - 异常值处理

[复制链接]
  • TA的每日心情
    奋斗
    2024-11-24 15:47
  • 签到天数: 804 天

    [LV.10]以坛为家III

    2053

    主题

    2111

    帖子

    72万

    积分

    管理员

    Rank: 9Rank: 9Rank: 9

    积分
    726782
    发表于 2021-4-19 10:59:04 | 显示全部楼层 |阅读模式

        异常值概念:是指那些远离正常值的观测,即“不合群”观测。异常值的出现一般是人为的记录错误或者是设备的故障等,异常值的出现会对模型的创建和预测产生

    严重的后果。当然异常值也不一定是坏事,有些情况下,通过寻找异常值就能够给业务带来良好的发展,如销毁“钓鱼”网站,关闭“薅羊毛”用户的权限等。

     

    异常值的判定方法:

    1.n个标准差法

    2.箱线图法

    标准差法,就是用以样本均值+样本标准差为基准,如果样本离平均值相差2个标准差以上的就是异常值

    箱线图法:以上下四分位作为参考, x > Q3+nIQR 或者 x < Q1 - nIQR 简单地理解,就是如果样本值不在上下四分位+标准差范围内,就是异常值

     

    两种异常值判定是,如数据近似服从正态分布是,优先选择n个标准差法,因为数据的分布相对比较对称:否则优先选择箱线图法,因为分位数并不会受极端值的影响。

     

    异常数据处理方法:

    1.删除法(前提是异常观测的比例不能太大)

    2.替换法(可以考虑使用低于判别上下限的最大值或最小值,均值或中位数替换等)

    python处理异常值实例:

    原数据(部分):

     

     代码:

    import pandas as pd
    sunspots = pd.read_table(r'D:\sunspots.csv',sep = ',')
    xbar = sunspots.counts.mean()
    xstd = sunspots.counts.std()
    print('标准差法异常值上限检测:\n',any(sunspots.counts > xbar + 2 * xstd))
    print('标准差法异常值下限检测:\n',any(sunspots.counts < xbar - 2 * xstd))

    #异常值 箱线图法
    Q1 = sunspots.counts.quantile(q = 0.25)
    Q3 = sunspots.counts.quantile(q = 0.75)
    IQR = Q3 -Q1
    print('箱线图法异常值上限检测:\n',any(sunspots.counts > Q3 + 1.5*IQR))
    print('箱线图法异常值下限检测:\n',any(sunspots.counts < Q1 - 1.5*IQR))

    out:

     

     

    如上结果所示,不管是标准差检验法还是箱线图法,都发现太阳黑子数据中存在异常值,而且异常值都是超过上限临界值的。接下来,通过绘制太阳黑子数量的直方图和核密度曲线图,用于检测数据是否近似服从正态分布,进而选择一个最终的异常值判别方法:

    import matplotlib.pyplot as plt
    plt.style.use('ggplot')
    sunspots.counts.plot(kind='hist',bins = 30,density = True)
    sunspots.counts.plot(kind='kde')
    plt.show()

     

    如上图所示,不管是直方图还是核密度曲线,所呈现的数据分布形状都是有偏的,并且属于右偏。基于此,这里选择箱线图法来判定太阳黑子数据中的那些异常值。接下来要做的就是选用删除法或替换法来处理这些异常值,删除法就跟上篇我们讲过的一样处理方式,下面介绍一下替换法,即使用上限下限的最大最小值来替换,代码如下:(接异常值检测部分代码)

     

    print('异常值替换前的数据统计特征:\n',sunspots.counts.describe())
    UL = Q3 + 1.5 * IQR
    print('判别异常值的上限临界值:\n',UL)
    replace_vaule = sunspots.counts[sunspots.counts < UL].max()
    print('用以替换异常值的数据:\n',replace_vaule)

    sunspots.counts[sunspots.counts > UL] = replace_vaule
    print('异常值替换后的数据统计特征:\n',sunspots.counts.describe())

    out:

     

    经过判别异常值,得知,如果一年内太阳黑子超过 148.85时即为异常值年份,对于这些年份的异常值使用141.7替换。

     

    本篇知识导图:

         

     

     

    哎...今天够累的,签到来了1...
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    QQ|手机版|小黑屋|Java自学者论坛 ( 声明:本站文章及资料整理自互联网,用于Java自学者交流学习使用,对资料版权不负任何法律责任,若有侵权请及时联系客服屏蔽删除 )

    GMT+8, 2025-1-5 10:02 , Processed in 0.060964 second(s), 29 queries .

    Powered by Discuz! X3.4

    Copyright © 2001-2021, Tencent Cloud.

    快速回复 返回顶部 返回列表