数据清洗方法



2017年10月19日    Author:Guofei

文章归类: 0x13_特征工程    文章编号: 100

版权声明:本文作者是郭飞。转载随意,标明原文链接即可。本人邮箱
原文链接:https://www.guofei.site/2017/10/19/cleandata.html


缺失值

1. 直接使用

有些模型支持缺失值,如决策树

2. 删除特征

如果某个特征大多数都是缺失值,那么可以删除这个特征

3. 补全

  • 均值填充
    缺点是填充的值都一样
  • 众数填充
  • 插值法填充
  • 聚类,然后同类均值插补
  • 建模预测
    缺点是:如果缺失属性与其他属性无关,那么预测结果无意义。如果高度相关,那么可以删除特征。
  • 高维映射
    优点:最准确的做法,因为完全保留了信息,也不增加任何信息。
    确实按:非常稀疏,因此样本量非常大才好。
    做法类似One-hot Encode,前提是取值离散,缺失值也当做某类取值处理。

异常值

极端值指的是5 Sigma之外的值,离群值指的是3 Sigma之外的值

确认的方法

  • 画box图检查
  • 用5倍std检查

解决方法

  • 盖帽法
    把3sigma之外的数据定为sigma
  • 取ln
  • 分类建模
    把干扰变量变成分类变量(异常为1,不异常为0)
  • 离散化
    例如做成 高、中、低,三种字段。
  • 剔除
    • 剔除整行
    • 剔除整列

冗余值

drop_duplicates

模型反馈

  1. 数据清洗有没有问题
  2. 数据抽样有没有问题
  3. 数据理解有没有问题
    • 主成分分析看一下
    • 聚类看一下
  4. 模型选择有没有问题
  5. 参数调整有没有问题

您的支持将鼓励我继续创作!