缺失值
1. 直接使用
有些模型支持缺失值,如决策树
2. 删除特征
如果某个特征大多数都是缺失值,那么可以删除这个特征
3. 补全
- 均值填充
缺点是填充的值都一样 - 众数填充
- 插值法填充
- 聚类,然后同类均值插补
- 建模预测
缺点是:如果缺失属性与其他属性无关,那么预测结果无意义。如果高度相关,那么可以删除特征。 - 高维映射
优点:最准确的做法,因为完全保留了信息,也不增加任何信息。
确实按:非常稀疏,因此样本量非常大才好。
做法类似One-hot Encode,前提是取值离散,缺失值也当做某类取值处理。
异常值
极端值指的是5 Sigma之外的值,离群值指的是3 Sigma之外的值
确认的方法
- 画box图检查
- 用5倍std检查
解决方法
- 盖帽法
把3sigma之外的数据定为sigma - 取ln
- 分类建模
把干扰变量变成分类变量(异常为1,不异常为0) - 离散化
例如做成 高、中、低,三种字段。 - 剔除
- 剔除整行
- 剔除整列
冗余值
drop_duplicates
模型反馈
- 数据清洗有没有问题
- 数据抽样有没有问题
- 数据理解有没有问题
- 主成分分析看一下
- 聚类看一下
- 模型选择有没有问题
- 参数调整有没有问题