数据质量分析与预处理方法详解

该思维导图概述了数据处理与分析的流程,涵盖数据质量分析和数据预处理两大模块。数据质量分析包括缺失值、异常值、一致性、相关性、贡献度及统计量分析(集中趋势与离中趋势)等,并运用对比分析和分布分析方法进行深入研究。数据预处理则包含数据清洗(缺失值处理、噪声数据去除)、数据集成、数据规约(数量规约、数据压缩)以及数据转换(规范化、离散化、光滑、属性构造、聚集)等步骤,为后续数据建模奠定基础。

源码
# 数据质量分析与预处理方法详解
## 数据质量分析
### 缺失值
- 原因
  - 信息无法获取
  - 获取代价大
  - 信息被遗漏
  - 检查原始数据是否有脏数据
  - 属性值不存在
- 影响
  - 建模丢失大量有用信息
  - 建模表现得不确定性增加
  - 不可靠的输出
### 异常值
- 检测方法
  - 3σ原则
  - 箱型图分析
- 处理策略
  - 删除
  - 替换
### 一致性分析
- 矛盾性
- 不相容性
- 逻辑一致性
### 相关性分析
- 数据相关性类型
  - 正线性相关
  - 负线性相关
  - 非线性相关
  - 完全线性相关
- 相关性度量
  - 皮尔逊相关系数
  - 斯皮尔曼秩相关系数
### 贡献度分析
- 特征选择
- 特征重要性 ranking
### 统计量分析
- 离中趋势
  - 极差
  - 标准差
  - 变异系数
- 集中趋势
  - 众数
  - 中位数
  - 平均数
- 分位数分析
  - 四分位数
  - 百分位数
### 对比分析
- 绝对分析
- 相对分析
  - 动态相对数
  - 强度相对数
  - 结构相对数
### 分布分析
- 定量分析
  - 频率分布表
  - 频率分布直方图
  - 茎叶图
- 定性分析
  - 饼图
  - 条形图

## 数据预处理
### 数据清洗
- 缺失值处理
  - 全局常量填充
  - 属性中心度量填充
  - 同类样本均值填充
  - 分箱法或回归法填充
- 去除噪声数据
  - 过滤法
  - 检测方法
### 数据集成
- 元组重复
  - 完全重复
  - 部分重复
- 数据值冲突
  - 冲突解决
### 数据规约
- 数量规约
  - 抽样方法
  - 数据立方体聚集
- 数据压缩
  - 有损压缩
  - 无损压缩
### 数据转换
- 规范化
  - 最小-最大规范化
  - Z-score标准化
- 离散化
- 光滑
  - 分箱
  - 回归
  - 聚类
- 属性构造
  - 新属性生成
  - 特征工程
- 聚集
  - 数据汇总
  - 数据集成
图片
数据质量分析与预处理方法详解