数据质量分析与预处理方法详解
该思维导图概述了数据处理与分析的流程,涵盖数据质量分析和数据预处理两大模块。数据质量分析包括缺失值、异常值、一致性、相关性、贡献度及统计量分析(集中趋势与离中趋势)等,并运用对比分析和分布分析方法进行深入研究。数据预处理则包含数据清洗(缺失值处理、噪声数据去除)、数据集成、数据规约(数量规约、数据压缩)以及数据转换(规范化、离散化、光滑、属性构造、聚集)等步骤,为后续数据建模奠定基础。
源码
# 数据质量分析与预处理方法详解
## 数据质量分析
### 缺失值
- 原因
- 信息无法获取
- 获取代价大
- 信息被遗漏
- 检查原始数据是否有脏数据
- 属性值不存在
- 影响
- 建模丢失大量有用信息
- 建模表现得不确定性增加
- 不可靠的输出
### 异常值
- 检测方法
- 3σ原则
- 箱型图分析
- 处理策略
- 删除
- 替换
### 一致性分析
- 矛盾性
- 不相容性
- 逻辑一致性
### 相关性分析
- 数据相关性类型
- 正线性相关
- 负线性相关
- 非线性相关
- 完全线性相关
- 相关性度量
- 皮尔逊相关系数
- 斯皮尔曼秩相关系数
### 贡献度分析
- 特征选择
- 特征重要性 ranking
### 统计量分析
- 离中趋势
- 极差
- 标准差
- 变异系数
- 集中趋势
- 众数
- 中位数
- 平均数
- 分位数分析
- 四分位数
- 百分位数
### 对比分析
- 绝对分析
- 相对分析
- 动态相对数
- 强度相对数
- 结构相对数
### 分布分析
- 定量分析
- 频率分布表
- 频率分布直方图
- 茎叶图
- 定性分析
- 饼图
- 条形图
## 数据预处理
### 数据清洗
- 缺失值处理
- 全局常量填充
- 属性中心度量填充
- 同类样本均值填充
- 分箱法或回归法填充
- 去除噪声数据
- 过滤法
- 检测方法
### 数据集成
- 元组重复
- 完全重复
- 部分重复
- 数据值冲突
- 冲突解决
### 数据规约
- 数量规约
- 抽样方法
- 数据立方体聚集
- 数据压缩
- 有损压缩
- 无损压缩
### 数据转换
- 规范化
- 最小-最大规范化
- Z-score标准化
- 离散化
- 光滑
- 分箱
- 回归
- 聚类
- 属性构造
- 新属性生成
- 特征工程
- 聚集
- 数据汇总
- 数据集成
图片
