特征工程:数据预处理、构建、选择与应用场景分析
该思维导图概述了特征工程的关键步骤,包括数据预处理(如缺失值和异常值处理)、特征构建(如特征交叉和时间序列特征)、特征选择(过滤法、包装法和嵌入法)、特征转换(维度约减及非线性转换)、领域知识应用和评估验证。此外,还介绍了相关工具库及核要点,强调特征工程在房价预测、客户分群、信用评分和推荐系统等多种应用场景中的重要性。
源码
# 特征工程
## 数据预处理
### 缺失值处理
- 删除缺失样本
- 删除缺失特征
- 填补方法
- 均值填补
- 中位数填补
- 众数填补
- 预测模型填补
### 异常值处理
- Z_Score方法
- 定义
- 适用场景
- 箱线图法
- 主要步骤
- 识别异常值
### 数据标准化
- Min_Max标准化
- 适用场景
- Z_Score标准化
- 适用场景
### 数据编码
- One_Hot编码
- 优缺点
- 标签编码
- 实用性
- 频次编码
- 特点
## 特征构建
### 特征交叉
- 交叉特征示例
### 多项式特征
- 周期性特征
### 时间序列特征
- 滑动窗口统计
- 移动平均
- 时间差计算
- 日期差值
### 文本特征
- TF_IDF
- 计算方法
- 词嵌入
- Word2Vec
- GloVe
## 特征选择
### 过滤法
- 方差选择法
- 卡方检验
- 互信息法
### 包装法
- 递归特征消除
- 前向选择
- 后向选择
### 嵌入法
- L1正则化
- 树模型特征重要性
## 特征转换
### 维度约减
- PCA
- 原理及应用
- LDA
- 应用场景
### 特征分解
- 矩阵分解
- 因子分析
### 非线性转换
- 核方法
- 自编码器
## 领域知识应用
### 业务指标构建
### 物理公式推导
### 行业特定特征
- 具体案例
## 评估与验证
### 模型性能对比
### 特征重要性分析
- 可视化方法
### A/B测试验证
- 设计原则
## 工具与库
### Pandas
- 常用操作
### Scikit_learn
- 重要模块
### Feature_engine
### Featuretools
### 特征存储系统
## 核要点解析
- 数据清洗优先级
- 特征交互的作用
- 自动化趋势
- 可解释性与性能的权衡
- 动态特征工程
## 应用场景
### 房价预测
- 特征示例
- '楼层 × 单价 → 总价指数'
### 客户分群
- 分群方法
### 信用评分
- 特征选择
### 推荐系统
- 特征示例
- '用户历史点击 + 物品特征 → 协同过滤特征'
图片
