特征工程
- 数据预处理
- 特征处理
- 特征选择
1. 特征
2. 数据预处理
2.1 数据清洗
- 去除异常值
- 不全省缺值
* 缺失值
- 例如:均值填充
2.2 数据采样
* 数据采样
- 随机采样
- 分层采样
* 正负样本不均匀
3 特征处理
3.2 类别型
3.3 时间型
4 文本类型
4.1 词袋模型
4.2 n-gram(2-gram)
4.3 Tf-idf
4.4 word2vec
5. 特征处理
5.1 组合特性
* 简单组合特征:拼接
* 模型特征组合
- GBDT+LR(facebook)