特征工程
- 数据预处理
- 特征处理
- 特征选择
1. 特征

2. 数据预处理
2.1 数据清洗
- 去除异常值
- 不全省缺值
* 缺失值
- 例如:均值填充
2.2 数据采样
* 数据采样
- 随机采样
- 分层采样
* 正负样本不均匀

3 特征处理

3.2 类别型


3.3 时间型

4 文本类型
4.1 词袋模型
4.2 n-gram(2-gram)
4.3 Tf-idf
4.4 word2vec
5. 特征处理
5.1 组合特性
* 简单组合特征:拼接

* 模型特征组合
- GBDT+LR(facebook)
6. 特征选择


