特征工程

  • 数据预处理
  • 特征处理
  • 特征选择

1. 特征


2. 数据预处理

2.1 数据清洗

  • 去除异常值
  • 不全省缺值

* 缺失值

  • 例如:均值填充

2.2 数据采样

* 数据采样

  • 随机采样
  • 分层采样

* 正负样本不均匀


3 特征处理

3.2 类别型


3.3 时间型


4 文本类型

4.1 词袋模型

4.2 n-gram(2-gram)

4.3 Tf-idf

4.4 word2vec


5. 特征处理

5.1 组合特性

* 简单组合特征:拼接

* 模型特征组合

  • GBDT+LR(facebook)

6. 特征选择

results matching ""

    No results matching ""