特征工程-例子

http://tech.meituan.com/machinelearning-data-feature-process.html


* 综述

* 两个步骤

  • 数据清洗=>特征,
  • 标注数据生成=>模型学习=>模型应用

* 离线部分的工作(蓝色箭头)

  • 从原始数据,如文本、图像或者应用数据中清洗出特征数据和标注数据。
  • 对清洗出的特征和标注数据进行处理,例如样本采样,样本调权,异常点去除,特征归一化处理,特征变化,特征组合等过程。
  • 最终生成的数据主要是供模型训练使用。

* 在线部分(绿色箭头)

主要的区别在于:

  1. 不需要清洗标注数据,只需要处理得到特征数据,在线模型使用特征数据预测出样本可能的标签。

  2. 最终生成数据的用处,最终生成的数据主要用于模型的预测,而不是训练。

* 其他业务部分参考

http://tech.meituan.com/machinelearning-data-feature-process.html

results matching ""

    No results matching ""