特征工程-例子
http://tech.meituan.com/machinelearning-data-feature-process.html
* 综述
* 两个步骤
- 数据清洗=>特征,
- 标注数据生成=>模型学习=>模型应用
* 离线部分的工作(蓝色箭头)
- 从原始数据,如文本、图像或者应用数据中清洗出特征数据和标注数据。
- 对清洗出的特征和标注数据进行处理,例如样本采样,样本调权,异常点去除,特征归一化处理,特征变化,特征组合等过程。
- 最终生成的数据主要是供模型训练使用。
* 在线部分(绿色箭头)
主要的区别在于:
不需要清洗标注数据,只需要处理得到特征数据,在线模型使用特征数据预测出样本可能的标签。
最终生成数据的用处,最终生成的数据主要用于模型的预测,而不是训练。
* 其他业务部分参考
http://tech.meituan.com/machinelearning-data-feature-process.html