逻辑回归工程化
1. 逻辑回归的特点
- LR以概率输出,可以做ranking model
- 解释性强
- 训练速度快
- 特征添加方便
2. 样本处理
2.1 大量样本
- 离散化后使用one-hot编码成0,1值
- 连续值,需要做scaling
- 采样:注意:采用需要分层采样等,不可以使用随机采用(随机采用破坏样本分布)
2.2 样本的平衡
- 下采用和上采用
- 修改loss function,给不同的权重
3. 特征的处理
- 离散化
- 组合特征引入个性化:uuid+tag;uuid+cluster_id...
- 特征的频度
- 聚类:聚类后作为特征使用
4. 模型调优
- 正则(L1,L2,L1+L2)-L2的准确度高,稳定性好
优化算法:
- 一般:liblinear(sklearn就是包装的liblinear库)
- 大样本:sag(随机梯度下降)
- 多分类:lbfgs;newton-CG;SAG的(one-vs-rest)
- L1正则的:owlqn,AMDD
liblinear
- sparkML