逻辑回归工程化

1. 逻辑回归的特点

  • LR以概率输出,可以做ranking model
  • 解释性强
  • 训练速度快
  • 特征添加方便

2. 样本处理

2.1 大量样本

  • 离散化后使用one-hot编码成0,1值
  • 连续值,需要做scaling
  • 采样:注意:采用需要分层采样等,不可以使用随机采用(随机采用破坏样本分布)

2.2 样本的平衡

  • 下采用和上采用
  • 修改loss function,给不同的权重

3. 特征的处理

  • 离散化
  • 组合特征引入个性化:uuid+tag;uuid+cluster_id...
  • 特征的频度
  • 聚类:聚类后作为特征使用

4. 模型调优

  • 正则(L1,L2,L1+L2)-L2的准确度高,稳定性好
  • 优化算法:

    1. 一般:liblinear(sklearn就是包装的liblinear库)
    2. 大样本:sag(随机梯度下降)
    3. 多分类:lbfgs;newton-CG;SAG的(one-vs-rest)
    4. L1正则的:owlqn,AMDD
  • liblinear

  • sparkML

results matching ""

    No results matching ""