正则化
线性回归模型
- OLS: 常规最小二乘(低纬使用,例如n=50,5个变量)
- Ridge 回归:岭回归:L2正则
- Lasso 回归:套索回归:L1正则
- ElasticNet回归:L1+L2正则
1. 岭回归
1.1 可以避免过拟合,但是无法做特征的选择
1.2 针对多重共线性提出
- OLS的解析解是:
=>当有多重共线性时,
=>特征多于样本点,也会产生,
- 需要添加扰动
=> 等价
1.3 优化算法
- L2正则的可求导的凸函数
- Batch
- SGD
2. LASSO
2.1 同样可以添加L1正则:
- lasso可以避免期望奇异
- 同事lasso具有特征选择的能力
2.2 lasso 和 ridge
- L2是对误差的高斯先验
L1是对误差的laplace先验
从贝叶斯的角度,相当于给参数的设定添加了先验,由确定
3. lasso的求解
- L1正则的导数是连续不光滑的,没有办法直接使用梯度,只可以使用次梯度
求解算法:
坐标下降的方法(最基础)
- LARS
- shooting
- SCAD
- adaptive lasso
- ADMM
4. Elastic Net
- 多用于多个相关的特征;lasso随机挑选一个,而ElasticNet则会随机的挑选两个
5. group lasso
6. 超参数的确定
* 交叉验证的方法确定最优的超参数
lasso
1. lasso基础
http://blog.csdn.net/godenlove007/article/details/11387977 http://blog.csdn.net/l8264367/article/details/50575126 http://www.doc88.com/p-2979592541383.html
1.1 lasso的历史
- lasso由1996年提出:目的就是选择合适的变量
- Tibshirani的lasso问题:
=>lasso是一个非线性,不可微分的优化问题
2. lasso的求解
- 坐标下降
- LARS
- shooting
- proximal and projected gradinet method(大规模问题)
- ADMM
2.1 坐标下降法
- 参考最优化化算法中的内容
2.2 LARS
3. lasso的变形
- group lasso
- SCAD
- adaptive lasso
- Elastic Net
4. lasso应用于逻辑回归
正则项参数:交叉验证方法
留一法交叉验证:假设有N个样本,将每一个样本作为测试样本,其它N-1个样本作为训练样本。这样得到N个分类器,N个测试结果。用这N个结果的平均值来衡量模型的性能。
Ridge直接交叉验证选择一个最优的
碎碎念
1.lasso回归
1.1.1 lasso
- 基础是使用:坐标下降的算法
1.1.2 Elastic net
- L1的优点+L2的稳定性(强凸函数)