最大熵模型求解
* 模型
* 原问题
* 将原问题改写为求解最小值
* 问题分析
- 上述问题是等数约束的非线性优化问题
- 直接使用lagrange乘子法,不好求解
- 转换为无约束最优化的对偶问题
* 引入拉格朗日乘子
* 原问题 和对偶问题
- 参看鞍点解释
* L(p,w)是凸函数,原始问题和对偶问题满足强对偶性,是等价的
* 对对偶问题求解
* 泛函求解:对的偏导数
* 偏导数等于0,求解:
问题转换
* 使用最优化算法继续求解
对偶函数的最大化等价于最大熵模型的极大似然估计
- 证明参看 P87
优化算法继续求解
- LR和最大熵都可以归结为以似然函数为目标函数的优化问题
* 似然函数
* 改进的迭代尺度算法
- 使用的较少
* 牛顿法:BFGS
最大熵模型碎碎念
最大熵模型与logistic回归
- 最大熵模型和逻辑回归都是对数线性模型
- 都采用MLE,或者正则化的MLE
- 无约束优化问题:iis法,牛顿法,梯度下降法
- 最大熵模型和Softmax具有相同的目标函数
- 逻辑回归是两点分布的最大熵
* 碎碎念
- 自然语言中,最大熵模型,是构造了特征函数,然后特征的发生和不发生就是一堆的伯努利事件,然后才和逻辑回归有了联系
* 熵的意义
- 熵是描述不确定性
- 知识是不确定性的补集(不确定性小,模型准确)
* 特征与熵
- 加入一个特征,熵少一点
- 特征越多,熵越小
最大熵和LR
https://www.cnblogs.com/luxiao/p/5783017.html
* 最大熵和LR关系
- 简单粗暴 的回答是:逻辑回归跟最大熵模型没有本质区别。逻辑回归是最大熵对应类别为二类时的特殊情况,也就是当逻辑回归类别扩展到多类别时,就是最大熵模型。
- 指数簇分布的最大熵等价于其指数形式的最大似然。
- 二项式分布的最大熵解等价于二项式指数形式(sigmoid)的最大似然;
- 多项式分布的最大熵等价于多项式分布指数形式(softmax)的最大似然。