最大熵模型求解


* 模型

* 原问题

* 将原问题改写为求解最小值

* 问题分析

  • 上述问题是等数约束的非线性优化问题
  • 直接使用lagrange乘子法,不好求解
  • 转换为无约束最优化的对偶问题

* 引入拉格朗日乘子

* 原问题 和对偶问题

  • 参看鞍点解释

* L(p,w)是凸函数,原始问题和对偶问题满足强对偶性,是等价的

* 对对偶问题求解

* 泛函求解:的偏导数

* 偏导数等于0,求解:


问题转换

* 使用最优化算法继续求解


对偶函数的最大化等价于最大熵模型的极大似然估计

  • 证明参看 P87

优化算法继续求解

  • LR和最大熵都可以归结为以似然函数为目标函数的优化问题

* 似然函数

* 改进的迭代尺度算法

  • 使用的较少

* 牛顿法:BFGS


最大熵模型碎碎念

最大熵模型与logistic回归

  • 最大熵模型和逻辑回归都是对数线性模型
  • 都采用MLE,或者正则化的MLE
  • 无约束优化问题:iis法,牛顿法,梯度下降法
  • 最大熵模型和Softmax具有相同的目标函数
  • 逻辑回归是两点分布的最大熵

* 碎碎念

  • 自然语言中,最大熵模型,是构造了特征函数,然后特征的发生和不发生就是一堆的伯努利事件,然后才和逻辑回归有了联系

    * 熵的意义

  • 熵是描述不确定性
  • 知识是不确定性的补集(不确定性小,模型准确)

    * 特征与熵

  • 加入一个特征,熵少一点
  • 特征越多,熵越小

最大熵和LR

https://www.cnblogs.com/luxiao/p/5783017.html

* 最大熵和LR关系

  • 简单粗暴 的回答是:逻辑回归跟最大熵模型没有本质区别。逻辑回归是最大熵对应类别为二类时的特殊情况,也就是当逻辑回归类别扩展到多类别时,就是最大熵模型。
  • 指数簇分布的最大熵等价于其指数形式的最大似然。
  • 二项式分布的最大熵解等价于二项式指数形式(sigmoid)的最大似然;
  • 多项式分布的最大熵等价于多项式分布指数形式(softmax)的最大似然。

results matching ""

    No results matching ""