PLSA(概率潜语义分析)

  • 通过添加主题的方式:解决:

    1. 一词多义:一个词被映射到多个主题
    2. 多次一义: 多个次被映射到某个主题

1. plsa的推导

  • D是文档;Z是主题;W是观察到的单词 *:单词出现在文档的概率
  • :文档出现主题的概率
  • :给定主题词出现单词的概率

=>

  • 每个主题在所有词项上服从多项分布;每个文档在多有主题上服从多项分布;

=>文档生成过程:

  • 的概率选中文档
  • 的概率选中主题
  • 的概率产生一个单词

=>观察到的数据是:,即(文档,单词);主题是隐含变量

  • 的联合分布是:

其中:,对应了两组多项分布,需要去估计参数;


2. PLSA使用EM算法估计参数

  • 需要去估计参数的分布是:

2.1 极大似然函数

  • 其中: :表示中出现的次数
  • i:文本个数;j:单词个数
  • K:主题的个数

=>

2.2 目标函数建模

  • 已知: 观测数据,主题是隐含变量

  • 目标函数:

  • 未知变量:;

2.3 求解策略

  • EM算法
  • E步:假设已知(初始化随机赋值) 求隐含变量的后验概率

  • M步:最大化对数似然函数的期望:

=>期望:

=>期望最大化


2.4 最大期望的求解

  • 求解Lagrange函数:

  • 求驻点

2.5 最终求解表达式

  • E-step:

  • M-step:


参考资料

http://blog.csdn.net/pipisorry/article/details/42560877

results matching ""

    No results matching ""