LDA
1. 文本建模
- 每个文本存储为一篇文档,每篇文档从人的观察角度,是有序词的序列
- 文本建模的目的:观察到的语料库中的词序列是如何生产的
1.1 unigram-model
1.1.1 频率学派
- 设词典有V个词;
* 算法的数学表示
* 单文档
- 设骰子各面概率:;
- 每次抛骰子,类似于一次伯努利实现,只是伯努利抛出的是一个两面骰子,而此处是V面骰子;
- 对于一篇文档;该文档的生成概率:
* 多文档
- 文档与文档独立,则语料库中生成多篇文档的概率
- 设:对于m篇文档,词出现的次数是;
- 所有词出现的总次数是N
- 词库总共V个词
其中::每个词被选中的概率未知;
- 对数似然函数求最大=>
* 总结
- 词袋模型:Unigram-model中,假设了文档之间独立可交换,文档中的词也是独立可交换;一篇文档相当于一个袋子,里面是词,而词的顺序无关紧要
1.1.2 贝叶斯学派
贝叶斯:一切参数都是随机变量,以上模型中的骰子不是唯一固定,是随机变量
由先验分布得到参数的样本
- 有参数生成文档
* 算法
服从先验分布
最终数据产生的概率是对每个骰子上产生的数据概率进行累加求和:
- 选择先验分布是dirichlet分布:因为
其中:
是归一化因子
* 算法流程
- Dirichlet先验+多项分布数据-->后验分布为Dirichlet分布
根据后验概率,求解最大值点或者均值,得到参数;这里使用均值
因为的后验分布是
* 总结
是Dirichlet分布中的先验伪计数
上式的含义:每个参数的估计值是其对应事件的先验的伪计数和数据计数的和在整体计数中的比例
2. PLSA
一篇文章由多个主题构成,而每一个主题由和该主题相关的高频词够成
PLSA:Hoffman认为一篇文档可以有多个主题构成,每个主题都是词汇上的概率分布,文章的每个词都由固定的topic生成