1. 信息熵
1.1 熵的定义
单位是奈特
熵是不确定性的量度
均匀分布的熵最大
信息熵表示不确定事件所携带信息量的期望值
1.2 联合熵
两个随机变量X,Y的联合分布,可以形成联合熵:
1.3 条件熵
- : (X,Y)发生所包含的熵,减去Y单独发生包含的熵:在Y发生的前提下,X的熵
- 条件熵的公式:
2. 相对熵
2.1 定义
相对熵:互熵,交叉熵,KL散度
设: 树X中取值的两个概率分布,则p对q的相对熵:
2.2 意义
相对熵可以度量两个随机变量之间的“距离”
2.3 两个KL散度的区别
- 已知:随机变量P,求相对简单的随机变量Q
使Q尽量接近P
等高线:峰值代表梯度最大;下面代表梯度减小
2.3.1 最小化:的方法:(左图)
为了要P,Q的距离(分布的相似度)最小,则要求P为0的地方,Q尽量为0:(这是因为:KL(Q||P)中P为分母,Q为分子,P已知)
2.3.2 最小化:的方法:(右图)
为了要P,Q的距离最小,要求P不为0的地方,Q也尽量不为0;
2.4 KL不对称性的比较
- 用简单分布Q(x)去逼近已知分布P(X)
2.5 多分布
3. 互信息
- 两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布的乘积的相对熵