1. 信息熵
1.1 熵的定义
- 单位是奈特 
- 熵是不确定性的量度 
- 均匀分布的熵最大 
信息熵表示不确定事件所携带信息量的期望值
1.2 联合熵
- 两个随机变量X,Y的联合分布,可以形成联合熵: 
1.3 条件熵
- : (X,Y)发生所包含的熵,减去Y单独发生包含的熵:在Y发生的前提下,X的熵
- 条件熵的公式:
2. 相对熵
2.1 定义
- 相对熵:互熵,交叉熵,KL散度 
- 设: 树X中取值的两个概率分布,则p对q的相对熵: 
2.2 意义
- 相对熵可以度量两个随机变量之间的“距离” 
2.3 两个KL散度的区别
- 已知:随机变量P,求相对简单的随机变量Q
使Q尽量接近P
- 等高线:峰值代表梯度最大;下面代表梯度减小 
2.3.1 最小化:的方法:(左图)
为了要P,Q的距离(分布的相似度)最小,则要求P为0的地方,Q尽量为0:(这是因为:KL(Q||P)中P为分母,Q为分子,P已知)
2.3.2 最小化:的方法:(右图)
为了要P,Q的距离最小,要求P不为0的地方,Q也尽量不为0;
2.4 KL不对称性的比较

- 用简单分布Q(x)去逼近已知分布P(X)
2.5 多分布

3. 互信息
- 两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布的乘积的相对熵
4. Venn图
