1. 信息熵

1.1 熵的定义

  • 单位是奈特

  • 熵是不确定性的量度

  • 均匀分布的熵最大

信息熵表示不确定事件所携带信息量的期望值

1.2 联合熵

  • 两个随机变量X,Y的联合分布,可以形成联合熵:

1.3 条件熵

  • : (X,Y)发生所包含的熵,减去Y单独发生包含的熵:在Y发生的前提下,X的熵

  • 条件熵的公式:


2. 相对熵

2.1 定义

  • 相对熵:互熵,交叉熵,KL散度

  • 设: 树X中取值的两个概率分布,则p对q的相对熵:

2.2 意义

  • 相对熵可以度量两个随机变量之间的“距离”

2.3 两个KL散度的区别

  • 已知:随机变量P,求相对简单的随机变量Q

使Q尽量接近P

  • 等高线:峰值代表梯度最大;下面代表梯度减小

2.3.1 最小化:的方法:(左图)

为了要P,Q的距离(分布的相似度)最小,则要求P为0的地方,Q尽量为0:(这是因为:KL(Q||P)中P为分母,Q为分子,P已知)

2.3.2 最小化:的方法:(右图)

为了要P,Q的距离最小,要求P不为0的地方,Q也尽量不为0;

2.4 KL不对称性的比较

  • 用简单分布Q(x)去逼近已知分布P(X)

2.5 多分布

3. 互信息

  • 两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布的乘积的相对熵


4. Venn图

results matching ""

    No results matching ""