指数族分布
指数族分布指的是可以写作如下形式的分布:
其中,
- 样本$\mathbf{x}\in \mathbb{R}^p$,参数$\pmb{\eta}\in \mathbb{R}^p$;
- $A(\pmb{\eta})$是一个关于$\pmb{\eta}$的函数,称为对数配分函数;
- $h(\mathbf{x})、\phi(\mathbf{x})$为关于$\mathbf{x}$的函数,且$\phi(\mathbf{x})$称为完全统计量。
简介
上式中还有一些不曾解释的组成部分,比如对数配分函数、完全统计量等等。
概率配分函数
所谓配分函数,可以简单理解为“归一化因子”。比如如下条件概率计算式
其中$Z$就是配分函数(归一化因子)。两边同时对$x$积分,得
于是有
回到指数族分布的基本形式
做如下变形
将“系数”$\displaystyle\frac{1}{\exp(A(\pmb{\eta}))}$看做$\displaystyle \frac{1}{Z}$,于是$A(\pmb{\eta}) = \log Z$,故称之为对数配分函数。
完全统计量
在概率论与数理统计中学过,统计量指的是样本的函数,比如均值、方差等等;而完全统计量的定义稍微有些复杂,通俗地说,可以通过这个“特殊的统计量”来观测到关于分布族的参数的所有独立信息。此处$\phi(\mathbf{x})$即为完全统计量。
高斯分布的指数族形式
这一部分,通过一个非常经典的分布——高斯分布,来感受一下指数族分布。接下来,我们考虑一个单变量的高斯分布,它的概率分布形式为
接下来我们对该概率函数进行变形,写成指数族分布形式。
于是有
此处,$\pmb{\eta}$是参数向量,不妨设
得到
代入得到高斯分布的指数族分布形式
其中
对数配分函数与完全统计量
接下来介绍一下完全统计量和对数配分函数之间的关系。为此,我们先回到指数族分布的一般形式
两边同时对$\mathbf{x}$求导,有
由$\displaystyle \int p(\mathbf{x}|\pmb{\eta})\mathrm{d}\mathbf{x}=1$,得
再同时对$\pmb{\eta}$求导,得
所以得到
上式实际上就是期望。所以得到最终的关系式
进一步地,对对数配分函数的一阶导数再次求导,有
注意上面的推导需要用到数学期望的定义和方差之间的关系。
综上所述,有
极大似然角度与充分统计量
极大似然估计基本上都有一套板子了。先记数据集合
下面计算最优参数$\pmb{\eta}_*$。
令
则
令上式等于零,得到
最大熵角度
信息熵
对于随机事件$x$,其发生的概率为$p(x)$,则该事件包含的信息量为
而接下来要讨论的信息熵,则是信息量的数学期望,即
下面以离散型随机变量为例,探究何时随机变量的信息熵最大。给出随机变量$X$的分布律
$X$ | $x_1$ | $x_2$ | $\cdots$ | $x_k$ |
---|---|---|---|---|
$p$ | $p_1$ | $p_2$ | $\cdots$ | $p_k$ |
求解如下优化问题
而通常我们求解最小化优化问题,故转化为如下优化问题
由拉格朗日乘子法,有
于是
令上式等于零,最终得到最优参数
显然,最优解$\hat{p}_i$是常数($i=1,2,\cdots,k$),故
故满足信息熵最大的分布为均匀分布。