玩命加载中 . . .

指数族分布


指数族分布

指数族分布指的是可以写作如下形式的分布:

其中,

  • 样本$\mathbf{x}\in \mathbb{R}^p$,参数$\pmb{\eta}\in \mathbb{R}^p$;
  • $A(\pmb{\eta})$是一个关于$\pmb{\eta}$的函数,称为对数配分函数;
  • $h(\mathbf{x})、\phi(\mathbf{x})$为关于$\mathbf{x}$的函数,且$\phi(\mathbf{x})$称为完全统计量。

简介

上式中还有一些不曾解释的组成部分,比如对数配分函数、完全统计量等等。

概率配分函数

所谓配分函数,可以简单理解为“归一化因子”。比如如下条件概率计算式

其中$Z$就是配分函数(归一化因子)。两边同时对$x$积分,得

于是有

回到指数族分布的基本形式

做如下变形

将“系数”$\displaystyle\frac{1}{\exp(A(\pmb{\eta}))}$看做$\displaystyle \frac{1}{Z}$,于是$A(\pmb{\eta}) = \log Z$,故称之为对数配分函数。

完全统计量

在概率论与数理统计中学过,统计量指的是样本的函数,比如均值、方差等等;而完全统计量的定义稍微有些复杂,通俗地说,可以通过这个“特殊的统计量”来观测到关于分布族的参数的所有独立信息。此处$\phi(\mathbf{x})$即为完全统计量。

高斯分布的指数族形式

这一部分,通过一个非常经典的分布——高斯分布,来感受一下指数族分布。接下来,我们考虑一个单变量的高斯分布,它的概率分布形式为

接下来我们对该概率函数进行变形,写成指数族分布形式。

于是有

此处,$\pmb{\eta}$是参数向量,不妨设

得到

代入得到高斯分布的指数族分布形式

其中

对数配分函数与完全统计量

接下来介绍一下完全统计量和对数配分函数之间的关系。为此,我们先回到指数族分布的一般形式

两边同时对$\mathbf{x}$求导,有

由$\displaystyle \int p(\mathbf{x}|\pmb{\eta})\mathrm{d}\mathbf{x}=1$,得

再同时对$\pmb{\eta}$求导,得

所以得到

上式实际上就是期望。所以得到最终的关系式

进一步地,对对数配分函数的一阶导数再次求导,有

注意上面的推导需要用到数学期望的定义和方差之间的关系。

综上所述,有

极大似然角度与充分统计量

极大似然估计基本上都有一套板子了。先记数据集合

下面计算最优参数$\pmb{\eta}_*$。

令上式等于零,得到

最大熵角度

信息熵

对于随机事件$x$,其发生的概率为$p(x)$,则该事件包含的信息量为

而接下来要讨论的信息熵,则是信息量的数学期望,即

下面以离散型随机变量为例,探究何时随机变量的信息熵最大。给出随机变量$X$的分布律

$X$ $x_1$ $x_2$ $\cdots$ $x_k$
$p$ $p_1$ $p_2$ $\cdots$ $p_k$

求解如下优化问题

而通常我们求解最小化优化问题,故转化为如下优化问题

由拉格朗日乘子法,有

于是

令上式等于零,最终得到最优参数

显然,最优解$\hat{p}_i$是常数($i=1,2,\cdots,k$),故

故满足信息熵最大的分布为均匀分布。


文章作者: 鹿卿
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 鹿卿 !
评论
  目录