指数族分布

指数族分布指的是可以写作如下形式的分布：

$p(\mathbf{x}|\pmb{\eta}) = h(\mathbf{x})\exp(\pmb{\eta}^T\phi(\mathbf{x})-A(\pmb{\eta}))$

其中，

样本$\mathbf{x}\in \mathbb{R}^p$，参数$\pmb{\eta}\in \mathbb{R}^p$；
$A(\pmb{\eta})$是一个关于$\pmb{\eta}$的函数，称为对数配分函数；
$h(\mathbf{x})、\phi(\mathbf{x})$为关于$\mathbf{x}$的函数，且$\phi(\mathbf{x})$称为完全统计量。

简介

上式中还有一些不曾解释的组成部分，比如对数配分函数、完全统计量等等。

概率配分函数

所谓配分函数，可以简单理解为“归一化因子”。比如如下条件概率计算式

$p(x|\theta) = \frac{1}{Z}\hat{p}(x|\theta)$

其中$Z$就是配分函数（归一化因子）。两边同时对$x$积分，得

$\int p(x|\theta)dx = \int \frac{1}{Z}\hat{p}(x|\theta)dx$

于是有

$Z=\int \hat{p}(x|\theta)dx$

回到指数族分布的基本形式

$p(\mathbf{x}|\pmb{\eta}) = h(\mathbf{x})\exp(\pmb{\eta}^T\phi(\mathbf{x})-A(\pmb{\eta}))$

做如下变形

$p(\mathbf{x}|\pmb{\eta}) = \frac{h(\mathbf{x})}{\exp(A(\pmb{\eta}))} \exp(\pmb{\eta}^T\phi(\mathbf{x}))$

将“系数”$\displaystyle\frac{1}{\exp(A(\pmb{\eta}))}$看做$\displaystyle \frac{1}{Z}$，于是$A(\pmb{\eta}) = \log Z$，故称之为对数配分函数。

完全统计量

在概率论与数理统计中学过，统计量指的是样本的函数，比如均值、方差等等；而完全统计量的定义稍微有些复杂，通俗地说，可以通过这个“特殊的统计量”来观测到关于分布族的参数的所有独立信息。此处$\phi(\mathbf{x})$即为完全统计量。

高斯分布的指数族形式

这一部分，通过一个非常经典的分布——高斯分布，来感受一下指数族分布。接下来，我们考虑一个单变量的高斯分布，它的概率分布形式为

$\mathcal{N}(x;\mu,\sigma) = \frac{1}{\sqrt{2\pi}\sigma}\exp\left( -\frac{(x-\mu)^2}{2\sigma^2} \right)$

接下来我们对该概率函数进行变形，写成指数族分布形式。

$\begin{aligned} \mathcal{N}(x;\mu,\sigma) &= \frac{1}{\sqrt{2\pi \sigma^2}}\exp\left( -\frac{1}{2\sigma^2}(x^2-2\mu x+\mu^2) \right) \\ &= \exp\left( \log(2\pi \sigma^2)^{-\frac{1}{2}} - \frac{1}{2\sigma^2}(x^2-2\mu x)-\frac{\mu^2}{2\sigma^2} \right) \\ &= \exp\left( \begin{bmatrix} \displaystyle \frac{\mu}{\sigma^2} & \displaystyle -\frac{1}{2\sigma^2} \end{bmatrix} \begin{bmatrix} x \\ x^2 \end{bmatrix} - \left( \frac{\mu^2}{2\sigma^2} + \frac{1}{2}\log2\pi \sigma^2 \right) \right) \end{aligned}$

于是有

$\begin{cases} \pmb{\eta}^T = \begin{bmatrix} \displaystyle \frac{\mu}{\sigma^2} & \displaystyle -\frac{1}{2\sigma^2} \end{bmatrix} \\ \phi(\mathbf{x}) = \begin{bmatrix} x \\ x^2 \end{bmatrix} \\ A(\pmb{\eta}) = \displaystyle \frac{\mu^2}{2\sigma^2} + \frac{1}{2}\log2\pi \sigma^2 \end{cases}$

此处，$\pmb{\eta}$是参数向量，不妨设

$\begin{cases} \eta_1 = \displaystyle \frac{\mu}{\sigma^2} \\ \eta_2 = \displaystyle -\frac{1}{2\sigma^2} \end{cases}$

得到

$\begin{cases} \mu = \displaystyle -\frac{\eta_1}{2\eta_2} \\ \sigma^2 = \displaystyle -\frac{1}{2\eta_2} \end{cases}$

代入得到高斯分布的指数族分布形式

$\mathcal{N}(x;\mu,\sigma) = \exp\left( \begin{bmatrix} \eta_1 & \eta_2 \end{bmatrix} · \begin{bmatrix} x \\x^2 \end{bmatrix} - \left( -\frac{\eta_1^2}{4\eta_2} - \frac{1}{2}\log\frac{\pi}{\eta_2} \right) \right)$

其中

$\begin{cases} \pmb{\eta}^T = \begin{bmatrix} \displaystyle \eta_1 & \eta_2 \end{bmatrix} \\ \phi(\mathbf{x}) = \begin{bmatrix} x \\ x^2 \end{bmatrix} \\ A(\pmb{\eta}) = \displaystyle -\frac{\eta_1^2}{4\eta_2} - \frac{1}{2}\log\frac{\pi}{\eta_2} \end{cases}$

对数配分函数与完全统计量

接下来介绍一下完全统计量和对数配分函数之间的关系。为此，我们先回到指数族分布的一般形式

$p(\mathbf{x}|\pmb{\eta}) = h(\mathbf{x})\exp(\pmb{\eta}^T\phi(\mathbf{x})-A(\pmb{\eta}))$

两边同时对$\mathbf{x}$求导，有

$\int p(\mathbf{x}|\pmb{\eta})\mathrm{d}\mathbf{x} = \int \frac{h(\mathbf{x})\exp(\pmb{\eta}^T\phi(\mathbf{x}))}{\exp A(\pmb{\eta})}\mathrm{d}\mathbf{x}$

由$\displaystyle \int p(\mathbf{x}|\pmb{\eta})\mathrm{d}\mathbf{x}=1$，得

$\exp A(\pmb{\eta}) = \int h(\mathbf{x})\exp(\pmb{\eta}^T\phi(\mathbf{x}))\mathrm{d}\mathbf{x}$

再同时对$\pmb{\eta}$求导，得

$\exp A(\pmb{\eta})·\frac{\mathrm{d}A(\pmb{\eta})}{\mathrm{d}\pmb{\eta}} = \int h(\mathbf{x})\exp(\pmb{\eta}^T\phi(\mathbf{x}))\phi(\mathbf{x})\mathrm{d}\mathbf{x}$

所以得到

$\begin{aligned} \frac{\mathrm{d}A(\pmb{\eta})}{\mathrm{d}\pmb{\eta}} &= \int h(\mathbf{x})\exp(\pmb{\eta}^T\phi(\mathbf{x})-A(\pmb{\eta}))\phi(\mathbf{x})\mathrm{d}\mathbf{x} \\ &= \int p(\mathbf{x}|\pmb{\eta})\phi(\mathbf{x})\mathrm{d}\mathbf{x} \\ \end{aligned}$

上式实际上就是期望。所以得到最终的关系式

$\frac{\mathrm{d}A(\pmb{\eta})}{\mathrm{d}\pmb{\eta}} = \mathbb{E}_{p(\mathbf{x}|\pmb{\eta})}[\phi(\mathbf{x})]$

进一步地，对对数配分函数的一阶导数再次求导，有

$\begin{aligned} \frac{\mathrm{d}^2 A(\pmb{\eta})}{\mathrm{d}\pmb{\eta}^2} &= \frac{\mathrm{d}}{\mathrm{d}\pmb{\eta}}\left( \frac{\mathrm{d}A(\pmb{\eta})}{\mathrm{d}\pmb{\eta}} \right) \\ &= \int h(\mathbf{x})\exp(\pmb{\eta}^T\phi(\mathbf{x})-A(\pmb{\eta}))\left(\phi(\mathbf{x})-\frac{\mathrm{d}A(\pmb{\eta})}{\mathrm{d}\pmb{\eta}}\right)\phi(\mathbf{x})\mathrm{d}\mathbf{x} \\ &= \int p(\mathbf{x}|\pmb{\eta})\left( \phi(\mathbf{x})-\mathbb{E}_{p(\mathbf{x}|\pmb{\eta})}[\phi(\mathbf{x})] \right) \phi(\mathbf{x})\mathrm{d}\mathbf{x} \\ &= \int p(\mathbf{x}|\pmb{\eta})\phi^2(\mathbf{x})\mathrm{d}\mathbf{x} - \mathbb{E}_{p(\mathbf{x}|\pmb{\eta})}[\phi(\mathbf{x})] · \int p(\mathbf{x}|\pmb{\eta})\phi(\mathbf{x})\mathrm{d}\mathbf{x} \\ &= \mathbb{E}_{p(\mathbf{x}|\pmb{\eta})}[\phi^2(\mathbf{x})] - \mathbb{E}_{p(\mathbf{x}|\pmb{\eta})}^2[\phi(\mathbf{x})] \\ &= \mathbf{Var}[\phi(\mathbf{x})] \end{aligned}$

注意上面的推导需要用到数学期望的定义和方差之间的关系。

综上所述，有

$\begin{cases} \displaystyle \frac{\mathrm{d}A(\pmb{\eta})}{\mathrm{d}\pmb{\eta}} &= \mathbb{E}_{p(\mathbf{x}|\pmb{\eta})}[\phi(\mathbf{x})] \\ \displaystyle \frac{\mathrm{d}^2A(\pmb{\eta})}{\mathrm{d}\pmb{\eta}^2} &= \mathbf{Var}[\phi(\mathbf{x})] \end{cases}$

极大似然角度与充分统计量

极大似然估计基本上都有一套板子了。先记数据集合

$\mathcal{D} = \{ \mathbf{x}^{(1)}, \mathbf{x}^{(2)}, \cdots, \mathbf{x}^{(N)} \}$

下面计算最优参数$\pmb{\eta}_*$。

$\begin{aligned} \pmb{\eta}_* &= \arg\max_{\pmb{\eta}}\log p(\mathcal{D}|\pmb{\eta}) \\ &= \arg\max_{\pmb{\eta}} \log \prod_{i=1}^N p(\mathbf{x}^{(i)}|\pmb{\eta}) \\ &= \arg\max_{\pmb{\eta}} \sum_{i=1}^N\log p(\mathbf{x}^{(i)}|\pmb{\eta}) \\ &= \arg\max_{\pmb{\eta}}\sum_{i=1}^N \log \left(h(\mathbf{x}^{(i)})\exp\left( \pmb{\eta}^T\phi(\mathbf{x}^{(i)})-A(\pmb{\eta}) \right)\right) \\ &= \arg\max_{\pmb{\eta}}\sum_{i=1}^N \left( \log h(\mathbf{x}^{(i)}) + \pmb{\eta}^T\phi(\mathbf{x}^{(i)})-A(\pmb{\eta}) \right) \end{aligned}$

令

$S = \sum_{i=1}^N \left( \log h(\mathbf{x}^{(i)}) + \pmb{\eta}^T\phi(\mathbf{x}^{(i)})-A(\pmb{\eta}) \right)$

则

$\begin{aligned} \frac{\mathrm{d}S}{\mathrm{d}\pmb{\eta}} &= \sum_{i=1}^N\left( \phi(\mathbf{x}^{(i)})-\frac{\mathrm{d}A(\pmb{\eta})}{\mathrm{d}\pmb{\eta}} \right) \\ &= \sum_{i=1}^N \phi(\mathbf{x}^{(i)}) - N\frac{\mathrm{d}A(\pmb{\eta})}{\mathrm{d}\pmb{\eta}} \end{aligned}$

令上式等于零，得到

$\frac{\mathrm{d}A(\pmb{\eta})}{\mathrm{d}\pmb{\eta}} = \frac{1}{N}\sum_{i=1}^N\phi(\mathbf{x}^{(i)})$

最大熵角度

信息熵

对于随机事件$x$，其发生的概率为$p(x)$，则该事件包含的信息量为

$I(x) = -\log p(x)$

而接下来要讨论的信息熵，则是信息量的数学期望，即

$H(X) = \mathbb{E}_{p(x)}[I(x)] = -\sum_i p(x_i)\log p(x_i)$

下面以离散型随机变量为例，探究何时随机变量的信息熵最大。给出随机变量$X$的分布律

$X$	$x_1$	$x_2$	$\cdots$	$x_k$
$p$	$p_1$	$p_2$	$\cdots$	$p_k$

求解如下优化问题

$\begin{cases} \max H(X) \\ s.t. \displaystyle \sum_{i=1}^k p_i = 1 \end{cases}$

而通常我们求解最小化优化问题，故转化为如下优化问题

$\begin{cases} \min \displaystyle \sum_{i=1}^k p_i\log p_i \\ s.t. \displaystyle \sum_{i=1}^k p_i = 1 \end{cases}$

由拉格朗日乘子法，有

$\mathcal{L}(\mathbf{p},\lambda) = \sum_{i=1}^k p_i\log p_i + \lambda\left(1-\sum_{i=1}^kp_i\right)$

于是

$\frac{\mathrm{d}\mathcal{L}}{\mathrm{d}p_i} = \log p_i + 1 - \lambda$

令上式等于零，最终得到最优参数

$\hat{p}_i = \exp(\lambda-1)$

显然，最优解$\hat{p}_i$是常数（$i=1,2,\cdots,k$），故

$\hat{p}_1 = \hat{p}_2 = \cdots = \hat{p}_k = \frac{1}{k}$

故满足信息熵最大的分布为均匀分布。

鹿卿

https://luqingbys.github.io/posts/bd57.html

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源鹿卿 !

算法

EM算法

2024-06-16 机器学习

算法

计算机组成原理考点总结

2024-03-12 计算机组成原理

大学课程

指数族分布

指数族分布

简介

概率配分函数

完全统计量

高斯分布的指数族形式

对数配分函数与完全统计量

极大似然角度与充分统计量

最大熵角度

信息熵

你的赏识是我前进的动力