EM算法

EM算法，即期望极大算法，是一种迭代算法，每一次迭代包含两步：

E步：求期望；
M步：求极大。

算法核心内容

输入：观测变量$Y$，隐变量$Z$，联合分布$P(Y,Z|\theta)$，条件分布$P(Z|Y,\theta)$；

输出：模型参数$\theta$。

算法步骤如下：

选择参数的初值$\theta^{(0)}$，开始迭代；
迭代，分为两步，即E步和M步，
1. E步：记$\theta^{(i)}$为第$i$次迭代参数$\theta$的估计值，则下一次迭代的E步，计算
  $Q\left(\theta,\theta^{(i)}\right) = \mathbb{E}_Z[\log P(Y,Z|\theta)|Y,\theta^{(i)}] = \sum_{Z} P(Z|Y,\theta^{(i)}) \log P(Y,Z|\theta)$
2. M步：计算最优参数
  $\theta^{(i+1)} = \arg\max_\theta Q\left(\theta,\theta^{(i)}\right)$
重复第2步，直至算法收敛。

具体实例

这个例子来自《统计学习方法》，只不过书中未给出$Q(\theta,\theta^{(i)})$函数具体的计算过程。

（三硬币模型）假设有3枚硬币，分别记作A，B，C，这些硬币正面出现的概率分别是$\pi,p,q$。下面，进行如下掷硬币试验：先掷硬币A，根据其结果选出硬币B或者C：正面则选硬币B，反面选硬币C；然后掷选出的硬币，将这次掷硬币的结果，出现正面记作1，出现反面记作0；独立地重复n次试验，问如何估计三硬币正面出现的概率，即$\pi,p,q$三个参数。具体地，n=10，每次掷硬币结果为

1,1,0,1,0,0,1,0,1,1

下面使用EM算法求解上述问题。

E步：计算期望

设$Y$为观测变量，即最终掷硬币的结果；$Z$为隐变量，即掷硬币A的结果；参数$\theta=(\pi,p,q)$.

则有

$\begin{aligned} Q(\theta,\theta^{(i)}) &= \sum_{Z} P(Z|Y,\theta^{(i)}) \log P(Y,Z|\theta) \\ &= \sum_Z\log P(Y,Z|\theta)^{P(Z|Y,\theta^{(i)})} \\ &= \sum_Z\log\prod_{j=1}^nP(y_j,Z|\theta)^{P(Z|y_j,\theta^{(i)})} \\ &= \sum_Z\sum_{j=1}^n\log P(y_j,Z|\theta)^{P(Z|y_j,\theta^{(i)})} \\ &= \sum_{j=1}^n\sum_ZP(Z|y_j,\theta^{(i)})\log P(y_j,Z|\theta) \\ &= \sum_{j=1}^n\left[P(Z=0|y_j,\theta^{(i)})\log P(y_j,Z=0|\theta) + P(Z=1|y_j,\theta^{(i)})\log P(y_j,Z=1|\theta)\right] \end{aligned}$

按理说，我们需要把上述$Q(\theta,\theta^{(i)})$的每一项计算出来，然后代入得到完整的表达式，才能进行接下来的M步；但是可以发现，在接下来的M步，即优化求解参数$\displaystyle\theta^{(i+1)} = \arg\max_\theta Q(\theta,\theta^{(i)})$中，我们只需要关注与$\theta$有关的项，其余的项便是常数项，可以忽略。因此，设

$P(Z=1|y_j,\theta^{(i)}) = \mu_j^{(i)}$

故

$P(Z=0|y_j,\theta^{(i)}) = 1 - \mu_j^{(i)}$

因此，有

$Q(\theta,\theta^{(i)}) = \sum_{j=1}^n\left[ (1-\mu_j^{(i)})\log P(y_j,Z=0|\theta) + \mu_j^{(i)}\log P(y_j,Z=1|\theta) \right]$

于是，只需计算关键的两项，即$\log P(y_j,Z=0|\theta)$和$\log P(y_j,Z=1|\theta)$.

这个概率很简单求得，只需列出分布律即可计算出来。

$Z$	0	1
$P$	$1-\pi$	$\pi$

$Y	Z=0$	0	1
$P$	$1-q$	$q$

$Y	Z=1$	0	1
$P$	$1-p$	$p$

而

$\begin{aligned} \log P(y_j,Z=z|\theta) &= \log \left[ (1-\pi)(1-q)^{1-y_j}q^{y_j} \right]^{1-z}\left[\pi (1-p)^{1-y_j}p^{y_j}\right]^z \\ &= (1-z)\left[ \log(1-\pi)+(1-y_j)\log(1-q)+y_j\log q \right] \\ &+ z\left[ \log \pi + (1-y_j)\log(1-p) + y_j\log p \right] \end{aligned}$

因此，求得

$\begin{aligned} Q(\theta,\theta^{(i)}) &= \sum_{j=1}^n\left[ \left(1-\mu_j^{(i)}\right) (\log(1-\pi)+(1-y_j)\log(1-q)+y_j\log q) + \mu_j^{(i)}(\log \pi + (1-y_j)\log(1-p) + y_j\log p) \right] \end{aligned}$

其中，

$\begin{aligned} \mu_j^{(i)} &= P(Z=1|y_j,\theta^{(i)}) \\ &= \frac{P(Z=1,y_j|\theta^{(i)})}{P(y_j|\theta^{(i)})} \\ &= \frac{\pi^{(i)}\left(1-p^{(i)}\right)^{1-y_j}\left( p^{(i)} \right)^{y_j}}{\pi^{(i)}\left( p^{(i)} \right)^{y_j}\left(1-p^{(i)}\right)^{1-y_j} + \left(1-\pi^{(i)}\right)\left( q^{(i)} \right)^{y_j}\left( 1-q^{(i)} \right)^{1-y_j}} \end{aligned}$

M步：计算极大

接下来，进行M步，即求解$\displaystyle \theta^{(i+1)} = \arg\max_\theta Q(\theta,\theta^{(i)})$.对各个参数求偏导：

$\begin{aligned} \frac{\partial Q(\theta,\theta^{(i)})}{\partial \pi} &= \sum_{j=1}^n\left[ \left( 1-\mu_j^{(i)} \right)\frac{1}{\pi-1} + \mu_j^{(i)}\frac{1}{\pi} \right] \\ &= \sum_{j=1}^n \frac{\pi - \mu_j^{(i)}}{\pi(\pi-1)} \end{aligned}$ $\begin{aligned} \frac{\partial Q(\theta,\theta^{(i)})}{\partial q} &= \sum_{j=1}^n\left[ \left( 1-\mu_j^{(i)} \right)(1-y_j)\frac{q}{q(q-1)} + \left( 1-\mu_j^{(i)} \right) y_j\frac{1}{q} \right] \\ &= \sum_{j=1}^n \frac{\left( 1-\mu_j^{(i)} \right)(q-y_j)}{q(q-1)} \end{aligned}$ $\begin{aligned} \frac{\partial Q(\theta,\theta^{(i)})}{\partial p} &= \sum_{j=1}^n\left[ \left( 1-\mu_j^{(i)} \right)(1-y_j)\frac{p}{p(p-1)} + \left( 1-\mu_j^{(i)} \right) y_j\frac{1}{p} \right] \\ &= \sum_{j=1}^n \frac{\left( 1-\mu_j^{(i)} \right)(p-y_j)}{p(p-1)} \end{aligned}$

分别令上式等于零，得到

$\begin{cases} \displaystyle \pi^{(i+1)} &= \displaystyle \frac{1}{n}\sum_{j=1}^n \mu_j^{(i)} \\ p^{(i+1)} &= \displaystyle \frac{\displaystyle\sum_{j=1}^n\mu_j^{(i)}y_j}{\displaystyle\sum_{j=1}^n\mu_j^{(i)}} \\ q^{(i+1)} &= \displaystyle \frac{\displaystyle\sum_{j=1}^n\left(1-\mu_j^{(i)}\right)y_j}{\displaystyle\sum_{j=1}^n\left(1-\mu_j^{(i)}\right)} \end{cases}$

代码实现

基于上述推导结果，下面编写Python代码实现EM算法的迭代计算。

import numpy as np
# 已知观测变量取值
Y = [1, 1, 0, 1, 0, 0, 1, 0, 1, 1]
Y_array = np.array(Y)
# 设置参数初值
pi, p, q = 0.4, 0.6, 0.7

定义计算$\mu_j^{(i)}$和对数似然$LL\left(\theta^{(i)}\right)$的函数：

def mu(pi, p, q, y):
    ''' 
        计算μ
    '''
    cb = pi*p**y*(1-p)**(1-y) # 来自硬币B的概率
    cc = (1-pi)*q**y*(1-q)**(1-y) # 来自硬币C的概率
    return cb / (cb + cc)

def LL(pi, p, q, Y):
    '''
        计算对数似然
    '''
    return sum([np.log(q**y*(1-q)**(1-y)*(1-pi)+p**y*(1-p)**(1-y)*pi) for y in Y])

开始运行EM算法：

iter_max = 10
LL_value = LL(pi, p, q, Y)
for iter in range(iter_max):
    mu_array = np.array([mu(pi, p, q, y) for y in Y])
    # 计算当前次迭代的更新参数
    pi_temp = mu_array.mean()
    p_temp = (mu_array * Y_array).sum() / mu_array.sum()
    q_temp = ((1- mu_array) * Y_array).sum() / (1 - mu_array).sum()
    # 计算新的对数似然
    LL_value_temp = LL(pi_temp, p_temp, q_temp, Y)
    print("[{}/{}] pi: {:.4f} -> {:.4f}, p: {:.4f} -> {:.4f}, q: {:.4f} -> {:.4f}, LL value: {:.4f} -> {:.4f}".format(iter+1, iter_max, pi, pi_temp, p, p_temp, q, q_temp, LL_value, LL_value_temp))
    pi, p, q, LL_value = pi_temp, p_temp, q_temp, LL_value_temp

运行结果如下。

[1/10] pi: 0.4000 -> 0.4064, p: 0.6000 -> 0.5368, q: 0.7000 -> 0.6432, LL value: -6.8083 -> -6.7301
[2/10] pi: 0.4064 -> 0.4064, p: 0.5368 -> 0.5368, q: 0.6432 -> 0.6432, LL value: -6.7301 -> -6.7301
[3/10] pi: 0.4064 -> 0.4064, p: 0.5368 -> 0.5368, q: 0.6432 -> 0.6432, LL value: -6.7301 -> -6.7301
[4/10] pi: 0.4064 -> 0.4064, p: 0.5368 -> 0.5368, q: 0.6432 -> 0.6432, LL value: -6.7301 -> -6.7301
[5/10] pi: 0.4064 -> 0.4064, p: 0.5368 -> 0.5368, q: 0.6432 -> 0.6432, LL value: -6.7301 -> -6.7301
[6/10] pi: 0.4064 -> 0.4064, p: 0.5368 -> 0.5368, q: 0.6432 -> 0.6432, LL value: -6.7301 -> -6.7301
[7/10] pi: 0.4064 -> 0.4064, p: 0.5368 -> 0.5368, q: 0.6432 -> 0.6432, LL value: -6.7301 -> -6.7301
[8/10] pi: 0.4064 -> 0.4064, p: 0.5368 -> 0.5368, q: 0.6432 -> 0.6432, LL value: -6.7301 -> -6.7301
[9/10] pi: 0.4064 -> 0.4064, p: 0.5368 -> 0.5368, q: 0.6432 -> 0.6432, LL value: -6.7301 -> -6.7301
[10/10] pi: 0.4064 -> 0.4064, p: 0.5368 -> 0.5368, q: 0.6432 -> 0.6432, LL value: -6.7301 -> -6.7301

可以发现，根据EM算法，待估计的参数$\pi,p,q$一步即收敛，收敛到$\pi^{(1)}=0.4064,p^{(1)}=0.5368,q^{(1)}=0.6432$.

算法的证明

我们的目标是要最大化对数似然函数（极大似然估计）

$LL(\theta) = \log P(Y|\theta)$

因为涉及隐变量$Z$，故对对数似然函数做如下变形

$LL(\theta) = \log \sum_Z P(Y,Z|\theta) = \log \sum_Z\left( P(Y|Z,\theta)\cdot P(Z|\theta) \right)$

接下来，我们来计算一下对数似然和当前迭代步参数下的似然间的差值：

$\begin{aligned} LL(\theta) - LL(\theta^{(i)}) &= \log \sum_Z\left( P(Y|Z,\theta)\cdot P(Z|\theta) \right) - \log P(Y|\theta^{(i)}) \\ \end{aligned}$

首先是一个小trick，引入因子$P(Z|Y,\theta^{(i)})$，它将成为整个证明过程的关键：

$\begin{aligned} LL(\theta) - LL(\theta^{(i)}) &= \log \sum_Z\left( P(Y|Z,\theta)\cdot P(Z|\theta) \right) - \log P(Y|\theta^{(i)}) \\ &= \log \sum_Z \left( P(Z|Y,\theta^{(i)})\cdot \frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^{(i)})} \right) - \log P(Y|\theta^{(i)}) \end{aligned}$

接下来，由琴生不等式，对上式进行放缩，得到：

$\begin{aligned} LL(\theta) - LL(\theta^{(i)}) &= \log \sum_Z \left( P(Z|Y,\theta^{(i)})\cdot \frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^{(i)})} \right) - \log P(Y|\theta^{(i)}) \\ & \geqslant \sum_Z P(Z|Y,\theta^{(i)})\log \frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^{(i)})} - \log P(Y|\theta^{(i)}) \\ \end{aligned}$

另外，注意到$\displaystyle \sum_Z P(Z|Y,\theta^{(i)})=1$，得：

$\begin{aligned} LL(\theta) - LL(\theta^{(i)}) & \geqslant \sum_Z P(Z|Y,\theta^{(i)})\log \frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^{(i)})} - \sum_Z P(Z|Y,\theta^{(i)}) \log P(Y|\theta^{(i)}) \\ &= \sum_Z P(Z|Y,\theta^{(i)}) \log \frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^{(i)})P(Y|\theta^{(i)})} \end{aligned}$

更明显地，记

$B(\theta,\theta^{(i)}) = LL(\theta^{(i)}) + \sum_Z P(Z|Y,\theta^{(i)}) \log \frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^{(i)})P(Y|\theta^{(i)})}$

因此，有

$LL(\theta) \geqslant B(\theta, \theta^{(i)})$

故$B(\theta, \theta^{(i)})$是对数似然函数$LL(\theta)$的一个下界。那么，如果我们每次迭代时，求出使得该下界$B(\theta, \theta^{(i)})$最大的参数$\theta^*$作为最新参数，那么对数似然函数$LL(\theta)$的下界就会随着迭代次数增加而不断增大，进而不断地提高对数似然$LL(\theta)$.那么我们求解

$\theta^{(i+1)} = \arg\max_\theta B(\theta,\theta^{(i)})$

接下来，我们只需要关注$B(\theta,\theta^{(i)})$中与参数$\theta$有关的部分，得到

$\begin{aligned} \theta^{(i+1)} &= \arg\max_\theta B(\theta,\theta^{(i)}) \\ &= \arg\max_\theta \sum_Z\left(P(Z|Y,\theta^{(i)})\log (P(Y|Z,\theta)\cdot P(Z|\theta)) \right) \\ &= \arg\max_\theta \sum_Z \left( P(Z|Y,\theta^{(i)})\log P(Y,Z|\theta) \right) \\ &= \arg\max_\theta Q\left(\theta, \theta^{(i)}\right) \end{aligned}$

证毕。

鹿卿

https://luqingbys.github.io/posts/d8df.html