当前位置：首页 > ds >正文

深入剖析EM算法：原理、推导与应用

ds 2025/7/6 13:26:08

内容摘要

本文详细介绍了最大期望算法（EM算法）。阐述其作为迭代进行极大似然估计的优化算法，在处理包含隐变量或缺失数据的概率模型参数估计中的应用。深入探讨EM算法的基本思想、推导过程、求解步骤及算法流程，助力读者理解并运用该算法解决实际问题。

关键词：EM算法；最大期望算法；极大似然估计；隐变量；参数估计

一、引言

在机器学习和统计学领域，处理包含隐变量或缺失数据的概率模型时，参数估计往往面临诸多挑战。最大期望算法（Expectation - Maximization Algorithm，EM算法）作为一种强大的迭代优化算法，为这类问题提供了有效的解决方案。EM算法通过迭代的方式进行极大似然估计，能够在复杂模型中高效地估计参数，在数据挖掘、机器学习、计算机视觉等众多领域有着广泛的应用。本文将深入剖析EM算法的原理、推导过程、算法流程以及实际应用，帮助读者全面掌握这一重要算法。

二、EM算法的基本思想

EM算法的基本思想基于两个步骤的交替计算，通过不断迭代来逐步逼近最优的参数估计值。

计算期望（E步）：利用对隐藏变量的现有估计值，计算其极大似然估计值。在这一步中，根据当前模型参数的估计值，计算隐藏变量的后验概率分布，进而得到隐藏变量的期望。可以理解为在已知当前模型参数的情况下，对隐藏变量的可能取值进行合理推测和加权平均。
最大化（M步）：最大化在E步上求得的极大似然值来计算参数的值。通过对期望似然函数进行最大化操作，更新模型的参数。这一步的目的是找到一组新的参数，使得模型在给定数据下的似然函数值更大，从而提高模型对数据的拟合程度。

M步上找到的参数估计值会被用于下一个E步计算中，这个过程不断交替进行，直到模型收敛，即参数估计值不再发生显著变化，或者似然函数值不再显著增加。

三、EM算法推导

对于 $m$ 个样本观察数据 $x^{(1)},x^{(2)},\cdots,x^{(m)}$ ，假设样本的模型参数为 $\theta$ ，其极大化模型分布的对数似然函数为： $\theta = \underset{\theta}{\arg\max}\sum_{i = 1}^{m}\log P(x^{(i)};\theta)$

当得到的观察数据存在未观察到的隐含数据 $z^{(1)},z^{(2)},\cdots,z^{(m)}$ 时，极大化模型分布的对数似然函数变为： $\theta = \underset{\theta}{\arg\max}\sum_{i = 1}^{m}\log P(x^{(i)};\theta)=\underset{\theta}{\arg\max}\sum_{i = 1}^{m}\log\sum_{z^{(i)}}Q_{i}(z^{(i)})\frac{P(x^{(i)},z^{(i)};\theta)}{Q_{i}(z^{(i)})}$

由于上式不能直接求出 $\theta$ ，所以采用缩放技巧。根据Jensen不等式： $\log\sum_{j}\lambda_{j}y_{j}\geq\sum_{j}\lambda_{j}\log y_{j}$ ，其中 $\lambda_{j}\geq0$ 且 $\sum_{j}\lambda_{j}=1$

引入一个未知的新分布 $Q_{i}(z^{(i)})$ ，使得 $\sum_{i = 1}^{m}\log\sum_{z^{(i)}}P(x^{(i)},z^{(i)};\theta)=\sum_{i = 1}^{m}\log\sum_{z^{(i)}}Q_{i}(z^{(i)})\frac{P(x^{(i)},z^{(i)};\theta)}{Q_{i}(z^{(i)})}\geq\sum_{i = 1}^{m}\sum_{z^{(i)}}Q_{i}(z^{(i)})\log\frac{P(x^{(i)},z^{(i)};\theta)}{Q_{i}(z^{(i)})}$ 。

为了满足Jensen不等式中的等号，令 $\frac{P(x^{(i)},z^{(i)};\theta)}{Q_{i}(z^{(i)})}=c$ （ $c$ 为常数）。又因为 $Q_{i}(z^{(i)})$ 是一个分布，满足 $\sum_{z}Q_{i}(z^{(i)}) = 1$ ，综上可得： $Q_{i}(z^{(i)})=\frac{P(x^{(i)},z^{(i)};\theta)}{\sum_{z}P(x^{(i)},z^{(i)};\theta)}=\frac{P(x^{(i)},z^{(i)};\theta)}{P(x^{(i)};\theta)}=P(z^{(i)}|x^{(i)};\theta)$

此时，如果 $\theta$ 使得上式成立，那么 $\sum_{i = 1}^{m}\sum_{z^{(i)}}Q_{i}(z^{(i)})\log\frac{P(x^{(i)},z^{(i)};\theta)}{Q_{i}(z^{(i)})}$ 是包含隐藏数据的对数似然的一个下界。如果能极大化这个下界，则也在尝试极大化对数似然。即需要最大化下式： $\underset{\theta}{\arg\max}\sum_{i = 1}^{m}\sum_{z^{(i)}}Q_{i}(z^{(i)})\log\frac{P(x^{(i)},z^{(i)};\theta)}{Q_{i}(z^{(i)})}$ ，简化得： $\underset{\theta}{\arg\max}\sum_{i = 1}^{m}\sum_{z^{(i)}}Q_{i}(z^{(i)})\log P(x^{(i)},z^{(i)};\theta)$ ，这就是EM算法的M步

而 $Q_{i}(z^{(i)}) = P(z^{(i)}|x^{(i)};\theta)$ 可理解为基于条件概率分布 $P(z^{(i)}|x^{(i)};\theta)$ 计算 $z^{(i)}$ 的期望，即为E步。

四、图解EM算法

考虑到含有隐变量的模型 $p(x|\theta)$ 复杂，难以求解析解，为了消除隐变量的影响，可以选择一个不包含隐变量的模型 $r(x|\theta)$ ，使其满足一定条件。EM算法求解示意图如下：
在这里插入图片描述

图1 EM算法求解示意图

在图中，目标模型 $p(x|\theta)$ 复杂，难以直接求解。求解步骤如下：

选取 $\theta_{1}$ ，使得 $r(x|\theta_{1})\leq p(x|\theta_{1})$ ，然后对此时的 $r$ 求取最大值，得到极值点 $\theta_{2}$ ，实现参数的更新。
重复以上过程到收敛为止，在更新过程中始终满足 $r\leq p$ 。通过不断迭代，逐步逼近最优的参数估计值，使得模型能够更好地拟合数据。

五、EM算法流程

EM算法的输入包括观察数据 $x^{(1)},x^{(2)},\cdots,x^{(m)}$ ，联合分布 $p(x,z;\theta)$ ，条件分布 $p(z|x;\theta)$ 以及最大迭代次数 $J$ 。

随机初始化模型参数 $\theta$ 的初值 $\theta^{0}$ 。
设当前迭代次数为 $j$ ， $j$ 从1到 $J$ 进行迭代：
- E步：计算联合分布的条件概率期望。
  - 计算 $Q_{i}(z^{(i)}) = P(z^{(i)}|x^{(i)};\theta^{j})$ 。
  - 计算 $L(\theta,\theta^{j})=\sum_{i = 1}^{m}\sum_{z^{(i)}}\log P(z^{(i)}|x^{(i)};\theta^{j})\log P(x^{(i)},z^{(i)};\theta)$ 。
- M步：极大化 $L(\theta,\theta^{j})$ ，得到 $\theta^{j + 1}$ ，即 $\theta^{j + 1}=\underset{\theta}{\arg\max}L(\theta,\theta^{j})$ 。
- 如果 $\theta^{j + 1}$ 收敛，则算法结束，否则继续进行E步迭代。
输出模型参数 $\theta$ 。