随机过程的熵率

2026/05/26 18:05:00·2026/05/28 14:30:00

课程信息论·19 min read

信息论熵率马尔可夫链平稳过程随机过程

第4章

为什么熵还要升级成熵率

前面几章默认的信源模型大多是 i.i.d.（独立同分布）。这很方便，但也很理想化。现实里很多序列都有记忆：

自然语言中，字母 q 后面通常接 u
天气预报中，今天晴天会影响明天晴天的概率
用户点击序列中，当前页面会影响下一步行为

这时单个变量的熵 $$H(X)$$ 已不足以描述整个信源。因为相邻符号有相关性，知道过去会降低未来的不确定性。于是信息论引入熵率：长期看来，信源每产生一个符号，平均到底新增多少信息。

一句话理解：熵看"一个随机变量有多不确定"，熵率看"一个随机过程每前进一步平均增加多少不确定性"。

4.1

随机过程与平稳性：讨论熵率前先要明确对象

为什么需要平稳性

若一个过程的统计规律随着时间漂移，那么"长期平均每步信息量"可能根本没有稳定意义。平稳性就是为了排除这种不稳定。

随机过程是什么

随机过程 $\{X_i\}_{i\ge 1}$ 是一列带时间下标的随机变量。对任意 $$n$$ ，其联合分布写成

\Pr\{(X_1,\dots,X_n)=(x_1,\dots,x_n)\}=p(x_1,\dots,x_n)

与前面章节不同，这里不再默认各个时刻独立。联合分布可能包含很强的时间相关性。

平稳过程是什么

若对任意整数 $n,k\ge 1$ ，都有

p(x_1,\dots,x_n)=p(x_{1+k},\dots,x_{n+k})

即任意长度为 $$n$$ 的块的联合分布在时间平移后不变，则称该过程是平稳的。

直觉上，平稳表示"统计规律不随时间改变"——序列样子会变，但生成机制不变。这正是熵率定义有意义的前提。

课件引用

PDF随机过程与平稳过程p.1

正在渲染 PDF 第 1 页…

随机过程与平稳过程（PDF 第 1 页） · 打开原文

4.2

熵率的定义：每个符号长期平均贡献多少信息

为什么需要这个定义

对长度为 $$n$$ 的序列，总熵是 $H(X_1,\dots,X_n)$ 。如果我们想问"平均每个符号对应多少信息"，自然要除以 $$n$$ 。再让 $n\to\infty$ ，就得到长期平均值。

它是什么

若极限存在，随机过程 $\mathcal X=\{X_i\}$ 的熵率定义为

\mathcal H(\mathcal X)=\lim_{n\to\infty}\frac1n H(X_1,\dots,X_n)

对平稳过程，这个极限存在。

两种等价表达

由链式法则，

H(X_1,\dots,X_n)=\sum_{i=1}^n H(X_i|X_1,\dots,X_{i-1})

因此

\frac1n H(X_1,\dots,X_n)=\frac1n \sum_{i=1}^n H(X_i|X_1^{i-1})

对平稳过程，可证明条件熵序列 $H(X_n|X_1^{n-1})$ 随 $$n$$ 单调不增且极限存在，并满足

\mathcal H(\mathcal X)=\lim_{n\to\infty} H(X_n|X_1^{n-1})

两种表达是完全等价的：

形式	公式	直观含义
平均熵形式	$H_n=\frac1n H(X_1,\dots,X_n)$	前 $$n$$ 步总熵的平均
条件熵极限形式	$\mathcal H(\mathcal X)=\lim_{n\to\infty} H(X_n\|X_1^{n-1})$	知道无限长历史后，下一步还剩多少不确定性

与 i.i.d. 的关系

若 $X_1,X_2,\dots$ i.i.d.，则

H(X_1,\dots,X_n)=\sum_{i=1}^n H(X_i)=nH(X)

因此

\mathcal H(\mathcal X)=H(X)

熵率退化为单符号熵，说明熵率是熵在"有记忆信源"上的推广。

为什么条件熵会递减

因为条件越多，不确定性越小。一般有

H(X|Y,Z)\le H(X|Y)\le H(X)

所以把更长的历史作为条件，不会增加对下一个符号的不确定性。

4.3

马尔可夫链：最常见的有记忆信源模型

为什么需要马尔可夫假设

完整随机过程的历史依赖太复杂—— $X_{n+1}$ 可能依赖所有过去。马尔可夫链提供了一个足够简单、又能表达相关性的模型：未来只依赖当前状态。

它是什么

若对任意 $$n$$ ，都有

p(x_{n+1}|x_n,x_{n-1},\dots,x_1)=p(x_{n+1}|x_n)

则称 $\{X_n\}$ 为一阶马尔可夫链。

若转移规律不随时间变，即

P_{ij}=\Pr(X_{n+1}=j\mid X_n=i)

与 $$n$$ 无关，则称为时间不变马尔可夫链（也叫平稳马尔可夫链）。这类链完全由初始分布 $$p(X_1)$$ 和转移矩阵 $P=[P_{ij}]$ 共同刻画。

怎么推联合分布

由链式法则和马尔可夫性质：

\begin{aligned} p(x_1,\dots,x_n) &=p(x_1)\prod_{k=1}^{n-1}p(x_{k+1}|x_1,\dots,x_k)\\ &=p(x_1)\prod_{k=1}^{n-1}p(x_{k+1}|x_k) \end{aligned}

这就是马尔可夫链比一般过程更易处理的根本原因。

马尔可夫链状态转移图

以二状态链为例，转移矩阵

P=\begin{pmatrix}0.9 & 0.1\\ 0.2 & 0.8\end{pmatrix}

对应的状态转移图如下：

stateDiagram-v2
  direction LR
  [*] --> 状态0
  [*] --> 状态1

  状态0 --> 状态0 : P00=0.9
  状态0 --> 状态1 : P01=0.1
  状态1 --> 状态0 : P10=0.2
  状态1 --> 状态1 : P11=0.8

课件引用

PDF马尔可夫过程定义p.2

正在渲染 PDF 第 2 页…

马尔可夫过程定义（PDF 第 2 页） · 打开原文

PDF马尔可夫链的表征p.3

正在渲染 PDF 第 3 页…

马尔可夫链的表征（PDF 第 3 页） · 打开原文

4.4

平稳分布：什么时候统计规律不再漂移

为什么需要平稳分布

若初始状态 $$X_1$$ 就服从平稳分布 $\mu$ ，那么以后每个时刻的边缘分布都一样，整个链就是平稳过程，此时熵率表达式会大幅简化。

它是什么

若分布 $\mu=(\mu_1,\dots,\mu_m)$ 满足

\mu_j=\sum_i \mu_i P_{ij}

或向量形式

\mu=\mu P

则称 $\mu$ 为该马尔可夫链的平稳分布。

含义：一步转移后，分布不变。

怎么求平稳分布：解方程组

对二状态链，设 $\mu=(\mu_0,\mu_1)$ ，则

\mu=\mu P,\qquad \mu_0+\mu_1=1

展开第一行： $\mu_0 = 0.9\mu_0 + 0.2\mu_1$ ，化简得 $\mu_0=2\mu_1$ 。

结合 $\mu_0+\mu_1=1$ ，解得

\mu_0=\frac23,\qquad \mu_1=\frac13

存在唯一性条件

若有限状态马尔可夫链满足：

不可约：任意状态都能经有限步到达任意其他状态
非周期：返回某状态的可能步数没有公共周期结构

则平稳分布唯一，且从任意初始分布出发，状态分布最终都会收敛到它。

课件引用

PDF平稳分布p.4

正在渲染 PDF 第 4 页…

平稳分布（PDF 第 4 页） · 打开原文

4.5

平稳马尔可夫链的熵率公式

它是什么

若 $\{X_n\}$ 是平稳马尔可夫链，平稳分布为 $\mu$ ，转移矩阵为 $$P$$ ，则熵率为

\mathcal H(\mathcal X)=H(X_2|X_1)

进一步展开为

\mathcal H(\mathcal X)=-\sum_i\mu_i\sum_j P_{ij}\log P_{ij}

怎么推出来

第一步，由马尔可夫性质，给定完整历史与只给定上一步完全等价：

H(X_n|X_{n-1},\dots,X_1)=H(X_n|X_{n-1})

第二步，由平稳性，这个条件熵与时刻无关，所以所有 $n\ge 2$ 都等于 $$H(X_2|X_1)$$ 。结合熵率的条件熵形式：

\mathcal H(\mathcal X)=\lim_{n\to\infty} H(X_n|X_1^{n-1}) = H(X_2|X_1)

第三步，按条件熵定义展开：

H(X_2|X_1)=\sum_i \Pr(X_1=i)\cdot H(X_2|X_1=i)

平稳下 $\Pr(X_1=i)=\mu_i$ ，而

H(X_2|X_1=i)=-\sum_j P_{ij}\log P_{ij}

代入即得

\mathcal H(\mathcal X)=-\sum_i\mu_i\sum_j P_{ij}\log P_{ij}

怎么理解

它就是"每个状态的下一步随机性"按该状态长期出现频率（即平稳分布 $\mu_i$ ）做加权平均。

两种形式的关系图

graph LR
    A["H_n = (1/n)H(X_1,...,X_n)"] --> B["链式法则"]
    B --> C["条件熵形式 H(X_n|X_1^{n-1})"]
    C --> D["马尔可夫简化 H(X_n|X_{n-1})"]
    D --> E["平稳下 = H(X_2|X_1)"]
    E --> F["—求和—> H = -Σμ_i ΣP_ij log P_ij"]
    style F fill:#dbeafe

课件引用

PDF马尔可夫链的熵率p.5

正在渲染 PDF 第 5 页…

马尔可夫链的熵率（PDF 第 5 页） · 打开原文

4.6

三个典型模型：打字机、i.i.d.、有记忆信源

模型	特点	熵率
打字机（i.i.d.）	每次独立输出 $$m$$ 个等可能字母	$\mathcal H(\mathcal X)=\log m$
独立非同分布	$$X_i$$ 独立但分布可能不同	$\mathcal H(\mathcal X)=\lim\frac1n\sum_{i=1}^n H(X_i)$
平稳马尔可夫链	未来只依赖当前状态，转移不随时间变	$-\sum_i\mu_i\sum_j P_{ij}\log P_{ij}$

对于打字机，没有记忆，熵率就是单符号熵；对于有记忆信源，熵率取决于平稳分布和转移矩阵。

4.7

例题 1：求二状态马尔可夫链的平稳分布和熵率

例题

题目：设二状态平稳马尔可夫链转移矩阵为

P=\begin{pmatrix}0.9 & 0.1\\ 0.2 & 0.8\end{pmatrix}

求其平稳分布和熵率。

目标：求 $\mu=(\mu_0,\mu_1)$ 满足 $\mu=\mu P$ ，再算 $\mathcal H(\mathcal X)=-\sum_i\mu_i\sum_j P_{ij}\log P_{ij}$ 。

步骤 1：求平稳分布

设平稳分布 $\mu=(\mu_0,\mu_1)$ ，满足 $\mu=\mu P$ ，且 $\mu_0+\mu_1=1$ 。

由第一行： $\mu_0 = 0.9\mu_0 + 0.2\mu_1$ ，化简得 $0.1\mu_0 = 0.2\mu_1$ ，即 $\mu_0 = 2\mu_1$ 。

结合 $\mu_0+\mu_1=1$ ，解得

\mu_0=\frac23,\qquad \mu_1=\frac13

步骤 2：算各状态的条件熵

从状态 0 出发：

H(X_2|X_1=0)=-0.9\log_2 0.9-0.1\log_2 0.1\approx 0.469\text{ bit}

从状态 1 出发：

H(X_2|X_1=1)=-0.2\log_2 0.2-0.8\log_2 0.8\approx 0.722\text{ bit}

步骤 3：加权求和得熵率

\begin{aligned} \mathcal H(\mathcal X) &= \mu_0\cdot H(X_2|X_1=0)+\mu_1\cdot H(X_2|X_1=1)\\ &= \frac23\times 0.469 + \frac13\times 0.722\\ &\approx 0.553\text{ bit/symbol} \end{aligned}

验证：若把熵率误算成边缘分布熵 $$H(2/3,1/3)$$ ，得到约 $$0.918$$ bit/symbol——这是错的，因为 $$0.553 < 0.918$$ ，说明有记忆后每步的新信息更少。

易错点：不要把熵率误算成边缘分布熵

H(\mu)

，那是单时刻不确定性，不是每步新增信息。熵率是对条件熵的长期平均，有记忆时它小于边缘熵。

4.8

交互演示：转移概率如何影响熵率

下面用一个对称二状态马尔可夫链来演示 $P_{11}$ （自留概率）从 $$0.5$$ 到 $$0.99$$ 时熵率的变化。当 $P_{11}$ 接近 $$1$$ 时，系统强烈倾向于保持当前状态，下一步的条件熵变小，熵率下降。

熵率随自留概率 P11 变化（对称二状态链）JSXGraph

熵率随自留概率 P11 变化（对称二状态链）

图中蓝线为熵率 $H(P_{11})$ ，橙色滑块控制 $P_{11}$ ，橙色点显示当前值。当 $P_{11}=0.5$ （无记忆）时 $$H=1$$ bit；当 $P_{11}\to 1$ 时 $H\to 0$ ，系统趋于确定。

4.9

例题 2：为什么相关性会降低熵率

例题

题目：设 $X_n=X_{n-1}$ 几乎总成立，即系统强烈倾向于保持当前状态。说明为什么熵率会变小。

分析：若下一步几乎由上一步决定，则条件分布 $p(X_n|X_{n-1})$ 非常尖锐，条件熵

H(X_n|X_{n-1})\approx 0

由于平稳马尔可夫链的熵率正是 $H(X_2|X_1)=H(X_n|X_{n-1})$ ，因此熵率会随相关性增强而下降。

结论：越有规律的序列越容易压缩，因为每个符号带来的增量信息更少。这与信源编码的直觉完全一致。

4.10

延伸：加权图随机游走与热力学类比

加权图上的随机游走

课件给出了一种把马尔可夫链推广到加权图的方式：节点 $$i$$ 到节点 $$j$$ 的转移概率与边权重 $W_{ij}$ 成正比。

P_{ij}=\frac{W_{ij}}{\sum_k W_{ik}}

平稳分布： $\mu_j=\frac{d_j}{\sum_k d_k}$ ，其中 $d_j=\sum_i W_{ij}$ 是节点 $$j$$ 的度。

热力学第二定律的类比

把孤立系统看作马尔可夫链，可以证明：

相对熵 $D(u_n\|u)$ 随 $$n$$ 递减，系统趋向平衡分布
若平稳分布是均匀分布，则熵增加
对于平稳马尔可夫过程，条件熵 $$H(X_n|X_1)$$ 随 $$n$$ 递增

这些结论与热力学第二定律的形式完全对应，说明熵率概念不只属于通信理论，它本质上描述的是"一个随机动力系统长期每步产生多少新不确定性"。

平稳过程与时不变马尔可夫链的关系

graph TB
    A["随机过程 {X_n}"] --> B{满足马尔可夫性？}
    B -->|是| C["时间不变马尔可夫链"]
    B -->|否| D["一般平稳过程"]
    C --> E{初始分布 = 平稳分布？}
    E -->|是| F["平稳马尔可夫链
可直接套公式计算熵率"]
    E -->|否| G["统计量收敛到平稳分布
需计算极限"]
    D --> H["用熵率定义式
H = lim (1/n)H(X1,...,Xn)"]
    F --> I["H = -Σμ_i ΣP_ij log P_ij"]
    G --> J["迭代求μ = μP极限"]
    J --> I
    H --> K["或用条件熵形式
H = lim H(X_n|X_1^{n-1})"]

总结：若链是时间不变的且从平稳分布出发，则熵率可直接套公式；若初始分布不是平稳分布，则需先求平稳分布 $\mu=\mu P$ 。

4.11

国际象棋棋盘上的随机游动

模型描述

棋子只能在棋盘格子上做随机移动。不同棋子有不同的合法走法，产生不同的转移矩阵和熵率。

棋子	移动模式	状态数	熵率
王	8方向均可走（但受棋盘边界限制）	64格有不同邻居数	约 0.92 log 8
车	只能横走或竖走	64格	log 14
象	只能走斜线	32白格+32黑格（不连通）	非连通图上无唯一平稳分布
后	横+竖+斜（合并车和象的走法）	64格	更高

象的例子特别有意思——由于只能走同色格子，整个图被分割成两个不相通的子图，没有唯一的平稳分布。这提醒我们：马尔可夫链的不可约性（任意状态可互通）不是理所当然的。

本章速查表

对象	公式	含义
熵率定义（平均熵形式）	$H_n=\frac1n H(X_1,\dots,X_n)$	前 $$n$$ 步总熵的平均
熵率定义（条件熵极限形式）	$\mathcal H(\mathcal X)=\lim_{n\to\infty} H(X_n\|X_1^{n-1})$	知道过去后未来一步的剩余不确定性
马尔可夫性质	$p(x_{n+1}\|x_1^n)=p(x_{n+1}\|x_n)$	未来只依赖当前状态
联合分布（马尔可夫）	$p(x_1,\dots,x_n)=p(x_1)\prod_{k=1}^{n-1}p(x_{k+1}\|x_k)$	历史只通过上一步传递
平稳分布	$\mu=\mu P,\quad \sum_i\mu_i=1$	一步转移后分布不变
平稳马尔可夫链熵率	$-\sum_i\mu_i\sum_j P_{ij}\log P_{ij}$	局部转移随机性的长期平均
条件熵递减性	$H(X\|Y,Z)\le H(X\|Y)\le H(X)$	更多条件不增加不确定性

复习速查

为什么要引入熵率？：因为 i.i.d. 模型过于理想，现实序列有记忆，单符号熵不能描述"长期平均每步新信息量"
熵率的两种定义？： $H_n=\frac1n H(X_1,\dots,X_n)$ （平均熵形式）和 $\lim H(X_n|X_1^{n-1})$ （条件熵极限形式），对平稳过程等价
马尔可夫链的核心假设？： $p(x_{n+1}|x_n,\dots,x_1)=p(x_{n+1}|x_n)$ ，即未来只依赖当前状态
平稳分布怎么求？：解 $\mu=\mu P$ 加上 $\sum_i\mu_i=1$ ，对二状态链可秒得 $\mu_0=P_{10}/(P_{01}+P_{10})$
平稳马尔可夫链的熵率怎么算？： $-\sum_i\mu_i\sum_j P_{ij}\log P_{ij}$ ，即平稳分布下各状态条件熵的加权平均
为什么有记忆信源的熵率更低？：因为知道过去会减少对未来不确定性的预测，条件熵小于边缘熵

参考来源

中国科学技术大学刘斌《信息论基础》第四章课件（information-theory/第四章.pdf）
Stanford EE376A Lecture Notes
Thomas M. Cover & Joy A. Thomas, Elements of Information Theory, 2nd Ed., Chapter 4
CSDN：信息论笔记随机过程的熵率

上一章互信息与信道容量枢纽页信息论课程下一章信源编码定理（待补）