ESC
输入关键词搜索文章
目录

随机过程的熵率

信息论 · 第4章
当信源有记忆时,每个符号的信息量该怎么算
4核心定义
2等价表达
5典型模型
2计算例题
第4章
为什么熵还要升级成熵率

前面几章默认的信源模型大多是 i.i.d.(独立同分布)。这很方便,但也很理想化。现实里很多序列都有记忆:

  • 自然语言中,字母 q 后面通常接 u
  • 天气预报中,今天晴天会影响明天晴天的概率
  • 用户点击序列中,当前页面会影响下一步行为

这时单个变量的熵 $H(X)$ 已不足以描述整个信源。因为相邻符号有相关性,知道过去会降低未来的不确定性。于是信息论引入熵率:长期看来,信源每产生一个符号,平均到底新增多少信息。

一句话理解:熵看"一个随机变量有多不确定",熵率看"一个随机过程每前进一步平均增加多少不确定性"。
4.1
随机过程与平稳性:讨论熵率前先要明确对象

为什么需要平稳性

若一个过程的统计规律随着时间漂移,那么"长期平均每步信息量"可能根本没有稳定意义。平稳性就是为了排除这种不稳定。

随机过程是什么

随机过程 $\{X_i\}_{i\ge 1}$ 是一列带时间下标的随机变量。对任意 $n$,其联合分布写成

$$\Pr\{(X_1,\dots,X_n)=(x_1,\dots,x_n)\}=p(x_1,\dots,x_n)$$

与前面章节不同,这里不再默认各个时刻独立。联合分布可能包含很强的时间相关性。

平稳过程是什么

若对任意整数 $n,k\ge 1$,都有

$$p(x_1,\dots,x_n)=p(x_{1+k},\dots,x_{n+k})$$

即任意长度为 $n$ 的块的联合分布在时间平移后不变,则称该过程是平稳的

直觉上,平稳表示"统计规律不随时间改变"——序列样子会变,但生成机制不变。这正是熵率定义有意义的前提。

课件引用

PDF随机过程与平稳过程p.1
正在渲染 PDF 第 1 页…
随机过程与平稳过程(PDF 第 1 页) · 打开原文

4.2
熵率的定义:每个符号长期平均贡献多少信息

为什么需要这个定义

对长度为 $n$ 的序列,总熵是 $H(X_1,\dots,X_n)$。如果我们想问"平均每个符号对应多少信息",自然要除以 $n$。再让 $n\to\infty$,就得到长期平均值。

它是什么

若极限存在,随机过程 $\mathcal X=\{X_i\}$ 的熵率定义为

$$\mathcal H(\mathcal X)=\lim_{n\to\infty}\frac1n H(X_1,\dots,X_n)$$

对平稳过程,这个极限存在。

两种等价表达

由链式法则,

$$H(X_1,\dots,X_n)=\sum_{i=1}^n H(X_i|X_1,\dots,X_{i-1})$$

因此

$$\frac1n H(X_1,\dots,X_n)=\frac1n \sum_{i=1}^n H(X_i|X_1^{i-1})$$

对平稳过程,可证明条件熵序列 $H(X_n|X_1^{n-1})$$n$ 单调不增且极限存在,并满足

$$\mathcal H(\mathcal X)=\lim_{n\to\infty} H(X_n|X_1^{n-1})$$

两种表达是完全等价的:

形式公式直观含义
平均熵形式 $H_n=\frac1n H(X_1,\dots,X_n)$ $n$ 步总熵的平均
条件熵极限形式 $\mathcal H(\mathcal X)=\lim_{n\to\infty} H(X_n|X_1^{n-1})$ 知道无限长历史后,下一步还剩多少不确定性

与 i.i.d. 的关系

$X_1,X_2,\dots$ i.i.d.,则

$$H(X_1,\dots,X_n)=\sum_{i=1}^n H(X_i)=nH(X)$$

因此

$$\mathcal H(\mathcal X)=H(X)$$

熵率退化为单符号熵,说明熵率是熵在"有记忆信源"上的推广。

为什么条件熵会递减

因为条件越多,不确定性越小。一般有

$$H(X|Y,Z)\le H(X|Y)\le H(X)$$

所以把更长的历史作为条件,不会增加对下一个符号的不确定性。

4.3
马尔可夫链:最常见的有记忆信源模型

为什么需要马尔可夫假设

完整随机过程的历史依赖太复杂——$X_{n+1}$ 可能依赖所有过去。马尔可夫链提供了一个足够简单、又能表达相关性的模型:未来只依赖当前状态。

它是什么

若对任意 $n$,都有

$$p(x_{n+1}|x_n,x_{n-1},\dots,x_1)=p(x_{n+1}|x_n)$$

则称 $\{X_n\}$ 为一阶马尔可夫链

若转移规律不随时间变,即

$$P_{ij}=\Pr(X_{n+1}=j\mid X_n=i)$$

$n$ 无关,则称为时间不变马尔可夫链(也叫平稳马尔可夫链)。这类链完全由初始分布 $p(X_1)$ 和转移矩阵 $P=[P_{ij}]$ 共同刻画。

怎么推联合分布

由链式法则和马尔可夫性质:

$$\begin{aligned} p(x_1,\dots,x_n) &=p(x_1)\prod_{k=1}^{n-1}p(x_{k+1}|x_1,\dots,x_k)\\ &=p(x_1)\prod_{k=1}^{n-1}p(x_{k+1}|x_k) \end{aligned}$$

这就是马尔可夫链比一般过程更易处理的根本原因。

马尔可夫链状态转移图

以二状态链为例,转移矩阵

$$P=\begin{pmatrix}0.9 & 0.1\\ 0.2 & 0.8\end{pmatrix}$$

对应的状态转移图如下:

stateDiagram-v2
  direction LR
  [*] --> 状态0
  [*] --> 状态1

  状态0 --> 状态0 : P00=0.9
  状态0 --> 状态1 : P01=0.1
  状态1 --> 状态0 : P10=0.2
  状态1 --> 状态1 : P11=0.8
  

课件引用

PDF马尔可夫过程定义p.2
正在渲染 PDF 第 2 页…
马尔可夫过程定义(PDF 第 2 页) · 打开原文

PDF马尔可夫链的表征p.3
正在渲染 PDF 第 3 页…
马尔可夫链的表征(PDF 第 3 页) · 打开原文

4.4
平稳分布:什么时候统计规律不再漂移

为什么需要平稳分布

若初始状态 $X_1$ 就服从平稳分布 $\mu$,那么以后每个时刻的边缘分布都一样,整个链就是平稳过程,此时熵率表达式会大幅简化。

它是什么

若分布 $\mu=(\mu_1,\dots,\mu_m)$ 满足

$$\mu_j=\sum_i \mu_i P_{ij}$$

或向量形式

$$\mu=\mu P$$

则称 $\mu$ 为该马尔可夫链的平稳分布

含义:一步转移后,分布不变。

怎么求平稳分布:解方程组

对二状态链,设 $\mu=(\mu_0,\mu_1)$,则

$$\mu=\mu P,\qquad \mu_0+\mu_1=1$$

展开第一行:$\mu_0 = 0.9\mu_0 + 0.2\mu_1$,化简得 $\mu_0=2\mu_1$

结合 $\mu_0+\mu_1=1$,解得

$$\mu_0=\frac23,\qquad \mu_1=\frac13$$

存在唯一性条件

若有限状态马尔可夫链满足:

  • 不可约:任意状态都能经有限步到达任意其他状态
  • 非周期:返回某状态的可能步数没有公共周期结构

则平稳分布唯一,且从任意初始分布出发,状态分布最终都会收敛到它。

课件引用

PDF平稳分布p.4
正在渲染 PDF 第 4 页…
平稳分布(PDF 第 4 页) · 打开原文

4.5
平稳马尔可夫链的熵率公式

它是什么

$\{X_n\}$ 是平稳马尔可夫链,平稳分布为 $\mu$,转移矩阵为 $P$,则熵率为

$$\mathcal H(\mathcal X)=H(X_2|X_1)$$

进一步展开为

$$\mathcal H(\mathcal X)=-\sum_i\mu_i\sum_j P_{ij}\log P_{ij}$$

怎么推出来

第一步,由马尔可夫性质,给定完整历史与只给定上一步完全等价:

$$H(X_n|X_{n-1},\dots,X_1)=H(X_n|X_{n-1})$$

第二步,由平稳性,这个条件熵与时刻无关,所以所有 $n\ge 2$ 都等于 $H(X_2|X_1)$。结合熵率的条件熵形式:

$$\mathcal H(\mathcal X)=\lim_{n\to\infty} H(X_n|X_1^{n-1}) = H(X_2|X_1)$$

第三步,按条件熵定义展开:

$$H(X_2|X_1)=\sum_i \Pr(X_1=i)\cdot H(X_2|X_1=i)$$

平稳下 $\Pr(X_1=i)=\mu_i$,而

$$H(X_2|X_1=i)=-\sum_j P_{ij}\log P_{ij}$$

代入即得

$$\mathcal H(\mathcal X)=-\sum_i\mu_i\sum_j P_{ij}\log P_{ij}$$

怎么理解

它就是"每个状态的下一步随机性"按该状态长期出现频率(即平稳分布 $\mu_i$)做加权平均。

两种形式的关系图

graph LR
    A["H_n = (1/n)H(X_1,...,X_n)"] --> B["链式法则"]
    B --> C["条件熵形式 H(X_n|X_1^{n-1})"]
    C --> D["马尔可夫简化 H(X_n|X_{n-1})"]
    D --> E["平稳下 = H(X_2|X_1)"]
    E --> F["—求和—> H = -Σμ_i ΣP_ij log P_ij"]
    style F fill:#dbeafe
  

课件引用

PDF马尔可夫链的熵率p.5
正在渲染 PDF 第 5 页…
马尔可夫链的熵率(PDF 第 5 页) · 打开原文

4.6
三个典型模型:打字机、i.i.d.、有记忆信源
模型特点熵率
打字机(i.i.d.) 每次独立输出 $m$ 个等可能字母 $\mathcal H(\mathcal X)=\log m$
独立非同分布 $X_i$ 独立但分布可能不同 $\mathcal H(\mathcal X)=\lim\frac1n\sum_{i=1}^n H(X_i)$
平稳马尔可夫链 未来只依赖当前状态,转移不随时间变 $-\sum_i\mu_i\sum_j P_{ij}\log P_{ij}$

对于打字机,没有记忆,熵率就是单符号熵;对于有记忆信源,熵率取决于平稳分布和转移矩阵。

4.7
例题 1:求二状态马尔可夫链的平稳分布和熵率

例题

题目:设二状态平稳马尔可夫链转移矩阵为

$$P=\begin{pmatrix}0.9 & 0.1\\ 0.2 & 0.8\end{pmatrix}$$

求其平稳分布和熵率。

目标:$\mu=(\mu_0,\mu_1)$ 满足 $\mu=\mu P$,再算 $\mathcal H(\mathcal X)=-\sum_i\mu_i\sum_j P_{ij}\log P_{ij}$

步骤 1:求平稳分布

设平稳分布 $\mu=(\mu_0,\mu_1)$,满足 $\mu=\mu P$,且 $\mu_0+\mu_1=1$

由第一行:$\mu_0 = 0.9\mu_0 + 0.2\mu_1$,化简得 $0.1\mu_0 = 0.2\mu_1$,即 $\mu_0 = 2\mu_1$

结合 $\mu_0+\mu_1=1$,解得

$$\mu_0=\frac23,\qquad \mu_1=\frac13$$

步骤 2:算各状态的条件熵

从状态 0 出发:

$$H(X_2|X_1=0)=-0.9\log_2 0.9-0.1\log_2 0.1\approx 0.469\text{ bit}$$

从状态 1 出发:

$$H(X_2|X_1=1)=-0.2\log_2 0.2-0.8\log_2 0.8\approx 0.722\text{ bit}$$

步骤 3:加权求和得熵率

$$\begin{aligned} \mathcal H(\mathcal X) &= \mu_0\cdot H(X_2|X_1=0)+\mu_1\cdot H(X_2|X_1=1)\\ &= \frac23\times 0.469 + \frac13\times 0.722\\ &\approx 0.553\text{ bit/symbol} \end{aligned}$$

验证:若把熵率误算成边缘分布熵 $H(2/3,1/3)$,得到约 $0.918$ bit/symbol——这是错的,因为 $0.553 < 0.918$,说明有记忆后每步的新信息更少。

易错点:不要把熵率误算成边缘分布熵 $H(\mu)$,那是单时刻不确定性,不是每步新增信息。熵率是对条件熵的长期平均,有记忆时它小于边缘熵。
4.8
交互演示:转移概率如何影响熵率

下面用一个对称二状态马尔可夫链来演示 $P_{11}$(自留概率)从 $0.5$$0.99$ 时熵率的变化。当 $P_{11}$ 接近 $1$ 时,系统强烈倾向于保持当前状态,下一步的条件熵变小,熵率下降。

熵率随自留概率 P11 变化(对称二状态链)JSXGraph
熵率随自留概率 P11 变化(对称二状态链)

图中蓝线为熵率 $H(P_{11})$,橙色滑块控制 $P_{11}$,橙色点显示当前值。当 $P_{11}=0.5$(无记忆)时 $H=1$ bit;当 $P_{11}\to 1$$H\to 0$,系统趋于确定。

4.9
例题 2:为什么相关性会降低熵率

例题

题目:$X_n=X_{n-1}$ 几乎总成立,即系统强烈倾向于保持当前状态。说明为什么熵率会变小。

分析:若下一步几乎由上一步决定,则条件分布 $p(X_n|X_{n-1})$ 非常尖锐,条件熵

$$H(X_n|X_{n-1})\approx 0$$

由于平稳马尔可夫链的熵率正是 $H(X_2|X_1)=H(X_n|X_{n-1})$,因此熵率会随相关性增强而下降。

结论:越有规律的序列越容易压缩,因为每个符号带来的增量信息更少。这与信源编码的直觉完全一致。

4.10
延伸:加权图随机游走与热力学类比

加权图上的随机游走

课件给出了一种把马尔可夫链推广到加权图的方式:节点 $i$ 到节点 $j$ 的转移概率与边权重 $W_{ij}$ 成正比。

$$P_{ij}=\frac{W_{ij}}{\sum_k W_{ik}}$$

平稳分布:$\mu_j=\frac{d_j}{\sum_k d_k}$,其中 $d_j=\sum_i W_{ij}$ 是节点 $j$ 的度。

热力学第二定律的类比

把孤立系统看作马尔可夫链,可以证明:

  • 相对熵 $D(u_n\|u)$$n$ 递减,系统趋向平衡分布
  • 若平稳分布是均匀分布,则熵增加
  • 对于平稳马尔可夫过程,条件熵 $H(X_n|X_1)$$n$ 递增

这些结论与热力学第二定律的形式完全对应,说明熵率概念不只属于通信理论,它本质上描述的是"一个随机动力系统长期每步产生多少新不确定性"。

平稳过程与时不变马尔可夫链的关系

graph TB
    A["随机过程 {X_n}"] --> B{满足马尔可夫性?}
    B -->|是| C["时间不变马尔可夫链"]
    B -->|否| D["一般平稳过程"]
    C --> E{初始分布 = 平稳分布?}
    E -->|是| F["平稳马尔可夫链
可直接套公式计算熵率"] E -->|否| G["统计量收敛到平稳分布
需计算极限"] D --> H["用熵率定义式
H = lim (1/n)H(X1,...,Xn)"] F --> I["H = -Σμ_i ΣP_ij log P_ij"] G --> J["迭代求μ = μP极限"] J --> I H --> K["或用条件熵形式
H = lim H(X_n|X_1^{n-1})"]

总结:若链是时间不变的且从平稳分布出发,则熵率可直接套公式;若初始分布不是平稳分布,则需先求平稳分布 $\mu=\mu P$

4.11
国际象棋棋盘上的随机游动

模型描述

棋子只能在棋盘格子上做随机移动。不同棋子有不同的合法走法,产生不同的转移矩阵和熵率。

棋子移动模式状态数熵率
8方向均可走(但受棋盘边界限制) 64格有不同邻居数 约 0.92 log 8
只能横走或竖走 64格 log 14
只能走斜线 32白格+32黑格(不连通) 非连通图上无唯一平稳分布
横+竖+斜(合并车和象的走法) 64格 更高

象的例子特别有意思——由于只能走同色格子,整个图被分割成两个不相通的子图,没有唯一的平稳分布。这提醒我们:马尔可夫链的不可约性(任意状态可互通)不是理所当然的。

本章速查表
对象公式含义
熵率定义(平均熵形式)$H_n=\frac1n H(X_1,\dots,X_n)$$n$ 步总熵的平均
熵率定义(条件熵极限形式)$\mathcal H(\mathcal X)=\lim_{n\to\infty} H(X_n|X_1^{n-1})$知道过去后未来一步的剩余不确定性
马尔可夫性质$p(x_{n+1}|x_1^n)=p(x_{n+1}|x_n)$未来只依赖当前状态
联合分布(马尔可夫)$p(x_1,\dots,x_n)=p(x_1)\prod_{k=1}^{n-1}p(x_{k+1}|x_k)$历史只通过上一步传递
平稳分布$\mu=\mu P,\quad \sum_i\mu_i=1$一步转移后分布不变
平稳马尔可夫链熵率$-\sum_i\mu_i\sum_j P_{ij}\log P_{ij}$局部转移随机性的长期平均
条件熵递减性$H(X|Y,Z)\le H(X|Y)\le H(X)$更多条件不增加不确定性

复习速查

  • 为什么要引入熵率?:因为 i.i.d. 模型过于理想,现实序列有记忆,单符号熵不能描述"长期平均每步新信息量"
  • 熵率的两种定义?$H_n=\frac1n H(X_1,\dots,X_n)$(平均熵形式)和 $\lim H(X_n|X_1^{n-1})$(条件熵极限形式),对平稳过程等价
  • 马尔可夫链的核心假设?$p(x_{n+1}|x_n,\dots,x_1)=p(x_{n+1}|x_n)$,即未来只依赖当前状态
  • 平稳分布怎么求?:解 $\mu=\mu P$ 加上 $\sum_i\mu_i=1$,对二状态链可秒得 $\mu_0=P_{10}/(P_{01}+P_{10})$
  • 平稳马尔可夫链的熵率怎么算?$-\sum_i\mu_i\sum_j P_{ij}\log P_{ij}$,即平稳分布下各状态条件熵的加权平均
  • 为什么有记忆信源的熵率更低?:因为知道过去会减少对未来不确定性的预测,条件熵小于边缘熵

参考来源