微分熵

2026/05/26 18:05:00·2026/05/28 14:30:00

第8章

为什么离散熵还不够

前面几章讨论的熵 $$H(X)$$ 都建立在可数个取值上：概率质量函数 $$p(x)$$ 可以直接相加，典型集的大小也可以直接数个数。但现实里很多信号是连续的，比如热噪声、电压、电流、无线接收信号、传感器读数。对这类对象，问题立刻变成：

如果 $$X$$ 可以取任意实数，如何衡量它的"不确定性"？
如果取值空间无限细，为什么"一个样本需要多少比特"这件事变得微妙？
高斯噪声为什么会在容量问题里反复出现？

微分熵 $$h(X)$$ 就是在这个背景下引入的。它确实长得像离散熵，但含义并不完全相同：它更像"密度函数在连续空间中的平均对数尺度"，适合出现在比较、极值和极限定理里，尤其适合推导高斯信道与率失真理论。

PDF微分熵的引入p.1

正在渲染 PDF 第 1 页…

微分熵的引入（PDF 第 1 页） · 打开原文

8.1

微分熵是什么

设连续随机变量 $$X$$ 的概率密度函数为 $$f_X(x)$$ ，支撑集记为 $S=\{x:f_X(x)>0\}$ 。微分熵定义为

h(X)=-\int_S f_X(x)\log f_X(x)\,dx

这里每个符号都要读清楚：

$$f_X(x)$$ ：随机变量 $$X$$ 的概率密度函数
$\log$ ：通常取底 2，则单位为 bit；取自然对数则单位为 nat
$f_X(x)\log f_X(x)$ ：把"该点的密度大小"乘上"该点对数密度"后取负均值

它和离散熵的形式很像：

	离散熵 $$H(X)$$	微分熵 $$h(X)$$
定义基础	概率质量函数 $$p(x)$$	概率密度函数 $$f(x)$$
是否一定非负	是， $H(X)\ge 0$	否，可能为负
是否直接表示平均信息量	通常可以	不能直接这样解释
平移是否改变熵	不适用连续平移	$$h(X+b)=h(X)$$
缩放效果	不适用连续缩放	$h(aX)=h(X)+\log\|a\|$
量化后与离散熵的关系	自身就是答案	$H(X_\Delta)\approx h(X)+\log\frac1\Delta$

最容易踩的坑

微分熵不是"连续随机变量每个样本携带的信息量"。连续变量取到某一个精确实数的概率本来就是 0，因此不能照搬离散情形的解释。

PDF微分熵定义p.2

正在渲染 PDF 第 2 页…

微分熵定义（PDF 第 2 页） · 打开原文

8.2

为什么它可能是负的

离散熵永远非负，但微分熵可以为负。最典型的例子是区间 $$[0,a]$$ 上的均匀分布：

f_X(x)=\frac{1}{a},\qquad 0\le x\le a

代入定义：

h(X)=-\int_0^a \frac1a\log\frac1a\,dx=-\log\frac1a\cdot\int_0^a\frac1a\,dx=-\log\frac1a=\log a

于是：

$$a>1$$ 时， $$h(X)>0$$
$$a=1$$ 时， $$h(X)=0$$
$$0<a<1$$ 时， $$h(X)<0$$

这说明微分熵在数值上反映的是"分布摊得有多开"。区间越窄，密度越高， $\log f(x)$ 越大，负号一加就可能得到负值。

因此微分熵更适合拿来做比较和极值问题，例如"在同样方差下谁的微分熵最大"，而不适合直接解释成"需要多少比特"。

均匀分布微分熵 h(X) = log a 随区间宽度 a 的变化JSXGraph

均匀分布微分熵 h(X) = log a 随区间宽度 a 的变化

PDF微分熵可为负的例子p.3

正在渲染 PDF 第 3 页…

微分熵可为负的例子（PDF 第 3 页） · 打开原文

8.3

量化后微分熵才接上离散熵

这部分是理解微分熵最关键的分界线。连续变量要编码，必须先量化到有限精度 $\Delta$ ，记量化后的离散变量为 $X_\Delta$ 。

若把取值范围等分成宽度为 $\Delta$ 的区间，每个区间对应一个离散符号，则有

H(X_\Delta) \approx h(X)+\log\frac1\Delta

如果 $\Delta=2^{-n}$ ，那就是

H(X_\Delta) \approx h(X)+n

这才把"微分熵"和"平均编码长度"重新接上：真正需要比特的是量化后的离散变量，而不是原始连续变量本身。

核心要点：

$h(X)$

不是"每个样本的平均信息量"，而是描述连续分布"铺得有多散"的标尺。加上

\log(1/\Delta)

项才能得到真正的离散熵。

flowchart LR
    A["连续变量 X\nf_X(x)"] --> B["量化到精度 Δ\n离散化"]
    B --> C["离散变量 X_Δ\n概率质量函数 p"]
    C --> D["离散熵 H(X_Δ)\n可编码"]

    A -->|"h(X) = 微分熵
描述密度尺度"| E["H(X_Δ) ≈ h(X) + log(1/Δ)"]
    E --> D

    style A fill:#dbeafe,stroke:#2563eb
    style C fill:#fef3c7,stroke:#d97706
    style D fill:#d1fae5,stroke:#16a34a
    style E fill:#e0e7ff,stroke:#4f46e5

PDF微分熵与离散熵的关系p.8

正在渲染 PDF 第 8 页…

微分熵与离散熵的关系（PDF 第 8 页） · 打开原文

8.4

连续 AEP 与典型集

离散 AEP 告诉我们，长序列里大多数样本都集中在一个概率大约相同的典型集里。连续情形不能再说"每个典型序列的概率约为 $2^{-nh}$ "，因为单个点的概率为 0；但可以说密度规模和典型集体积有规律。

若 $X_1,\dots,X_n$ 是 i.i.d. 连续随机变量，且微分熵存在，则

-\frac1n\log f_{X^n}(X_1,\dots,X_n) \xrightarrow{P} h(X)

这里 $f_{X^n}(x^n)$ 是联合密度， $x^n=(x_1,\dots,x_n)$ 。由此定义连续典型集

A_\varepsilon^{(n)}=\left\{x^n:2^{-n(h+\varepsilon)}\le f_{X^n}(x^n)\le 2^{-n(h-\varepsilon)}\right\}

它保留了离散典型集的三条核心精神：

性质	离散 AEP	连续 AEP
概率趋近	$\Pr\{X^n\in A_\varepsilon^{(n)}\}\to 1$	$\Pr\{X^n\in A_\varepsilon^{(n)}\}\to 1$
密度指数	约 $2^{-nh(X)}$	$2^{-nh(X)}$ 量级
典型集"大小"	含 $\|A_\varepsilon^{(n)}\|\approx 2^{nh(X)}$ 个序列	占体积 $\operatorname{Vol}(A_\varepsilon^{(n)})\approx 2^{nh(X)}$

直觉图像：离散世界是在数盒子个数，连续世界是在量这堆盒子总共占多大体积。

PDF连续随机变量的 AEPp.5

正在渲染 PDF 第 5 页…

连续随机变量的 AEP（PDF 第 5 页） · 打开原文

PDF连续典型集性质p.6

正在渲染 PDF 第 6 页…

连续典型集性质（PDF 第 6 页） · 打开原文

8.5

联合微分熵、条件微分熵与链式法则

对于联合密度 $f_{X,Y}(x,y)$ ，定义联合微分熵

h(X,Y)=-\iint f_{X,Y}(x,y)\log f_{X,Y}(x,y)\,dxdy

条件微分熵定义为

h(X|Y)=-\iint f_{X,Y}(x,y)\log f_{X|Y}(x|y)\,dxdy

推导链式法则时，只要用

f_{X,Y}(x,y)=f_Y(y)\,f_{X|Y}(x|y)

取对数得到

\log f_{X,Y}(x,y)=\log f_Y(y)+\log f_{X|Y}(x|y)

再对联合密度取平均，就有

$$h(X,Y)=h(Y)+h(X|Y)=h(X)+h(Y|X)$$

多元形式同样成立：

h(X_1,\dots,X_n)=\sum_{i=1}^n h(X_i|X_1,\dots,X_{i-1})

如果 $X_1,\dots,X_n$ 相互独立，则条件项退化为边缘熵，得到

h(X_1,\dots,X_n)=\sum_{i=1}^n h(X_i)

注意：条件微分熵可以大于、等于或小于 0；但链式法则本身仍然成立。

PDF联合与条件微分熵p.9

正在渲染 PDF 第 9 页…

联合与条件微分熵（PDF 第 9 页） · 打开原文

8.6

相对熵与互信息：真正稳定的量

连续情形里，单独看 $$h(X)$$ 会有坐标尺度依赖的问题，但相对熵和互信息仍然保留非常强的"信息量"含义。

两个密度函数 $$f(x),g(x)$$ 的相对熵定义为

D(f\|g)=\int f(x)\log\frac{f(x)}{g(x)}\,dx\ge 0

两个连续随机变量的互信息定义为

I(X;Y)=\iint f_{X,Y}(x,y)\log\frac{f_{X,Y}(x,y)}{f_X(x)f_Y(y)}\,dxdy

利用定义可以改写成

$$I(X;Y)=h(X)-h(X|Y)=h(Y)-h(Y|X)=h(X)+h(Y)-h(X,Y)$$

这一步非常关键，因为后面高斯信道容量就是在最大化 $$I(X;Y)$$ 。即使 $$h(X)$$ 或 $$h(Y)$$ 可能是负的，互信息仍然满足：

I(X;Y)\ge 0

当且仅当 $$X$$ 与 $$Y$$ 独立时， $$I(X;Y)=0$$ 。

PDF相对熵与互信息p.12

正在渲染 PDF 第 12 页…

相对熵与互信息（PDF 第 12 页） · 打开原文

8.7

微分熵在平移和缩放下变化规律

这组性质经常直接拿来做容量推导：

$$h(X+b)=h(X)$$

h(aX)=h(X)+\log|a|

h(AX)=h(X)+\log|\det A|

为什么 $h(aX)=h(X)+\log|a|$ 成立？以一维缩放为例，若 $$Y=aX$$ ，则密度变换为

f_Y(y)=\frac1{|a|}f_X\!\left(\frac{y}{a}\right)

代回定义，变量替换 $$y=ax$$ 之后：

h(Y)=-\int f_Y(y)\log f_Y(y)\,dy=-\int f_X(x)\log\!\left(\frac1{|a|}f_X(x)\right)dx

=h(X)+\log|a|

所以缩放会把微分熵整体平移一个对数项。这也是为什么微分熵依赖坐标单位：米和厘米之间会差一个常数 $\log 100$ 。

例题：尺度缩放下微分熵的变化

题目：设 $$X$$ 在 $$[0,2]$$ 上均匀分布， $$Y=2X$$ ，求 $$h(Y)$$ 。

第一步：先求 $$h(X)$$ 。均匀分布 $$U[0,2]$$ 的密度为 $$f_X=1/2$$ ，支撑集长度 $$a=2$$ ，所以 $h(X)=\log 2$ （bit）。
第二步：应用尺度公式。 $$Y=2X$$ ，即 $$a=2$$ ，所以 $h(Y)=h(X)+\log 2=\log 2+\log 2=\log 4$ 。
第三步：直接验证。 $$Y$$ 的取值范围是 $$[0,4]$$ ，支撑集长度变为 4，所以 $h(Y)=\log 4$ ，与公式一致。

答案： $h(Y)=\log 4$ bit。

易错点：

h(aX)=h(X)+\log|a|

中的

$|a|$

是缩放倍数，不是变换后的区间长度。要区分是先算

$f_Y$

再积分，与直接套公式两种路径。

8.8

正态分布的微分熵怎么推

设 $X\sim\mathcal N(\mu,\sigma^2)$ ，密度为

f_X(x)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)

取对数（用自然对数）：

\ln f_X(x)=-\frac12\ln(2\pi\sigma^2)-\frac{(x-\mu)^2}{2\sigma^2}

于是

h(X)=-\mathbb E[\ln f_X(X)]

=\frac12\ln(2\pi\sigma^2)+\frac{1}{2\sigma^2}\mathbb E[(X-\mu)^2]

因为 $\mathbb E[(X-\mu)^2]=\sigma^2$ ，所以

h(X)=\frac12\ln(2\pi\sigma^2)+\frac12=\frac12\ln(2\pi e\sigma^2)\quad\text{[nat]}

若用底 2 对数，则写成

h(X)=\frac12\log_2(2\pi e\sigma^2)\quad\text{[bit]}

不同方差正态分布密度函数叠加JSXGraph

不同方差正态分布密度函数叠加

PDF多元正态分布的熵p.10

正在渲染 PDF 第 10 页…

多元正态分布的熵（PDF 第 10 页） · 打开原文

8.9

为什么"同方差下高斯熵最大"

这是第八章最重要的结论，也是第九章高斯信道容量的引擎。

高斯最大熵定理

在所有满足方差为 $\sigma^2$ 的连续分布中，高斯分布的微分熵最大，即

h(X)\le \frac12\log(2\pi e\sigma^2)

等号当且仅当 $$X$$ 为高斯分布时成立。

一个很干净的证明是拿任意分布 $$f$$ 和同均值同方差的高斯分布 $$g$$ 做相对熵：

flowchart TD
    A["任意分布 f(x)\n均值 μ, 方差 σ²"] --> B["相对熵 D(f‖g)\nD(f‖g) ≥ 0"]
    C["高斯分布 g(x)\n均值 μ, 方差 σ²"] --> B

    B --> C1["D(f‖g) = ∫f·log(f/g)dx"]
    C1 --> C2["展开 = -h(X) - ∫f·log g dx"]
    C2 --> C3["log g 只含 μ, σ²"]
    C3 --> C4["∫f·log g dx = -h(G)\n因为 f 和 g 有相同均值方差"]
    C4 --> C5["D(f‖g) = h(G) - h(X) ≥ 0"]
    C5 --> C6["⟹ h(X) ≤ h(G)"]
    C6 --> C7["⟹ h(X) ≤ (1/2)log(2πeσ²)"]

    style A fill:#dbeafe,stroke:#2563eb
    style C fill:#fef3c7,stroke:#d97706
    style B fill:#e0e7ff,stroke:#4f46e5
    style C7 fill:#d1fae5,stroke:#16a34a

直觉上，高斯分布在固定二阶能量约束下"铺得最散"，所以最难预测，不确定性最大。

例题：高斯最大熵的数值比较

题目：设某分布均值为 0，方差为 1。对比 (a) 均匀分布 $U[-\sqrt{3},\sqrt{3}]$ ，(b) 拉普拉斯分布 $Lap(0,1/\sqrt{2})$ ，(c) 高斯分布 $\mathcal N(0,1)$ ，三者微分熵各是多少？谁最大？

均匀分布：方差为 1 意味着 $$a^2/12=1$$ ，得 $a=2\sqrt3$ ， $h(X)=\log(2\sqrt3)\approx 1.238$ nat。
拉普拉斯分布：方差为 $$2b^2=1$$ ，得 $b=1/\sqrt2$ ， $h(X)=1+\ln(2b)=1+\frac12\ln2\approx 1.347$ nat。
高斯分布： $h(X)=\frac12\ln(2\pi e)\approx 1.4189$ nat。

答案：高斯最大熵，约 1.419 nat。其他分布都小于此值。

8.10

多元正态分布与矩阵形式

若 $X\in\mathbb R^n$ 服从多元高斯分布 $\mathcal N(m,K)$ ，其中

$$m$$ ：均值向量
$$K$$ ：协方差矩阵
$$|K|$$ ：矩阵 $$K$$ 的行列式

则其微分熵为

h(X)=\frac12\log\big((2\pi e)^n|K|\big)

这个公式很值得记，因为：

它直接把不确定性和协方差矩阵体积联系起来
它会在彩色高斯噪声信道、反馈高斯信道里反复出现
$$|K|$$ 越大，说明等概率质量摊开的"椭球体积"越大，熵也越大

8.11

一个落地例子：为什么连续噪声总爱用高斯建模

假设你只知道某个模拟噪声信号均值为 0、方差为 $\sigma^2$ ，但不知道它更具体的分布。如果要做"最坏情况下仍然安全"的系统设计，往往会把它当成高斯噪声。原因正是高斯在同方差下微分熵最大。

对接收机来说，噪声熵越大，代表它越"散"、越难预测、越难消除。在只固定功率而不固定分布形状时，拿高斯做噪声就是最保守建模。这条思路会直接导向第九章的容量公式：

C=\frac12\log\left(1+\frac{P}{N}\right)

因为在给定噪声方差和输入功率约束下，输出熵的极值最终都绕不开高斯最大熵性质。

8.12

微分熵与离散熵：完整对比

flowchart LR
    subgraph Discrete["离散熵 H(X)"]
        D1["概率质量函数 p(x)"]
        D2["H(X) = -Σp·log p"]
        D3["永远非负 H≥0"]
        D4["直接表示平均编码长度"]
        D5["有限符号表下熵有上界"]
    end

    subgraph Differential["微分熵 h(X)"]
        C1["概率密度函数 f(x)"]
        C2["h(X) = -∫f·log f dx"]
        C3["可为负 h可<0"]
        C4["描述分布铺开程度"]
        C5["量化后才与比特挂钩"]
    end

    D3 -.->|"关键区别"| C3
    D4 -.->|"量化接上"| C5

    style D1 fill:#dbeafe,stroke:#2563eb
    style D2 fill:#dbeafe,stroke:#2563eb
    style D3 fill:#d1fae5,stroke:#16a34a
    style D4 fill:#fef3c7,stroke:#d97706
    style D5 fill:#f3e8ff,stroke:#8b5cf6
    style C1 fill:#fef3c7,stroke:#d97706
    style C2 fill:#fef3c7,stroke:#d97706
    style C3 fill:#fee2e2,stroke:#dc2626
    style C4 fill:#fef3c7,stroke:#d97706
    style C5 fill:#e0e7ff,stroke:#4f46e5

本章复习速查

定义： $h(X)=-\int_S f_X(x)\log f_X(x)\,dx$ ，单位 bit（底 2）或 nat（自然对数）
可为负：均匀分布 $$U[0,a]$$ ， $h(X)=\log a$ ， $$a<1$$ 时为负
尺度公式： $h(aX)=h(X)+\log|a|$ ，平移不变 $$h(X+b)=h(X)$$
量化关系： $H(X_\Delta)\approx h(X)+\log(1/\Delta)$ ，这才接上离散熵
连续 AEP： $-\frac1n\log f_{X^n}(x^n)\xrightarrow{P}h(X)$ ，典型集体积 $\approx 2^{nh(X)}$
链式法则： $$h(X,Y)=h(X)+h(Y|X)$$ ， $I(X;Y)=h(X)-h(X|Y)\ge 0$
高斯微分熵： $h(X)=\frac12\log(2\pi e\sigma^2)$ ，固定方差下最大
多元高斯： $h(X)=\frac12\log((2\pi e)^n|K|)$ ， $$|K|$$ 为协方差行列式
高斯最大熵证明： $D(f\|g)=h(G)-h(X)\ge 0$ ，利用相对熵非负性

参考来源

PDF课程课件：第八章微分熵p.1
正在渲染 PDF 第 1 页…
课程课件：第八章微分熵（PDF 第 1 页） · 打开原文
Stanford EE376A Lecture Notes — 补充直觉解释
METU EE533 Information Theory Notes — 连续 AEP 与典型集推导细节
Cover & Thomas, Elements of Information Theory, Chapter 8 — 高斯最大熵的严格证明

上一章信源编码枢纽页信息论 · 课程枢纽下一章高斯信道