ESC
输入关键词搜索文章
目录

信道容量

信息论 · 第7章
噪声让传输失真,但容量给出可靠通信的极限速率
1容量定义
2容量定理
3典型信道
2完整推导
第7章
为什么"可靠通信"会有一个极限速率

压缩研究的是"能否把信息表示得更短",信道编码研究的是"在有噪声时,能否把信息传得更准"。

一条真实信道往往会翻转比特、擦除符号、引入混淆。于是通信系统面临一个核心矛盾:

  • 想传得快,就要少加冗余
  • 想传得准,就要多加冗余

香农第七章回答的正是这个平衡点:存在一个临界速率 $C$,只要传输速率低于它,就能把错误概率压到任意小;一旦超过它,再聪明的编码也无法保证可靠。

这就是信道容量的意义。它不是物理层"每秒发几个符号"的带宽上限,而是可靠通信的理论上限

PDF信道容量章节导入p.1
正在渲染 PDF 第 1 页…
信道容量章节导入(PDF 第 1 页) · 打开原文
7.1
信道编码通信系统:先把系统画出来

信道编码定理的全部讨论都围绕下面这个系统展开。在动手推导之前,先把这个框图看清楚。

模块输入输出数学描述
信源消息 $W$消息 $W$$W \sim \text{Unif}\{1,\dots,M\}$
编码器消息 $W$码字 $X^n(W)$$f:\{1,\dots,M\} \to \mathcal{X}^n$
信道码字 $X^n$接收序列 $Y^n$$p(y^n|x^n)=\prod_i p(y_i|x_i)$
译码器接收序列 $Y^n$消息估计 $\hat W$$g:\mathcal{Y}^n \to \{1,\dots,M\}$

系统的核心目标是:给定消息 $W$,经过信道传输后,译码器输出的 $\hat W$ 以很高的概率等于 $W$

graph LR
    W["信源
W ~ Unif{1..M}"] --> ENC["编码器
Xⁿ(W) ∈ Xⁿ"] ENC --> CH["离散无记忆信道
p(y|x)"] CH --> DEC["译码器
Ŵ = g(Yⁿ)"] DEC --> WHAT(["Ŵ = W ?"]) CH -.-> FB["反馈(可选)"] FB -.-> ENC DEC -.-> FB style CH fill:#dbeafe,stroke:#2563eb,color:#1e40af style ENC fill:#fef9c3,stroke:#ca8a04,color:#854d0e style DEC fill:#dcfce7,stroke:#16a34a,color:#166534
反馈的作用:若接收端把过去收到的内容反馈给发送端,发送端可以边发边调整策略。对离散无记忆信道,这能简化编解码策略,但不能提高容量
PDF信源编码与信道编码p.2
正在渲染 PDF 第 2 页…
信源编码与信道编码(PDF 第 2 页) · 打开原文
7.2
信源编码与信道编码:一个去冗余,一个加冗余

第5-6章刚学过压缩,那一章的目标是去掉冗余。可到了第7章,事情反过来了:为了抗噪声,编码器反而要人为加入冗余。两者看似矛盾,其实各自解决不同问题。

信源编码信道编码
任务减少统计冗余增加纠错冗余
目标缩短平均描述长度降低传输错误概率
理论核心$H(X)$容量 $C$
典型问题最少要多少比特表示消息最多能以多高速率可靠传输

这两部分之所以能在现代通信系统中分开设计,最后靠的是本章后面会讲到的信源信道分离定理

7.3
离散无记忆信道与信道容量定义

离散无记忆信道(Discrete Memoryless Channel, DMC)由三部分描述:

  • 输入字母表 $\mathcal{X}$
  • 输出字母表 $\mathcal{Y}$
  • 转移概率 $p(y|x)$

"无记忆"表示第 $i$ 次输出只依赖于第 $i$ 次输入,与过去所有输入输出无关。若输入序列是 $x^n=(x_1,\dots,x_n)$,输出序列是 $y^n=(y_1,\dots,y_n)$,则

$$p(y^n|x^n)=\prod_{i=1}^n p(y_i|x_i)$$

这条乘积结构是后面一切典型性分析的基础。

容量定义

对固定信道 $p(y|x)$,输入分布 $p(x)$ 决定联合分布

$$p(x,y)=p(x)p(y|x)$$

从而决定互信息

$$I(X;Y)=\sum_{x,y} p(x,y)\log \frac{p(x,y)}{p(x)p(y)}$$

信道容量定义为

$$C=\max_{p(x)} I(X;Y)$$

单位是 bit/信道使用。

为什么是互信息

$H(X)$ 是发送前输入的不确定性,$H(X|Y)$ 是观察输出后还剩下的不确定性,因此

$$I(X;Y)=H(X)-H(X|Y)$$

正是通过信道以后真正被接收端"学到"的信息量。一个信道的传输能力,天然就该用这个量来衡量。

符号解释

  • $p(x)$:输入分布,由发射端策略决定
  • $p(y|x)$:信道噪声规律,信道本身决定
  • $p(y)=\sum_x p(x)p(y|x)$:输出边际分布
  • $I(X;Y)$:一次信道使用中,输出携带的关于输入的信息量
  • $C$:把输入分布调到最佳时,单次使用最多能可靠通过多少 bit
PDF信道容量定义p.3
正在渲染 PDF 第 3 页…
信道容量定义(PDF 第 3 页) · 打开原文
7.4
容量的基本性质:先看边界,再看最优点

信道容量有几个立刻就该记住的性质:

  • 非负性$C\ge 0$。因为互信息总非负。
  • 上界$C\le \log_2 |\mathcal{X}|$。单次信道使用最多区分 $|\mathcal{X}|$ 个输入状态。
  • 凹性:固定 $p(y|x)$ 后,$I(X;Y)$ 关于 $p(x)$ 是凹函数,因此最大值问题是良性的。

这些性质看似简单,但后面求容量时非常有用。尤其是凹性,说明"调输入分布"本身就是一个合理的优化方向,而不会陷入很多局部最优陷阱。

PDF容量性质p.4
正在渲染 PDF 第 4 页…
容量性质(PDF 第 4 页) · 打开原文
7.5
弱对称信道:容量显式求解的第一类

容量定义是一个最大化问题,但具体求值常常并不容易。弱对称信道是最重要的一类可显式求解模型。

定义

若信道转移矩阵的各行互为排列,且所有列元素和相等,则称为弱对称信道

对弱对称信道,容量在均匀输入分布下取得。这一结论极其重要,因为它把"最大化 $I(X;Y)$"直接简化成"代入均匀输入去算"。

具体而言,设信道有 $|\mathcal{X}|=m$ 个输入符号,输出符号集合记为 $\mathcal{Y}$,则

$$C = \log_2 |\mathcal{Y}| - H(y|\mathcal{X})$$

其中 $H(y|\mathcal{X})$ 是按行排列后每行的条件熵(各行相同)。

PDF弱对称信道p.5
正在渲染 PDF 第 5 页…
弱对称信道(PDF 第 5 页) · 打开原文
7.6
二元对称信道 BSC:容量 $C=1-H_2(p)$ 的完整推导

BSC 是信息论里最重要的信道模型之一。理解它的容量推导,就理解了整个容量计算的核心思路。

BSC 的定义

BSC 的交叉概率为 $p$:输入比特以概率 $p$ 翻转,以概率 $1-p$ 保持不变。转移矩阵为

$$p(y|x)=\begin{pmatrix} 1-p & p \\ p & 1-p \end{pmatrix}$$

为什么均匀输入最优

BSC 是弱对称信道,因此容量在均匀输入分布 $p(x=0)=p(x=1)=\frac12$ 时取得。

容量推导

当输入均匀分布时,输出分布也是 $p(y=0)=p(y=1)=\frac12$,于是

$$H(Y) = -\frac12\log_2\frac12 - \frac12\log_2\frac12 = 1\ \text{bit}$$

给定输入后,输出只是不确定是否翻转,所以

$$H(Y|X) = -p\log_2 p - (1-p)\log_2(1-p) = H_2(p)$$

其中二元熵函数

$$H_2(p)=-p\log_2 p -(1-p)\log_2(1-p)$$

$I(X;Y)=H(Y)-H(Y|X)$,得到

BSC 容量公式

$$C_{\text{BSC}} = 1 - H_2(p)$$

直觉解释

  • $p=0$ 时无噪声,$H_2(0)=0$,所以 $C=1$(完美传输)
  • $p=0.5$ 时输出与输入完全独立,$H_2(0.5)=1$,所以 $C=0$(信道完全失去传输能力)
  • $p\to 0^+$ 时,$C\approx 1-\frac{p}{\ln 2}$,对弱噪声有很好的近似

下面是用 JSXGraph 绘制的 BSC 容量曲线:横轴是翻转概率 $p$(从 0 到 0.5),纵轴是容量 $C=1-H_2(p)$。注意 $p>0.5$ 时可以通过交换 0/1 标签等价回 $p\le 0.5$ 的情形。

BSC 容量 C = 1 - H₂(p)(p ∈ [0, 0.5])JSXGraph
BSC 容量 C = 1 - H₂(p)(p ∈ [0, 0.5])
图:BSC 容量随翻转概率 $p$ 的变化曲线。$p=0$$C=1$(无噪声),$p=0.5$$C=0$(信道完全失效)。
PDF二元对称信道 BSCp.6
正在渲染 PDF 第 6 页…
二元对称信道 BSC(PDF 第 6 页) · 打开原文
7.7
二元擦除信道 BEC:容量 $C=1-\epsilon$ 的完整推导

BEC 的擦除概率为 $\epsilon$:每个输入比特以概率 $1-\epsilon$ 被正确接收,以概率 $\epsilon$ 变成一个特殊符号"?"(擦除)。

容量推导

设输入 $\mathcal{X}=\{0,1\}$,输出 $\mathcal{Y}=\{0,1,?\}$,转移概率:

$$p(Y=0|X=0)=1-\epsilon,\quad p(Y=?|X=0)=\epsilon$$
$$p(Y=1|X=1)=1-\epsilon,\quad p(Y=?|X=1)=\epsilon$$

若输入均匀分布,输出分布为:$p(Y=0)=p(Y=1)=\frac{1-\epsilon}{2}$$p(Y=?)=\epsilon$

计算熵:

$$H(Y)=-\frac{1-\epsilon}{2}\log_2\frac{1-\epsilon}{2}\times 2 - \epsilon\log_2\epsilon = 1-\epsilon+\epsilon H_2\!\left(\frac{1-\epsilon}{2}\right)$$

给定输入后,若未擦除则完全确定,若擦除则输出为"?",因此

$$H(Y|X)=(1-\epsilon)\cdot 0 + \epsilon\cdot H(Y|X=\cdot)=\epsilon\cdot 1 = \epsilon$$

所以

BEC 容量公式

$$C_{\text{BEC}} = H(Y)-H(Y|X) = 1-\epsilon$$
BSC 和 BEC 的差别:BSC 是"错了但不知道哪里错",输出仍是有效比特;BEC 是"知道某个位置丢了",输出是特殊符号"?"。后者结构更干净,容量公式也更简单。
PDF二元擦除信道 BECp.7
正在渲染 PDF 第 7 页…
二元擦除信道 BEC(PDF 第 7 页) · 打开原文
例题 1
BSC 容量计算:$p=0.1$ 时容量是多少

题目:设二元对称信道的翻转概率为 $p=0.1$,求其容量。

步骤 1:写出容量公式

$$C=1-H_2(p)$$

步骤 2:计算二元熵

$$H_2(0.1)= -0.1\log_2 0.1 - 0.9\log_2 0.9$$
$$\approx 0.3322 + 0.1368 = 0.4690\ \text{bit}$$

步骤 3:得到容量

$$C\approx 1-0.4690 = 0.5310\ \text{bit/use}$$

也就是说,这条信道每使用一次,最多只能可靠传输约 0.531 bit 的信息。若系统试图长期以 0.8 bit/use 的速率稳定通信,就一定无法把错误概率压到任意小。

7.8
$(M,n)$ 码与可达码率

讲容量定理前,必须先把"通信方案"数学化。

一个 $(M,n)$ 码包括:

  1. 消息集合 $\{1,2,\dots,M\}$
  2. 编码函数 $f:\{1,\dots,M\}\to\mathcal{X}^n$,把每条消息映射为一个长度为 $n$ 的码字 $x^n(m)$
  3. 译码函数 $g:\mathcal{Y}^n\to\{1,\dots,M\}$,把接收到的 $y^n$ 映射回某条消息

码率定义为

$$R=\frac{1}{n}\log_2 M$$

含义是:用了 $n$ 次信道,一共传了 $\log_2 M$ bit 的消息,因此平均每次信道使用传了多少 bit。

若存在一列 $(M_n,n)$ 码,随着 $n\to\infty$,其最大错误概率趋于 0,且对应码率趋于 $R$,则称 $R$可达码率。信道容量就是所有可达码率的上确界。

PDF(M,n) 码与码率p.9
正在渲染 PDF 第 9 页…
(M,n) 码与码率(PDF 第 9 页) · 打开原文
7.9
联合典型集:随机码本为什么可以工作的核心

信道编码定理的证明核心工具不是某个具体码,而是联合典型性。这是 AEP 在双随机变量上的版本。

定义

$(X_i,Y_i)$ 独立同分布,联合分布为 $p(x,y)$。长度为 $n$ 的序列对 $(x^n,y^n)$ 属于联合典型集 $A_\epsilon^{(n)}$,当且仅当三个经验熵都接近理论熵:

$$\left| -\frac1n \log p(x^n)-H(X)\right|<\epsilon$$
$$\left| -\frac1n \log p(y^n)-H(Y)\right|<\epsilon$$
$$\left| -\frac1n \log p(x^n,y^n)-H(X,Y)\right|<\epsilon$$

可以把它理解成:一对真正来自联合分布的长序列,"看起来"就像"联合概率意义下最典型的那一类样本"。

联合 AEP 的三条关键性质

联合 AEP 定理(渐进均分性)

$(X_i,Y_i)$ i.i.d. $\sim p(x,y)$,则:

  1. 高概率集中$P\big((X^n,Y^n)\in A_\epsilon^{(n)}\big)\to 1$,当 $n\to\infty$
  2. 集合大小$|A_\epsilon^{(n)}|\approx 2^{nH(X,Y)}$
  3. 独立样本的低概率:若 $\tilde X^n$$\tilde Y^n$ 独立但边际分布相同,则
$$P\big((\tilde X^n,\tilde Y^n)\in A_\epsilon^{(n)}\big)\approx 2^{-nI(X;Y)}$$

性质 3 的推导(关键!)

为什么独立样本落入联合典型集的概率大约是 $2^{-nI(X;Y)}$?这来自以下逻辑链:

$\tilde X^n$$\tilde Y^n$ 独立时,它们的联合概率是 $p(\tilde x^n)p(\tilde y^n)$,而非真实联合分布 $p(x,y)$。序列 $\tilde x^n$ 大约有 $2^{nH(X)}$ 种典型可能,$\tilde y^n$ 大约有 $2^{nH(Y)}$ 种典型可能。

而联合典型集 $|A_\epsilon^{(n)}|approx 2^{nH(X,Y)}$。因此当 $\tilde x^n$$\tilde y^n$ 恰好都在各自典型集内,且满足联合典型条件时,这一对序列的概率大约为

$$2^{nH(X)}\cdot 2^{nH(Y)}\cdot 2^{-nH(X,Y)} = 2^{n(H(X)+H(Y)-H(X,Y))}=2^{nI(X;Y)}$$

的倒数,即 $2^{-nI(X;Y)}$

性质 3 的物理意义:如果一个错误码字与接收序列其实互相独立,那么它们"碰巧看起来像一对真的输入输出"的概率以 $2^{-nI(X;Y)}$ 的速度指数衰减。$n$ 越大,这个概率越小到可以忽略。
graph TD
    subgraph 真实发送场景
    TX["真实码字
Xⁿ(m)"] -->|信道传输| CH["信道 p(y|x)"] TX -->|与 Yⁿ 同时来自同一联合分布| JT1["联合典型集
大概率落入"] CH --> Y["接收序列 Yⁿ"] end subgraph 错误码字场景 TX2["错误码字
Xⁿ(m')"] -->|与 Yⁿ 独立| IT["独立配对"] TX2 -->|概率约 2^{-nI}| JT2["恰好联合典型?
概率 2^{-nI}(指数小)"] end style JT2 fill:#fee2e2,stroke:#dc2626,color:#991b1b style JT1 fill:#dcfce7,stroke:#16a34a,color:#166534
图:联合典型译码原理。真实码字与接收序列来自同一联合分布,几乎必然联合典型;错误码字与接收序列彼此独立,"碰巧联合典型"的概率指数衰减。
PDF联合典型集p.11
正在渲染 PDF 第 11 页…
联合典型集(PDF 第 11 页) · 打开原文
PDF联合 AEPp.12
正在渲染 PDF 第 12 页…
联合 AEP(PDF 第 12 页) · 打开原文
7.10
信道编码定理:低于容量就能可靠传输

信道编码定理(香农第二定理):对任意离散无记忆信道,所有满足 $R<C$ 的码率都是可达的。反之,若 $R>C$,则错误概率不可能趋于 0。

这一定理分成两半:

  • 正向定理:说明"容量以下可以做到"
  • 逆定理:说明"容量以上绝不可能"

下面先重点把正向证明的思路拆清楚,这是整个信息论里最精彩的部分。

7.11
信道编码定理证明:五步法——为什么 $R<C$ 时错误概率可趋于 0

整个证明最核心的洞察是:随机码本的平均性能很好 → 必然存在一个具体的好码本。下面按五步拆解。

第一步:随机生成码本

固定一个输入分布 $p(x)$。对每条消息 $m\in\{1,\dots,2^{nR}\}$,独立随机生成一个码字

$$X^n(m)=(X_1(m),\dots,X_n(m))$$

其中每个分量都按 $p(x)$ 独立采样。整个码本($2^{nR}$ 个码字)记作 $\mathcal{C}$

为什么用随机码本

随机码本不是实际使用的方案,而是证明工具。我们先证明:如果从足够大的随机候选集合里平均来看已经很好,那么必然存在一个具体码本也很好。这叫"平均 argument"(over randomness argument)。

第二步:发送真实消息

假设消息 $W$$\{1,\dots,2^{nR}\}$ 上均匀分布。发送端把对应码字 $X^n(W)$ 送入信道,接收端观察到输出 $Y^n$

第三步:联合典型译码

译码器寻找唯一一个消息 $\hat m$,使得

$$(X^n(\hat m),Y^n)\in A_\epsilon^{(n)}$$

如果没有这样的消息,或有多个这样的消息,就判为错误。

第四步:把错误事件拆成两类

不妨假设发的是消息 1。错误可分成:

  • $E_0$:真实码字和接收序列不联合典型,即 $(X^n(1),Y^n)\notin A_\epsilon^{(n)}$
  • $E_i$$i\ge 2$:某个错误消息 $i$ 的码字反而和 $Y^n$ 联合典型

由并集界

$$P_e^{(n)} = P(E_0\cup E_2\cup\cdots\cup E_{2^{nR}})\le P(E_0)+\sum_{i=2}^{2^{nR}} P(E_i)$$

第五步:分别估计两项

$E_0$:由于真实对 $(X^n(1),Y^n)$ 的确来自联合分布,联合 AEP 性质 1 给出

$$P(E_0)\to 0,\quad \text{当 }n\to\infty$$

对每个 $E_i$$i\ge 2$:注意错误码字 $X^n(i)$ 与接收序列 $Y^n$ 是独立的(因为 $X^n(i)$ 来自独立随机采样,与真实发送的码字和输出都独立),所以由联合 AEP 性质 3

$$P(E_i)\lesssim 2^{-n(I(X;Y)-\epsilon)}$$

而一共有大约 $2^{nR}$ 个错误码字,因此

$$\sum_{i=2}^{2^{nR}} P(E_i)\lesssim 2^{nR}\cdot 2^{-n(I(X;Y)-\epsilon)}=2^{-n(I(X;Y)-R-\epsilon)}$$

综合得到

$$P_e^{(n)} \le \underbrace{P(E_0)}_{\to 0} + \underbrace{2^{-n(I(X;Y)-R-\epsilon)}}_{\text{关键项}}$$

只要

$$R < I(X;Y)-\epsilon$$

第二项就随 $n$ 指数衰减到 0。对输入分布取最大值,便得到:所有 $R<C$ 都可达,其中

$$C=\max_{p(x)} I(X;Y)$$

证明的核心洞察:指数为什么是关键

错误码字总数大约是 $2^{nR}$,每个错误码字伪装成真的概率大约是 $2^{-nI(X;Y)}$。只要 $R < I(X;Y)$,即"码字数量增长速度"慢于"伪装概率衰减速度",两者乘积就随 $n$ 指数下降。这解释了为什么容量公式是 $\max I(X;Y)$——它就是随机编码误差分析中自然冒出来的指数门槛。

PDF信道编码定理p.14
正在渲染 PDF 第 14 页…
信道编码定理(PDF 第 14 页) · 打开原文
PDF信道编码定理证明思路p.15
正在渲染 PDF 第 15 页…
信道编码定理证明思路(PDF 第 15 页) · 打开原文
例题 2
用联合典型性判断速率是否可达

题目:某 DMC 在某个输入分布下满足 $I(X;Y)=0.8$ bit/use。若系统尝试用随机编码以 $R=0.6$ bit/use 传输,问为什么这可行?若改成 $R=0.95$ bit/use,会发生什么?

解答

随机编码误差分析给出误差上界

$$P_e^{(n)} \le \epsilon + 2^{-n(I(X;Y)-R-\epsilon)}$$

$R=0.6$ 时,选择足够小的 $\epsilon$ 使得

$$I(X;Y)-R-\epsilon = 0.8-0.6-\epsilon >0$$

于是第二项随 $n$ 指数下降,错误概率可趋于 0。所以该速率在这个输入分布下可达。

$R=0.95$,则

$$I(X;Y)-R-\epsilon = 0.8-0.95-\epsilon <0$$

此时错误码字数量增长太快,联合典型误判项无法压下去。至少用这个输入分布不可能可靠。若该信道容量 $C\le 0.8$,则任何 $R=0.95$ 的方案都不可能可靠。

7.12
逆定理、费诺不等式与"超过容量一定不行"

正向定理说明了"存在性",逆定理则说明容量真的是硬上限。

逆定理通常借助费诺不等式。设消息 $W$$M$ 条消息上均匀分布,译码结果为 $\hat W$,则费诺不等式给出

$$H(W|\hat W) \le H(P_e)+P_e\log_2(M-1)$$

另一方面,由数据处理不等式与链式法则可以推出

$$I(W;\hat W) \le I(X^n;Y^n) \le nC$$

再结合

$$H(W)=\log_2 M = nR$$

就会得到:若错误概率真的趋于 0,则必须有 $R\le C$。因此 $R>C$ 的可靠传输不可能实现。

正向定理说"容量以下有路",逆定理说"容量以上无路"。两边夹住,容量才成为完整答案。

PDF信道编码定理逆定理p.16
正在渲染 PDF 第 16 页…
信道编码定理逆定理(PDF 第 16 页) · 打开原文
7.13
几个具体编码方案:为什么简单方案离容量还很远

为了感受香农定理的威力,看看几个传统方案:

重复码

每个比特重复发送 $n$ 次,多数表决译码。它确实能降低错误率,但码率只有 $1/n$,随着可靠性提高反而趋向 0。

奇偶校验码

在若干信息位后附加校验位,可以检测部分错误,但通常不能纠错,能力有限。

Hamming 码

例如 $(7,4)$ Hamming 码,用 7 位传 4 位信息,最小距离为 3,可纠正 1 位错误。它是结构非常漂亮的线性码,但离一般信道容量仍有差距。

这些例子告诉我们:香农定理说的是存在非常好的长码,不代表随便一个短码就能逼近容量。

PDF重复码与 Hamming 码p.18
正在渲染 PDF 第 18 页…
重复码与 Hamming 码(PDF 第 18 页) · 打开原文
7.14
反馈信道:反馈能帮助设计,但不能提高 DMC 容量

如果接收端把过去收到的内容反馈给发送端,发送端就能边发边调整策略。这听起来应该更强,但对离散无记忆信道,结论很克制:

$$C_{FB}=C$$

也就是说,反馈不能提高 DMC 的容量

为什么这不矛盾?因为容量衡量的是"长期可靠通信速率上限",而无记忆信道每次传输的统计规律并不会因反馈改变。反馈可以帮助:

  • 简化编解码策略
  • 改进有限码长性能
  • 降低时延或复杂度

但它改变不了单次信道中能通过多少新信息这一根本上限。

PDF反馈信道p.22
正在渲染 PDF 第 22 页…
反馈信道(PDF 第 22 页) · 打开原文
7.15
信源信道分离定理:压缩和纠错可以分开做

这是本章和前两章最重要的连接。

设信源熵率为 $H$,信道容量为 $C$。分离定理说:

  • $H<C$,则信源可以被可靠传输
  • $H>C$,则不可能可靠传输

为什么成立

$H<C$,先用信源编码把冗余压缩掉,使输出速率接近 $H$;再用信道编码把它嵌进一个小于 $C$ 的可靠信道码里。前者解决"消息太长",后者解决"信道太吵"。

$H>C$,即使压缩到理论极限,消息率仍然高于信道可承受的可靠速率,因此无论怎样设计都无解。

工程意义:这一定理解释了为什么现代通信系统常常分模块设计:上游做压缩,下游做纠错。对离散无记忆模型,这样做在理论上并不吃亏。
PDF信源信道分离定理p.24
正在渲染 PDF 第 24 页…
信源信道分离定理(PDF 第 24 页) · 打开原文
7.16
本章与整门课的连接
  • 与第2章:容量定义直接建立在互信息 $I(X;Y)$
  • 与第3章:联合典型集与联合 AEP 是信道编码定理正向证明的技术核心
  • 与第5-6章:信源编码负责把消息率压到接近熵,分离定理把二者接起来
  • 与后续高斯信道章节:第7章给出离散容量框架,第9章把它推广到连续高斯模型

因此,第7章在整门信息论里的地位非常核心:它把"信息量"从描述问题推进到了传输问题。

复习速查

容量定义

  • DMC:$p(y^n|x^n)=\prod_i p(y_i|x_i)$
  • 容量:$C=\max_{p(x)} I(X;Y)$,单位 bit/信道使用
  • 性质:$C\ge 0$$C\le \log_2|\mathcal{X}|$$I(X;Y)$$p(x)$

典型信道容量

  • 弱对称信道:均匀输入达到容量 $C=\log_2|\mathcal{Y}|-H(y|\mathcal{X})$
  • BSC:$C=1-H_2(p)$,其中 $H_2(p)=-p\log_2 p-(1-p)\log_2(1-p)$
  • BEC:$C=1-\epsilon$

联合典型集性质

  • 高概率:$P\big((X^n,Y^n)\in A_\epsilon^{(n)}\big)\to 1$
  • 集合大小:$|A_\epsilon^{(n)}|approx 2^{nH(X,Y)}$
  • 独立样本:$P\big((\tilde X^n,\tilde Y^n)\in A_\epsilon^{(n)}\big)approx 2^{-nI(X;Y)}$

信道编码定理(香农第二定理)

  • 正向:$R<C$ 时可达(随机编码 + 联合典型译码)
  • 逆:$R>C$ 时不可靠

五步法核心

  1. 随机生成 $2^{nR}$ 个码字(均匀输入分布)
  2. 发送真实消息 $W$
  3. 联合典型译码:找唯一满足 $(X^n(\hat m),Y^n)\in A_\epsilon^{(n)}$$\hat m$
  4. 错误事件:$E_0$(真实对不典型)+ $E_i$(错误码字碰巧典型)
  5. 上界:$P_e^{(n)}\le \epsilon + 2^{nR}\cdot 2^{-n(I(X;Y)-\epsilon)}$$R<I(X;Y)$ 时指数衰减

分离定理

  • $H<C$:先压缩至接近 $H$,再信道编码嵌进可靠码
  • $H>C$:无论怎样设计都无解

参考来源

  • 课程课件《第七章 信道容量》(中国科学技术大学 刘斌):信道容量定义、对称信道、BSC/BEC、联合典型集、信道编码定理、反馈信道、分离定理
    PDF第七章课件p.1

    pdf/information-theory/第七章.pdf · p.1

    打开原文

  • Georgia Tech ECE587 课程页面:Lecture 12-16 覆盖 channel capacity、joint typicality、channel coding theorem、feedback、separation
  • UMD ENEE627 课程页面:Lecture 13-20 覆盖 channel capacity、jointly typical sequences、Shannon theorem、feedback capacity、source-channel separation
  • Cover & Thomas, Elements of Information Theory, Chapter 7