随机变量与一元概率分布
第 3 章的核心任务是:将第 2 章建立的样本空间 $S$ 上的概率法则,通过随机变量映射到实数轴 $\mathbb{R}$ 上,建立一元概率分布的完整理论体系。
原始样本空间 $S$ 因随机试验而异,建立统一的概率理论需要将任意 $S$ 映射到通用空间--实数集 $\mathbb{R}$。
随机变量的定义
随机变量 $X(\cdot)$ 是从样本空间 $S$ 到实数集 $\mathbb{R}$ 的 $\mathcal{B}$可测映射(measurable function)。
对每个基本结果 $s \in S$,存在唯一的实数 $X(s)$ 与之对应。$X$ 可能取的所有实数值的集合构成新的样本空间 $\Omega$,称为 $X$ 的值域。
可测性的关键意义:确保 $\{s \in S: X(s) \leq a\} \in \mathcal{B}$,从而概率 $P(X \leq a)$ 有定义。若 $X(\cdot)$ 不可测,则存在某些实数子集无法定义概率。
原样本空间 $S$ 上的概率函数 $P(\cdot)$ 诱导出新样本空间 $\Omega$ 上的概率函数 $P_X(\cdot)$:
可以验证,$P_X(\cdot)$ 也满足概率函数的三条公理--诱导概率函数也是合法的概率函数。
CDF 的定义
随机变量 $X$ 的累积分布函数(CDF)为
CDF 的三条基本性质:
- 规范性:$\lim_{x \to -\infty} F_X(x) = 0$,$\lim_{x \to +\infty} F_X(x) = 1$
- 单调非递减:$x_1 < x_2 \Rightarrow F_X(x_1) \leq F_X(x_2)$
- 右连续:$\lim_{\delta \to 0^+} F_X(x + \delta) = F_X(x)$
从 CDF 求概率:
若 $F(x) \leq G(x)$(对所有 $x$),且存在严格不等式,则分布 $F$ 一阶随机占优 $G$。这意味着:对于任何递增效用函数,最大化预期效用的决策者会偏好 $F$。
离散随机变量与 PMF
离散随机变量(DRV):$X$ 可能的取值是有限个或可列个。
概率质量函数(PMF):$f_X(x) = P(X = x)$
PMF 性质:$0 \leq f_X(x) \leq 1$,$\sum_{x \in \Omega} f_X(x) = 1$
PMF 与 CDF 的关系:
连续随机变量的定义
连续随机变量(CRV):$X$ 的 CDF $F_X(x)$ 是实数集上的连续函数。
关键性质:$P(X = x) = 0$(对所有 $x \in \mathbb{R}$)
由于 PMF 不再适用,引入概率密度函数(PDF):
PDF 的定义
若 $F_X(x)$ 绝对连续,则存在 $f_X(x)$ 使 $F_X(x) = \int_{-\infty}^x f_X(y)\,dy$。
PDF 性质:$f_X(x) \geq 0$,$\int_{-\infty}^{+\infty} f_X(x)\,dx = 1$
概率计算:$P(a < X \leq b) = \int_a^b f_X(x)\,dx$
| 类型 | 描述工具 | 归一性 | $P(X=x)$ |
|---|---|---|---|
| 离散 | PMF $f_X(x) = P(X=x)$ | $\sum f_X(x) = 1$ | $> 0$ |
| 连续 | PDF $f_X(x) = dF_X/dx$ | $\int f_X(x)dx = 1$ | $= 0$ |
由 CDF 的定义与 PDF 的含义,两者之间有如下的互推关系:
即 CDF 是 PDF 的变上限积分,PDF 是 CDF 的导数。利用这对关系,已知其一即可求出另一个。
已知连续型随机变量 $X$ 的密度函数为
求 $F_X(x)$。
解题过程
由 $F_X(x) = \int_{-\infty}^{x} f_X(t)\,dt$,需按 $x$ 的取值范围分段积分:
- 当 $x < 0$ 时:$F_X(x) = \int_{-\infty}^{x} 0\,dt = 0$
- 当 $0 \le x \le 1$ 时:$F_X(x) = \int_{-\infty}^{0} 0\,dt + \int_{0}^{x} 2t\,dt = x^2$
- 当 $x > 1$ 时:$F_X(x) = \int_{-\infty}^{0} 0\,dt + \int_{0}^{1} 2t\,dt + \int_{1}^{x} 0\,dt = 1$
因此
已知连续型随机变量 $X$ 的分布函数为
求 $f_X(x)$。
解题过程
由 $f_X(x) = F_X'(x)$,对每段分别求导:
- 当 $x < 0$ 时:$f_X(x) = 0' = 0$
- 当 $0 \le x \le 1$ 时:$f_X(x) = x' = 1$
- 当 $x > 1$ 时:$f_X(x) = 1' = 0$
因此
这正是 $[0,1]$ 上的均匀分布的密度函数。
若 $X$ 是随机变量,$Y = g(X)$,则 $Y$ 也是随机变量($g$ 为 Borel 可测函数)。给定 $X$ 的分布,求 $Y$ 的 CDF/PMF/PDF 是本节的核心问题。
对离散随机变量 $X$,$Y = g(X)$ 的 PMF 为:
即对所有使得 $g(x) = y$ 的 $x$,将对应的概率相加。
CDF 方法是求 $Y = g(X)$ 分布的通用方法:
- 求 $F_Y(y) = P(Y \leq y) = P(g(X) \leq y)$
- 对 $y$ 求导得密度 $f_Y(y) = F_Y'(y)$
- 验证 $f_Y(y) \geq 0$ 且积分为 1
单变量变换定理
若 $g(\cdot)$ 严格单调且在 $X$ 的支撑上可导,则对 $Y = g(X)$:
若 $g(x)$ 在多个区间分别严格单调,需将各区间的贡献相加。
概率积分变换
若 $X$ 的 CDF $F_X(x)$ 连续且严格单调递增,则 $Y = F_X(X) \sim U[0,1]$。
这一结果可用于模拟生成任意概率分布的随机数,也可用于检验分布模型的拟合优度(QQ 图)。
期望的定义
随机变量 $X$ 的数学期望(expected value):
| 类型 | 定义 |
|---|---|
| 离散 | $E[X] = \sum_{x \in \Omega} x \cdot f_X(x)$ |
| 连续 | $E[X] = \int_{-\infty}^{+\infty} x \cdot f_X(x) \, dx$ |
更一般地,对可测函数 $g(X)$:
期望刻画的是随机变量在大量重复试验中的“平均”取值——它是概率加权的平均值。期望未必是 $X$ 最可能取到的值,甚至可能不在 $X$ 的支撑集内。
若 $Y = g(X)$,不需要先求 $Y$ 的分布,可以直接用 $X$ 的分布计算:
例如计算 $E(X^2)$ 时,$g(x) = x^2$,直接代入 $X$ 的取值平方乘以对应概率即可。这是方差的计算捷径 $DX = E(X^2) - (EX)^2$ 的理论基础。
线性性对独立与否没有要求--期望的线性性总是成立。
若 $g(\cdot)$ 为凹函数,则:
经济含义:风险厌恶型主体(凹效用函数 $g$)在不确定条件下偏好确定收入 $E[X]$ 而非随机收入 $X$。金融学中期权支付函数是凸函数,不等号方向反转。
$k$ 阶矩与 $k$ 阶中心矩
$k$ 阶矩:$\mu_k' = E[X^k]$
$k$ 阶中心矩:$\mu_k = E[(X - E[X])^k]$
| 阶数 | 原点矩 | 中心矩 | 含义 |
|---|---|---|---|
| $k=1$ | $\mu_1' = E[X]$ | 0 | 均值(位置参数) |
| $k=2$ | $\mu_2' = E[X^2]$ | $\sigma_X^2 = E[(X-\mu)^2]$ | 方差(尺度参数,不确定性度量) |
| $k=3$ | $E[X^3]$ | $E[(X-\mu)^3]$ | 偏度(非对称性) |
| $k=4$ | $E[X^4]$ | $E[(X-\mu)^4]$ | 峰度(厚尾程度) |
方差 $E[(X-\mu_X)^2]$ 度量概率分布在均值周围的分散程度。实际计算中最常用的公式:
线性变换 $Y = a + bX$ 的均值与方差:
标准化三阶中心矩:$S_X = E\left[\left(\frac{X-\mu_X}{\sigma_X}\right)^3\right]$
$S_X > 0$ 表示右尾更长,$S_X < 0$ 表示左尾更长。金融中,负偏度表示大损失比大收益更容易发生。
标准化四阶中心矩:$K_X = E\left[\left(\frac{X-\mu_X}{\sigma_X}\right)^4\right]$
- $K_X < 3$:低峰态(平坦/细尾)
- $K_X = 3$:常峰态(正态分布的基准)
- $K_X > 3$:尖峰态(细长/厚尾)
已知随机变量 $X$ 的分布律:
| $X$ | $-2$ | $0$ | $1$ | $2$ |
|---|---|---|---|---|
| $P$ | $0.3$ | $0.3$ | $0.2$ | $a$ |
由归一性:$0.3 + 0.3 + 0.2 + a = 1 \implies a = 0.2$
(1)求 $P\{0 \le X < 2\}$。
(2)求 $X^2$ 的分布律。
$X^2$ 的取值:$(-2)^2 = 4$,$0^2 = 0$,$1^2 = 1$,$2^2 = 4$。注意 $X=-2$ 和 $X=2$ 对应同一值 $4$,概率需合并:
| $X^2$ | $0$ | $1$ | $4$ |
|---|---|---|---|
| $P$ | $0.3$ | $0.2$ | $0.3+0.2=0.5$ |
(3)求 $EX$、$E(X^2)$、$DX$。
$\alpha$-分位数
给定 $\alpha \in (0,1)$,分布 $F_X(x)$ 的 $\alpha$-分位数 $Q(\alpha)$ 满足:
当 $F_X(x)$ 严格递增时,$Q(\alpha) = F_X^{-1}(\alpha)$(即 CDF 的反函数)。
当 $\alpha = 1/2$,$m = Q(1/2)$ 称为中位数。中位数将分布划分为等概率的两等份。
均值 vs 中位数:
- 均值 $\mu_X$ 是最小化 $E[(X-c)^2]$ 的最优解(均方误差准则)
- 中位数 $m$ 是最小化 $E|X-c|$ 的最优解(平均绝对误差准则)
- 对于高偏度分布,中位数比均值更稳健地度量中心位置
风险价值(Value at Risk, VaR)
在金融中,当 $X$ 为投资组合收益率时,$-Q(\alpha)$(如 $\alpha = 0.01$)称为风险价值(VaR)。
直观含义:实际损失以概率 $\alpha$ 超过 $-Q(\alpha)$ 这个临界值。VaR 被国际清算银行和商业银行用以设定资本充足水平。
MGF 的定义
随机变量 $X$ 的矩生成函数(MGF)定义为:
若上述期望对 $t$ 在 0 的某个邻域 $(-\epsilon, \epsilon)$ 内存在,则称 $M_X(t)$ 存在。
1. 生成各阶矩:若 $M_X(t)$ 在 0 的某邻域内存在,则
即对 $M_X(t)$ 在 $t=0$ 处求 $k$ 阶导数即得 $k$ 阶矩。特别地:
2. 线性变换:若 $Y = a + bX$,则
3. 唯一性定理:若两个随机变量 $X$ 和 $Y$ 的 MGF 在 0 的某邻域内相等,则 $X$ 和 $Y$ 同分布。
4. 收敛性定理:若 $M_{X_n}(t) \to M_X(t)$(在 0 的某邻域内逐点收敛),则 $X_n \xrightarrow{d} X$(依分布收敛)。这是用 MGF 证明极限分布的主要工具。
特征函数的定义
随机变量 $X$ 的特征函数定义为:
其中 $i = \sqrt{-1}$,$t \in \mathbb{R}$。
- 总是存在且有界:$|\varphi_X(t)| \leq 1$,对任意概率分布和所有实数 $t$
- $\varphi_X(0) = 1$
- 一致连续:$\varphi_X(t)$ 在 $(-\infty, \infty)$ 上连续
- 线性变换:$Y = a + bX \Rightarrow \varphi_Y(t) = e^{iat} \varphi_X(bt)$
- 与 MGF 的关系:若 $M_X(t)$ 存在,则 $\varphi_X(t) = M_X(it)$
- MGF $M_X(t)$ 对某些分布不存在(如柯西分布、对数正态分布),但特征函数 $\varphi_X(t)$ 对所有分布总是存在
- 特征函数是 CDF 的傅里叶变换,通过逆傅里叶变换可还原 PMF/PDF
1. 生成矩:若 $E[X^k]$ 存在,则
2. 唯一性定理:两个随机变量 $X$ 和 $Y$ 同分布,当且仅当对所有 $t \in \mathbb{R}$,$\varphi_X(t) = \varphi_Y(t)$。
3. 收敛定理(Lévy 连续性定理):
- 若 $F_n(x) \to F_X(x)$(依分布收敛),则 $\varphi_n(t) \to \varphi_X(t)$(逐点收敛)
- 若 $\varphi_n(t) \to \varphi_X(t)$ 且 $\varphi_X(t)$ 在 $t=0$ 处连续,则 $F_n(x) \to F_X(x)$
第 3 章建立了描述随机变量概率分布的完整工具链:
| 工具 | 作用 | 覆盖范围 |
|---|---|---|
| CDF | 统一描述离散/连续分布 | 所有随机变量 |
| PMF / PDF | 分别刻画离散/连续型的概率结构 | 各自类型 |
| 矩(期望、方差、偏度、峰度) | 摘要分布的总体特征 | 矩存在时 |
| 分位数 | 描述分布的位置与尾部风险 | 所有随机变量 |
| MGF | 生成各阶矩、刻画分布、证明收敛 | MGF 存在时 |
| 特征函数 | MGF 的推广,总是存在 | 所有随机变量 |
| 概念 | 公式 |
|---|---|
| CDF 定义 | $F_X(x) = P(X \leq x)$ |
| CDF 概率计算 | $P(a < X \leq b) = F_X(b) - F_X(a)$ |
| PMF 归一性 | $\sum_x f_X(x) = 1$(离散) |
| PDF 归一性 | $\int_{-\infty}^{+\infty} f_X(x)dx = 1$(连续) |
| 离散期望 | $EX = \sum_i x_i \, f_X(x_i)$ |
| 连续期望 | $EX = \int x \, f_X(x)\,dx$ |
| 方差计算公式 | $DX = E(X^2) - (EX)^2$ |
| 函数期望 | $E[g(X)] = \sum_i g(x_i) \, f_X(x_i)$ |
| 偏度 | $S_X = E\left[\left(\frac{X-\mu}{\sigma}\right)^3\right]$ |
| 峰度 | $K_X = E\left[\left(\frac{X-\mu}{\sigma}\right)^4\right]$ |
| $\alpha$-分位数 | $F_X(Q(\alpha)) = \alpha$ |
| MGF 定义 | $M_X(t) = E[e^{tX}]$ |
| MGF 生成矩 | $E[X^k] = M_X^{(k)}(0)$ |
| 特征函数定义 | $\varphi_X(t) = E[e^{itX}]$ |
| 特征函数生成矩 | $E[X^k] = \varphi_X^{(k)}(0) / i^k$ |