ESC
输入关键词搜索文章
目录

随机变量与一元概率分布

第 3 章 · 洪永淼 · XMU WISE
从样本空间到实数轴,从分布函数到特征函数
11核心章节
14重要定理
25关键公式
3课件引用

第 3 章的核心任务是:将第 2 章建立的样本空间 $S$ 上的概率法则,通过随机变量映射到实数轴 $\mathbb{R}$ 上,建立一元概率分布的完整理论体系。

第一节
随机变量

原始样本空间 $S$ 因随机试验而异,建立统一的概率理论需要将任意 $S$ 映射到通用空间--实数集 $\mathbb{R}$

随机变量的定义

随机变量 $X(\cdot)$ 是从样本空间 $S$ 到实数集 $\mathbb{R}$$\mathcal{B}$可测映射(measurable function)。

对每个基本结果 $s \in S$,存在唯一的实数 $X(s)$ 与之对应。$X$ 可能取的所有实数值的集合构成新的样本空间 $\Omega$,称为 $X$值域

可测性的关键意义:确保 $\{s \in S: X(s) \leq a\} \in \mathcal{B}$,从而概率 $P(X \leq a)$ 有定义。若 $X(\cdot)$ 不可测,则存在某些实数子集无法定义概率。

$P(\cdot)$$P_X(\cdot)$

原样本空间 $S$ 上的概率函数 $P(\cdot)$ 诱导出新样本空间 $\Omega$ 上的概率函数 $P_X(\cdot)$:

$$P_X(A) = P(\{s \in S: X(s) \in A\}), \quad A \in \mathcal{B}_\Omega$$

可以验证,$P_X(\cdot)$ 也满足概率函数的三条公理--诱导概率函数也是合法的概率函数。

课件对应:
PDF随机变量定义(第3章 第3页)p.3
正在渲染 PDF 第 3 页…
随机变量定义(第3章 第3页)(PDF 第 3 页) · 打开原文
第二节
累积分布函数(CDF)

CDF 的定义

随机变量 $X$ 的累积分布函数(CDF)为

$$F_X(x) = P(X \leq x), \quad x \in \mathbb{R}$$

CDF 的三条基本性质:

  1. 规范性:$\lim_{x \to -\infty} F_X(x) = 0$,$\lim_{x \to +\infty} F_X(x) = 1$
  2. 单调非递减:$x_1 < x_2 \Rightarrow F_X(x_1) \leq F_X(x_2)$
  3. 右连续:$\lim_{\delta \to 0^+} F_X(x + \delta) = F_X(x)$

从 CDF 求概率:

$$P(a < X \leq b) = F_X(b) - F_X(a), \quad a < b$$
同分布
$$F_X(x) = F_Y(x), \quad \forall x \in \mathbb{R} \Longleftrightarrow X \text{ 与 } Y \text{ 同分布}$$
注意:同分布不意味着 $X = Y$--两者可以定义在不同的样本空间上,只要 CDF 一致即可。
一阶随机占优

$F(x) \leq G(x)$(对所有 $x$),且存在严格不等式,则分布 $F$ 一阶随机占优 $G$。这意味着:对于任何递增效用函数,最大化预期效用的决策者会偏好 $F$

课件对应:
PDFCDF 定义(第3章 第18页)p.18
正在渲染 PDF 第 18 页…
CDF 定义(第3章 第18页)(PDF 第 18 页) · 打开原文
第三节
离散随机变量

离散随机变量与 PMF

离散随机变量(DRV):$X$ 可能的取值是有限个或可列个。

概率质量函数(PMF):$f_X(x) = P(X = x)$

PMF 性质:$0 \leq f_X(x) \leq 1$,$\sum_{x \in \Omega} f_X(x) = 1$

PMF 与 CDF 的关系:

$$F_X(x) = \sum_{y \leq x} f_X(y), \quad f_X(x_i) = F_X(x_i) - F_X(x_{i-1})$$
课件对应:
PDF离散随机变量与 PMF(第3章 第35页)p.35
正在渲染 PDF 第 35 页…
离散随机变量与 PMF(第3章 第35页)(PDF 第 35 页) · 打开原文
第四节
连续随机变量

连续随机变量的定义

连续随机变量(CRV):$X$ 的 CDF $F_X(x)$ 是实数集上的连续函数。

关键性质:$P(X = x) = 0$(对所有 $x \in \mathbb{R}$)

直观理解:类比卫星飞越中国领空--飞越整个中国需 1 小时,飞越福建省需 2 分钟,飞越厦门大学经济楼的时间接近 0 秒。对连续随机变量,任何单点值的概率均为零。

由于 PMF 不再适用,引入概率密度函数(PDF):

PDF 的定义

$F_X(x)$ 绝对连续,则存在 $f_X(x)$ 使 $F_X(x) = \int_{-\infty}^x f_X(y)\,dy$

PDF 性质:$f_X(x) \geq 0$,$\int_{-\infty}^{+\infty} f_X(x)\,dx = 1$

概率计算:$P(a < X \leq b) = \int_a^b f_X(x)\,dx$

类型描述工具归一性$P(X=x)$
离散PMF $f_X(x) = P(X=x)$$\sum f_X(x) = 1$$> 0$
连续PDF $f_X(x) = dF_X/dx$$\int f_X(x)dx = 1$$= 0$
PDF 与 CDF 的关系

由 CDF 的定义与 PDF 的含义,两者之间有如下的互推关系:

$$F_X(x) = \int_{-\infty}^{x} f_X(t)\,dt, \quad f_X(x) = F_X'(x)$$

即 CDF 是 PDF 的变上限积分,PDF 是 CDF 的导数。利用这对关系,已知其一即可求出另一个。

例题:已知 PDF 求 CDF(由密度求分布)

已知连续型随机变量 $X$ 的密度函数为

$$f_X(x) = \begin{cases} 2x, & 0 \le x \le 1 \\ 0, & \text{其他} \end{cases}$$

$F_X(x)$

解题过程

$F_X(x) = \int_{-\infty}^{x} f_X(t)\,dt$,需按 $x$ 的取值范围分段积分:

  • $x < 0$ 时:$F_X(x) = \int_{-\infty}^{x} 0\,dt = 0$
  • $0 \le x \le 1$ 时:$F_X(x) = \int_{-\infty}^{0} 0\,dt + \int_{0}^{x} 2t\,dt = x^2$
  • $x > 1$ 时:$F_X(x) = \int_{-\infty}^{0} 0\,dt + \int_{0}^{1} 2t\,dt + \int_{1}^{x} 0\,dt = 1$

因此

$$F_X(x) = \begin{cases} 0, & x < 0 \\ x^2, & 0 \le x \le 1 \\ 1, & x > 1 \end{cases}$$
要点:分段密度函数求 CDF 时,关键在于正确分段--当前区间的积分必须加上前面所有区间的累积值。同时注意积分哑变量应使用 $t$ 而非上限变量 $x$
一维连续型:PDF 与 CDF 的互推关系及例题
例题:已知 CDF 求 PDF(由分布求密度)

已知连续型随机变量 $X$ 的分布函数为

$$F_X(x) = \begin{cases} 0, & x < 0 \\ x, & 0 \le x \le 1 \\ 1, & x > 1 \end{cases}$$

$f_X(x)$

解题过程

$f_X(x) = F_X'(x)$,对每段分别求导:

  • $x < 0$ 时:$f_X(x) = 0' = 0$
  • $0 \le x \le 1$ 时:$f_X(x) = x' = 1$
  • $x > 1$ 时:$f_X(x) = 1' = 0$

因此

$$f_X(x) = \begin{cases} 1, & 0 \le x \le 1 \\ 0, & \text{其他} \end{cases}$$

这正是 $[0,1]$ 上的均匀分布的密度函数。

课件对应:
PDF一维连续型:PDF/CDF 关系与例题 · p.47–49p.47–49
正在渲染 PDF 第 47 页…
正在渲染 PDF 第 48 页…
正在渲染 PDF 第 49 页…
一维连续型:PDF/CDF 关系与例题(PDF p.47–49) · 打开原文
第五节
随机变量的函数

$X$ 是随机变量,$Y = g(X)$,则 $Y$ 也是随机变量($g$ 为 Borel 可测函数)。给定 $X$ 的分布,求 $Y$ 的 CDF/PMF/PDF 是本节的核心问题。

离散情形

对离散随机变量 $X$,$Y = g(X)$ 的 PMF 为:

$$f_Y(y) = \sum_{x \in \{x: g(x)=y\}} f_X(x)$$

即对所有使得 $g(x) = y$$x$,将对应的概率相加。

连续情形:CDF 方法

CDF 方法是求 $Y = g(X)$ 分布的通用方法:

  1. $F_Y(y) = P(Y \leq y) = P(g(X) \leq y)$
  2. $y$ 求导得密度 $f_Y(y) = F_Y'(y)$
  3. 验证 $f_Y(y) \geq 0$ 且积分为 1
连续情形:变换法

单变量变换定理

$g(\cdot)$ 严格单调且在 $X$ 的支撑上可导,则对 $Y = g(X)$:

$$f_Y(y) = f_X(x) \left|\frac{dx}{dy}\right|, \quad x = g^{-1}(y)$$

$g(x)$ 在多个区间分别严格单调,需将各区间的贡献相加。

概率积分变换

$X$ 的 CDF $F_X(x)$ 连续且严格单调递增,则 $Y = F_X(X) \sim U[0,1]$

这一结果可用于模拟生成任意概率分布的随机数,也可用于检验分布模型的拟合优度(QQ 图)。

第六节
数学期望

期望的定义

随机变量 $X$数学期望(expected value):

类型定义
离散$E[X] = \sum_{x \in \Omega} x \cdot f_X(x)$
连续$E[X] = \int_{-\infty}^{+\infty} x \cdot f_X(x) \, dx$

更一般地,对可测函数 $g(X)$:

$$E[g(X)] = \sum_{x \in \Omega} g(x) \cdot f_X(x) \quad \text{或} \quad \int_{-\infty}^{+\infty} g(x) \cdot f_X(x)\,dx$$

期望刻画的是随机变量在大量重复试验中的“平均”取值——它是概率加权的平均值。期望未必是 $X$ 最可能取到的值,甚至可能不在 $X$ 的支撑集内。

$E(g(X))$:随机变量函数的期望

$Y = g(X)$,不需要先求 $Y$ 的分布,可以直接用 $X$ 的分布计算:

$$E[g(X)] = \sum_{x \in \Omega} g(x) \cdot f_X(x) \quad \text{或} \quad \int_{-\infty}^{+\infty} g(x) \cdot f_X(x)\,dx$$

例如计算 $E(X^2)$ 时,$g(x) = x^2$,直接代入 $X$ 的取值平方乘以对应概率即可。这是方差的计算捷径 $DX = E(X^2) - (EX)^2$ 的理论基础。

期望的线性性
$$E[aX + b] = aE[X] + b, \quad E[X + Y] = E[X] + E[Y]$$

线性性对独立与否没有要求--期望的线性性总是成立。

詹森不等式

$g(\cdot)$ 为凹函数,则:

$$E[g(X)] \leq g(E[X])$$

经济含义:风险厌恶型主体(凹效用函数 $g$)在不确定条件下偏好确定收入 $E[X]$ 而非随机收入 $X$。金融学中期权支付函数是凸函数,不等号方向反转。

课件对应:
PDF离散型随机变量的期望与方差(第3章 第40页起)p.40
正在渲染 PDF 第 40 页…
离散型随机变量的期望与方差(第3章 第40页起)(PDF 第 40 页) · 打开原文
第七节

$k$ 阶矩与 $k$ 阶中心矩

$k$ 阶矩:$\mu_k' = E[X^k]$

$k$ 阶中心矩:$\mu_k = E[(X - E[X])^k]$

阶数原点矩中心矩含义
$k=1$$\mu_1' = E[X]$0均值(位置参数)
$k=2$$\mu_2' = E[X^2]$$\sigma_X^2 = E[(X-\mu)^2]$方差(尺度参数,不确定性度量)
$k=3$$E[X^3]$$E[(X-\mu)^3]$偏度(非对称性)
$k=4$$E[X^4]$$E[(X-\mu)^4]$峰度(厚尾程度)
方差与标准差

方差 $E[(X-\mu_X)^2]$ 度量概率分布在均值周围的分散程度。实际计算中最常用的公式:

$$\sigma_X^2 = E[X^2] - (E[X])^2$$
直觉$E(X^2)$$X$ 取值平方的加权平均,$(EX)^2$ 是均值的平方。两者之差就是方差——偏差平方的期望减去均值平方,恰好等于偏差的方差。这个公式避免了逐项计算 $(x_i - EX)^2$,是实践中最常用的方差计算捷径。

线性变换 $Y = a + bX$ 的均值与方差:

$$E[Y] = a + bE[X], \quad \sigma_Y^2 = b^2 \sigma_X^2$$
经济学应用:投资组合 $Y = zX + (I-z)r$,其中 $z$ 为风险资产投资额,$r$ 为无风险利率。组合预期收益 $\mu_Y = z\mu_X + (I-z)r$,风险 $\sigma_Y^2 = z^2\sigma_X^2$。参数 $a$(位置)和 $b$(尺度)分别对应无风险和风险配置。
偏度

标准化三阶中心矩:$S_X = E\left[\left(\frac{X-\mu_X}{\sigma_X}\right)^3\right]$

$S_X > 0$ 表示右尾更长,$S_X < 0$ 表示左尾更长。金融中,负偏度表示大损失比大收益更容易发生。

峰度

标准化四阶中心矩:$K_X = E\left[\left(\frac{X-\mu_X}{\sigma_X}\right)^4\right]$

  • $K_X < 3$:低峰态(平坦/细尾)
  • $K_X = 3$:常峰态(正态分布的基准)
  • $K_X > 3$:尖峰态(细长/厚尾)
例题:离散型随机变量的期望与方差

已知随机变量 $X$ 的分布律:

$X$$-2$$0$$1$$2$
$P$$0.3$$0.3$$0.2$$a$

由归一性:$0.3 + 0.3 + 0.2 + a = 1 \implies a = 0.2$

(1)求 $P\{0 \le X < 2\}$

$$P\{0 \le X < 2\} = P(X=0) + P(X=1) = 0.3 + 0.2 = 0.5$$

(2)求 $X^2$ 的分布律。

$X^2$ 的取值:$(-2)^2 = 4$,$0^2 = 0$,$1^2 = 1$,$2^2 = 4$。注意 $X=-2$$X=2$ 对应同一值 $4$,概率需合并:

$X^2$$0$$1$$4$
$P$$0.3$$0.2$$0.3+0.2=0.5$

(3)求 $EX$$E(X^2)$$DX$

$$EX = (-2)(0.3) + 0(0.3) + 1(0.2) + 2(0.2) = 0$$
$$E(X^2) = 4(0.3) + 0(0.3) + 1(0.2) + 4(0.2) = 2.2$$
$$DX = E(X^2) - (EX)^2 = 2.2 - 0^2 = 2.2$$
离散型随机变量的方差计算:从分布律到 $EX$$E(X^2)$$DX$ 的完整例题
要点:此题展示了离散型数字特征计算的标准流程--先由归一性确定未知参数,再逐项加权求和算期望,最后用 $DX = E(X^2) - (EX)^2$ 快速得到方差。$EX=0$ 说明 $X$ 正负对称;$DX=2.2$ 说明 $X$ 的取值围绕均值有较大的离散度。
第八节
分位数

$\alpha$-分位数

给定 $\alpha \in (0,1)$,分布 $F_X(x)$$\alpha$-分位数 $Q(\alpha)$ 满足:

$$F_X(Q(\alpha)) = P(X \leq Q(\alpha)) = \alpha$$

$F_X(x)$ 严格递增时,$Q(\alpha) = F_X^{-1}(\alpha)$(即 CDF 的反函数)。

中位数

$\alpha = 1/2$,$m = Q(1/2)$ 称为中位数。中位数将分布划分为等概率的两等份。

均值 vs 中位数:

  • 均值 $\mu_X$ 是最小化 $E[(X-c)^2]$ 的最优解(均方误差准则)
  • 中位数 $m$ 是最小化 $E|X-c|$ 的最优解(平均绝对误差准则)
  • 对于高偏度分布,中位数比均值更稳健地度量中心位置
分位数的应用

风险价值(Value at Risk, VaR)

在金融中,当 $X$ 为投资组合收益率时,$-Q(\alpha)$(如 $\alpha = 0.01$)称为风险价值(VaR)。

直观含义:实际损失以概率 $\alpha$ 超过 $-Q(\alpha)$ 这个临界值。VaR 被国际清算银行和商业银行用以设定资本充足水平。

第九节
矩生成函数

MGF 的定义

随机变量 $X$矩生成函数(MGF)定义为:

$$M_X(t) = E[e^{tX}] = \begin{cases} \sum_{x \in \Omega} e^{tx} f_X(x) & \text{离散} \\ \int_{-\infty}^{+\infty} e^{tx} f_X(x)\,dx & \text{连续} \end{cases}$$

若上述期望对 $t$ 在 0 的某个邻域 $(-\epsilon, \epsilon)$ 内存在,则称 $M_X(t)$ 存在。

MGF 的核心性质

1. 生成各阶矩:若 $M_X(t)$ 在 0 的某邻域内存在,则

$$M_X^{(k)}(0) = E[X^k]$$

即对 $M_X(t)$$t=0$ 处求 $k$ 阶导数即得 $k$ 阶矩。特别地:

$$E[X] = M_X'(0), \quad E[X^2] = M_X''(0)$$

2. 线性变换:若 $Y = a + bX$,则

$$M_Y(t) = e^{at} M_X(bt)$$

3. 唯一性定理:若两个随机变量 $X$$Y$ 的 MGF 在 0 的某邻域内相等,则 $X$$Y$ 同分布。

4. 收敛性定理:若 $M_{X_n}(t) \to M_X(t)$(在 0 的某邻域内逐点收敛),则 $X_n \xrightarrow{d} X$(依分布收敛)。这是用 MGF 证明极限分布的主要工具。

注意:MGF 不一定存在。例如柯西分布和对数正态分布的 MGF 不存在。此时需要用到特征函数。
第十节
特征函数

特征函数的定义

随机变量 $X$特征函数定义为:

$$\varphi_X(t) = E[e^{itX}] = \begin{cases} \sum_{x \in \Omega} e^{itx} f_X(x) & \text{离散} \\ \int_{-\infty}^{+\infty} e^{itx} f_X(x)\,dx & \text{连续} \end{cases}$$

其中 $i = \sqrt{-1}$,$t \in \mathbb{R}$

特征函数的性质
  1. 总是存在且有界:$|\varphi_X(t)| \leq 1$,对任意概率分布和所有实数 $t$
  2. $\varphi_X(0) = 1$
  3. 一致连续:$\varphi_X(t)$$(-\infty, \infty)$ 上连续
  4. 线性变换:$Y = a + bX \Rightarrow \varphi_Y(t) = e^{iat} \varphi_X(bt)$
  5. 与 MGF 的关系:若 $M_X(t)$ 存在,则 $\varphi_X(t) = M_X(it)$
特征函数相比 MGF 的优势
  • MGF $M_X(t)$ 对某些分布不存在(如柯西分布、对数正态分布),但特征函数 $\varphi_X(t)$ 对所有分布总是存在
  • 特征函数是 CDF 的傅里叶变换,通过逆傅里叶变换可还原 PMF/PDF
特征函数的核心定理

1. 生成矩:若 $E[X^k]$ 存在,则

$$\varphi_X^{(k)}(0) = i^k E[X^k]$$

2. 唯一性定理:两个随机变量 $X$$Y$ 同分布,当且仅当对所有 $t \in \mathbb{R}$,$\varphi_X(t) = \varphi_Y(t)$

3. 收敛定理(Lévy 连续性定理):

  • $F_n(x) \to F_X(x)$(依分布收敛),则 $\varphi_n(t) \to \varphi_X(t)$(逐点收敛)
  • $\varphi_n(t) \to \varphi_X(t)$$\varphi_X(t)$$t=0$ 处连续,则 $F_n(x) \to F_X(x)$
经济学与金融学应用:仿射跳跃扩散模型和 Lévy 过程的 PDF 没有解析形式,但特征函数有解析形式。因此可用特征函数进行参数估计和统计推断。稳态分布本身就是用特征函数定义的。
第十一节
小结

第 3 章建立了描述随机变量概率分布的完整工具链:

工具作用覆盖范围
CDF统一描述离散/连续分布所有随机变量
PMF / PDF分别刻画离散/连续型的概率结构各自类型
矩(期望、方差、偏度、峰度)摘要分布的总体特征矩存在时
分位数描述分布的位置与尾部风险所有随机变量
MGF生成各阶矩、刻画分布、证明收敛MGF 存在时
特征函数MGF 的推广,总是存在所有随机变量
一条主线:从 CDF 出发,PMF/PDF 是 CDF 的微分描述;矩是 CDF 的数值摘要(通过积分);MGF 和特征函数则是 CDF 的变换域表示(拉普拉斯变换 / 傅里叶变换),具有唯一性和收敛性。
核心公式速查表
概念公式
CDF 定义$F_X(x) = P(X \leq x)$
CDF 概率计算$P(a < X \leq b) = F_X(b) - F_X(a)$
PMF 归一性$\sum_x f_X(x) = 1$(离散)
PDF 归一性$\int_{-\infty}^{+\infty} f_X(x)dx = 1$(连续)
离散期望$EX = \sum_i x_i \, f_X(x_i)$
连续期望$EX = \int x \, f_X(x)\,dx$
方差计算公式$DX = E(X^2) - (EX)^2$
函数期望$E[g(X)] = \sum_i g(x_i) \, f_X(x_i)$
偏度$S_X = E\left[\left(\frac{X-\mu}{\sigma}\right)^3\right]$
峰度$K_X = E\left[\left(\frac{X-\mu}{\sigma}\right)^4\right]$
$\alpha$-分位数$F_X(Q(\alpha)) = \alpha$
MGF 定义$M_X(t) = E[e^{tX}]$
MGF 生成矩$E[X^k] = M_X^{(k)}(0)$
特征函数定义$\varphi_X(t) = E[e^{itX}]$
特征函数生成矩$E[X^k] = \varphi_X^{(k)}(0) / i^k$