第3章:随机变量与一元概率分布

2026/05/26 12:31:54

数学概率论·22 min read

概率论随机变量累积分布函数矩生成函数特征函数

第 3 章的核心任务是:将第 2 章建立的样本空间 $$S$$ 上的概率法则,通过随机变量映射到实数轴 $\mathbb{R}$ 上,建立一元概率分布的完整理论体系。

第一节

随机变量

原始样本空间 $$S$$ 因随机试验而异,建立统一的概率理论需要将任意 $$S$$ 映射到通用空间--实数集 $\mathbb{R}$ 。

随机变量的定义

随机变量 $X(\cdot)$ 是从样本空间 $$S$$ 到实数集 $\mathbb{R}$ 的 $\mathcal{B}$ 可测映射(measurable function)。

对每个基本结果 $s \in S$ ,存在唯一的实数 $$X(s)$$ 与之对应。 $$X$$ 可能取的所有实数值的集合构成新的样本空间 $\Omega$ ,称为 $$X$$ 的值域。

可测性的关键意义:确保 $\{s \in S: X(s) \leq a\} \in \mathcal{B}$ ,从而概率 $P(X \leq a)$ 有定义。若 $X(\cdot)$ 不可测,则存在某些实数子集无法定义概率。

从

P(\cdot)

到

P_X(\cdot)

原样本空间 $$S$$ 上的概率函数 $P(\cdot)$ 诱导出新样本空间 $\Omega$ 上的概率函数 $P_X(\cdot)$ :

P_X(A) = P(\{s \in S: X(s) \in A\}), \quad A \in \mathcal{B}_\Omega

可以验证, $P_X(\cdot)$ 也满足概率函数的三条公理--诱导概率函数也是合法的概率函数。

课件对应:

PDF随机变量定义(第3章第3页)p.3

正在渲染 PDF 第 3 页…

随机变量定义(第3章第3页)（PDF 第 3 页） · 打开原文

第二节

累积分布函数(CDF)

CDF 的定义

随机变量 $$X$$ 的累积分布函数(CDF)为

F_X(x) = P(X \leq x), \quad x \in \mathbb{R}

CDF 的三条基本性质:

规范性: $\lim_{x \to -\infty} F_X(x) = 0$ , $\lim_{x \to +\infty} F_X(x) = 1$
单调非递减: $x_1 < x_2 \Rightarrow F_X(x_1) \leq F_X(x_2)$
右连续: $\lim_{\delta \to 0^+} F_X(x + \delta) = F_X(x)$

从 CDF 求概率:

P(a < X \leq b) = F_X(b) - F_X(a), \quad a < b

同分布

F_X(x) = F_Y(x), \quad \forall x \in \mathbb{R} \Longleftrightarrow X \text{ 与 } Y \text{ 同分布}

注意:同分布不意味着

$X = Y$

--两者可以定义在不同的样本空间上,只要 CDF 一致即可。

一阶随机占优

若 $F(x) \leq G(x)$ (对所有 $$x$$ ),且存在严格不等式,则分布 $$F$$ 一阶随机占优 $$G$$ 。这意味着:对于任何递增效用函数,最大化预期效用的决策者会偏好 $$F$$ 。

课件对应:

PDFCDF 定义(第3章第18页)p.18

正在渲染 PDF 第 18 页…

CDF 定义(第3章第18页)（PDF 第 18 页） · 打开原文

第三节

离散随机变量

离散随机变量与 PMF

离散随机变量(DRV): $$X$$ 可能的取值是有限个或可列个。

概率质量函数(PMF): $$f_X(x) = P(X = x)$$

PMF 性质: $0 \leq f_X(x) \leq 1$ , $\sum_{x \in \Omega} f_X(x) = 1$

PMF 与 CDF 的关系:

F_X(x) = \sum_{y \leq x} f_X(y), \quad f_X(x_i) = F_X(x_i) - F_X(x_{i-1})

课件对应:

PDF离散随机变量与 PMF(第3章第35页)p.35

正在渲染 PDF 第 35 页…

离散随机变量与 PMF(第3章第35页)（PDF 第 35 页） · 打开原文

第四节

连续随机变量

连续随机变量的定义

连续随机变量(CRV): $$X$$ 的 CDF $$F_X(x)$$ 是实数集上的连续函数。

关键性质: $$P(X = x) = 0$$ (对所有 $x \in \mathbb{R}$ )

直观理解:类比卫星飞越中国领空--飞越整个中国需 1 小时,飞越福建省需 2 分钟,飞越厦门大学经济楼的时间接近 0 秒。对连续随机变量,任何单点值的概率均为零。

由于 PMF 不再适用,引入概率密度函数(PDF):

PDF 的定义

若 $$F_X(x)$$ 绝对连续,则存在 $$f_X(x)$$ 使 $F_X(x) = \int_{-\infty}^x f_X(y)\,dy$ 。

PDF 性质: $f_X(x) \geq 0$ , $\int_{-\infty}^{+\infty} f_X(x)\,dx = 1$

概率计算: $P(a < X \leq b) = \int_a^b f_X(x)\,dx$

类型	描述工具	归一性	$$P(X=x)$$
离散	PMF $$f_X(x) = P(X=x)$$	$\sum f_X(x) = 1$	$$> 0$$
连续	PDF $$f_X(x) = dF_X/dx$$	$\int f_X(x)dx = 1$	$$= 0$$

PDF 与 CDF 的关系

由 CDF 的定义与 PDF 的含义,两者之间有如下的互推关系:

F_X(x) = \int_{-\infty}^{x} f_X(t)\,dt, \quad f_X(x) = F_X'(x)

即 CDF 是 PDF 的变上限积分,PDF 是 CDF 的导数。利用这对关系,已知其一即可求出另一个。

例题:已知 PDF 求 CDF(由密度求分布)

已知连续型随机变量 $$X$$ 的密度函数为

f_X(x) = \begin{cases} 2x, & 0 \le x \le 1 \\ 0, & \text{其他} \end{cases}

求 $$F_X(x)$$ 。

解题过程

由 $F_X(x) = \int_{-\infty}^{x} f_X(t)\,dt$ ,需按 $$x$$ 的取值范围分段积分:

当 $$x < 0$$ 时: $F_X(x) = \int_{-\infty}^{x} 0\,dt = 0$
当 $0 \le x \le 1$ 时: $F_X(x) = \int_{-\infty}^{0} 0\,dt + \int_{0}^{x} 2t\,dt = x^2$
当 $$x > 1$$ 时: $F_X(x) = \int_{-\infty}^{0} 0\,dt + \int_{0}^{1} 2t\,dt + \int_{1}^{x} 0\,dt = 1$

因此

F_X(x) = \begin{cases} 0, & x < 0 \\ x^2, & 0 \le x \le 1 \\ 1, & x > 1 \end{cases}

要点:分段密度函数求 CDF 时,关键在于正确分段--当前区间的积分必须加上前面所有区间的累积值。同时注意积分哑变量应使用

$t$

而非上限变量

$x$

。

一维连续型:PDF 与 CDF 的互推关系及例题

例题:已知 CDF 求 PDF(由分布求密度)

已知连续型随机变量 $$X$$ 的分布函数为

F_X(x) = \begin{cases} 0, & x < 0 \\ x, & 0 \le x \le 1 \\ 1, & x > 1 \end{cases}

求 $$f_X(x)$$ 。

解题过程

由 $$f_X(x) = F_X'(x)$$ ,对每段分别求导:

当 $$x < 0$$ 时: $$f_X(x) = 0' = 0$$
当 $0 \le x \le 1$ 时: $$f_X(x) = x' = 1$$
当 $$x > 1$$ 时: $$f_X(x) = 1' = 0$$

因此

f_X(x) = \begin{cases} 1, & 0 \le x \le 1 \\ 0, & \text{其他} \end{cases}

这正是 $$[0,1]$$ 上的均匀分布的密度函数。

课件对应:

PDF一维连续型:PDF/CDF 关系与例题 · p.47–49p.47–49

正在渲染 PDF 第 47 页…

正在渲染 PDF 第 48 页…

正在渲染 PDF 第 49 页…

一维连续型:PDF/CDF 关系与例题（PDF p.47–49） · 打开原文

第五节

随机变量的函数

若 $$X$$ 是随机变量, $$Y = g(X)$$ ,则 $$Y$$ 也是随机变量( $$g$$ 为 Borel 可测函数)。给定 $$X$$ 的分布,求 $$Y$$ 的 CDF/PMF/PDF 是本节的核心问题。

离散情形

对离散随机变量 $$X$$ , $$Y = g(X)$$ 的 PMF 为:

f_Y(y) = \sum_{x \in \{x: g(x)=y\}} f_X(x)

即对所有使得 $$g(x) = y$$ 的 $$x$$ ,将对应的概率相加。

连续情形:CDF 方法

CDF 方法是求 $$Y = g(X)$$ 分布的通用方法:

求 $F_Y(y) = P(Y \leq y) = P(g(X) \leq y)$
对 $$y$$ 求导得密度 $$f_Y(y) = F_Y'(y)$$
验证 $f_Y(y) \geq 0$ 且积分为 1

连续情形:变换法

单变量变换定理

若 $g(\cdot)$ 严格单调且在 $$X$$ 的支撑上可导,则对 $$Y = g(X)$$ :

f_Y(y) = f_X(x) \left|\frac{dx}{dy}\right|, \quad x = g^{-1}(y)

若 $$g(x)$$ 在多个区间分别严格单调,需将各区间的贡献相加。

概率积分变换

若 $$X$$ 的 CDF $$F_X(x)$$ 连续且严格单调递增,则 $Y = F_X(X) \sim U[0,1]$ 。

这一结果可用于模拟生成任意概率分布的随机数,也可用于检验分布模型的拟合优度(QQ 图)。

第六节

数学期望

期望的定义

随机变量 $$X$$ 的数学期望(expected value):

类型	定义
离散	$E[X] = \sum_{x \in \Omega} x \cdot f_X(x)$
连续	$E[X] = \int_{-\infty}^{+\infty} x \cdot f_X(x) \, dx$

更一般地,对可测函数 $$g(X)$$ :

E[g(X)] = \sum_{x \in \Omega} g(x) \cdot f_X(x) \quad \text{或} \quad \int_{-\infty}^{+\infty} g(x) \cdot f_X(x)\,dx

期望刻画的是随机变量在大量重复试验中的“平均”取值——它是概率加权的平均值。期望未必是 $$X$$ 最可能取到的值，甚至可能不在 $$X$$ 的支撑集内。

$E(g(X))$

：随机变量函数的期望

若 $$Y = g(X)$$ ，不需要先求 $$Y$$ 的分布，可以直接用 $$X$$ 的分布计算：

E[g(X)] = \sum_{x \in \Omega} g(x) \cdot f_X(x) \quad \text{或} \quad \int_{-\infty}^{+\infty} g(x) \cdot f_X(x)\,dx

例如计算 $$E(X^2)$$ 时， $$g(x) = x^2$$ ，直接代入 $$X$$ 的取值平方乘以对应概率即可。这是方差的计算捷径 $$DX = E(X^2) - (EX)^2$$ 的理论基础。

期望的线性性

E[aX + b] = aE[X] + b, \quad E[X + Y] = E[X] + E[Y]

线性性对独立与否没有要求--期望的线性性总是成立。

詹森不等式

若 $g(\cdot)$ 为凹函数,则:

E[g(X)] \leq g(E[X])

经济含义:风险厌恶型主体(凹效用函数 $$g$$ )在不确定条件下偏好确定收入 $$E[X]$$ 而非随机收入 $$X$$ 。金融学中期权支付函数是凸函数,不等号方向反转。

课件对应:

PDF离散型随机变量的期望与方差(第3章第40页起)p.40

正在渲染 PDF 第 40 页…

离散型随机变量的期望与方差(第3章第40页起)（PDF 第 40 页） · 打开原文

第七节

矩

$$k$$ 阶矩与 $$k$$ 阶中心矩

$$k$$ 阶矩: $\mu_k' = E[X^k]$

$$k$$ 阶中心矩: $\mu_k = E[(X - E[X])^k]$

阶数	原点矩	中心矩	含义
$$k=1$$	$\mu_1' = E[X]$	0	均值(位置参数)
$$k=2$$	$\mu_2' = E[X^2]$	$\sigma_X^2 = E[(X-\mu)^2]$	方差(尺度参数,不确定性度量)
$$k=3$$	$$E[X^3]$$	$E[(X-\mu)^3]$	偏度(非对称性)
$$k=4$$	$$E[X^4]$$	$E[(X-\mu)^4]$	峰度(厚尾程度)

方差与标准差

方差 $E[(X-\mu_X)^2]$ 度量概率分布在均值周围的分散程度。实际计算中最常用的公式：

\sigma_X^2 = E[X^2] - (E[X])^2

直觉：

$E(X^2)$

是

$X$

取值平方的加权平均，

$(EX)^2$

是均值的平方。两者之差就是方差——偏差平方的期望减去均值平方，恰好等于偏差的方差。这个公式避免了逐项计算

$(x_i - EX)^2$

，是实践中最常用的方差计算捷径。

线性变换 $$Y = a + bX$$ 的均值与方差:

E[Y] = a + bE[X], \quad \sigma_Y^2 = b^2 \sigma_X^2

经济学应用:投资组合

$Y = zX + (I-z)r$

,其中

$z$

为风险资产投资额,

$r$

为无风险利率。组合预期收益

\mu_Y = z\mu_X + (I-z)r

,风险

\sigma_Y^2 = z^2\sigma_X^2

。参数

$a$

(位置)和

$b$

(尺度)分别对应无风险和风险配置。

偏度

标准化三阶中心矩: $S_X = E\left[\left(\frac{X-\mu_X}{\sigma_X}\right)^3\right]$

$$S_X > 0$$ 表示右尾更长, $$S_X < 0$$ 表示左尾更长。金融中,负偏度表示大损失比大收益更容易发生。

峰度

标准化四阶中心矩: $K_X = E\left[\left(\frac{X-\mu_X}{\sigma_X}\right)^4\right]$

$$K_X < 3$$ :低峰态(平坦/细尾)
$$K_X = 3$$ :常峰态(正态分布的基准)
$$K_X > 3$$ :尖峰态(细长/厚尾)

例题:离散型随机变量的期望与方差

已知随机变量 $$X$$ 的分布律:

$$X$$	$$-2$$	$$0$$	$$1$$	$$2$$
$$P$$	$$0.3$$	$$0.3$$	$$0.2$$	$$a$$

由归一性: $0.3 + 0.3 + 0.2 + a = 1 \implies a = 0.2$

(1)求 $P\{0 \le X < 2\}$ 。

P\{0 \le X < 2\} = P(X=0) + P(X=1) = 0.3 + 0.2 = 0.5

(2)求 $$X^2$$ 的分布律。

$$X^2$$ 的取值: $$(-2)^2 = 4$$ , $$0^2 = 0$$ , $$1^2 = 1$$ , $$2^2 = 4$$ 。注意 $$X=-2$$ 和 $$X=2$$ 对应同一值 $$4$$ ,概率需合并:

$$X^2$$	$$0$$	$$1$$	$$4$$
$$P$$	$$0.3$$	$$0.2$$	$$0.3+0.2=0.5$$

(3)求 $$EX$$ 、 $$E(X^2)$$ 、 $$DX$$ 。

$$EX = (-2)(0.3) + 0(0.3) + 1(0.2) + 2(0.2) = 0$$

$$E(X^2) = 4(0.3) + 0(0.3) + 1(0.2) + 4(0.2) = 2.2$$

$$DX = E(X^2) - (EX)^2 = 2.2 - 0^2 = 2.2$$

离散型随机变量的方差计算:从分布律到

$EX$

、

$E(X^2)$

、

$DX$

的完整例题

要点:此题展示了离散型数字特征计算的标准流程--先由归一性确定未知参数,再逐项加权求和算期望,最后用

$DX = E(X^2) - (EX)^2$

快速得到方差。

$EX=0$

说明

$X$

正负对称;

$DX=2.2$

说明

$X$

的取值围绕均值有较大的离散度。

第八节

分位数

$\alpha$ -分位数

给定 $\alpha \in (0,1)$ ,分布 $$F_X(x)$$ 的 $\alpha$ -分位数 $Q(\alpha)$ 满足:

F_X(Q(\alpha)) = P(X \leq Q(\alpha)) = \alpha

当 $$F_X(x)$$ 严格递增时, $Q(\alpha) = F_X^{-1}(\alpha)$ (即 CDF 的反函数)。

中位数

当 $\alpha = 1/2$ , $$m = Q(1/2)$$ 称为中位数。中位数将分布划分为等概率的两等份。

均值 vs 中位数:

均值 $\mu_X$ 是最小化 $$E[(X-c)^2]$$ 的最优解(均方误差准则)
中位数 $$m$$ 是最小化 $$E|X-c|$$ 的最优解(平均绝对误差准则)
对于高偏度分布,中位数比均值更稳健地度量中心位置

分位数的应用

风险价值(Value at Risk, VaR)

在金融中,当 $$X$$ 为投资组合收益率时, $-Q(\alpha)$ (如 $\alpha = 0.01$ )称为风险价值(VaR)。

直观含义:实际损失以概率 $\alpha$ 超过 $-Q(\alpha)$ 这个临界值。VaR 被国际清算银行和商业银行用以设定资本充足水平。

第九节

矩生成函数

MGF 的定义

随机变量 $$X$$ 的矩生成函数(MGF)定义为:

M_X(t) = E[e^{tX}] = \begin{cases} \sum_{x \in \Omega} e^{tx} f_X(x) & \text{离散} \\ \int_{-\infty}^{+\infty} e^{tx} f_X(x)\,dx & \text{连续} \end{cases}

若上述期望对 $$t$$ 在 0 的某个邻域 $(-\epsilon, \epsilon)$ 内存在,则称 $$M_X(t)$$ 存在。

MGF 的核心性质

1. 生成各阶矩:若 $$M_X(t)$$ 在 0 的某邻域内存在,则

M_X^{(k)}(0) = E[X^k]

即对 $$M_X(t)$$ 在 $$t=0$$ 处求 $$k$$ 阶导数即得 $$k$$ 阶矩。特别地:

E[X] = M_X'(0), \quad E[X^2] = M_X''(0)

2. 线性变换:若 $$Y = a + bX$$ ,则

M_Y(t) = e^{at} M_X(bt)

3. 唯一性定理:若两个随机变量 $$X$$ 和 $$Y$$ 的 MGF 在 0 的某邻域内相等,则 $$X$$ 和 $$Y$$ 同分布。

4. 收敛性定理:若 $M_{X_n}(t) \to M_X(t)$ (在 0 的某邻域内逐点收敛),则 $X_n \xrightarrow{d} X$ (依分布收敛)。这是用 MGF 证明极限分布的主要工具。

注意:MGF 不一定存在。例如柯西分布和对数正态分布的 MGF 不存在。此时需要用到特征函数。

第十节

特征函数

特征函数的定义

随机变量 $$X$$ 的特征函数定义为:

\varphi_X(t) = E[e^{itX}] = \begin{cases} \sum_{x \in \Omega} e^{itx} f_X(x) & \text{离散} \\ \int_{-\infty}^{+\infty} e^{itx} f_X(x)\,dx & \text{连续} \end{cases}

其中 $i = \sqrt{-1}$ , $t \in \mathbb{R}$ 。

特征函数的性质

总是存在且有界: $|\varphi_X(t)| \leq 1$ ,对任意概率分布和所有实数 $$t$$
$\varphi_X(0) = 1$
一致连续: $\varphi_X(t)$ 在 $(-\infty, \infty)$ 上连续
线性变换: $Y = a + bX \Rightarrow \varphi_Y(t) = e^{iat} \varphi_X(bt)$
与 MGF 的关系:若 $$M_X(t)$$ 存在,则 $\varphi_X(t) = M_X(it)$

特征函数相比 MGF 的优势

MGF $$M_X(t)$$ 对某些分布不存在(如柯西分布、对数正态分布),但特征函数 $\varphi_X(t)$ 对所有分布总是存在
特征函数是 CDF 的傅里叶变换,通过逆傅里叶变换可还原 PMF/PDF

特征函数的核心定理

1. 生成矩:若 $$E[X^k]$$ 存在,则

\varphi_X^{(k)}(0) = i^k E[X^k]

2. 唯一性定理:两个随机变量 $$X$$ 和 $$Y$$ 同分布,当且仅当对所有 $t \in \mathbb{R}$ , $\varphi_X(t) = \varphi_Y(t)$ 。

3. 收敛定理(Lévy 连续性定理):

若 $F_n(x) \to F_X(x)$ (依分布收敛),则 $\varphi_n(t) \to \varphi_X(t)$ (逐点收敛)
若 $\varphi_n(t) \to \varphi_X(t)$ 且 $\varphi_X(t)$ 在 $$t=0$$ 处连续,则 $F_n(x) \to F_X(x)$

经济学与金融学应用:仿射跳跃扩散模型和 Lévy 过程的 PDF 没有解析形式,但特征函数有解析形式。因此可用特征函数进行参数估计和统计推断。稳态分布本身就是用特征函数定义的。

第十一节

小结

第 3 章建立了描述随机变量概率分布的完整工具链:

工具	作用	覆盖范围
CDF	统一描述离散/连续分布	所有随机变量
PMF / PDF	分别刻画离散/连续型的概率结构	各自类型
矩(期望、方差、偏度、峰度)	摘要分布的总体特征	矩存在时
分位数	描述分布的位置与尾部风险	所有随机变量
MGF	生成各阶矩、刻画分布、证明收敛	MGF 存在时
特征函数	MGF 的推广,总是存在	所有随机变量

一条主线:从 CDF 出发,PMF/PDF 是 CDF 的微分描述;矩是 CDF 的数值摘要(通过积分);MGF 和特征函数则是 CDF 的变换域表示(拉普拉斯变换 / 傅里叶变换),具有唯一性和收敛性。

核心公式速查表

概念	公式
CDF 定义	$F_X(x) = P(X \leq x)$
CDF 概率计算	$P(a < X \leq b) = F_X(b) - F_X(a)$
PMF 归一性	$\sum_x f_X(x) = 1$ (离散)
PDF 归一性	$\int_{-\infty}^{+\infty} f_X(x)dx = 1$ (连续)
离散期望	$EX = \sum_i x_i \, f_X(x_i)$
连续期望	$EX = \int x \, f_X(x)\,dx$
方差计算公式	$$DX = E(X^2) - (EX)^2$$
函数期望	$E[g(X)] = \sum_i g(x_i) \, f_X(x_i)$
偏度	$S_X = E\left[\left(\frac{X-\mu}{\sigma}\right)^3\right]$
峰度	$K_X = E\left[\left(\frac{X-\mu}{\sigma}\right)^4\right]$
$\alpha$ -分位数	$F_X(Q(\alpha)) = \alpha$
MGF 定义	$M_X(t) = E[e^{tX}]$
MGF 生成矩	$E[X^k] = M_X^{(k)}(0)$
特征函数定义	$\varphi_X(t) = E[e^{itX}]$
特征函数生成矩	$E[X^k] = \varphi_X^{(k)}(0) / i^k$

参考来源

洪永淼《概率论与统计学》课件 2024 版(厦门大学WISE)

随机变量与一元概率分布

随机变量的定义

CDF 的定义

离散随机变量与 PMF

连续随机变量的定义

PDF 的定义

解题过程

解题过程

单变量变换定理

概率积分变换

期望的定义

$k$ 阶矩与 $k$ 阶中心矩

$\alpha$-分位数

风险价值(Value at Risk, VaR)

MGF 的定义

特征函数的定义

参考来源

$$k$$ 阶矩与 $$k$$ 阶中心矩

$\alpha$ -分位数