多元随机变量
前几章主要研究单个随机变量的概率分布、期望、方差和常见分布。本章的核心转向是:许多经济和金融问题并不只关心一个随机变量本身,而关心多个随机变量如何共同变化。例如,收入与消费、价格与需求、两个资产收益率、市场状态与工资分布、当前信息与未来收益,这些问题都要求我们描述“同一个概率空间上多个随机变量的联合行为”。
随机向量是本章的起点。一个 $n$ 维随机向量 $(Z_1,\dots,Z_n)'$ 是从样本空间到 $\mathbb R^n$ 的映射。课程主要以二维随机向量 $(X,Y)$ 展开,因为二元分布已经包含多元概率分布的大部分关键思想:联合分布刻画整体,边际分布刻画单个变量,条件分布刻画在已知一个变量时另一个变量如何分布,协方差和相关系数刻画线性联动,独立性刻画最强意义上的“没有相依关系”,条件期望则刻画预测关系。
从经济学角度看,本章的主线可以概括为:联合分布用于描述经济变量之间的整体关系,条件分布和条件矩用于预测与决策,协方差矩阵用于度量多个变量的风险结构,多元正态分布提供了一个可计算、可解释、可推广的基准模型。
两个随机变量 $X,Y$ 的联合分布函数,或联合 CDF,定义为
它给出随机点 $(X,Y)$ 落在左下矩形区域 $(-\infty,x]\times(-\infty,y]$ 中的概率。联合 CDF 满足三个基本性质:当任一坐标趋于 $-\infty$ 时概率为 0;当两个坐标均趋于 $\infty$ 时概率为 1;它关于每个变量非递减且右连续。
边际 CDF 可由联合 CDF 得到:
若 $X,Y$ 为离散随机变量,联合 PMF 定义为
它必须非负,并且在联合支撑 $\Omega_{XY}$ 上求和为 1。注意联合支撑通常不等于 $\Omega_X\times\Omega_Y$。例如若 $X,Y$ 均为非负整数但受约束 $X\le Y$,则 $\Omega_X=\Omega_Y=\{0,1,2,\dots\}$,但 $\Omega_{XY}=\{(x,y):0\le x\le y\}$,只是笛卡尔乘积的子集。
若 $X,Y$ 为连续随机变量,联合 PDF $f_{XY}(x,y)$ 满足
且 $f_{XY}\ge0$,在全平面上积分为 1。当联合 CDF 足够光滑时,联合 PDF 是联合 CDF 的混合偏导:
边际分布回答的问题是:如果只关心 $X$,不关心 $Y$,应怎样从联合分布中“消去” $Y$?
离散情形:
连续情形:
“边际”这个词容易被误解。在经济学中,边际效用和边际生产率常常来自导数;但概率论中的边际 PDF 是通过对另一个变量求和或积分得到的。它保留一个变量的信息,同时丢弃另一个变量的信息。
一个重要提醒是:边际分布不能唯一决定联合分布。课件例 5.7 中,两个二值随机变量 $X,Y$ 在两种不同联合分布下都可以有 $X\sim Bernoulli(p)$、$Y\sim Bernoulli(p)$,但第一种可能使二者完全同向取值,第二种可能是独立伯努利。这说明联合分布包含边际分布以外的“关系信息”。
条件分布刻画“给定 $X=x$ 后,$Y$ 如何分布”。离散情形中,若 $f_X(x)>0$,
连续情形中,虽然 $P(X=x)=0$,但仍可通过密度比定义条件 PDF:
条件分布本身仍然是一个关于 $y$ 的合法概率分布,非负且积分或求和为 1。乘法法则也由此得到:
在经济学中,条件分布比边际分布更接近预测问题。例如,若 $X$ 表示市场状态,$Y$ 表示股票收益率,则 $f_{Y|X}(y|x)$ 可以描述熊市和牛市中收益率波动的差异;若 $X$ 表示性别虚拟变量,$Y$ 表示工资,则 $f_{Y|X}(y|0)$ 与 $f_{Y|X}(y|1)$ 分别描述不同群体的工资分布。
若
则 $X,Y$ 相互独立。对离散或连续情形,等价地有
独立性还等价于条件分布等于边际分布:
直观地说,如果 $X$ 和 $Y$ 独立,知道 $X=x$ 不改变 $Y$ 的概率分布。
不相关是较弱的概念,只表示协方差为 0。独立性推出不相关,但不相关一般不能推出独立。课件例 5.29 与例 5.35 给出典型反例:若 $X$ 关于 0 对称,$Y=X^2$,则 $cov(X,Y)=E(X^3)-E(X)E(X^2)=0$,但 $Y$ 完全由 $X$ 决定,二者显然不独立。这说明协方差和相关系数只能捕捉线性关系,不能捕捉一般非线性相依。
两个重要例外值得记住:在二元正态分布中,不相关等价于独立;在二值伯努利变量中,若边际给定且 $cov(X,Y)=0$,也可推出独立。
协方差定义为
若 $X,Y$ 倾向于同向偏离均值,协方差为正;若倾向于反向偏离均值,协方差为负;若线性联动为零,协方差为 0。协方差有量纲,受变量单位影响,因此常使用标准化协方差,即相关系数:
相关系数衡量线性关系强度。若 $Y=a+bX$,$b>0$ 时 $\rho_{XY}=1$,$b<0$ 时 $\rho_{XY}=-1$。但相关不是因果。石油价格与经济增长、抽烟与癌症等变量之间可能存在相关关系,但仅凭相关性不能推出因果机制。
在多元随机向量 $X=(X_1,\dots,X_n)'$ 中,协方差矩阵 $\Sigma$ 的对角线元素是各变量方差,非对角线元素是两两协方差:
协方差矩阵是金融投资组合理论的基础。若资产收益向量为 $R$,权重向量为 $w$,投资组合收益 $R_p=w'R$,则
因此,风险不仅取决于单个资产方差,也取决于资产之间的协方差。
已知二维离散随机变量 $(X,Y)$ 的联合分布律为:
| $X \backslash Y$ | $0$ | $1$ |
|---|---|---|
| $0$ | $1/4$ | $1/4$ |
| $1$ | $0$ | $1/2$ |
求 $E(X)$、$E(Y)$、$E(XY)$ 与 $Cov(X,Y)$。
解题过程
先求边际分布:
因此
再求乘积期望:
于是
因为 $Cov(X,Y)=\frac18>0$,所以 $X$ 与 $Y$ 呈正线性相关。
相关系数定义为
课件中的例题给出二维随机变量 $(X,Y)$ 的联合分布律:
| $X \backslash Y$ | $0$ | $1$ | $2$ |
|---|---|---|---|
| $0$ | $1/9$ | $2/9$ | $1/9$ |
| $1$ | $2/9$ | $2/9$ | $0$ |
| $2$ | $1/9$ | $0$ | $0$ |
完整计算链
先由边际分布得
同理
再看乘积变量 $XY$,只有 $(1,1)$ 这一格贡献非零,因此
于是协方差为
最终相关系数
所以该例中 $X,Y$ 呈负相关,并且线性相关程度为 $-1/2$。
若 $(X,Y)$ 的联合 PDF 已知,并定义
当变换一一、连续可导且雅可比行列式非零时,设反函数为
则
这里 $J_{XY}(u,v)$ 是反变换的雅可比矩阵。其直观含义是:密度在变量变换下需要按面积伸缩比例调整。课件用 $U=X+Y,V=X$ 推导两个独立均匀变量之和的三角密度,也用 $U=X+Y,V=X-Y$ 说明独立正态变量的线性组合仍可形成独立正态变量。
对随机向量,线性变换尤其重要。若 $X\sim N(\mu,\Sigma)$,且 $Y=A X+b$,则
这条性质是多元正态分布在统计推断、投资组合和计量经济模型中广泛使用的原因。
二维正态分布 $(X,Y)\sim BN(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)$ 的联合 PDF 为
矩阵形式更简洁:
多元正态的几个核心性质:第一,边际分布仍为正态;第二,条件分布仍为正态;第三,线性变换仍为正态;第四,在正态族中,零协方差等价于独立;第五,联合 MGF 为
二维正态的条件分布为
这说明 $\rho$ 既控制线性预测斜率,也控制条件方差。当 $|\rho|$ 越大,给定 $X$ 后 $Y$ 的剩余不确定性 $\sigma_2^2(1-\rho^2)$ 越小。当 $\rho=0$ 时,条件均值不依赖 $x$,且 $X,Y$ 独立。
二元正态分布的等高线由二次型
决定,是一族椭圆。均值向量决定椭圆中心;$\sigma_1,\sigma_2$ 决定沿各方向的尺度;$\rho$ 决定椭圆倾斜方向和狭长程度。$\rho>0$ 时椭圆沿右上方向倾斜,$\rho<0$ 时沿右下方向倾斜,$|\rho|$ 越接近 1,椭圆越扁。
条件期望定义为对条件分布求期望。若连续,则
特别地,条件均值
是 $x$ 的函数,也称为 $Y$ 对 $X$ 的回归函数。它是均方误差准则下预测 $Y$ 的最优函数:
回归恒等式为
这说明条件均值吸收了 $X$ 中可用于预测 $Y$ 的系统信息,误差项与 $X$ 的任意可测函数正交。
迭代期望定律,或全期望法则,是本章最重要公式之一:
推导基于乘法法则 $f_{XY}=f_{Y|X}f_X$:
条件方差定义为
它刻画给定信息 $X$ 后 $Y$ 的剩余波动。若 $var(Y|X)$ 不依赖 $X$,称为条件同方差;若依赖 $X$,称为条件异方差。金融收益率常见条件异方差,ARCH 模型就是用过去收益平方解释当前条件方差:
方差分解定理为
第一项表示可预测部分的波动,第二项表示平均不可预测波动。这为回归解释力和预测误差提供了概率论基础。
课件例 5.2 与例 5.6 设
归一化条件给出
所以 $c=1/5$。联合支撑为
例如
边际 PMF 为
这个例子强调两个要点:联合支撑未必等于边际支撑的笛卡尔积;边际分布来自对联合分布按行或按列求和。
课件例 5.14 设
支撑是上三角区域。对 $x>0$,
对 $y>0$,
条件 PDF 为
即 $Y|X=x$ 等于 $x$ 加上一个指数分布变量。另一方面,
即 $X|Y=y\sim U(0,y)$。由于条件分布依赖给定值,且联合 PDF 不能分解为边际 PDF 乘积,$X,Y$ 不独立。
若
则
这给出了线性回归的概率基础。斜率 $\rho\sigma_2/\sigma_1$ 由相关系数与标准差比例共同决定;条件方差不依赖 $X$,所以二元正态具有条件同方差性质。若 $\rho=0$,条件均值等于 $\mu_2$,条件方差等于 $\sigma_2^2$,且 $X,Y$ 独立。
二维连续型随机变量 $(X,Y)$ 由联合概率密度函数 $f(x,y)$ 完全刻画。概率计算的核心操作是二重积分:
归一化条件要求联合密度在全平面上积分为 1:
以下通过两个具体例子展示基本计算方法。
例 1:均匀分布的概率计算
设 $(X,Y)$ 的联合密度为
求 $P\{X < Y\}$。
在单位正方形内,$X < Y$ 对应直线 $y = x$ 上方的三角形区域:
由于密度恒为 1,概率等于区域的面积——上三角形恰好是正方形面积的一半。
例 2:由归一化条件确定常数
设 $(X,Y)$ 的联合密度为
由归一化条件:
均匀分布在单位正方形上的密度恒为 1,概率直接等于对应区域的面积。
已知二维随机变量 $(X,Y)$ 的联合密度为
设 $Z = Y - X$,求 $Z$ 的分布函数 $F_Z(z)$ 和概率密度函数 $f_Z(z)$。
由定义,$Z$ 的分布函数为
在单位正方形 $[0,1] \times [0,1]$ 上,$f(x,y) = 1$,因此概率等于积分区域的面积。直线 $y = x + z$ 将正方形划分为不同形状的区域,需按 $z$ 的取值分段讨论:
情形 A:$z < -1$
直线 $y = x + z$ 位于正方形下方,$y - x \le z$ 的区域与正方形无交集:
情形 B:$-1 \le z < 0$
直线穿过正方形的左下角,满足 $y - x \le z$ 的区域是一个直角三角形(图 A)。三角形直角边长为 $1 + z$,面积为 $\frac{(1+z)^2}{2}$:
情形 C:$0 \le z \le 1$
直线穿过正方形的右上角,满足 $y - x \le z$ 的区域是整个正方形减去左上角的一个小三角形(图 B)。小三角形直角边长为 $1 - z$,面积为 $\frac{(1-z)^2}{2}$:
情形 D:$z > 1$
直线位于正方形上方,整个正方形都满足 $y - x \le z$(图 C):
综合以上四段,$Z$ 的分布函数为
对 $F_Z(z)$ 求导得概率密度函数:
也可简洁地写成
已知二维随机变量 $(X,Y)$ 的联合分布律如下:
| $X$ \ $Y$ | $0$ | $1$ | $2$ |
|---|---|---|---|
| $0$ | $1/9$ | $2/9$ | $1/9$ |
| $1$ | $2/9$ | $2/9$ | $0$ |
| $2$ | $1/9$ | $0$ | $0$ |
(1)求 $X$ 和 $Y$ 的边际分布律。
对联合分布表按行求和得 $X$ 的边际分布,按列求和得 $Y$ 的边际分布:
$X$ 的边际分布
| $X$ | $0$ | $1$ | $2$ |
|---|---|---|---|
| $P$ | $4/9$ | $4/9$ | $1/9$ |
$Y$ 的边际分布
| $Y$ | $0$ | $1$ | $2$ |
|---|---|---|---|
| $P$ | $4/9$ | $4/9$ | $1/9$ |
注意 $X$ 和 $Y$ 的边际分布恰好相同,但这并不意味着联合分布有任何对称性。
(2)判断 $X$ 和 $Y$ 是否独立。
检查 $P(X=0, Y=0)$ 是否等于 $P(X=0) \cdot P(Y=0)$:
只要找到一对 $(x,y)$ 使 $P(X=x, Y=y) \neq P(X=x) \cdot P(Y=y)$,就可以否定独立性。因此 $X$ 和 $Y$ 不独立。
(3)求 $Z = XY$ 的分布律。
对 $(X,Y)$ 的每一对取值计算 $Z = XY$:
- $Z=0$:$(0,0), (0,1), (0,2), (1,0), (2,0)$ → $P = 1/9 + 2/9 + 1/9 + 2/9 + 1/9 = 7/9$
- $Z=1$:$(1,1)$ → $P = 2/9$
- $Z=2$:$(1,2)$ 或 $(2,1)$ → 概率均为 $0$
- $Z=4$:$(2,2)$ → 概率为 $0$
| $Z=XY$ | $0$ | $1$ |
|---|---|---|
| $P$ | $7/9$ | $2/9$ |
由于联合分布中 $(1,2)$、$(2,1)$、$(2,2)$ 的概率为 $0$,$Z$ 只能取 $0$ 和 $1$。
(4)求 $EY$ 和 $E(XY)$。
由 $Y$ 的边际分布:
由 $Z = XY$ 的分布:
1. 投资组合风险:多资产收益率构成随机向量,协方差矩阵决定组合方差 $w'\Sigma w$。分散化的效果来自资产之间协方差较低或为负。
2. Copula 与市场联动:联合分布可分解为边际分布和关联函数。金融中可用 copula 分离单个资产收益的边际行为与资产之间的相依结构。
3. 回归与预测:条件均值 $E(Y|X)$ 是最优 MSE 预测函数,是计量经济学中回归函数的概率论形式。工资差异、消费函数和收入预测都可表述为条件均值问题。
4. 有效市场假说:若 $Y_t$ 为资产收益率,$I_{t-1}$ 为上一期信息,有效市场可写为 $E(Y_t|I_{t-1})=E(Y_t)$,即历史信息不能改进对未来收益均值的预测。
5. 风险管理:VaR 和 Expected Shortfall 都是条件分布思想的应用。期望损失 $ES_t(\alpha)=-E[X_t|X_t<-V_t(\alpha)]$ 用危机发生条件下的平均损失衡量尾部风险。
6. 条件异方差:金融市场收益常有波动聚类,即大波动后仍可能大波动。ARCH/GARCH 模型通过条件方差刻画这种动态风险结构。
第一,联合分布和边际分布的方向要分清。联合分布是从两个变量的共同取值出发,边际分布是把其中一个变量消去以后得到的单变量分布。很多初学者会误以为知道两个边际分布就等于知道联合分布,这在概率论中通常不成立。两个变量的边际形状完全相同,仍可能有完全不同的相依结构。金融中的一个直观例子是:两只资产各自收益率分布相同,但它们可能同涨同跌,也可能此消彼长;这两种情形的投资组合风险显然不同。
第二,连续条件分布中的“给定 $X=x$”不能机械套用事件条件概率。连续变量满足 $P(X=x)=0$,所以条件 PDF 的定义本质上是密度比 $f_{XY}(x,y)/f_X(x)$,可以理解为在 $X$ 落入 $x$ 附近很小区间时的极限分布。这个理解有助于避免“零概率事件为什么还能条件化”的困惑。
第三,独立、不相关、因果关系是三个层级不同的概念。独立是完整分布层面的无相依,不相关只是线性矩层面的零关系,因果关系还需要干预、识别假设或结构模型。统计上看到 $\rho=0$ 只能说明线性相关为零,不能说明没有任何关系;看到 $\rho\ne0$ 也不能说明存在因果机制。
第四,多元正态分布是特殊而强大的模型。它的边际、条件和线性变换仍为正态,使大量推导可以闭合;但反过来,边际正态并不保证联合正态。课件反例说明,即使 $X$ 和 $Y$ 分别服从标准正态,只要联合密度被限制在同号象限,它们就不服从二元正态。判断联合正态必须看整体联合结构。
第五,条件期望是回归思想的概率基础。$E(Y|X)$ 不是普通常数均值,而是随 $X$ 改变的函数;它在均方误差意义下给出最优预测。线性回归只是在进一步假设或近似下,把这个函数限制为 $a+bX$。因此,理解条件期望比直接背回归公式更根本。
第六,条件方差提供了比条件均值更进一步的信息。在经济和金融数据中,均值关系可能较弱,但波动关系很强。例如资产收益率均值难以预测,波动却常有聚集性。此时建模对象就从 $E(Y_t|I_{t-1})$ 转向 $var(Y_t|I_{t-1})$,这也是 ARCH/GARCH 模型的出发点。
第七,做题时建议按“支撑先行”的顺序展开。无论求边际、条件还是变换后的分布,第一步都应画出或写出联合支撑;第二步再判断积分上下限或求和范围;第三步才代入公式。许多错误并非来自公式记错,而是来自支撑区域处理错误。尤其在三角区域、圆盘区域、变量和差变换中,积分限往往随给定变量变化。若能先把随机点所在区域和目标事件区域分清,后续计算会稳定很多。
第八,学习本章应把“分布、矩、预测”连成一条线。联合分布是最完整对象,边际和条件分布是从联合分布派生出来的;期望、方差、协方差和相关系数是对分布的摘要;条件期望和条件方差则是预测均值与预测风险的摘要。计量经济学中很多模型可以视为选择某个条件矩进行建模:线性回归建模条件均值,ARCH 建模条件方差,风险管理有时需要直接建模条件尾部分布。
| 主题 | 核心公式 | 含义 |
|---|---|---|
| 联合 CDF | $F_{XY}(x,y)=P(X\le x,Y\le y)$ | 描述随机向量整体分布 |
| 边际 CDF | $F_X(x)=F_{XY}(x,\infty)$ | 从联合分布提取单变量分布 |
| 离散边际 PMF | $f_X(x)=\sum_y f_{XY}(x,y)$ | 对另一个变量求和 |
| 连续边际 PDF | $f_X(x)=\int f_{XY}(x,y)dy$ | 对另一个变量积分 |
| 条件 PMF/PDF | $f_{Y|X}(y|x)=f_{XY}(x,y)/f_X(x)$ | 给定 $X=x$ 后 $Y$ 的分布 |
| 乘法法则 | $f_{XY}=f_{Y|X}f_X$ | 联合分布可由边际与条件分布构成 |
| 独立性 | $f_{XY}=f_Xf_Y$ | 知道一个变量不改变另一个变量分布 |
| 协方差 | $cov(X,Y)=E(XY)-E(X)E(Y)$ | 线性联动方向与强度的未标准化度量 |
| 相关系数 | $\rho=cov(X,Y)/(\sigma_X\sigma_Y)$ | 标准化线性相关,范围 $[-1,1]$ |
| 独立与不相关 | 独立 $\Rightarrow cov=0$,反向一般不成立 | 不相关只排除线性关系 |
| 二元正态条件均值 | $E(Y|X)=\mu_2+\rho\frac{\sigma_2}{\sigma_1}(X-\mu_1)$ | 正态条件均值为线性函数 |
| 二元正态条件方差 | $var(Y|X)=\sigma_2^2(1-\rho^2)$ | 条件同方差,$|\rho|$ 越大剩余方差越小 |
| 迭代期望 | $E[g(X,Y)]=E\{E[g(X,Y)|X]\}$ | 先条件平均,再对条件变量平均 |
| 条件方差公式 | $var(Y|X)=E(Y^2|X)-[E(Y|X)]^2$ | 条件波动计算公式 |
| 方差分解 | $var(Y)=var[E(Y|X)]+E[var(Y|X)]$ | 总波动=可预测波动+不可预测波动 |
| 线性变换 | $AX+b\sim N(A\mu+b,A\Sigma A')$ | 多元正态族在线性变换下封闭 |
本章的学习重点不是机械记忆大量公式,而是掌握三层关系:联合分布给出完整信息,边际分布只看单变量,条件分布描述预测关系。协方差和相关系数是条件与联合信息的低维摘要,独立性是最强的无相依关系,多元正态分布则是把这些概念连接起来的标准模型。
参考来源
- 洪永淼《概率论与统计学》第5章课件(厦门大学WISE,2024)