重要概率分布
前三章已经把随机试验、样本空间、事件、随机变量、分布函数、PMF/PDF、期望、方差、矩生成函数等基本语言搭好。本章进入概率建模的核心步骤:面对真实世界中不确定的经济、金融和管理现象,我们通常无法直接知道真实概率分布,只能在一族参数化分布 $f(x,\theta)$ 中选择模型,再用数据估计未知参数 $\theta$。
因此,本章的任务是建立一张“常用分布地图”:什么现象适合用什么分布,参数表示什么,均值方差如何由参数决定,分布之间如何互相转化或近似。离散分布主要刻画“次数、成功次数、等待次数、稀有事件数”;连续分布主要刻画“区间上的数值、比例、等待时间、增长后的正值变量、厚尾变量”。在统计学和计量经济学中,分布模型不是公式记忆题,而是变量生成机制的简化表达。
本章课件强调两个技术工具:矩生成函数 MGF 与特征函数。矩生成函数定义为 $M_X(t)=E(e^{tX})$,若在 0 附近存在,则可通过求导得到各阶矩,也可用于证明分布收敛,如二项分布到泊松分布。特征函数定义为 $\varphi_X(t)=E(e^{itX})$,它总是存在,尤其适合处理 MGF 不存在的分布,例如柯西分布和稳态分布。
补充参考中,离散分布教程常把伯努利、二项、几何、负二项、泊松都看成“伯努利试验链条”的不同观察角度;超几何分布则对应“不放回抽样”。英文 probability cheatsheet 的思路是按支撑集、生成机制、均值方差、近似关系对分布做横向比较,这也是复习时最高效的方式。
伯努利分布描述一次只有成功/失败、是/否、1/0 两种结果的试验。若
则
参数 $p$ 是成功概率,也是均值:$E(X)=p$,$\mathrm{Var}(X)=p(1-p)$,MGF 为
伯努利分布是最基本的二元选择模型。在经济金融中,可用来表示股票价格是否上涨、利率是否发生跳跃、个体是否就业、企业是否违约等指示变量。课件例子中,IBM 股票价格上涨记为 1,下跌记为 0,便是伯努利变量。
二项分布描述固定进行 $n$ 次独立伯努利试验时,成功次数 $X$ 的分布:
其中 $n$ 是试验次数,$p$ 是每次成功概率。若 $X_i\sim \mathrm{Bernoulli}(p)$ 独立同分布,则
二项分布的均值、方差、MGF 为
它适合“固定次数中成功几次”的问题,如 $n$ 件产品中次品数、$n$ 个贷款客户中违约人数、$n$ 次营销触达中购买人数。
二项分布固定试验次数,问成功次数;负二项分布反过来,固定目标成功次数 $r$,问获得第 $r$ 次成功所需试验次数 $X$。其 PMF 为
这里 $p$ 是每次成功概率,$r$ 是目标成功次数。常用结果为
其 MGF 为
课件给出的经济学应用是家庭希望达到某个男孩或女孩数量时的家庭规模分布。更一般地,它适合“等到累计达到某个成功数”的等待问题。
几何分布是负二项分布在 $r=1$ 时的特例,描述获得第一次成功所需的试验次数:
均值和方差为
MGF 为
几何分布的关键性质是无记忆性:对整数 $s>t$,
直觉是已经等待多久不影响未来还要等待多久。补充教程中也强调,几何分布适合“一直试,直到第一次成功”的场景。
超几何分布描述有限总体不放回抽样。总体有 $N$ 个对象,其中 $K$ 个为成功类,从中不放回抽取 $n$ 个,成功个数 $X$ 的 PMF 为
其中 $\max(0,n-(N-K))\le x\le \min(n,K)$。均值和方差为
最后一项 $(N-n)/(N-1)$ 是有限总体修正因子,体现“不放回”导致样本间负相关。若总体很大、抽样比例很小,不放回与放回差别很小,超几何分布可用二项分布近似。适用场景包括质量抽检、审计抽样、有限客户池中抽取违约客户等。
泊松分布描述单位时间或单位空间内随机事件发生次数:
其中 $\lambda>0$ 是强度参数,表示平均发生次数。均值、方差都等于 $\lambda$:
MGF 为
泊松分布适合收银台顾客数、电话响起次数、事故次数、行业违约或破产次数、资产价格跳跃次数。课件强调小数定律:当 $n\to\infty$、$p\to0$、$np\to\lambda$ 时,
也就是说,大量对象、单个事件概率很小、总平均次数有限时,可用泊松近似二项分布。若 $N(t)$ 表示 $[0,t]$ 内事件发生次数,泊松过程满足
其中 $\lambda$ 是单位时间平均发生次数。金融学中 Merton 跳跃扩散模型用泊松过程刻画资产价格跳跃次数。
均匀分布表示区间内每个位置“密度相同”:
均值、方差为
MGF 为
标准均匀分布 $U[0,1]$ 的均值为 $1/2$、方差为 $1/12$。概率积分变换指出 $F_X(X)\sim U[0,1]$,因此均匀分布是随机数生成和模拟方法的基础。
贝塔分布定义在 $[0,1]$,适合比例、份额、概率等变量:
其中
均值、方差为
MGF 可由级数表示:
当 $\alpha=\beta=1$ 时,贝塔分布退化为标准均匀分布。课件例子中,Granger 用贝塔分布刻画个体消费者边际消费倾向,因为边际消费倾向天然落在 $[0,1]$。
正态分布的 PDF 为
其中 $\mu$ 是位置参数,也是均值;$\sigma^2$ 是尺度参数,也是方差。MGF 为
正态分布的重要性来自中心极限定理:大量独立同分布随机变量的样本均值,经标准化后趋于标准正态。这解释了为什么很多误差、收益率、估计量近似正态。若 $X\sim B(n,p)$,当 $n$ 大时,$(X-np)/\sqrt{np(1-p)}$ 近似标准正态。正态分布关于 $\mu$ 对称,中心化奇数阶矩为 0,四阶中心矩为 $3\sigma^4$,峰度为 3。课件还给出 Stein 引理:若 $X\sim N(\mu,\sigma^2)$,则 $E[g(X)(X-\mu)]=\sigma^2E[g'(X)]$。
在经济学中,正态分布主要用于三类问题:第一,误差项建模,例如线性回归中的扰动项常假设近似正态,便于推导估计量和检验统计量;第二,大样本估计量的近似分布,许多计量估计量依赖渐近正态性构造置信区间和假设检验;第三,金融收益率建模,对数收益率常被近似看作正态,进一步导致资产价格服从对数正态分布。
指数分布是伽玛分布在 $\alpha=1$ 时的特例:
其中 $\beta>0$ 是尺度参数。均值、方差、MGF 为
指数分布刻画等待时间,并具有连续型无记忆性。课件用劳动经济学中的失业持续期解释风险率:
若风险率恒为 $\lambda_0$,则持续期服从 $Exp(1/\lambda_0)$。金融计量中,标准化股票收益绝对值有时近似服从标准指数分布。
伽玛分布定义在非负实数上:
其中 $\alpha$ 是形状参数,$\beta$ 是尺度参数。均值、方差和 MGF 为
当 $\alpha=1$ 时是指数分布;当 $\alpha=\nu/2,\beta=2$ 时是卡方分布。伽玛分布可用于失业持续期、价格久期、贫困持续期、企业存活期、收入、人口、距离等非负变量。课件中 Cox-Ingersoll-Ross 短期利率模型的稳态分布就是伽玛分布,从而避免 Vasicek 模型可能出现负利率的问题。
若 $Y=\ln X\sim N(\mu,\sigma^2)$,则 $X$ 服从对数正态分布,其 PDF 为
各阶矩为
所以
虽然所有矩存在,但 MGF 不存在。这是复习时容易忽略的点。
对数正态分布适合非负、右偏、乘法增长生成的变量。若 $X_t=X_{t-1}(1+Y_t)$,则
由中心极限定理,右侧和式近似正态,故 $X_n$ 近似对数正态。课件列出的应用包括资产价格、商品价格、收入、人口、城市规模、员工任职年限、保险理赔、资产价格范围。Black-Scholes 期权定价也假设股票价格服从对数正态分布。
课件称为“韦伯分布”。若 $Y=(X-\alpha)^c$ 服从参数为 $\beta$ 的指数分布,则 $X$ 服从 Weibull 分布,PDF 为
其中 $\alpha$ 是位置参数,$\beta$ 是尺度参数,$c$ 是形状参数。实际应用常取 $\alpha=0$。当 $c=1$ 时退化为指数分布。Weibull 分布的优势在于风险率可以随时间上升或下降,适合寿命、失效时间、企业存活期、失业持续期等久期分析。
1. 伯努利是基础砖块:一次 0/1 试验。
2. 二项 = 固定 $n$ 次伯努利试验的成功总数。
3. 几何 = 伯努利试验中等待第一次成功的次数。
4. 负二项 = 伯努利试验中等待第 $r$ 次成功的次数;几何是 $r=1$ 的特例。
5. 超几何 = 有限总体不放回抽样的成功数;总体很大、抽样比例很小时近似二项。
6. 泊松 = 稀有事件次数;二项在 $n$ 大、$p$ 小、$np\to\lambda$ 时近似泊松;负二项在相应极限下也可近似泊松。
7. 均匀是 $[0,1]$ 上最简单的连续分布;Beta$(1,1)$ 就是标准均匀。
8. 指数是 Gamma$(1,\beta)$;伽玛可看成若干独立指数等待时间之和。
9. 卡方是 Gamma$(\nu/2,2)$,整数自由度时是标准正态平方和。
10. 正态通过中心极限定理成为二项、泊松、样本均值、大样本估计量的近似极限。
11. 对数正态 = 正态变量取指数,适合乘法增长。
12. Weibull 由指数变量幂变换得到,指数是 Weibull 的特例。
题目:证明 $B(n,p)$ 的 PMF 加总为 1,并求其均值。
解法:由二项式定理,
均值可直接利用伯努利加总:若 $X=\sum_{i=1}^nX_i$,且 $X_i\sim Bernoulli(p)$,则
易错点:二项分布要求试验独立且每次成功概率相同;若不放回抽样且总体有限,应考虑超几何分布。
题目:若某行业有大量企业,每家在一年内破产概率很小,行业总平均破产数约为 $\lambda$,应使用什么分布?
解法:设 $X\sim B(n,p)$,表示 $n$ 家企业中破产企业数。当 $n$ 很大、$p$ 很小、$np\to\lambda$ 时,
这正是 Poisson$(\lambda)$ 的 MGF。因此 $X$ 可近似为泊松分布。易错点:泊松参数不是单个企业破产概率,而是总平均次数 $\lambda=np$。
题目:若失业者已经失业 $x$ 期后找到工作的瞬时概率恒为 $\lambda_0$,失业持续期服从什么分布?
解法:风险函数为
若 $\lambda(x)=\lambda_0$,则
得到生存函数 $1-F_X(x)=e^{-\lambda_0x}$,所以
这就是 $Exp(1/\lambda_0)$。易错点:指数分布对应恒定风险率;若风险率随时间变化,应考虑 Weibull 等更灵活分布。
| 分布 | PMF/PDF | 参数含义 | 期望 | 方差 | 适用场景 |
| Bernoulli$(p)$ | $p^x(1-p)^{1-x},x=0,1$ | $p$:成功概率 | $p$ | $p(1-p)$ | 单次是/否、涨/跌、违约/不违约 |
| Binomial$(n,p)$ | $\binom nxp^x(1-p)^{n-x}$ | $n$:次数,$p$:成功概率 | $np$ | $np(1-p)$ | 固定次数中的成功数 |
| Negative Binomial$(r,p)$ | $\binom{x-1}{r-1}p^r(1-p)^{x-r}$ | $r$:目标成功数,$p$:成功概率 | $r/p$ | $r(1-p)/p^2$ | 等到第 $r$ 次成功 |
| Geometric$(p)$ | $p(1-p)^{x-1}$ | $p$:成功概率 | $1/p$ | $(1-p)/p^2$ | 等到第一次成功 |
| Hypergeometric$(N,K,n)$ | $\binom Kx\binom{N-K}{n-x}/\binom Nn$ | $N$:总体,$K$:成功类,$n$:抽样数 | $nK/N$ | $n\frac KN(1-\frac KN)\frac{N-n}{N-1}$ | 不放回抽样 |
| Poisson$(\lambda)$ | $e^{-\lambda}\lambda^x/x!$ | $\lambda$:平均发生次数 | $\lambda$ | $\lambda$ | 单位时间/空间事件数、稀有事件 |
| Uniform$[a,b]$ | $1/(b-a)$ | $a,b$:区间端点 | $(a+b)/2$ | $(b-a)^2/12$ | 区间内均等可能、模拟 |
| Beta$(\alpha,\beta)$ | $x^{\alpha-1}(1-x)^{\beta-1}/B(\alpha,\beta)$ | 形状参数 | $\alpha/(\alpha+\beta)$ | $\alpha\beta/[(\alpha+\beta)^2(\alpha+\beta+1)]$ | 比例、概率、边际消费倾向 |
| Normal$(\mu,\sigma^2)$ | $\frac1{\sqrt{2\pi\sigma^2}}e^{-(x-\mu)^2/(2\sigma^2)}$ | $\mu$:位置,$\sigma^2$:尺度 | $\mu$ | $\sigma^2$ | 误差、收益率、大样本近似 |
| Exponential$(\beta)$ | $\beta^{-1}e^{-x/\beta}$ | $\beta$:尺度/平均等待时间 | $\beta$ | $\beta^2$ | 等待时间、恒定风险率久期 |
| Gamma$(\alpha,\beta)$ | $x^{\alpha-1}e^{-x/\beta}/[\Gamma(\alpha)\beta^\alpha]$ | $\alpha$:形状,$\beta$:尺度 | $\alpha\beta$ | $\alpha\beta^2$ | 非负变量、持续期、利率 |
| Lognormal$(\mu,\sigma^2)$ | $\frac1{x\sqrt{2\pi\sigma^2}}e^{-(\ln x-\mu)^2/(2\sigma^2)}$ | $\ln X$ 的均值方差 | $e^{\mu+\sigma^2/2}$ | $e^{2\mu+\sigma^2}(e^{\sigma^2}-1)$ | 资产价格、收入、规模 |
| Weibull$(\alpha,\beta,c)$ | $\frac c\beta(x-\alpha)^{c-1}e^{-(x-\alpha)^c/\beta}$ | 位置、尺度、形状 | 依参数化而定 | 依参数化而定 | 寿命、失效时间、可变风险率久期 |
常用 MGF:Bernoulli 为 $1-p+pe^t$;Binomial 为 $(1-p+pe^t)^n$;Poisson 为 $e^{\lambda(e^t-1)}$;Normal 为 $e^{\mu t+\sigma^2t^2/2}$;Gamma 为 $(1-\beta t)^{-\alpha}$;Exponential 为 $(1-\beta t)^{-1}$。对数正态所有矩存在但 MGF 不存在;柯西分布均值方差和 MGF 都不存在,但特征函数存在,$\varphi_X(t)=e^{i\mu t-\sigma |t|}$。这说明 MGF 很强但不总能用,特征函数更普遍。
复习本章时,建议按“变量支撑集 → 生成机制 → 参数含义 → 均值方差 → 近似关系 → 经济应用”六步记忆。公式只是表层,真正的判断标准是随机变量由什么机制产生:固定次数数成功用二项,不放回抽样用超几何,稀有事件数用泊松,等待第一次成功用几何,非负等待时间用指数或伽玛,比例用贝塔,乘法增长后的正值变量用对数正态,大样本平均和估计量用正态。
课件引用
参考来源
- 洪永淼《概率论与统计学》第4章课件(厦门大学WISE,2024)