定义(概率分布)
概率分布是函数或规则,它为随机实验的结果或更一般地为样本空间中的事件分配概率。 设 为随机变量,则 的概率分布由其离散变量的概率质量函数(PMF)或连续变量的概率密度函数(PDF)定义。
不失一般性,我们可以将随机变量 的分布定义如下:
对于离散变量,其中 是PMF,而
对于连续变量,其中 是累积分布函数(CDF)。 PMF和PDF必须满足非负性和归一化性质:
- 对于离散变量:
- 对于连续变量:
2983 字约 10 分钟
2025-08-04
概率分布是描述随机变量不同结果可能性的数学函数。它们为随机现象的概率结构提供了完整描述,是统计分析和机器学习的基础。
概率分布可以根据随机变量的性质进行分类:离散(可数结果)、连续(区间内的不可数结果)或混合(组合)。每个分布的特征由其支撑集(可能值)、概率函数(离散为PMF,连续为PDF)、累积分布函数、参数和矩来描述。
定义(概率分布)
概率分布是函数或规则,它为随机实验的结果或更一般地为样本空间中的事件分配概率。 设 X 为随机变量,则 X 的概率分布由其离散变量的概率质量函数(PMF)或连续变量的概率密度函数(PDF)定义。
不失一般性,我们可以将随机变量 X 的分布定义如下:
P(X=x)=f(x)
对于离散变量,其中 f(x) 是PMF,而
P(X≤x)=F(x)
对于连续变量,其中 F(x) 是累积分布函数(CDF)。 PMF和PDF必须满足非负性和归一化性质:
建模具有两个可能结果(成功/失败)的单次试验
参数:p(成功概率),其中 0≤p≤1
支撑集:x∈{0,1}
PMF:P(X=x)=px(1−p)1−x
矩计算:
对于期望值:
E[X]=x=0∑1x⋅P(X=x)=0⋅(1−p)+1⋅p=p
对于二阶矩:
E[X2]=x=0∑1x2⋅P(X=x)=02⋅(1−p)+12⋅p=p
因此,方差为:
V(X)=E[X2]−(E[X])2=p−p2=p(1−p)
应用:硬币翻转、二元结果、指示变量
建模 n 次独立伯努利试验中的成功次数
参数:n(试验次数),p(成功概率)
支撑集:x∈{0,1,2,...,n}
PMF:P(X=x)=(xn)px(1−p)n−x
矩计算:
期望值可以使用期望的线性性质推导。由于 X=∑i=1nXi,其中 Xi∼伯努利(p):
E[X]=E[i=1∑nXi]=i=1∑nE[Xi]=i=1∑np=np
对于方差,由于 Xi 是独立的:
V(X)=V(i=1∑nXi)=i=1∑nV(Xi)=i=1∑np(1−p)=np(1−p)
或者,我们可以直接计算:
E[X]=x=0∑nx(xn)px(1−p)n−x=npx=1∑n(x−1n−1)px−1(1−p)n−x=np
应用:质量控制、调查抽样、临床试验
建模从有限总体中无放回抽取 n 次的成功次数
参数:N(总体大小),K(成功状态数),n(抽取次数)
支撑集:x∈{max(0,n−(N−K)),…,min(n,K)}
PMF:P(X=x)=(nN)(xK)(n−xN−K)
矩计算:
对于期望值,我们使用指示变量。设 Ij=1 如果第 j 次抽取是成功,0 否则。则 X=∑j=1nIj。
任何特定抽取是成功的概率为 P(Ij=1)=NK,所以:
E[X]=E[j=1∑nIj]=j=1∑nE[Ij]=j=1∑nNK=nNK
对于方差,我们需要考虑抽取之间的依赖性:
V(X)=V(j=1∑nIj)=j=1∑nV(Ij)+2j<k∑Cov(Ij,Ik)
由于 V(Ij)=NK(1−NK) 且 Cov(Ij,Ik)=−N2(N−1)K(N−K) 对于 j=k:
V(X)=nNK(1−NK)+n(n−1)(−N2(N−1)K(N−K))=nNKNN−K−n(n−1)N2(N−1)K(N−K)=nN2K(N−K)(1−N−1n−1)=nN2K(N−K)(N−1N−n)
应用:无放回抽样、质量控制、生态研究
建模固定区间内发生的事件数量
参数:λ(率参数),其中 λ>0
支撑集:x∈{0,1,2,...}
PMF:P(X=x)=x!e−λλx
矩计算:
对于期望值:
E[X]=x=0∑∞x⋅x!e−λλx=e−λx=1∑∞(x−1)!λx=e−λλx=1∑∞(x−1)!λx−1
令 k=x−1:
E[X]=e−λλk=0∑∞k!λk=e−λλeλ=λ
对于二阶矩:
E[X2]=x=0∑∞x2⋅x!e−λλx=e−λx=1∑∞x⋅(x−1)!λx
令 k=x−1:
E[X2]=e−λk=0∑∞(k+1)⋅k!λk+1=e−λλk=0∑∞(k+1)⋅k!λk=e−λλ(k=0∑∞k⋅k!λk+k=0∑∞k!λk)=e−λλ(λeλ+eλ)=λ(λ+1)
因此:
V(X)=E[X2]−(E[X])2=λ(λ+1)−λ2=λ
性质:泊松分布是二项分布 B(n,p) 当 n→∞,p→0 且 np=λ 时的极限。
应用:呼叫中心、交通流量、放射性衰变、稀有事件
统计学中最重要的连续分布
参数:μ(均值),σ2(方差)
支撑集:x∈(−∞,∞)
PDF:f(x)=σ2π1e−2σ2(x−μ)2
矩计算:
对于标准正态分布 Z∼N(0,1):
期望值为:
E[Z]=∫−∞∞z⋅2π1e−z2/2dz=0
这是因为被积函数是奇函数且积分收敛。
对于方差:
E[Z2]=∫−∞∞z2⋅2π1e−z2/2dz
使用分部积分,设 u=z,dv=ze−z2/2dz:
E[Z2]=2π1[−ze−z2/2]−∞∞+2π1∫−∞∞e−z2/2dz=0+1=1
因此,V(Z)=E[Z2]−(E[Z])2=1−0=1。
对于一般正态分布 X=μ+σZ:
E[X]=E[μ+σZ]=μ+σE[Z]=μ
V(X)=V[μ+σZ]=σ2V(Z)=σ2
性质:中心极限定理指出随机变量的和趋近于正态性。正态变量的线性组合是正态的。
可加性性质:如果 X∼N(μ1,σ12) 和 Y∼N(μ2,σ22) 独立,则:
X+Y∼N(μ1+μ2,σ12+σ22)
可加性证明:
设 X∼N(μ1,σ12) 和 Y∼N(μ2,σ22) 为独立的正态随机变量。
我们可以写成 X=μ1+σ1Z1 和 Y=μ2+σ2Z2,其中 Z1,Z2∼N(0,1) 是独立的标准正态变量。
那么:
X+Y=(μ1+μ2)+σ1Z1+σ2Z2
由于 Z1 和 Z2 独立,线性组合 σ1Z1+σ2Z2 也服从正态分布,其参数为:
因此:
σ1Z1+σ2Z2∼N(0,σ12+σ22)
所以:
X+Y=(μ1+μ2)+(σ1Z1+σ2Z2)∼N(μ1+μ2,σ12+σ22)
使用矩生成函数的替代证明:
X∼N(μ,σ2) 的矩生成函数为:
MX(t)=eμt+21σ2t2
对于独立的 X 和 Y:
MX+Y(t)=MX(t)⋅MY(t)=eμ1t+21σ12t2⋅eμ2t+21σ22t2=e(μ1+μ2)t+21(σ12+σ22)t2
这是 N(μ1+μ2,σ12+σ22) 的矩生成函数,证明了结果。
应用:自然现象、测量误差、统计推断
建模泊松过程中事件之间的时间
参数:λ(率参数),其中 λ>0
支撑集:x∈[0,∞)
PDF:f(x)=λe−λx 对于 x≥0
矩计算:
对于期望值:
E[X]=∫0∞xλe−λxdx
使用分部积分,设 u=x,dv=λe−λxdx:
E[X]=[−xe−λx]0∞+∫0∞e−λxdx=0+[−λ1e−λx]0∞=λ1
对于二阶矩:
E[X2]=∫0∞x2λe−λxdx
使用分部积分,设 u=x2,dv=λe−λxdx:
E[X2]=[−x2e−λx]0∞+∫0∞2xe−λxdx=0+λ2∫0∞xλe−λxdx=λ2⋅λ1=λ22
因此:
V(X)=E[X2]−(E[X])2=λ22−(λ1)2=λ21
性质:无记忆性:P(X>s+t∣X>s)=P(X>t)
应用:可靠性工程、排队论、生存分析
推广指数分布,建模等待时间
参数:α(形状),β(率),都 >0
支撑集:x∈[0,∞)
PDF:f(x)=Γ(α)βαxα−1e−βx 对于 x≥0
矩计算:
矩生成函数为:
MX(t)=E[etX]=∫0∞etxΓ(α)βαxα−1e−βxdx=Γ(α)βα∫0∞xα−1e−(β−t)xdx=Γ(α)βα⋅(β−t)αΓ(α)=(β−tβ)α 对于 t<β
使用MGF求矩:
E[X]=MX′(0)=αβα(β−t)−α−1t=0=αβαβ−α−1=βα
E[X2]=MX′′(0)=α(α+1)βα(β−t)−α−2t=0=β2α(α+1)
因此:
V(X)=E[X2]−(E[X])2=β2α(α+1)−β2α2=β2α
性质:α 个独立指数分布 指数(β) 变量的和
应用:贝叶斯统计、降雨建模、保险
建模增长曲线和二元选择模型
参数:μ(位置),s(尺度),其中 s>0
支撑集:x∈(−∞,∞)
PDF:f(x)=s(1+e−(x−μ)/s)2e−(x−μ)/s
矩计算:
累积分布函数为:
F(x)=1+e−(x−μ)/s1
对于标准逻辑分布,其中 μ=0 且 s=1:
f(x)=(1+e−x)2e−x
期望值可以使用对称性求得:
E[X]=∫−∞∞x⋅(1+e−x)2e−xdx
令 u=−x,则:
E[X]=∫∞−∞(−u)⋅(1+eu)2eu(−du)=∫−∞∞(−u)⋅(1+eu)2eudu
使用恒等式 (1+eu)2eu=(1+e−u)2e−u:
E[X]=−∫−∞∞u⋅(1+e−u)2e−udu=−E[X]
因此,E[X]=0。
对于方差:
E[X2]=∫−∞∞x2⋅(1+e−x)2e−xdx
使用替换 u=1+e−x1,这给出 x=ln(1−uu) 和 dx=u(1−u)du:
E[X2]=∫01[ln(1−uu)]2du
这个积分等于 3π2,所以 V(X)=3π2。
对于一般逻辑分布 X=μ+sZ,其中 Z∼逻辑(0,1):
E[X]=μ+sE[Z]=μ
V(X)=s2V(Z)=3s2π2
性质:形状与正态分布相似但具有更重的尾部。两个Gumbel分布的差服从逻辑分布。
应用:逻辑回归、选择建模、增长曲线
更多关于随机变量及其性质的详细信息,请参见随机变量。
关于期望和方差计算,请参见期望和方差。