期望和方差
2692 字约 9 分钟
2025-08-04
相关信息
本文档为机翻版本,仅供参考
期望和方差
期望和方差是概率论中的两个基本概念,它们描述了随机变量分布的中心趋势和离散程度。
期望值(均值)
期望值,也称为均值或期望,表示随机变量在多次试验中的平均值。
对于离散随机变量
E[X]=μX=x∑x⋅pX(x)
其中:
- pX(x) 是概率质量函数(PMF)
- 求和是对X的所有可能值进行的
性质:
- 线性和齐次性:E[aX+b]=aE[X]+b
- 对于两个随机变量:E[X+Y]=E[X]+E[Y]
- 对于独立随机变量:E[XY]=E[X]E[Y]
关键性质的证明
线性性:对于a,b∈R
E[aX+b]=x∑(ax+b)⋅pX(x)=ax∑x⋅pX(x)+bx∑pX(x)=aE[X]+b
可加性:
E[X+Y]=x∑y∑(x+y)⋅pX,Y(x,y)=x∑y∑x⋅pX,Y(x,y)+x∑y∑y⋅pX,Y(x,y)=E[X]+E[Y]
独立变量的乘积: 如果X和Y独立,则pX,Y(x,y)=pX(x)pY(y),所以:
E[XY]=x∑y∑xy⋅pX,Y(x,y)=x∑y∑xy⋅pX(x)pY(y)=(x∑xpX(x))(y∑ypY(y))=E[X]E[Y]
对于连续随机变量
E[X]=μX=∫−∞∞x⋅fX(x)dx
其中:
- fX(x) 是概率密度函数(PDF)
方差
方差衡量随机变量的值偏离其均值的程度。
定义
V(X)=σX2=E[(X−μX)2]=E[X2]−(E[X])2
对于离散随机变量
V(X)=x∑(x−μX)2⋅pX(x)
对于连续随机变量
V(X)=∫−∞∞(x−μX)2⋅fX(x)dx
标准差
标准差是方差的平方根:
σX=V(X)
方差的性质
- V(X)≥0
- V(a)=0 对于任何常数a
- V(aX)=a2V(X)
- V(X+a)=V(X)
- 对于独立随机变量:V(X+Y)=V(X)+V(Y)
方差性质的证明
缩放性质:对于a∈R
V(aX)=E[(aX−E[aX])2]=E[(aX−aE[X])2]=E[a2(X−E[X])2]=a2E[(X−E[X])2]=a2V(X)
平移不变性:
V(X+a)=E[(X+a−E[X+a])2]=E[(X+a−E[X]−a)2]=E[(X−E[X])2]=V(X)
独立变量的可加性: 如果X和Y独立:
V(X+Y)=E[(X+Y)2]−(E[X+Y])2=E[X2+2XY+Y2]−(E[X]+E[Y])2=E[X2]+2E[X]E[Y]+E[Y2]−E[X]2−2E[X]E[Y]−E[Y]2=(E[X2]−E[X]2)+(E[Y2]−E[Y]2)=V(X)+V(Y)
例子
例子1:离散情况(掷骰子)
对于一个公平的六面骰子:
- PMF:pX(x)=61,对于x∈{1,2,3,4,5,6}
期望值:
E[X]=x=1∑6x⋅61=61+2+3+4+5+6=621=3.5
方差:
E[X2]=x=1∑6x2⋅61=61+4+9+16+25+36=691
V(X)=E[X2]−(E[X])2=691−(3.5)2=691−449=12182−147=1235≈2.92
例子2:连续情况(正态分布)
对于X∼N(μ,σ2):
- PDF:fX(x)=σ2π1e−2σ2(x−μ)2
期望值:E[X]=μ
方差:V(X)=σ2
例子3:连续情况(均匀分布)
对于X∼U(a,b):
- PDF:fX(x)=b−a1,对于a≤x≤b
期望值:
E[X]=∫abx⋅b−a1dx=2a+b
方差:
V(X)=∫ab(x−2a+b)2⋅b−a1dx=12(b−a)2
随机变量函数的期望
当我们对随机变量应用函数时,会得到一个新的随机变量。计算这个新随机变量的期望是概率论中的重要问题。
无意识统计学家定律(LOTUS)
计算随机变量函数期望的核心原理是无意识统计学家定律(Law of the Unconscious Statistician, LOTUS)。该定律指出:要计算 E[g(X)],我们不需要先找到 g(X) 的分布,而是可以直接使用 X 的原始分布进行计算。
计算公式
对于函数 g:R→R 和随机变量 X,g(X) 的期望为:
E[g(X)]={∑xg(x)⋅pX(x)∫−∞∞g(x)⋅fX(x)dx(离散)(连续)
重要性质
- 线性性:E[a⋅g(X)+b⋅h(X)]=aE[g(X)]+bE[h(X)]
- 单调性:如果对于所有 x 都有 g(x)≤h(x),那么 E[g(X)]≤E[h(X)]
应用实例
例子1:平方函数的期望 对于任意随机变量 X,计算 E[X2]:
- 离散情况:E[X2]=∑xx2⋅pX(x)
- 连续情况:E[X2]=∫−∞∞x2⋅fX(x)dx
这个结果在计算方差时至关重要:V(X)=E[X2]−(E[X])2
例子2:指数函数的期望 对于任意随机变量 X,计算 E[etX]:
- 离散情况:E[etX]=∑xetx⋅pX(x)
- 连续情况:E[etX]=∫−∞∞etx⋅fX(x)dx
这就是矩生成函数的定义,在概率论中有广泛应用。
数值估计方法
当函数复杂或分布非标准时,解析解可能难以获得。此时可使用泰勒级数近似进行数值估计。
泰勒级数近似法
对于均值为 μ、方差为 σ2 的随机变量 X,函数 f(X) 的期望和方差可以通过泰勒展开近似。
期望的近似推导:
在 μ 处对 f(X) 进行二阶泰勒展开:
f(X)=f(μ)+f′(μ)(X−μ)+2f′′(μ)(X−μ)2+R2
其中 R2 是余项。
对两边取期望:
E[f(X)]=E[f(μ)]+E[f′(μ)(X−μ)]+E[2f′′(μ)(X−μ)2]+E[R2]
由于 f(μ)、f′(μ) 和 f′′(μ) 都是常数:
E[f(X)]=f(μ)+f′(μ)E[X−μ]+2f′′(μ)E[(X−μ)2]+E[R2]
利用 E[X−μ]=0 和 E[(X−μ)2]=σ2,并忽略高阶余项:
E[f(X)]≈f(μ)+2f′′(μ)σ2
方差的近似推导:
使用一阶泰勒展开(对于方差计算,一阶通常足够):
f(X)≈f(μ)+f′(μ)(X−μ)
由于 f(μ) 是常数,它不影响方差:
V[f(X)]≈V[f′(μ)(X−μ)]
常数因子可以提出:
V[f(X)]≈[f′(μ)]2V[X−μ]
由于 V[X−μ]=V[X]=σ2:
V[f(X)]≈[f′(μ)]2σ2
总结公式:
E[f(X)]V[f(X)]≈f(μ)+f′′(μ)2σ2≈(f′(μ))2σ2
近似精度说明
- 期望的近似使用了二阶展开,精度较高
- 方差的近似使用了一阶展开,对于非线性较强的函数可能需要更高阶项
- 当 f(X) 是线性函数时,近似结果是精确的
- 当 X 的分布越集中(σ2 越小),近似效果越好
协方差和相关系数
当处理多个随机变量时,我们经常想要衡量它们之间的关系。
协方差
Cov(X,Y)=E[(X−μX)(Y−μY)]=E[XY]−E[X]E[Y]
相关系数
ρX,Y=σXσYCov(X,Y)
性质:
- −1≤ρX,Y≤1
- ρ=1:完全正线性关系
- ρ=−1:完全负线性关系
- ρ=0:无线性关系(但可能有非线性关系)
常见分布及其矩
分布 | 期望值 | 方差 |
---|---|---|
伯努利(p) | p | p(1−p) |
二项(n,p) | np | np(1−p) |
泊松(λ) | λ | λ |
均匀(a,b) | 2a+b | 12(b−a)2 |
正态(μ,σ²) | μ | σ2 |
指数(λ) | λ1 | λ21 |
重要定理
大数定律
对于具有均值μ的独立同分布随机变量X1,X2,...,Xn:
n1i=1∑nXiPμ 当 n→∞
中心极限定理
对于具有均值μ和方差σ2的独立同分布随机变量:
σn∑i=1nXi−nμDN(0,1) 当 n→∞
多个随机变量的期望
当处理多个随机变量的函数时,我们需要理解如何计算它们的期望。
多变量函数的期望
对于两个随机变量的函数g(X,Y),期望使用联合分布计算:
E[g(X,Y)]={∑x∑yg(x,y)⋅pX,Y(x,y)∬R2g(x,y)⋅fX,Y(x,y)dxdy(离散)(连续)
关键性质
从这个定义,我们推导出重要性质:
- 线性性:E[X+Y]=E[X]+E[Y](总是成立)
- 乘积:E[XY]=E[X]E[Y](仅在X和Y独立时成立)
从联合分布计算期望
连续情况的几何解释
对于联合概率密度函数f(x,y),计算E[X]涉及在整个平面上积分:
E[X]=∬R2x⋅f(x,y)dxdy
这可以在几何上理解为找到联合密度形成的三维曲面在x方向的"质心"。
计算可以通过两种等效方式进行:
- 直接积分:在整个平面上对x⋅f(x,y)积分
- 使用边缘密度:首先找到fX(x)=∫−∞∞f(x,y)dy,然后计算E[X]=∫−∞∞x⋅fX(x)dx
第二种方法有效是因为:
E[X]=∫−∞∞∫−∞∞x⋅f(x,y)dydx=∫−∞∞x(∫−∞∞f(x,y)dy)dx=∫−∞∞x⋅fX(x)dx
与离散情况的联系
类似地,对于离散随机变量:
E[X]=x∑y∑x⋅pX,Y(x,y)=x∑x(y∑pX,Y(x,y))=x∑x⋅pX(x)
这表明无论我们直接使用联合分布还是先计算边缘分布,我们都得到相同的期望。
条件期望
给定X=x时Y的条件期望为:
E[Y∣X=x]={∑yy⋅pY∣X(y∣x)∫−∞∞y⋅fY∣X(y∣x)dy(离散)(连续)
这导出了全期望公式:
E[Y]=E[E[Y∣X]]