没有什么比年轻时代更感寂寞的了。——《こころ》
# 概率论
# 随机事件及其概率
# 随机事件及其运算
随机试验:
- 试验可在相同条件下重复进行。
- 试验的结果不止一个,且都明确可知。
- 每次试验之前,不知道哪个结果将会出现。
- 试验E 中的每一个可能结果称为基本事件,或称为样本点,所有基本事件组成的集合称为试验E 的样本空间,记为Ω。
- 具有某种性质的样本点构成的集合称为试验E 的随机事件,简称为事件。用大写字母表示。事件是样本空间的子集。
- 在随机试验中,事件 A 发生当且仅当 A 包含的某一样本点出现。
- 又样本空间中所有的样本点组成的事件称为必然事件,就用Ω 表示,而空集则为不可能事件。
事件的关系:包含、并、交、差、互不相容事件、对立事件都可以对应集合关系。
# 古典概型与几何概型
定义:设在相同的条件下,进行了 n 次试验,在这 n 次试验中事件 A 出现了 m 次,则称:
fn(A)=nm
为随机事件 A 在 n 次试验中出现的频率,m 称为频数。
- 经验表明,当试验次数相当大时,频率总是稳定于某一常数附近,以某一常数为中心作微小的摆动,这称为频率的稳定性。
定义:在大量重复试验中,若事件 A 发生的频率稳定在某一常数 p 附近摆动,则称改常数 p 为事件 A 发生的概率,记为P(A)=p。
- 注意 n 足够大,有fn(A)≈P(A)。
古典概型定义:设试验结果共有 n 个基本事件ω1,...,ωn,而且这些事件发生的可能性相等。事件 A 由其中的 m 个基本事件组成,则事件 A 的概率为:
P(A)=nm
- 注意古典概型要求了:
- 基本事件是有限可数的。
- 每次试验中,每个基本事件发生是等可能的。
几何概型定义:如果试验E 的可能结果可以几何地表示为某区域Ω 中的一个点,并且点落在Ω 中某区域 A 的概率与 A 的测度成正比,而与 A 的形状无关。则随机点落在区域 A 的概率为:
P(A)=mΩmA
其中mA 表示 A 的测度。
# 概率的公理化定理及其性质
- 几何概型中,由于计算事件的概率需要几何图形的测度,因此不能把不可测集当作事件。于是我们可以递归定义事件集合。(即产生了全部的合法事件)
- $\Omega \in \mathscr{F} $
- 若A∈F,则\bar{A} \in \mathscr
- 若An∈F,n=1,2,3,...,则⋃n=1∞An∈F(其实这个要求结合上前两个也就可以证明集合对交封闭)
概率的公理化:对于样本空间的一个事件域,若对于事件域中的任何一个事件 A,都有一个实数P(A) 与之对应,并且满足:
-
非负性:P(A)≥0
-
规范性:P(Ω)≥0
-
可列可加性:对于两两互不相容的可列个事件A1,...,An,...,有
P(i=1∑∞Ai)=i=1∑∞P(Ai)
则称P(A) 为事件 A 的概率。
显然概率有可列可加,可减,单调性等等。
- 上下连续性:若有A1⊂A2⊂...⊂An⊂...,则:
P(i=1⋃∞Ai)=n→∞limP(An)
若有A1⊃A2⊃...⊂An⊃...,则:P(i=1⋂∞Ai)=n→∞limP(An)
概率空间:三元组(Ω,F,P)。
# 条件概率与事件独立性
- 事件 A 发生的前提下,事件 B 发生的概率称为条件概率,记为:P(B∣A)。
设(Ω,F,P) 是一个概率空间,A∈F,P(A)>0。则对任意B∈F,记:
P(B∣A)=P(A)P(AB)
若对概率空间中的两个事件 A,B,有:
P(AB)=P(A)P(B)
则称事件 A 与事件 B 是相互独立。否则称他们不相互独立,或相依的。
- 定理:若事件 A 与 B 相互独立,则事件Aˉ 和B 也是相互独立的。
对于三个事件A,B,C,若有:
⎩⎪⎪⎨⎪⎪⎧P(AB)=P(A)P(B)P(AC)=P(A)P(C)P(BC)=P(B)P(C)
则称它们两两独立。若有:
⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧P(AB)=P(A)P(B)P(AC)=P(A)P(C)P(BC)=P(B)P(C)P(ABC)=P(A)P(B)P(C)
则称 A, B, C 相互独立。
- 相互独立可以推出两两独立,但两两独立无法推出相互独立。一般地,对于一个事件序列A1,...,An,...,若其中任意有限个事件都相互独立,则称A1,...,An,... 是独立事件序列。
# 全概率公式与贝叶斯公式
定义:设A1,...,An 是一组事件,若它们两两互不相容,而且:
i=1∑nAi=Ω
则称它们是样本空间的一个分割,亦称完备事件组。
全概率公式:对于Ω 的一个分割A1,...,An,P(Ai)>0, 有:
∀B∈F,P(B)=i=1∑nP(B∣Ai)
贝叶斯公式:对于概率空间(Ω,F,P),A1,A2,...,An 是样本空间的一个分割,则对任意B∈F,P(B)>0,有:
P(Ak∣B)=∑j=1nP(Aj)P(B∣Aj)P(Ak)P(B∣Ak),k=1,2,...,n
- 我愿称之为展开的概率反演。P(A∣B)=P(AB)/P(B)=P(AB)/P(A)∗P(A)/P(B)=P(B∣A)∗P(A)/P(B)。
# 伯努利概型
若试验E1 的任一结果(事件)都与试验E2 的任一结果(事件)相互独立,则称这两个试验相互独立。若试验E1,...,En 相互独立,则称其为 n 重重复试验。
若试验E1 的可能结果只有A 和Aˉ,则称其为伯努利试验。若将E1 重复进行 n 次,且 n 次试验都相互独立,则称为 n 重伯努利试验。
# 随机变量及其分布
# 随机变量与分布函数
定义:设X(ω) 是定义在概率空间(Ω,F,P) 上的单值实函数,即对每个ω∈Ω,都有X(ω)∈R,并且对任意x∈R,{ω∣X(ω)≤x} 都是随机事件(即其∈F)则称X(ω) 是概率空间上的随机变量。通常简记为 X。
- 分布函数:X∼F(x)=P(X≤x)。定理:
- 单调不减:a<b⇒F(a)≤F(b)。
- 0≤F(x)≤1,limn→+∞F(x)=1,limn→−∞F(x)=−1。
- 右连续性:F(x) 在任何点 x 处右连续。
- 用⋂{X≤x+n1}={X≤x} 和右极限=limn→∞F(x+n1) 来证明。
- 随机变量有离散型,非离散型(连续型,奇异型)等等分类。
# 离散型随机变量及其分布
设离散型随机变量 X 的所有可能取得值为x1,...,xn,而 X 取xk 的概率为pk,即P(X=xk)=pk(k=1,...,n)。
称上式为随机变量 X 的概率分布律。
-
常见分布:
-
退化分布:P(X=C)=1
-
两点分布:P(X=0)=p,P(X=1)=1−p
-
二项分布:P(X=k)=C_n^kp^k(1-p)^
- 当(n+1)p 为整数时,在k=(n+1)p,(n+1)p−1 处概率取得最大值。若不为整数,则在[(n+1)p] 取得最大值。于是[(n+1)p] 称为二项分布B(n,p) 的最可能出现次数,或称最可能值。
- E[X]=np,D(X)=np(1−p)
-
几何分布:P(X=k)=(1−p)k−1p,记为X∼G(p)。有∑i=1∞P(X=k)=1。
-
超几何分布:N 件产品中有 M 件次品,现抽 n 件出来,其中的次品数服从超几何分布:
P(X=k)=CNnCMkCN−Mn−k,k=1,..,min(n,M)
泊松定理:设随机变量Xn∼B(n,pn),(n=1,2,...)。若有limn→∞npn=λ,则有:
n→∞limP(Xn=k)=k!λke−λ
-
泊松分布:X∼P(λ):
P(X=k)=k!λke−λ,k=0,1,2,...
自然界很多稀疏现象都服从泊松分布,故其又称为稀疏现象律。泊松分布最可能值为λ,λ−1 或[λ]。
- E[X]=λ,D(X)=λ
# 连续型随机变量及其分布
定义:设随机变量 X 的概率分布函数为F(x),如果存在一个函数f(x),对于任意实数 x,都有:
F(x)=∫−∞xf(t)dt,x∈R
则称 X 为连续性随机变量,f(x) 为 X 的概率密度函数。
-
连续型随机变量有:P(X=a)=0,P(a≤X≤b)=P(a<X≤b)=P(a≤X<b)=P(a<X<b)。
-
一个事件概率为零,他并不一定是不可能事件(空集)。同样,概率为 1 的也不一定是必然事件。
-
常见分布:
-
均匀分布:X∼U[a,b]:
f(x)={b−a10a≤x≤belse
-
指数分布:X∼E(λ):
f(x)={λe−λx0x>0x≤0
- 指数分布具有无记忆性:P(X>s+t∣X>s)=P(X>t)。
-
E[X]=\frac{1}{\lambda},D(X)=\frac{1}
-
正态分布:X∼N(μ,σ2):
f(x)=2πσ1e−2σ2(x−μ)2,x∈R
- 标准正态分布的概率函数和分布函数记为φ(x),Φ(x)。有Φ(−x)=1−Φ(x)(关于 y 轴对称)。
- 3σ 原则:正态分布几何全部的取值都落在[μ−3σ,μ+3σ] 内。
# 随机变量函数的分布
# 多维随机变量及其分布
# 二维随机变量及其分布
定义:设(X,Y) 是二位随机变量,对任意实数x,y,二元函数 $ F (x,y)=P (X\leq x,Y\leq y)称为随机变量 (X,Y)$ 的联合分布函数。
- 特别地,如果二阶偏导数f(x,y) 连续(即与求偏导顺序无关),则定义f(x,y)=∂x∂y∂2F(x,y) 为联合密度函数。
# 边缘分布
记二维随机变量的分布函数F(x,y) 关于X 和Y 的边缘分布函数为FX(x)=F(x,+∞),FY(y)=F(+∞,y)。同样也有边缘概率密度函数:fX(x)=∫−∞+∞f(x,y)dy。
- 二维正态分布的边缘分布仍为正态分布。
- 边缘分布的理解就是不论 y 取什么,只考虑 x 的取值情况。就像对多量子比特系统中,对单一比特进行测量之后引起的系统的坍塌。
# 条件分布
条件概率分布函数的定义为:FY∣X(y∣x)=fX(x)F(x,y)=∫−∞yfX(x)f(x,v)dv,条件概率密度函数为f_{Y|X}(y|x)=\frac{f(x,y)}
# 随机变量的独立性
若对二维随机变量(X,Y),有∀x,y.F(x,y)=FX(x)FY(y) 或f(x,y)=fX(x)fY(y)(两式等价),则称 X 与 Y 相互独立。
# 二维随机变量函数的分布
令Z=g(X,Y),一般会先求Z 的分布函数FZ(z)=∬g(x,y)≤zf(x,y)dxdy,然后再求导得到fZ(z)。
- 若Z=X+Y,有fZ(z)=∫−∞+∞f(x,z−x)dx=∫−∞+∞f(z−y,y)dy。(令u=x+y)概率密度函数卷积公式
- 若Z=YX,有fZ(z)=∫−∞+∞f(yz,y)∣y∣dy。
- 若Z=max(X,Y),有FZ(z)=FX(z)FY(z)。(若 X,Y 相互独立)
- 若Z=min(X,Y),有FZ(z)=1−[1−FX(z)][1−FY(z)]。
# 随机变量的数字特征与极限定理
# 数学期望
设连续型随机变量X 的概率密度函数为f(x),若积分∫−∞+∞xf(x)dx 绝对收敛,则称该积分值为 X 的数学期望。
-
若积分∫−∞+∞g(x)f(x)dx 绝对收敛,则有:
E[g(X)]=∫−∞+∞g(x)f(x)dx
-
对任意随机变量 X,Y 都有E[X+Y]=E[X]+E[Y],但只有当它们独立时,才有E[XY]=E[X]E[Y]。
-
柯西 - 施瓦泽不等式:(E[XY])2≤E[X2]E[Y2]。
# 方差
设 X 是随机变量,如果E[(X−E(X))2] 存在,则称之为 X 的方差,记为D(X)。
- D(X)=E[(X−E[X])2]=E[X2]−2E[X]E[X]+E[X]2=E[X2]−E[X]2。
# 协方差与相关系数
定义Cov(X,Y)=E[(X−E[X])(Y−E[Y])] 称为随机变量X 和Y 的协方差,ρXY=D(X)D(Y)Cov(X,Y) 称为随机变量 X 和 Y 的相关系数。
-
常用计算协方差方法:Cov(X,Y)=E[XY]−E[X][Y]。
-
性质:
- Cov(X,Y)=Cov(Y,X)
- Cov(a1X+b1,a2Y+b2)=a1a2Cov(X,Y)
- Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,y)
- D(X±Y)=D(X)+D(Y)±2Cov(X,Y)
- X,Y 独立⇔Cov(X,Y)=0
- ∣ρXY∣≤1,且取等的充要条件是X 和Y 呈线性关系。
-
一般来说,∣ρXY∣ 越大,X 和 Y 的 “线性相关” 越强,若ρXY=0,则它们独立。注意,当且仅当ρXY=0 时称他们不相关。
-
X 和Y 独立⇒Cov(X,Y)=0,反之不一定成立。譬如X∼U[−1,1],Y=X2。
称E[Xk] 为 X 的 k 阶原点矩。
称E[(X−E[X])2] 为 X 的 k 阶中心矩。
称E[XkYl] 为 X 和 Y 的 k+l 阶混合矩。
称E[(X−E[X])k(Y−E[Y])l] 为 X 和 Y 的 k+l 阶中心混合矩。
# 大数定律
切比雪夫不等式:
∀ε>0,P(∣X−E[X]∣≥ε)≤ε2D(X)
-
切比雪夫大数定律:
设随机变量X1,...,Xn,... 相互独立,且有相同的数学期望和方差,即:E[Xk]≡μ,D(Xk)≡σ2,则有:
∀ε>0,n→∞limP(∣n1k=1∑nXk−μ∣<ε)=1
-
辛钦大数定律:
设随机变量X1,...,Xn,... 独立同分布,且有相同的数学期望,即E[Xk]≡μ,则:
∀ε>0,n→∞limP(∣n1k=1∑nXk−μ∣<ε)=1
它不要求方差的存在,但要求同分布。
-
伯努利大数定律:
在伯努利概型中(n 次独立重复试验,k 为事件 A 发生的次数,每次试验 A 发生的概率为 p),有:
∀ε>0,n→∞limP(∣nkn−p∣<ε)=1
伯努利大数定律从理论上说明任一随机事件的频率具有稳定性。因此可以在大量试验后,将发生的频率近似作为概率。
# 中心极限定理
很多独立随机变量的极限分布是正态分布。
-
列维 - 林德伯格中心极限定理:
设X1,X2,...,Xn,... 是独立同分布的随机变量:E[Xk]≡μ,D(Xk)≡σ2,则有:
∀x,n→∞limP(σn∑i=1nXk−nμ≤x)=Φ(x)
即独立同分布的随机变量之和∑i=1nXk 近似于正态分布N(nμ,nσ2)。所以σ/nXˉ−μ 近似服从N(0,1)。
-
蒂莫夫 - 拉普拉斯中心极限定理:
设Yn 服从二项分布B(n,p),则有:
∀x,n→∞limP(np(1−p)Yn−np≤x)=Φ(x)
即 n 充分大时,二项分布近似于服从N(np,np(1−p))。
-
不同分布的中心极限定理:
设X1,...,Xn,... 是独立不同分布的随机变量,D(Xi)=σi2。若:
{limn→∞∑i=1nσi2=∞limn→∞nmax(σi2)=0
则:
Y=n→∞limn∑i=1nXi
服从正态分布。它表示,由足够多的随机变量,但每个随机变量又不起决定性作用,他们的平均随机变量服从正态分布。
# 数理统计
# 数理统计基本知识
# 总体与样本
简单随机样本需要满足:
- 独立性:X1,...,Xn 是相互独立的随机变量。
- 代表性:X1,...,Xn 要与总体X 有相同的分布。
设X1,...,Xn 为来自总体X 的简单随机样本,则有:
- X1,...,Xn 的联合分布函数为:FX1,...,Xn(x1,...,xn)=∏i=1nF(xi),其中F(x) 是总体X 的分布函数。
- E[Xi]≡E[X],D(Xi)≡D(X)。
# 统计量与三大分布
不含任何未知参数,只关于样本的实值函数称为样本的一个统计量。常用统计量:
-
均值:Xˉ=∑i=1nXi
-
样本方差:S2=n−11∑i=1n(Xi−Xˉ)2=n−11(∑i=1nXi2−nXˉ),这里为什么是除以n−1 呢,是因为要保证标准差的无偏性,在后面 “估计量的优劣评价” 中会提到。
-
样本标准差:S=\sqrt
-
样本 k 阶原点矩:Ak=n1∑i=1nXik
-
样本 k 阶中心矩:Bk=n1∑i=1n(Xi−Xˉ)2
-
顺序统计量:最小、最大统计量max(X1,...,Xn),min(X1,...,Xn)
二维统计量:
- 协方差:SXY2=n−11∑i=1n(Xi−Xˉ)(Yi−Yˉ)
- 样本相关系数:\rho_{XY} = \frac{S_{XY}^2}
三大分布:
-
χ2 分布:
设随机变量X1,...,Xn 独立且都服从标准正态分布,则:
χ2=X12+...+Xn2fχ2(x)={2n/2Γ(n/2)1x2n−1e−x/20x>0x≤0
有E[χ2(n)]=n,D[χn(n)]=2n。
χ2(m)+χ2(n)=χ2(m+n)。图像:
![1]()
-
t 分布(学生分布):
设随机变量X,Y 相互独立,且X∼N(0,1),Y∼χ2(n),则:
t=Y/nXft(x)=nπΓ(n/2)Γ[(n+1)/2](1+nx2)−2n+1
有E[t(n)]=0(n>1),D[t(n)]=n−2n(n>2)。
当n≥30 时,已经可以将 t 分布近似看成标准正态分布。图像:
![2]()
-
F 分布:
设随机变量X 和Y 相互独立,且X∼χ2(m),Y∼χ2(n),则:
F=Y/nX/m
有E[F(m,n)]=n−2n,D[F(m,n)]=m(n−2)2(n−4)2n2(m+n−2),且F∼F(m,n)⇒F1∼F(n,m)。图图:
![3]()
这些图一个比一个丑
上分位数点:P(X>xα)=1−F(xα)=α,则xα 称为 X 的上α 分位点。
- 正态分布的上分位点记为uα。
- n≥40 时,χα2(n)≈21(uα+2n−1)2
- 由 t 分布的对称性,有t1−α(n)=−tα(n)
- F_{1-\alpha}(m,n)=\frac{1}
顺序统计量的分布:设总体 X 具有分布函数F(x),其密度函数为f(x)。则:
- X_{(1)}=min(X_1,...,X_n),f_{X_{(1)}}(x) = nf(x) [1-F(x)]^
- X_{(n)}=max(X_1,...,X_n),f_{X_{(n)}}(x) = nf(x)[F(x)]^
- fX(1),X(n)(x,y)=n(n−1)f(x)f(y)[F(y)−F(x)]n−2(x≤y)。
- fX(k)(x)=kCnkF(x)k−1[1−F(x)]n−kf(x)
# ☆正态总体的抽样分布
设X1,...,Xn 是来自正态总体X∼N(μ,σ2) 的一组样本,则:
- Xˉ∼N(μ,nσ2)
- σ2(n−1)S2∼χ2(n−1)
- S/nXˉ−μ∼t(n−1)
- Xˉ 与S2 相互独立
设X1,...,Xn 是来自正态总体X∼N(μ1,σ12) 的一组样本,设Y1,...,Yn 是来自正态总体Y∼N(μ2,σ22) 的一组样本,且两组样本间独立。则:
- SY2/σ22SX2/σ12∼F(m−1,n−1)
- 剩下两个分布太麻烦了
# 参数估计和假设检验
# 参数的点估计
参数估计是根据样本对总体未知参数(如均值,方差)等进行估计的一种统计推断方法。
- 参数点估计:构造一个统计量θ^=θ^(X1,...,Xn),直接用θ^ 作为θ 的估计值。
# 矩估计
- 矩估计法是用样本的 k 阶原点矩作为总体的 **k 阶原点矩E[Xk]** 的估计。
考虑要估计的参数是θ1,...,θm,于是可以列出方程组:
⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧E[X]=f1(θ1,...,θm)=n1∑i=1nXiE[X2]=f2(θ1,...,θm)=n1∑i=1nXi2...E[Xm]=fm(θ1,...,θm)=n1∑i=1nXim
然后可以解方程组得到一组解(θ1^,...,θm^),就可以作为参数(θ1,...,θm) 的估计。
根据大数定律,有:
∀ε>0,n→∞limP(∣n1i=1∑nXim−E[Xm]∣<ε)=1
所以样本的 k 阶原点矩就是总体的 k 阶原点矩的一个合理估计。
[例]:已知总体 X 的一组样本X1,X2,...,Xn,试估计总体的方差和均值。(假设它们存在)
-
列出方程组:
{μ=E[X]=n1∑i=1nXi=Xˉμ2+σ2=E[X2]=n1∑i=1nXi2
解得:
μ^=Xˉσ2^=n1i=1∑nXi2−Xˉ2=n1i=1∑n(Xi−Xˉ)2=nn−1S2
-
从例题中,可以看到,估计实际上就是把总体的参数用以样本为自变量的函数来表示,当我们获得了一组样本值时,我们就可以对总体进行合理猜测,这就是统计,用获得的一部分数据去估计整体。
# 最大似然估计
考虑我们有一组样本值x1,...,xn,于是事件A={X1=x1,...,Xn=xn} 发生的概率是一个关于参数θ=(θ1,...,θm) 的函数L(θ)。我们希望取得θ 的一个最大似然估计θ^,此时L(θ^) 取得最大值。
-
L(θ) 的确定:
- 若总体是离散型的,则显然:P(X1=x1,...,Xn=xn)=∏i=1nP(Xi=xi),而P(Xi=xi) 是关于θ 的函数。
- 若总体是连续型的,则要求L(θ)=∏i=1n∫xixi+dxif(t)dt≈∏i=1nf(xi)dxi(dxi→0),f(x) 是概率密度函数。
-
θ^ 的确定:
设X∼N(μ,σ2),已知X 的一组样本观测值x1,...,xn,求μ,σ2 的最大似然估计。
L(μ,σ2)=i=1∏nf(xi)=i=1∏n2πσ1e−2σ2(xi−μ)2lnL(μ,σ2)=−2nln(2π)−2nlnσ2−2σ21i=1∑n(xi−μ)2{∂μ∂lnL(μ,σ2)=0∂σ2∂lnL(μ,σ2)=0⇒μ^=xˉ,σ2^=nn−1s2
- 注意严格来说,最大似然估计是要知道样本的观测值的,当然也可以设成字母表示a1,...,an。但用X1,...,Xn 来表示是不合理的。
# 估计量优劣的评价标准
通常用均方误差MSE(θ^)=E[(θ−θ^)2] 来评价估计量的偏离程度。
-
MSE(θ^)=E[[(θ^−E[θ^])+(E[θ^]−θ)]2]=E[(θ^−E[θ^])2]+2(E[θ^]−θ)E[θ^−E[θ^]]+E[(E[θ^]−θ)2]=E[(θ^−E[θ^])2]+(E[θ^]−θ)2=D(θ^)+(E[θ^]−θ)2
其中,中间项为 0 是因为E[θ^−E[θ^]]=E[θ^]−E[θ^]=0。
式子中将θ^ 作为随机变量,而把θ 作为已知常量。我的理解是,先给出一组样本X1,...,Xn,然后这些样本都是和总体同分布的随机变量,此时可以进行点估计:θ^=f(X1,...,Xn),所以可以对θ^ 取期望。然后假如已知了参数θ,此时我们可以θ^ 成了未知量,因为样本没有被观测。然后我们可以计算出θ^ 偏离已知的θ 的距离的平方的期望。
-
当E[θ^]−θ=0 时,即E[θ^]=θ 时,我们称估计量是无偏的。这是好满足的。
-
但D(θ^)=0 是不可满足的,因为若θ^ 是一个常数而与样本无关了,那显然不太合理。通常我们在无偏的估计中,选择方差最小的,也就是最有效的,称为最小无偏估计。
若E[θ^]=θ,则称θ^ 是θ 的无偏估计,若limn→∞E[θ^]=θ,则称θ^ 是θ 的渐进无偏估计。否则就是有偏估计。
-
这里可以解释下之前留下的问题,为什么样本方差S2 中除以的是n−1。我们来证明:E[S2]=σ2,即S2 是σ2 的无偏估计。
E[S2]=n−11E[i=1∑nXi2−2Xˉi=1∑nXi+i=1∑nXˉ2]=n−11E[i=1∑nXi2−nXˉ2]=n−11(i=1∑nE[Xi2]−nE[Xˉ2])=n−1n(E[X2]−E[Xˉ2])
而
E[Xˉ]=μ,D[Xˉ]=nσ2⇒E[Xˉ2]=μ2+nσ2E[X]=μ,D[X]=σ2⇒E[X2]=μ2+σ2∴E[S2]=n−1n(μ2+σ2−μ2−nσ2)=σ2
因此S2 是σ2 的一个无偏估计。
-
事实上,样本均值和样本方差总是总体均值和总体方差的无偏估计。
若对任意的ε>0,有limn→∞P(∣θ−θn^∣≥ε)=0,则称θ^(X1,...,Xn) 是θ 的一个相合(一致)估计。
- 若limn→∞E[θn^]=θ,limn→∞D(θn^)=0,则θ^n 是θ 的一个相合估计。
# 参数的区间估计
设θ^1,θ^2 是两个统计量,若P(θ^1≤θ≤θ^2)=1−α,则称随即区间[θ^1,θ^2] 是θ 的一个区间估计或置信区间,1−α 称为置信水平或置信度。
- 一般来说,置信度越高,精确性(区间长度)越差(越长)。
求解置信区间的一般方法为:
- 找一个与要估计的参数θ 有关的统计量T,一般是θ 的一个良好的点估计θ^。
- 设法找出T 和θ 的某一函数H(T,θ),要求 H 的分布已知且与T,θ 无关,称为枢轴变量。
- 寻找合适的常数c,d 使得P(c≤H≤d)=1−α。
- 将c≤H≤d 等价变形为θ^1≤θ≤θ^2。
正态分布的置信区间:
评估参数 |
条件 |
枢轴变量及其分布 |
置信区间 |
μ |
σ2 已知 |
σ/nXˉ−μ∼N(0,1) |
[Xˉ−uα/2nσ,Xˉ+uα/2nσ] |
μ |
σ2 未知 |
S/nXˉ−μ∼t(n−1) |
[Xˉ−tα/2(n−1)nS,Xˉ+tα/2(n−1)nS] |
σ2 |
μ 已知 |
∑i=1nσXi−μ2∼χ2(n) |
[χα/22(n)∑(Xi−μ)2,χ1−α/22(n)∑(Xi−μ)2] |
σ2 |
μ 未知 |
σ |