这学期选了应用统计学,据说很难的样子,感觉要挂科了😭 但是可达鸭不会就这样轻易地🐶带。。先把概率论复习一下🤣
频率与概率
频率是具体的,概率是抽象的。
频率是可知的,概率是未知的,通过大量实验的频率来预测概率。
独立重复试验中,频率依概率收敛于概率。(伯努利大数定理)
条件概率
P(B∣A)=P(A)P(AB)
A发生的条件下B发生的概率 = AB同时发生的概率 / A发生的概率
AB同时发生的概率 = A发生的概率 × A发生的条件下B发生的概率
分布函数和概率密度函数
F(x)=PX≤x 要计算随机变量X落在某个区间的概率,使用分布函数相减就可以了。
连续型随机变量的概率密度函数f(x)满足
P(a<x≤b)=∫abf(x)dx
独立性
P(AB)=P(A)P(B)
F(x,y)=F(x)F(y) 联合分布函数 = 边缘分布函数的乘积
f(x,y)=f(x)f(y)
贝叶斯公式
事件已经发生了,探究事情的发生是由哪一个原因造成的。
P(B∣A)=P(A)P(A∣B)P(B)
[例] 对以往数据分析结果表明,当机器调整的良好时,产品的合格率为90%,而当机器发生某一故障时,其合格率为30%。每天早上机器开动时,机器调整良好的概率为75%,试求已知某日早上第一件产品是合格品时,机器调整良好的概率是多少?
提示:设A={产品合格},B={机器调整良好},套用贝叶斯公式即可。
离散型随机变量及分布
二项分布
PX=k=Cnkpkqn−k,k=0,1,⋯,n
记为X∼B(n,p)。原型为n重伯努利试验,事件A恰发生k次的概率。(n=1时,退化成两点分布) E(x)=np,D(x)=np(1−p)
泊松分布
PX=k=k!λke−λ,k=0,1,2,⋯
记为X∼P(λ)。原型为稀有事件发生的概率。
E(x)=λ,D(x)=λ 设λ=npn 则,
n→∞limCnkPnk(1−Pn)n−k=k!λke−λ
连续型随机变量及分布
均匀分布
f(x)=b−a1,a≤x≤b
记为X∼U(a,b)
E(x)=2a+b,D(x)=121(b−a)2
指数分布
f(x)=λe−λx,x≥0
记为X∼Exp(λ) E(x)=λ1,D(x)=λ21
正态分布
f(x)=2πσ1e−2σ2(x−μ)2,−∞<x<+∞
记为X∼N(μ,σ2) E(x)=μ,D(x)=σ2
随机变量的期望、方差、协方差
样本均值的期望等于总体的期望,样本方差的期望等于总体方差的期望。
统计量
不含未知参数的样本的函数称为统计量。
(1) Xˉ=i=1∑nXi 样本均值
(2) S2=n−11(Xi−Xˉ)2 样本方差
(3) DX=VarX=E(X−EX)2 总体方差
(4) V=XˉS 变异系数
DX=E(X2)−(EX)2
E(X2)=σ2+μ2
统计量的定理
E(Xˉ)=μ,Var(Xˉ)=nσ2,即D(Xˉ)=nD(X)
E(S2)=σ2
协方差和相关系数
Cov(X,Y)=E[X−E(X)][Y−E(Y)]
Cov(X,Y)=E(XY)−E(X)E(Y)
若X,Y相互独立,则协方差为0。但是若X,Y协方差=0只能得出X、Y不相关(线性相关),无法得出XY相互独立。
相关系数 ρxy=D(X)D(Y)Cov(X,Y)
切比雪夫不等式
设随机变量 X 的方差 D(X)存在,则对于任意实数ε>0,
P(∣X−E(X)∣≥ε)≤ε2D(X)
统计中常用的分布族
Gamma分布族
若随机变量X具有密度函数:
f(x:α,λ)=Γ(α)λαxα−1e−λx,x>0
其中Γ(α)=∫0+∞xα−1e−xdx
Γ(21)=π;Γ(1)=1;Γ(n+1)=nΓ(n)
性质:
特征函数φ(t)=EeiXt=(1−λit)−α
E(X)=λαD(X)=λ2α
当α=1时,Ga(1,λ)就是参数为λ的指数分布.Ga(2n,21)称为n个自由度的χ2分布,记作χ2(n)分布。