这学期选了应用统计学,据说很难的样子,感觉要挂科了😭 但是可达鸭不会就这样轻易地🐶带。。先把概率论复习一下🤣
Contents
频率与概率
频率是具体的,概率是抽象的。
频率是可知的,概率是未知的,通过大量实验的频率来预测概率。
独立重复试验中,频率依概率收敛于概率。(伯努利大数定理)
条件概率
P(B | A)=\displaystyle\frac{P(A B)}{P(A)}
A发生的条件下B发生的概率 = AB同时发生的概率 / A发生的概率
AB同时发生的概率 = A发生的概率 × A发生的条件下B发生的概率
分布函数和概率密度函数
F(x)=P{X \leq x} 要计算随机变量X落在某个区间的概率,使用分布函数相减就可以了。
连续型随机变量的概率密度函数f(x)满足
P(a<x \leq b)=\displaystyle\int_{a}^{b} f(x) d x
独立性
{P(A B)=P(A) P(B)}
{F(x, y)=F(x) F(y)} 联合分布函数 = 边缘分布函数的乘积
{f(x, y)=f(x) f(y)}
贝叶斯公式
事件已经发生了,探究事情的发生是由哪一个原因造成的。
P\left(B | A\right)=\displaystyle\frac{P\left(A | B\right) P\left(B\right)}{P(A)}
[例] 对以往数据分析结果表明,当机器调整的良好时,产品的合格率为90%,而当机器发生某一故障时,其合格率为30%。每天早上机器开动时,机器调整良好的概率为75%,试求已知某日早上第一件产品是合格品时,机器调整良好的概率是多少?
提示:设A={产品合格},B={机器调整良好},套用贝叶斯公式即可。
离散型随机变量及分布
二项分布
P{X=k}=C_{n}^{k} p^{k} q^{n-k}, \quad k=0,1, \cdots, n
记为X \sim B(n, p)。原型为n重伯努利试验,事件A恰发生k次的概率。(n=1时,退化成两点分布) E(x)=np ,D(x)=np(1-p)
泊松分布
P{X=k}=\displaystyle\frac{\lambda^{k} e^{-\lambda}}{k !}, \quad k=0,1,2, \cdots
记为X \sim P(\lambda)。原型为稀有事件发生的概率。
E(x)=\lambda ,D(x)=\lambda 设\lambda=n p_{n} 则,
\displaystyle\lim_{n \rightarrow \infty} C_{n}^{k} P_{n}^{k}\left(1-P_{n}\right)^{n-k}=\frac{\lambda^{k}}{k !} e^{-\lambda}
连续型随机变量及分布
均匀分布
f(x)={\displaystyle\frac{1}{b-a},} {a \leq x \leq b}
记为X \sim U(a, b)
E(x)=\displaystyle\frac{a+b}{2} ,D(x)=\displaystyle\frac{1}{12}(b-a)^2
指数分布
f(x)=\lambda e^{-\lambda x}, {x \geq 0}
记为X \sim Exp(\lambda) E(x)=\displaystyle\frac{1}{\lambda} ,D(x)=\displaystyle\frac{1}{\lambda^2}
正态分布
f(x)=\displaystyle\frac{1}{\sqrt{2 \pi} \sigma} e^{-\displaystyle\frac{(x-\mu)^{2}}{2 \sigma^{2}}}, \quad-\infty<x<+\infty
记为X \sim N(\mu,\sigma^2) E(x)=\mu ,D(x)=\sigma^2
随机变量的期望、方差、协方差
样本均值的期望等于总体的期望,样本方差的期望等于总体方差的期望。
统计量
不含未知参数的样本的函数称为统计量。
(1) \bar{X} = \displaystyle\sum ^{n}_{i=1}X_i 样本均值
(2) S^2=\displaystyle\frac{1}{n-1} (X_i-\bar{X})^2 样本方差
(3) DX = Var_X = E{(X-EX)^2} 总体方差
(4) V=\displaystyle\frac{S}{\bar{X}} 变异系数
D_X = E(X^2) - (EX)^2
E(X^2) = \sigma^2 + \mu^2
统计量的定理
E(\bar{X})=\mu,Var(\bar{X})=\displaystyle\frac{\sigma^2}{n},即D(\bar{X})=\displaystyle\frac{D(X)}{n}
E(S^2) = \sigma^2
协方差和相关系数
\operatorname{Cov}(X, Y)=E{[X-E(X)][Y-E(Y)]}
\operatorname{Cov}(X, Y)=E(XY)-E(X)E(Y)
若X,Y相互独立,则协方差为0。但是若X,Y协方差=0只能得出X、Y不相关(线性相关),无法得出XY相互独立。
相关系数 \rho_{x y}=\displaystyle\frac{\operatorname{Cov}(X, Y)}{\sqrt{D(X)} \sqrt{D(Y)}}
切比雪夫不等式
设随机变量 X 的方差 D(X)存在,则对于任意实数 \varepsilon >0,
P(|X-E(X)| \geq \varepsilon) \leq \displaystyle\frac{D(X)}{\varepsilon^{2}}
统计中常用的分布族
Gamma分布族
若随机变量X具有密度函数:
f(x: \alpha, \lambda)=\displaystyle\frac{\lambda^{\alpha}}{\Gamma(\alpha)} x^{\alpha-1} e^{-\lambda x}, x>0
其中\Gamma(\alpha)=\displaystyle\int_{0}^{+\infty} x^{\alpha-1} e^{-x} \mathrm{d} x
\Gamma\left(\displaystyle\frac{1}{2}\right)=\sqrt{\pi} ; \Gamma(1)=1 ; \Gamma(n+1)=n \Gamma(n)
性质:
特征函数 \varphi(t)=E e^{i X t}=\left(1-\displaystyle\frac{i t}{\lambda}\right)^{-\alpha}
E(X)=\displaystyle\frac{\alpha}{\lambda} D(X)=\frac{\alpha}{\lambda^{2}}
当\alpha=1时,Ga(1,\lambda)就是参数为λ的指数分布.Ga(\displaystyle\frac{n}{2},\frac{1}{2})称为n个自由度的 \chi^{2} 分布,记作\chi^2(n)分布。