Chap 5 不等式与极限定理
概率不等式
定义(Markov 不等式) $Y\ge 0$, $\forall\,a>0$, 有
证明 令示性变量
从而有 $I\le \dfrac{Y}{a}$, 两边取期望, 即得
定义(Chebyshev 不等式) $Var(Y)$ 存在, $\forall\,a>0$, 有
证明 注意到
注 若 $Var(Y)=0$, 则 $P(Y=E(Y))=1$. ($Y=E(Y)$ $a.s.$)
定义(Chernoff 不等式) $\forall\,a>0$, $t>0$, 有
证明 注意到
例 $X\sim N(0,1)$, 估计 $P(\vert X\vert\ge 3)$.
解答 我们有
大数定律 (LLN)
定义 $X_1,X_2,\cdots$ iid (独立同分布), $E(X_i)=\mu$, $Var(X_i)=\sigma^2>0$. 定义:
定义(Khinchin 弱大数定律)(WLLN)
若 $X_1,X_2,\cdots$ iid, $E(X_i)=\mu$, $Var(X_i)=\sigma^2>0$. 则 $\forall\varepsilon>0$, 有
证明 我们有
注
$\mu\approx\overline{X}$ (在很大概率意义下可以用作样本均值估计);
$\forall\,\varepsilon>0$, $\forall\,\alpha>0$, $\exists N>0$ 使得当 $n\ge N$ 时
其中 $\varepsilon$ 体现了精度,$\alpha$ 体现了置信度.
Bernoulli LLN: $X_i\sim B(p)$, 则特殊地得到 Bernoulli 大数定律。
方差有限条件可去掉, 结论依然成立;
可推广至不同的条件:
- $X_i$ 两两不相关, $Var(X_i)$ 一致有界 (Chebyshev);
- $Var(\overline{X})\rightarrow 0$ (Markov).
定义(依概率收敛)
注 WLLN $\Rightarrow\overline{X}\stackrel{P} {\longrightarrow}\mu$ (考虑偏差).
定义(Kolmogov 强大数定律)(SLLN)
若 $X_1,X_2,\cdots$ iid, $E(X_i)=\mu$. 则有
注 若 $X_i\sim B(p)$ 则 $\overline{X}$ 为频率,从而概率的频率解释是合理的.
定义(以概率 1 收敛)
注 SLLN $\Rightarrow\overline{X}\stackrel{a.s.} {\longrightarrow}\mu$ (逐点考虑).
例 (Monte Carlo 积分)
解答 在 $[a,b]\times [0,c]$ 上取点 $(X_i,Y_i)$ iid 在矩形内均匀分布. 定义
则 $I_i\stackrel{iid} {\longrightarrow}B(p)$. 我们有
例 两种收敛有什么差别?
解答 考虑 $\Omega=[0,1]$ 均匀分布 (从而有 ($\Omega,\mathscr{F},P$)). 我们构造
因此有 $Y_n\stackrel{P} {\longrightarrow}Y$, 但是 $Y_n\stackrel{a.s.} {\longrightarrow}Y$ 不成立.
这是因为 $\forall\,\omega_0\in(0,1)$, $Y_n(\omega_0)$ 是振荡的, 它的极限不存在.
中心极限定理 (CLT)
定义(中心极限定理)(CLT)
若 $X_1,X_2,\cdots$ iid, $E(X_i)=\mu$, $Var(X_i)=\sigma^2>0$. 我们有
其中 $\Phi(x)$ 为 $N(0,1)$ 的 CDF. 也即
证明 只在 $X_i$ 的 MGF 存在情形下证明, 记 $M(t)=M_{X_i}(t)$.
不失一般性地, 令 $\mu=0$, $\sigma^2=1$. 因此
我们得到
注
上述 CLT 通常称为 Lindeberg-Levy CLT;
CLT $\Rightarrow X_1+\cdots+X_n\sim N(n\mu,n\sigma^2)$, $\overline{X}\sim N(\mu,\dfrac{\sigma^2}{n})$;
(DeMoivre-Laplace CLT)
若 $X_i\sim B(p)$, 则 $\sum\limits_{i=1}^{n}X_i\sim B(n,p)\stackrel{CLT} {\longrightarrow}$ 正态分布.
定义(二项分布下 CLT 的连续性修正)
我们有 $P(t_1\le\sum\limits_{i=1}^{n}X_i\le t_2)\approx\Phi(y_2)-\Phi(y_1)$. 其中
修正形式可计算单点 $P(S_n=k)$ 的概率, 对其他离散变量也同样适用.
定义(依分布收敛)
注 CLT $\Rightarrow Z_n=\dfrac{X_1+\cdots+X_n-n\mu}{\sqrt{n}\sigma}=\dfrac{\overline{X}-\mu}{\tfrac{\sigma}{\sqrt{n}}}$ (标准化).
例(选举问题) 设 $p$ 为选民支持率(未知), 随机调查 $n$ 个人, 支持比例为 $p_n=\dfrac{1}{n}\sum\limits_{i=1}^{n}X_i$, 其中 $X_i\sim B(p)$. 若 $\varepsilon=0.03$, $1-\alpha=0.95$, 求 $n$ 的取值.
解答 有
由 CLT 可得
即得
为使得对任意 $p$ 成立, 取 $p=\dfrac{1}{2}$, 即有
注意到 $\Phi(1.96)\approx 0.975=1-\dfrac{\alpha}{2}$, 因此取 $n\ge 1068$ 即可 (与 $N$ 无关).
Review
尾部概率控制
极限定理
- LLN: 弱 or 强
- CLT