Chap 7 假设检验
基本概念
例(女士品茶) 某女士声称可区分奶茶是先加牛奶还是先加茶. R.Fisher 设计实验: 各有 4 杯奶茶随机排成一排, 将这一信息告知女士. 考虑假设 $H$: 该女士没有区分能力. 当 $H$ 正确的情况下, 4 杯全对的概率为
下述两种情况之一必发生:
- $H$ 不正确 (i.e.该女士有区分能力);
$H$ 正确 (发生了一件概率为 $\dfrac{1}{70}$ 的事情).
通常选择阈值 $\alpha=0.05,0.01,0.1$ (预先给定的显著性水平). 若女士选对了三杯, 则在 $H$ 正确的前提下, 挑对三杯及以上的概率为
注
Fisher 显著性检验;
若认可某组观测(样本), 则用它来证实或证伪某个理论(断言)具有天然的不对等;
$H$ 可以模型化:
历史注记:
- Fisher 显著性检验;
- Neyman-Pearson 检验;
- 零假设显著性检验 (MHST).
定义(统计假设) 对一个或多个总体的某种断言或猜测.
- 原假设: 被检验的假设 $H_0$;
- 备择假设: 拒绝 $H_0$ 后可供选择的假设 $H_1$.
- 若假设可表为参数形式, 那么 $H_0: \theta\in\Theta_0$, $H_1: \theta\in\Theta_1$, 且 $\Theta_0\cap\Theta_1=\varnothing$, $\Theta_0\cup\Theta_1=\theta$ 的所有可能取值之集.
例 假设 $X\sim N(\mu,\sigma^2)$, 其中 $\sigma^2$ 已知.
- $H_0:\mu=\mu_0,\quad H_1:\mu\ne\mu_0$. (双侧假设)
- $H_0:\mu=\mu_0,\quad H_1:\mu>\mu_0$. (单侧假设)
- $H_0:\mu\le\mu_0,\quad H_1:\mu>\mu_0$. (单侧假设)
- $H_0:\mu_1=\mu_2,\quad H_1:\mu_1\ne\mu_2$. (双侧假设)
注
- 简单假设: 只对应一个总体;
- 复合假设: 对应多个总体;
- 若 $\sigma^2$ 未知, 则 $H_0: \mu=\mu_0\Leftrightarrow H_0: \mu=\mu_0,\sigma^2$ 任意, 是一个复合假设.
定义(假设检验) 依据样本(观测)的决策(拒绝或不拒绝 $H_0$)过程.
定义(检验准则) 做出决策的一个具体法则.
定义(拒绝) 在原假设 $H_0$ 为真的前提下, 所观测的样本出现的概率如果是很小的, 意味着样本提供的概率拒绝 $H_0$.
定义(拒绝域/临界域) 形式上可抽象为
其中 $c$ 被定义为临界值. 此时检验准则为, 若样本 $(X_1,\cdots,X_n)\in R$, 则拒绝假设 $H_0$.
定义(显著性检验) 对事先给定的 $\alpha\in(0,1)$, 若 $P_{\theta}(T(X_1,\cdots,X_n)\ge c)\le\alpha$, $\forall\,\theta\in\Theta_0$, 则称这是一个水平为 $\alpha$ 的显著性检验.
例 假设 $X\sim N(\mu,\sigma^2)$, 其中 $\sigma^2$ 已知, 给定检验水平 $\alpha\in(0,1)$ 和已观测样本 $X_i(1\le i\le n)$. $H_0:\mu=\mu_0$, $H_1:\mu\ne\mu_0$. 对原假设进行检验.
解答 拒绝域为双侧拒绝, 当 $H_0$ 为真时, 控制 $P(\vert\overline{X}-\mu_0\vert\ge c)\le\alpha$.
根据 CLT, 注意到
取 $\dfrac{c}{\tfrac{\sigma}{\sqrt{n}}}=Z_{\tfrac{\alpha}{2}}\Rightarrow c=\dfrac{\sigma}{\sqrt{n}}\cdot Z_{\tfrac{\alpha}{2}}$.
给出在 $\alpha$ 的检验水平下拒绝 $H_0$ 的条件: 若 $\vert\overline{X}-\mu_0\vert\ge\dfrac{\sigma}{\sqrt{n}}\cdot Z_{\tfrac{\alpha}{2}}$, 则拒绝 $H_0$.
例 假设 $X\sim N(\mu,\sigma^2)$, 其中 $\sigma^2$ 已知, 给定检验水平 $\alpha\in(0,1)$ 和已观测样本 $X_i(1\le i\le n)$. $H_0:\mu\ge\mu_0$, $H_1:\mu<\mu_0$. 对原假设进行检验.
解答 拒绝域为单侧拒绝, 当 $H_0$ 为真时, 控制 $P(\overline{X}\le c)\le\alpha$.
根据 CLT, 注意到
因此
取 $\dfrac{c-\mu_0}{\tfrac{\sigma}{\sqrt{n}}}=-Z_{\alpha}\Rightarrow c=\mu_0-\dfrac{\sigma}{\sqrt{n}}\cdot Z_{\alpha}$.
给出在 $\alpha$ 的检验水平下拒绝 $H_0$ 的条件: 若 $\overline{X}\le\mu_0-\dfrac{\sigma}{\sqrt{n}}\cdot Z_{\alpha}$, 则拒绝 $H_0$.
注
这种方法称为 $Z$-检验.
若 $\sigma^2$ 未知, 考虑
这种方法称为 $t$-检验.
Neyman-Pearson 假设检验
定义(错误) Ⅰ类错误: 在 $H_0$ 为真时拒绝 $H_0$; Ⅱ类错误: 在 $H_0$ 为假时不拒绝 $H_0$. 对应的概率分别为:
对于已划分的 $R$ 来说, 是定义域不同的 $\theta$ 的函数.
注
- 依据样本做决策, 错误不能根本避免;
- 一次决策不能同时犯两种错误;
- $n$ 固定, 两种错误发生的概率此消彼长.
例(直觉)
- 都不拒绝 $H_0$, 那么 $P_{\theta}(Ⅰ)=0$, $P_{\theta}(Ⅱ)=1$.
- 考虑事件 $H_0:$ 合格, 事件 $H_1:$ 不合格, 当 $P_{\theta}(Ⅰ)$ 变小时, 不容易拒绝事件, 不合格不容易被检出, 从而 $P_{\theta}(Ⅱ)$ 变大.
定义(功效函数) 给定 $\theta$ 与临界域 $R$, 拒绝原假设 $H_0$ 的概率为:
定义(Neyman-Pearson 范式) $n$ 固定, 控制 $P_{\theta}(Ⅰ)\le\alpha$, 其中 $\alpha$ 为预先给定的检验水平, 再在这个限制下使 $P_{\theta}(Ⅱ)(\theta\in\Theta_1)$ 尽可能小.
注
- $\alpha$ 固定时, 使 $P_{\theta}(Ⅱ)(\theta\in\Theta_1)$ 最小的检验称为水平 $\alpha$ 下的一致最优检验;
- 原假设 $H_0$ 和备择假设 $H_1$ 一般是地位不对等的:
- 原假设通常是受到保护的, 证据不充分不能拒绝;
- 备择假设通常是真正感兴趣的.
- 一致最优检验不一定存在, 一般也不易求解;
- $\mu_0\in$ 置信区间 $\Leftrightarrow$ 假设检验 $(H_0: \mu=\mu_0, H_1: \mu\ne\mu_0)$ 不拒绝 $H_0$.
假设检验与置信区间
例 $X\sim N(\mu,\sigma^2)$, $\sigma^2$ 已知, $\alpha>0$ 给定, $X_1,\cdots,X_n$ 为随机样本.
解答 其双侧置信区间为
考虑假设检验 $H_0:\mu=\mu_0$, $H_1:\mu\ne\mu_0$. 需要控制
检验准则为 $\vert\overline{X}-\mu_0\vert\ge Z_{\tfrac{\alpha}{2}}\dfrac{\sigma}{\sqrt{n}}$ 时拒绝 $H_0$. 我们给出接受域
由此可见, $\mu_0\in P\Leftrightarrow$ 用 $\overline{X}$ 为检验统计量, 假设检验不拒绝 $H_0$.(对偶关系)
检验的 P 值
定义 当原假设 $H_0$ 为真时, 检验统计量的观测值以及更极端观测出现的概率.
例(选举问题) $n=1200$, 调查到的支持比例为 $\tfrac{684}{1200}\approx 0.57$ (观测值).
解答 (1) $H_0:p=p_0$ v.s. $H_1:p>p_0$ ($p_0$ 预先给定).
考虑检验统计量 $P_n$, 则由 CLT:
当 $H_0$ 为真时, $p=p_0$, 此时 $se(P_n)=\sqrt{\dfrac{p_0(1-p_0)}{n}}$. 因此 P 值
其中
因此
若 $p_0=0.55$, 则 P 值 $\approx 0.081$; 若 $p_0=0.5$, 则 P 值 $\ll 0.001$.
在水平 $\alpha$ 下拒绝 $H_0\Leftrightarrow$ P 值 $\le\alpha$.
注
- P 值作为数据 (观测) 拒绝 $H_0$ 的证据.
- 强弱的度量: P 值越小, 拒绝 $H_0$ 的证据越强 (非正式的).
- P 值 $\ne$ $P(H_0\mid $ 观测$)$.
- 若 P 值不小, 则不拒绝 $H_0$, 原因可能为 $H_0$ 真 / $H_0$ 不真, 但检验功效不大.
定义 若拒绝 $H_0:\theta\in\Theta_0\Leftrightarrow T(X_1,\cdots,X_n)\ge C$, 则检验的 P 值 $:=$
其中 $T(x_1,\cdots,x_n)$ 为检验统计量的观测值.
解答 (2) $H_0:p\le p_0$ v.s. $H_1:p>p_0$ ($p_0$ 预先给定).
考虑检验统计量 $P_n$, 则由 CLT:
当 $H_0$ 为真时, 此时 $se(P_n)\approx \hat{se}(P_n)=\sqrt{\dfrac{p_n(1-p_n)}{n}}$. 因此 P 值
其中
因此
因此 P 值
若 $p_0=0.55$, 则 P 值 $\approx 0.081$; 若 $p_0=0.5$, 则 P 值 $\ll 0.001$.
拟合优度检验
定义(Pearson 卡方统计量)
其中 $O_i$ 为观测频数, $E_i$ 为期望频数 ($H_0$ 真的条件下).
定理 $H_0: P(X\in$ 第 $i$ 单元$)=p_i(1\le i\le k)$. 若 $H_0$ 为真, 当 $n\rightarrow\infty$ 时, 有
例 投掷一枚骰子 60 次.
| 点数 | 1 | 2 | 3 | 4 | 5 | 6 | 总计 |
| ———— | —— | —— | —— | —— | —— | —— | —— |
| 观测频数 | 4 | 6 | 17 | 16 | 8 | 9 | 60 |
| 期望频数 | 10 | 10 | 10 | 10 | 10 | 10 | 60 |$H_0:$ 分布均匀, $H_1:$ 分布不均匀.
解答 检验统计量的观测值:
自由度为 $6-1=5$. P 值 $=P_{H_0}(\chi^2\ge 14.2)\approx 0.014$.
注 在实际应用中, 需要满足 $E_i=nP_i\ge 5$, 才能较好使用 Pearson 定理.
例(列联表独立性检验) 对某项议题态度与年龄段是否独立.
| | 青年 | 中年 | 老年 | |
| —— | —— | —— | —— | —— |
| 支持 | 20 | 40 | 20 | 80 |
| 反对 | 30 | 30 | 10 | 70 |
| | 50 | 70 | 30 | 150 |$H_0:$ 独立, $H_1:$ 不独立.
解答 $P_{ij}=P_{i+}P_{+j}$, 其中 $P_{i+}$, $P_{+j}$ 称为边际概率.
在 $H_0$ 为真前提下估计 $P_{ij}$. MLE:
得到
计算得检验统计量观测值为 6.12, 自由度为 $(a-1)(b-1)=2$.
得到 P 值 $=P_{H_0}(\chi^2\ge 6.12)\approx 0.0469$.
注 对于 $a$ 行 $b$ 列, 当 $H_0$ 成立时, 其未知参数个数为 $s=(a-1)+(b-1)$.
因此卡方自由度为:
似然比检验
例 两种硬币 ($p=0.5$, $p=0.7$) 投掷 $n=10$ 次, 正面向上 $X=x$ 次. 提出假设 $H_0:p=0.5$ v.s. $p=0.7$. 考虑
我们需要控制
注
- 当 $H_0$, $H_1$ 均为简单假设时 (N-P), 证明: 似然比检验最优 (功效最大).
- 当 $H_0$, $H_1$ 不全为简单假设时, 似然比检验一般不最优, 但通常表现不错.
定义(广义似然比) $H_0:\theta\in\Theta_0$ v.s. $H_1:\theta\in\Theta_1$, $X_1,\cdots,X_n$ 为随机样本.
考虑广义似然比
基于技术原因, 检验统计量选为
$\Lambda$ 越小则越反对 $H_0$ (拒绝域的形状). 选择 $\lambda_0$ 使
至此得到了检验准则.
定理 在一定(光滑性)条件下, 当 $n\rightarrow\infty$ 时, 在 $H_0$ 为真前提下:
其中自由度 $d=\dim(\Theta_0\cup\Theta_1)-\dim(\Theta_0)$. 这里的 $\dim$ 指自由参数的个数.
例(多项分布检验) $H_0:p_1=p_1^$, $\cdots$, $p_k=p_k^$, 观测频数分别为 $n_1,\cdots,n_k$.
解答 得到
因此
已知
且
计算得
考虑到 $\dim(\Theta_0)=0$, $\dim(\Theta_0\cup\Theta_1)=k-1$, 因此给出
两独立总体比较
两独立总体:
| 总体 | 均值 | 方差 | 样本 (iid) |
| —— | ———- | —————— | ———————— |
| $X$ | $\mu_1$ | $\sigma_1^2$ | $X_1,\cdots,X_n$ |
| $Y$ | $\mu_2$ | $\sigma_2^2$ | $Y_1,\cdots,Y_m$ |定义(比较均值):
给出 $E(\overline{X}-\overline{Y})=\mu_1-\mu_2$, $Var(\overline{X}-\overline{Y})=\dfrac{\sigma_1^2}{n}+\dfrac{\sigma_2^2}{m}=se^2$. 参考置信区间部分.
定理 给出 $W_1\sim\chi^2(k_1)$, $W_2\sim\chi^2(k_2)$, 且 $W_1,W_2$ 独立, 我们有
定义(比较方差): 假设 $X$, $Y$ 均为正态. 提出假设 $H_0:\sigma_1^2=\sigma_2^2$ v.s. $H_1:\sigma_1^2\ne\sigma_2^2$.
考虑检验统计量(依赖于样本或已知参数)
当 $H_0$ 为真时, 有
检验准则为当
时拒绝原假设.
注 由定义 $F_{1-\tfrac{\alpha}{2}}(n-1,m-1)=\dfrac{1}{F_{\tfrac{\alpha}{2}}(m-1,n-1)}$.
例(比较成功率/失败率) 阿司匹林对降低心脏病发病率的有效性.
| | 心脏病发作 | 心脏病未发作 | 合计 | 发作率 |
| ———— | ————— | —————— | ——- | ——— |
| 阿司匹林 | 139 | 10898 | 11037 | 0.0126 |
| 安慰剂 | 239 | 10795 | 11034 | 0.0217 |提出假设 $H_0:p_1=p_2$ (无效) v.s. $H_1:p_1<p_2$ (有效), 检验统计量为 $P_1-P_2$.
容易得到 $E(P_1-P_2)=p_1-p_2$, $Var(P_1-P_2)=\dfrac{p_1(1-p_1)}{n_1}+\dfrac{p_2(1-p_2)}{n_2}$.
那么
在 $H_0$ 为真前提下, 有
其中 $p^=\dfrac{k_1+k_2}{n_1+n_2}$, 得 $se^2\approx\hat{se}^2=0.00175^2$. 结合 $\dfrac{P_1-P_2}{\hat{se}}\stackrel{近似}{\sim}N(0,1)$, 得 *P 值
因此有理由拒绝 $H_0$.
注
- 随机分组.
- 双盲实验.
- $n$ 充分大.
例(行驶里程) 比较两种油 A 与 B 的行驶里程.
| | 样本容量 | 平均里程 | 样本标准差 |
| ———— | ———— | ———— | ————— |
| 油 A | 50 | 25 | 5.00 |
| 油 B | 50 | 26 | 4.00 |提出假设 $H_0:\mu_A=\mu_B$ v.s. $H_1:\mu_A\ne\mu_B$, 检验统计量为 $\overline{X}_A-\overline{X}_B$.
在 $H_0$ 为真前提下, 有
其中 $\hat{se}\approx 0.905$. 得 P 值
认为哪种油行驶里程更长的理由均不充分.
两相关总体比较
例(行驶里程-改进) 同一辆车不同日子加不同油, 记录行驶里程.
| 车号 | 油 A | 油 B | 差异 ($d_i$) |
| ———— | ———— | ———— | —————— |
| 1 | 27.01 | 26.95 | 0.06 |
| 2 | 20.00 | 20.44 | -0.44 |
| $\cdots$ | $\cdots$ | $\cdots$ | $\cdots$ |
| 10 | 25.22 | 26.01 | -0.79 |
| 均值 | 25.20 | 25.80 | -0.60 |
| 标准差 | 4.27 | 4.10 | 0.61 |提出假设 $H_0:\mu_d=0$ v.s. $H_1:\mu_d\ne 0$, 检验统计量为 $\overline{d}$.
假设 $d_i$ 服从正态分布. 在 $H_0$ 为真前提下, 有
得 P 值
有理由拒绝 $H_0$, 两种油的行驶里程有差距.
注 假设检验不能检验试验设计, 仅对数据负责; 功能有限, 作为决策辅助.
Bayes 假设检验
例 两种硬币 ($p=0.5$, $p=0.7$) 投掷 $n=10$ 次, 正面向上 $X=x$ 次. 提出假设 $H_0:p=0.5$ v.s. $p=0.7$. 考虑
则拒绝 $H_0$.
注 给出一个特别的例子, $H_0:\theta=\theta_0$, $\Theta$ 连续. 则 $P(H_0\mid x)=0$, 此时似乎总是会拒绝 $H_0$? (陈书 Chap 5.28)
Review
决策
- 拒绝 $H_0$ 或不拒绝 $H_0$.
- 检验=决策准则 $\Leftrightarrow$ 拒绝域 $R$ 的划分.
- 关键:
- 选择合适的检验统计量.
- 确定拒绝域的形状 (由 $H_1$ 决定).
- 拒绝 $H_0$ 有时也称观测值是显著的.
错误
统计学中没有绝对的证实或证伪.
检验程序的属性, 不是样本的属性. 样本做决策要么正确要么错误.
预先指定的可接受的长期错误率.
显著性检验 v.s. Neyman-Pearson 检验
显著性检验: 只控制 $\alpha(R)\le\alpha$.
Neyman-Pearson 假设检验: 强调两类错误、功效, $H_0,H_1$ 地位不均等.
不拒绝 $H_0$ $\ne$ 接受 $H_0$.
$\beta(R)$ 越小 (功效越大), 当 $H_0$ 不真时, 越有可能拒绝 $H_0$; 当观测支持 $H_0$, 则可以接受 $H_0$.
若忽略了对 $\beta(R)$ 的系统控制 (常见情形), 将导致对结果及下一步工作方向的误判.
例 $H_0:\mu\ge 5$, $H_1:\mu<5$. $n=10$, $\sigma=0.01$, $\alpha=0.01$.
解答 临界值
P 值
- 一次具体的观测值没有概率可言, P 不能衡量决策错误的概率. (ASA 文章)
卡方检验 —— 多项分布的检验
- 例 $H_0: p_1=p$, $p_2=1-p$. 此时
统计显著 $\ne$ 实际显著
例 投掷骰子 $n=6\times 10^{10}$ 次.
| 点数 | 1 | 2 | 3 | 4 | 5 | 6 | 总计 |
| ————————— | ————- | ————————— | ————————- | ———————— | ————————- | ————————— | ————————- |
| 观测频数 $10^{10}$ | $-10^{6}$ | $1.5\times 10^{6}$ | $-2\times 10^{6}$ | $4\times 10^{6}$ | $-3\times 10^{6}$ | $0.5\times 10^{6}$ | $6\times 10^{10}$ |$H_0:$ 分布均匀, $H_1:$ 分布不均匀.
计算得到 $\chi^2=3250$, 此时 P 值 $\ll 0.0001$. 因此拒绝 $H_0$, 统计显著.
实际上 $\vert\hat p_i-\dfrac{1}{6}\vert\sim 10^{-4}$, 实际角度视为无差异, 实际不显著.
$n$ 过大, 明察秋毫; $\chi^2$ 统计量关于 $n$ 是非齐次的.