Chap 6 参数估计
引入 检测某厂一大批电子元件寿命指标是否合格.
总体
- 所需检测的电子元件寿命;
- 统计分析问题中研究的对象全体的某个数字特征 $X$.
- 元件寿命的分布;
- 变量 $X$ 的分布.
统计总体 一个概率分布.
注
- 有限总体;
- 无限总体.
统计模型
- 一族概率分布;
- 参数模型 (正态模型);
- 非参数模型.
样本
- $(X_1,\cdots,X_n)$, 其中 $X_i$ 来自总体 $X$, $n$ 为样本容量;
- 获取方式:
- 试验;
- 观察 (完全 / 不完全).
简单随机抽样
- 总体个数 $N$ 有限;
- 无放回;
- 容量为 $n$ 的样本抽取出来的概率为 $p=\dfrac{1}{C_N^n}$.
随机样本
- $X_1,\cdots,X_n$ 独立同分布, 例: 有放回 / 近似有放回 ($n<<N$).
统计量
$T(X_1,\cdots,X_n)$ - 完全由样本决定, 是一种数据简化方式.
样本均值
样本方差
统计推断
- 总体为因, 样本为果;
- 总体决定样本, 样本推断总体;
- 经典方法 (频率) v.s. Bayes方法.
- 例 $Y_i=aX_i+\varepsilon_i$.
- 求 $a$. $(X_i,Y_i)(1\le i\le n)\rightarrow a\approx\hat{a}$ (模型推断 参数估计)
- 已知 $a=\hat{a}$, 观测到 $Y_i$, 求 $X_i$ (变量推断)
- 例 元件寿命.
- 假设 $X\sim Exp(\lambda)$, 求 $\lambda$ (参数估计)
- 假设合格标准 $E(X)\ge L$, 需建立可操作的检验标准: $X\ge l$, $\mu$ 未知, 求 $l$ (假设检验)
矩估计
定义(样本矩) $X_1,\cdots,X_n$ 独立同分布, 定义其 $k$ 阶原点矩:
其 $k$ 阶中心矩:
例 $X\sim N(\mu,\sigma^2)$. 考虑其均值、方差对应的样本矩.
解答
例 $X\sim Exp(\lambda)$. 考虑其均值、方差对应的样本矩, 并给出 $\lambda$ 的矩估计.
解答
我们通常使用低阶矩进行估计.
极大似然估计 (MLE)
定义(似然函数) 假设 $X_1,\cdots,X_n$ 的联合分布 $f(x_1,\cdots,x_n;\theta)$ (PMF\\PDF), 其中 $\theta$ 为参数. 对于观测 $(X_1,\cdots,X_n)$ 的似然函数为
注
具体观测数据通常记为 $(x_1,\cdots,x_n)$, 视为 $(X_1,\cdots,X_n)$ 的具体的实现值;
离散情形下, $L(\theta)$ 为出现 $(X_1,\cdots,X_n)$ 的概率;
若 $X_1,\cdots,X_n$ 独立同分布, 总体分布为 $f_1(x;\theta)$ (PMF\\PDF), 那么
例 $X_i\sim N(\mu,\sigma^2)$ 独立同分布, 其中 $\mu$,$\sigma^2$ 未知. 考虑观测的似然函数.
解答
定义(MLE) 定义 $\theta$ 的 MLE 为
其中 $\theta^{}=\theta^{}(X_1,\cdots,X_n)$.
解答续 考虑方程组
解得
经验证 $(\mu^{},(\sigma^2)^{})$ 为 $(\mu,\sigma^2)$ 的 MLE.
注 $(\sigma^2)^{}=(\sigma^{})^2$ (MLE 的不变性).
例 随机变量 $X_i\sim U(0,\theta)$ 独立同分布, $\theta$ 未知. 求 $\theta$ 的 MLE.
解答
我们得到
例 总体 PDF 为 $f(x;\theta)=\dfrac{1}{\pi(1+(x-\theta)^2)}$, $x\in\mathbb{R}$ (Cauchy 分布).
解答
- 无矩 $\Rightarrow$ 无矩估计;
- 似然方程 $\sum\limits_{i=1}^{n}\dfrac{X_i-\theta}{1+(X_i-\theta)^2}=0$, 不易求解;
- 合理估计, $\hat{\theta}$ 为样本中位数.
优良性准则
定义(无偏性) 定义 $\hat{\theta}=\hat{\theta}(X_1,\cdots,X_n)$ 为 $\theta$ 的估计量 (随机变量). 我们称一个估计 $\hat\theta$ 的偏差 (Bias):
若 $E_{\theta}(\hat\theta-\theta)=0$, $\forall\,\theta$, 则称 $\hat\theta$ 为 $\theta$ 的一个无偏估计量.
注
- 一般地, $E_{\theta}(\hat g(X_1,\cdots,X_n)-g(\theta))=0$, $\forall\,\theta\,\Leftrightarrow$ $\hat{g}$ 为 $g(\theta)$ 的无偏估计;
- 无偏 $\Leftrightarrow$ 无系统偏差;
- $\dfrac{1}{N}\sum\limits_{m=1}^{N}\hat{\theta}(X_1^{(m)},\cdots,X_n^{(m)})\stackrel{a.s.}{\longrightarrow}E(\hat\theta)\stackrel{无偏}{=}\theta$;
- 无偏性的重要性视情形而定.
例 $E(X)=\mu$, $Var(X)=\sigma^2$.
解答
- $E(\overline{X})=\mu\Rightarrow \overline{X}$ 为 $\mu$ 的无偏估计;
- $E(m_2)=E\Big(\dfrac{1}{n}\sum\limits_{i=1}^{n}(X_i-\overline{X})^2\Big)=\dfrac{n-1}{n}\sigma^2$;
- $E(S^2)=E\Big(\dfrac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\overline{X})^2\Big)=\sigma^2$.
例 $X_i\stackrel{iid}{\sim}U(0,\theta)$.
解答
- 矩估计 $\hat\theta=2\overline{X}$;
- MLE $\theta^{*}=\max\{X_1,\cdots, X_n\}$;
- 计算可得 $E(\hat\theta)=\theta,\,E(\theta^{*})=\dfrac{n}{n+1}\theta$.
注 MLE 可也能是有偏的 (本例中即为系统偏小).
定义(均方误差准则) 定义一个估计 $\hat\theta$ 的均方误差 (MSE):
其中 $Var(\hat\theta)$ 代表着精确度, $E_{\theta}^2(\hat\theta-\theta)$ 代表着准确度.
定义 假定 $\hat\theta_1$, $\hat\theta_2$ 均为 $\theta$ 的无偏估计, 若
且
则称在均方误差意义下 $\hat\theta_1$ 优于 $\hat\theta_2$.
例 $E(X)=\mu$.
解答
注 有时也可称为“有效性准则”.
定义 假定 $\hat\theta_0$ 为 $\theta$ 的无偏估计, 若对任意 $\theta$ 与 $\theta$ 的无偏估计 $\hat\theta$
则称 $\hat\theta_0$ 为最小方差无偏估计 (MVUE).
例 $X\sim N(\mu,\sigma^2)$.
解答 由于
因此计算可得
这是用低偏差换了方差.
定义
- $\hat\theta=\hat\theta(X_1,\cdots,X_n)$ 的分布称为抽样分布;
- $\hat\theta=\hat\theta(X_1,\cdots,X_n)$ 的标准差称为标准误差, 记为 $se(\hat\theta)$.
定义(大样本性质) 估计量 $\hat\theta$ 当 $n\rightarrow\theta$ 时的性质.
定义(渐进无偏性) 有 $\lim\limits_{n\rightarrow\infty} E(\hat\theta-\theta)=0$;
定义(相合性) 若 $\forall\,\varepsilon>0$, 有 $\lim\limits_{n\rightarrow\infty}P(\left|\hat\theta-\theta\right|\ge\varepsilon)=0$, 则称 $\hat\theta$ 为 $\theta$ 的一个相合估计, 即 $\hat\theta\stackrel{P}{\longrightarrow}\theta$.
- WLLN $\Rightarrow$ $\overline{X}$ 是 $\mu$ 的一个相合估计;
- 相合性是良好点估计的自然要求.
例 我们得到
进而有
定义(渐进正态性) $\dfrac{\hat\theta-\theta}{se(\hat\theta)}\stackrel{d}{\rightarrow}Z\sim(0,1)$ (渐进正态估计).
$\hat\theta\stackrel{近似}{\sim}N(0,se^2(\hat\theta))$;
CLT $\Rightarrow\overline{X}$ 为 $\mu$ 的一个渐进正态估计, $se(\overline{X})=\dfrac{\sigma}{\sqrt{n}}$.
置信区间 (Condifence Interval)
定义(置信区间) $\forall\,\alpha\in(0,1)$, $\forall\,\theta$, 有 $\hat\theta_i=\hat\theta_i(X_1,\cdots,X_n)$, 其中 $i=1,2$, 使得
则称 $(\hat\theta_1,\hat\theta_2)$ 为 $\theta$ 的 $(1-\alpha)$ 置信的区间估计 (双侧).
注
- $\alpha$ 通常取为 $0.05$, $0.01$, $0.1$;
- 置信 (水平、系数、度) 是针对方法的;
- 可靠性优先原则 (先保证 $P(\hat\theta_1<\theta<\hat\theta_2)\ge 1-\alpha$), 再尽量提升精度 (通常用 $E(\hat\theta_2-\hat\theta_1)$ 刻画).
例 $X\sim N(\mu,\sigma^2)$, 已知 $\sigma^2$, 给出 $\mu$ 的 $(1-\alpha)$ 置信区间估计.
解答 注意到
其中 $Z_{\tfrac{\alpha}{2}}$ 为 $N(0,1)$ 的上侧 $\dfrac{\alpha}{2}$ 分位数. 因此所求 $(1-\alpha)$ 置信的区间估计为
注
- 若 $\alpha=0.05$, 则 $Z_{\tfrac{\alpha}{2}}=Z_{0.025}\approx 1.96\approx 2$;
- 若用 $\overline{X}$ 估计 $\mu$, 则有 $(1-\alpha)$ 置信, 误差绝对值 $\vert\overline{X}-\mu\vert\le\frac{\sigma}{\sqrt{n}}Z_{\tfrac{\alpha}{2}}$;
- 给定 $\varepsilon>0$, 则 $n\ge\Big(\dfrac{Z_{\frac{\alpha}{2}}\sigma}{\varepsilon}\Big)^2$ 时, 有 $(1-\alpha)$ 置信, 误差绝对值 $\le\varepsilon$.
例 $X\sim N(\mu,\sigma^2)$, 未知 $\sigma^2$, 给出 $\mu$ 的 $(1-\alpha)$ 置信区间估计.
解答 注意到
注意到 $\overline{X}$, $S^2$ 相互独立, 由陈书 $P_{93-94}$可得
即
因此
其中 $t_{\tfrac{\alpha}{2}}(n-1)$ 为 $t(n-1)$ 分布上侧 $\dfrac{\alpha}{2}$ 分位数, 所求 $(1-\alpha)$ 置信区间估计为
注 $\dfrac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}$, $\dfrac{\overline{X}-\mu}{\frac{S}{\sqrt{n}}}$ 成为枢轴变量.
例 $X\sim N(\mu,\sigma^2)$, 未知 $\mu$, 给出 $\sigma^2$ 的 $(1-\alpha)$ 置信区间估计.
解答 注意到
因此所求 $(1-\alpha)$ 置信区间估计为
注 我们有
例 $X\sim N(\mu_1,\sigma^2)$, $Y\sim N(\mu_2,\sigma^2)$ 相互独立, 未知 $\mu_1$, $\mu_2$, $\sigma^2$, 给出 $\mu_1-\mu_2$ 的 $(1-\alpha)$ 置信区间估计.
解答 设 $X_1,\cdots,X_n$, $Y_1,\cdots,Y_m$ 为随机样本, $S_1^2$ 为 $X$ 的样本方差, $S_2^2$ 为 $Y$ 的样本方差, 则
因为
记
从而得到
也即
这是我们用到的枢轴变量, 所求 $(1-\alpha)$ 置信区间估计为
其中 $l=n+m-2$.
定义(渐进置信区间) 通过大样本方法进行区间估计.
例(选举问题) 真实支持率 $p$ 未知, $n=1200$, 观测比例 $\dfrac{684}{1200}\approx 0.57$. 给出 $p$ 的一个 $95\%$ 置信的区间估计.
解答 $X_i\sim B(p)\,(1\le i\le n)$ iid (近似有放回, $n<<N$). 我们有
因此
由 CLT, 得到
$[1]$ 用 $S^2=\dfrac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\overline{X})^2$ 来估计 $\sigma^2=p(1-p)$. 由 CLT, 得到
其中 $S^2\approx 0.2475$, 区间估计为 $(0.542,0.598)$.
$[2]$ 用 $m_2=\dfrac{1}{n}\sum\limits_{i=1}^{n}(X_i-\overline{X})^2$ 来估计 $\sigma^2=p(1-p)$.
实际上, 我们有
由 CLT, 得到
$[3]$ 用 $p(1-p)$ 的最大值来估计 $\sigma^2=p(1-p)$. 由 CLT, 得到
注 近似分布情况下, 置信度 $\approx 1-\alpha$, 近似程度取决于 $n$ 及总体分布.
定义(利用 MLE 构建置信区间)
总体分布 $f$ 满足一定的光滑性条件, 存在 $\sigma_n>0$, 使 $\dfrac{\theta^{*}-\theta}{\sigma_n}\rightarrow N(0,1)$.
定义(Fisher 信息量) $X_1,\cdots,X_n$ iid, 其 PDF 为 $f(x;\theta)$. 定义对数似然函数
定义
注意到
因此
由极大似然估计的定义, 我们有
研究上式分子: 设随机变量 $Y_i=\dfrac{\partial\log f(X_i;\theta)}{\partial\theta}=\dfrac{f_{\theta}(X_i;\theta)}{f(X_i;\theta)}$, 那么
从而
研究上式分母:
注意到
因此
结合上述讨论可得
这说明可以取 $\sigma_n=\dfrac{1}{\sqrt{nI(\theta)}}$ 或 $\dfrac{1}{\sqrt{nI(\theta^*)}}$.
例(选举问题) 真实支持率 $p$ 未知, $n=1200$, 观测比例 $\dfrac{684}{1200}\approx 0.57$. 给出 $p$ 的一个 $95\%$ 置信的区间估计.
解答续 注意到 $X_i\stackrel{iid}{\sim}B(p)$, $p$ 的 MLE 为 $p^{*}=P_n$. 有似然函数
Fisher 信息量为:
得到 $\sigma_n=\dfrac{1}{\sqrt{p(1-p)}}$ 或 $\dfrac{1}{\sqrt{p^{}(1-p^{})}}$. 这与前例 $[2]$ 完全一致.
例(两总体) $X\sim N(\mu_1,\sigma_1^2)$, $Y\sim N(\mu_2,\sigma_2^2)$ 独立, 参数未知. 估计 $\mu_1-\mu_2$.
解答 得到
因此
Bayes 估计
定义(Bayes 估计)
在搜集数据之前, 对参数 $\theta$ 有先验知识, 可用一个概率分布来刻画 (先验分布).
$\Theta$ — 随机变量, $\theta$ — $\Theta$ 的实现值.
$X$ — 试验观测, $x$ — 具体观测结果.
$f_{\Theta}(\theta)$ — 先验分布, $f_{X\mid\Theta}(x\mid\theta)=f_X(x,\theta)$ — 搜集的样本分布.
更新先验分布为后验分布:
其中
可通过后验期望或后验众数得到 Bayes 估计值.
例 投掷硬币, 正面向上的概率为 $\theta$ (未知). 抛 $n$ 次观测到 $x$ 次正面向上.
解答 对 $\theta$ 的先验认知: $\theta\sim U(0,1)$ (Bayes 法则). 此时有 $f_{\Theta}(\theta)=1$, $\theta\in(0,1)$.
令 $X=n$ 次试验正面向上的次数, 给定 $\theta$ 时, $X\sim B(n,\theta)$. 即
故 $(X,\Theta)$ 的联合分布为
得到
进而
注意到这恰好为 $\beta(x+1,n-x+1)$ 的 PDF.
后验均值估计值为
后验众数估计值为 $f_{\Theta\mid X}(\theta\mid x)$ 的最大值点
注
- 若 $n=20$, $x=13$, 后验分布服从 $\beta(14,8)$.
- 此时 $P(\Theta>\dfrac{1}{2})\approx 0.91$, 而 $\Theta<\dfrac{1}{4}$ 基本不可能.
注(合理的点估计)
- 后验众数;
- 后验均值.
注(先验分布选取)
- 本问题先验分布服从 $U(0,1)=\beta(1,1)$, 后验分布服从 $\beta(x+1,n-x+1)$;
- 一般地, 先验分布服从 $\beta(a,b)$, 后验分布服从 $\beta(a+x,b+n-x)$.
定义(Bayes 区间估计) 得到参数 $\theta$ 的后验分布 $f_{\Theta}(\theta\mid x)$, 给定观测值 $x$ 和实数 $\alpha\in(0,1)$, 若对参数 $\theta$ 的任意可能取值, 都成立
则称 $(a,b)$ 为 $\theta$ 的 $(1−\alpha)$ 置信的 Bayes 区间估计.
注
- 最大后验区间 (一般单峰);
- 等尾可信区间.
例 $X\sim N(\mu,\sigma^2)$, $\sigma^2$ 已知, 给出 $\mu$ 的 $(1-\alpha)$ 置信的 Bayes 区间估计.
解答 取 $\mu$ 的先验分布 $f(\mu)\propto 1$, 有后验分布为 $N(\overline{X},\dfrac{\sigma^2}{n})$.
进一步可得
得到所求 Bayes 估计区间为
Review
样本
- $X_1,\cdots,X_n$ 为样本, 通常为 iid.
- $\hat\theta=\hat\theta(X_1,\cdots,X_n)$ 为统计量.
- 样本分布: $f(x_1,\cdots,x_n;\theta)$ (PDF\*PMF*).
- 抽样分布: $\hat\theta$ 的分布.
- 标准误差: $se=se(\hat\theta)=\sqrt{Var(\hat\theta)}$.
经典估计的优良性
- $n$ 固定: 无偏性 & 有效性 (MSE 的分解)
- $n\rightarrow\infty$: 渐近无偏 & 相合性 (WLLN 一致性) & 渐近正态性 (CLT)
置信区间
- $\hat\theta_i=\hat\theta_i(X_1,\cdots,X_n)\,(i=1,2)$.
- $P(\hat\theta_1<\theta<\hat\theta_2)\ge 1-\alpha$.
- 置信 (水平、系数、度) 是针对方法.
- 枢轴变量: $H(\hat\theta,\theta)$ 表示分布可用.
置信区间 v.s. Bayes 区间
(置信区间) 对具体的样本观测值 $(x_1,\cdots,x_n)$, 代入 $\hat\theta_1, \hat\theta_2$ 得到具体区间.
(Bayes 区间) 对具体的样本观测值 $(x_1,\cdots,x_n)$, 代入 $a, b$ 得到具体区间.
小样本方法 v.s. 大样本方法
- 精确分布 v.s. 近似分布