概率论与数理统计 笔记6


Chap 6 参数估计

  • 引入 检测某厂一大批电子元件寿命指标是否合格.

  • 总体

    • 所需检测的电子元件寿命;
    • 统计分析问题中研究的对象全体的某个数字特征 $X$.
    • 元件寿命的分布;
    • 变量 $X$ 的分布.
  • 统计总体 一个概率分布.

    • 有限总体;
    • 无限总体.
  • 统计模型

    • 一族概率分布;
    • 参数模型 (正态模型);
    • 非参数模型.
  • 样本

    • $(X_1,\cdots,X_n)$, 其中 $X_i$ 来自总体 $X$, $n$ 为样本容量;
    • 获取方式:
      • 试验;
      • 观察 (完全 / 不完全).
  • 简单随机抽样

    • 总体个数 $N$ 有限;
    • 无放回;
    • 容量为 $n$ 的样本抽取出来的概率为 $p=\dfrac{1}{C_N^n}$.
  • 随机样本

    • $X_1,\cdots,X_n$ 独立同分布, 例: 有放回 / 近似有放回 ($n<<N$).
  • 统计量

    • $T(X_1,\cdots,X_n)$ - 完全由样本决定, 是一种数据简化方式.

    • 样本均值

    • 样本方差

  • 统计推断

    • 总体为因, 样本为果;
    • 总体决定样本, 样本推断总体;
    • 经典方法 (频率) v.s. Bayes方法.
    • $Y_i=aX_i+\varepsilon_i$.
      • 求 $a$. $(X_i,Y_i)(1\le i\le n)\rightarrow a\approx\hat{a}$ (模型推断 参数估计)
      • 已知 $a=\hat{a}$, 观测到 $Y_i$, 求 $X_i$ (变量推断)
    • 元件寿命.
      • 假设 $X\sim Exp(\lambda)$, 求 $\lambda$ (参数估计)
      • 假设合格标准 $E(X)\ge L$, 需建立可操作的检验标准: $X\ge l$, $\mu$ 未知, 求 $l$ (假设检验)

矩估计

  • 定义(样本矩) $X_1,\cdots,X_n$ 独立同分布, 定义其 $k$ 阶原点矩:

    其 $k$ 阶中心矩:

  • $X\sim N(\mu,\sigma^2)$. 考虑其均值、方差对应的样本矩.

  • 解答

  • $X\sim Exp(\lambda)$. 考虑其均值、方差对应的样本矩, 并给出 $\lambda$ 的矩估计.

  • 解答

    我们通常使用低阶矩进行估计.

极大似然估计 (MLE)

  • 定义(似然函数) 假设 $X_1,\cdots,X_n$ 的联合分布 $f(x_1,\cdots,x_n;\theta)$ (PMF\\PDF), 其中 $\theta$ 为参数. 对于观测 $(X_1,\cdots,X_n)$ 的似然函数为

    • 具体观测数据通常记为 $(x_1,\cdots,x_n)$, 视为 $(X_1,\cdots,X_n)$ 的具体的实现值;

    • 离散情形下, $L(\theta)$ 为出现 $(X_1,\cdots,X_n)$ 的概率;

    • 若 $X_1,\cdots,X_n$ 独立同分布, 总体分布为 $f_1(x;\theta)$ (PMF\\PDF), 那么

  • $X_i\sim N(\mu,\sigma^2)$ 独立同分布, 其中 $\mu$,$\sigma^2$ 未知. 考虑观测的似然函数.

  • 解答

  • 定义(MLE) 定义 $\theta$ 的 MLE

    其中 $\theta^{}=\theta^{}(X_1,\cdots,X_n)$.

  • 解答续 考虑方程组

    解得

    经验证 $(\mu^{},(\sigma^2)^{})$ 为 $(\mu,\sigma^2)$ 的 MLE.

  • $(\sigma^2)^{}=(\sigma^{})^2$ (MLE 的不变性).

  • 随机变量 $X_i\sim U(0,\theta)$ 独立同分布, $\theta$ 未知. 求 $\theta$ 的 MLE.

  • 解答

    我们得到

  • 总体 PDF 为 $f(x;\theta)=\dfrac{1}{\pi(1+(x-\theta)^2)}$, $x\in\mathbb{R}$ (Cauchy 分布).

  • 解答

    • 无矩 $\Rightarrow$ 无矩估计;
    • 似然方程 $\sum\limits_{i=1}^{n}\dfrac{X_i-\theta}{1+(X_i-\theta)^2}=0$, 不易求解;
    • 合理估计, $\hat{\theta}$ 为样本中位数.

优良性准则

  • 定义(无偏性) 定义 $\hat{\theta}=\hat{\theta}(X_1,\cdots,X_n)$ 为 $\theta$ 的估计量 (随机变量). 我们称一个估计 $\hat\theta$ 的偏差 (Bias):

    若 $E_{\theta}(\hat\theta-\theta)=0$, $\forall\,\theta$, 则称 $\hat\theta$ 为 $\theta$ 的一个无偏估计量.

    • 一般地, $E_{\theta}(\hat g(X_1,\cdots,X_n)-g(\theta))=0$, $\forall\,\theta\,\Leftrightarrow$ $\hat{g}$ 为 $g(\theta)$ 的无偏估计;
    • 无偏 $\Leftrightarrow$ 无系统偏差;
    • $\dfrac{1}{N}\sum\limits_{m=1}^{N}\hat{\theta}(X_1^{(m)},\cdots,X_n^{(m)})\stackrel{a.s.}{\longrightarrow}E(\hat\theta)\stackrel{无偏}{=}\theta$;
    • 无偏性的重要性视情形而定.
  • $E(X)=\mu$, $Var(X)=\sigma^2$.

  • 解答

    • $E(\overline{X})=\mu\Rightarrow \overline{X}$ 为 $\mu$ 的无偏估计;
    • $E(m_2)=E\Big(\dfrac{1}{n}\sum\limits_{i=1}^{n}(X_i-\overline{X})^2\Big)=\dfrac{n-1}{n}\sigma^2$;
    • $E(S^2)=E\Big(\dfrac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\overline{X})^2\Big)=\sigma^2$.
  • $X_i\stackrel{iid}{\sim}U(0,\theta)$.

  • 解答

    • 矩估计 $\hat\theta=2\overline{X}$;
    • MLE $\theta^{*}=\max\{X_1,\cdots, X_n\}$;
    • 计算可得 $E(\hat\theta)=\theta,\,E(\theta^{*})=\dfrac{n}{n+1}\theta$.
  • MLE 可也能是有偏的 (本例中即为系统偏小).

  • 定义(均方误差准则) 定义一个估计 $\hat\theta$ 的均方误差 (MSE):

    其中 $Var(\hat\theta)$ 代表着精确度, $E_{\theta}^2(\hat\theta-\theta)$ 代表着准确度.

  • 定义 假定 $\hat\theta_1$, $\hat\theta_2$ 均为 $\theta$ 的无偏估计, 若

    则称在均方误差意义下 $\hat\theta_1$ 优于 $\hat\theta_2$.

  • $E(X)=\mu$.

  • 解答

  • 有时也可称为“有效性准则”.

  • 定义 假定 $\hat\theta_0$ 为 $\theta$ 的无偏估计, 若对任意 $\theta$ 与 $\theta$ 的无偏估计 $\hat\theta$

    则称 $\hat\theta_0$ 为最小方差无偏估计 (MVUE).

  • $X\sim N(\mu,\sigma^2)$.

  • 解答 由于

    因此计算可得

    这是用低偏差换了方差.

  • 定义

    • $\hat\theta=\hat\theta(X_1,\cdots,X_n)$ 的分布称为抽样分布;
    • $\hat\theta=\hat\theta(X_1,\cdots,X_n)$ 的标准差称为标准误差, 记为 $se(\hat\theta)$.
  • 定义(大样本性质) 估计量 $\hat\theta$ 当 $n\rightarrow\theta$ 时的性质.

  • 定义(渐进无偏性) 有 $\lim\limits_{n\rightarrow\infty} E(\hat\theta-\theta)=0$;

  • 定义(相合性) 若 $\forall\,\varepsilon>0$, 有 $\lim\limits_{n\rightarrow\infty}P(\left|\hat\theta-\theta\right|\ge\varepsilon)=0$, 则称 $\hat\theta$ 为 $\theta$ 的一个相合估计, 即 $\hat\theta\stackrel{P}{\longrightarrow}\theta$.

    • WLLN $\Rightarrow$ $\overline{X}$ 是 $\mu$ 的一个相合估计;
    • 相合性是良好点估计的自然要求.
  • 我们得到

    进而有

  • 定义(渐进正态性) $\dfrac{\hat\theta-\theta}{se(\hat\theta)}\stackrel{d}{\rightarrow}Z\sim(0,1)$ (渐进正态估计).

    • $\hat\theta\stackrel{近似}{\sim}N(0,se^2(\hat\theta))$;

    • CLT $\Rightarrow\overline{X}$ 为 $\mu$ 的一个渐进正态估计, $se(\overline{X})=\dfrac{\sigma}{\sqrt{n}}$.

置信区间 (Condifence Interval)

  • 定义(置信区间) $\forall\,\alpha\in(0,1)$, $\forall\,\theta$, 有 $\hat\theta_i=\hat\theta_i(X_1,\cdots,X_n)$, 其中 $i=1,2$, 使得

    则称 $(\hat\theta_1,\hat\theta_2)$ 为 $\theta$ 的 $(1-\alpha)$ 置信的区间估计 (双侧).

    • $\alpha$ 通常取为 $0.05$, $0.01$, $0.1$;
    • 置信 (水平、系数、度) 是针对方法的;
    • 可靠性优先原则 (先保证 $P(\hat\theta_1<\theta<\hat\theta_2)\ge 1-\alpha$), 再尽量提升精度 (通常用 $E(\hat\theta_2-\hat\theta_1)$ 刻画).
  • $X\sim N(\mu,\sigma^2)$, 已知 $\sigma^2$, 给出 $\mu$ 的 $(1-\alpha)$ 置信区间估计.

  • 解答 注意到

    其中 $Z_{\tfrac{\alpha}{2}}$ 为 $N(0,1)$ 的上侧 $\dfrac{\alpha}{2}$ 分位数. 因此所求 $(1-\alpha)$ 置信的区间估计为

    • 若 $\alpha=0.05$, 则 $Z_{\tfrac{\alpha}{2}}=Z_{0.025}\approx 1.96\approx 2$;
    • 若用 $\overline{X}$ 估计 $\mu$, 则有 $(1-\alpha)$ 置信, 误差绝对值 $\vert\overline{X}-\mu\vert\le\frac{\sigma}{\sqrt{n}}Z_{\tfrac{\alpha}{2}}$;
    • 给定 $\varepsilon>0$, 则 $n\ge\Big(\dfrac{Z_{\frac{\alpha}{2}}\sigma}{\varepsilon}\Big)^2$ 时, 有 $(1-\alpha)$ 置信, 误差绝对值 $\le\varepsilon$.
  • $X\sim N(\mu,\sigma^2)$, 未知 $\sigma^2$, 给出 $\mu$ 的 $(1-\alpha)$ 置信区间估计.

  • 解答 注意到

    注意到 $\overline{X}$, $S^2$ 相互独立, 由陈书 $P_{93-94}$可得

    因此

    其中 $t_{\tfrac{\alpha}{2}}(n-1)$ 为 $t(n-1)$ 分布上侧 $\dfrac{\alpha}{2}$ 分位数, 所求 $(1-\alpha)$ 置信区间估计为

  • $\dfrac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}$, $\dfrac{\overline{X}-\mu}{\frac{S}{\sqrt{n}}}$ 成为枢轴变量.

  • $X\sim N(\mu,\sigma^2)$, 未知 $\mu$, 给出 $\sigma^2$ 的 $(1-\alpha)$ 置信区间估计.

  • 解答 注意到

    因此所求 $(1-\alpha)$ 置信区间估计为

  • 我们有

  • $X\sim N(\mu_1,\sigma^2)$, $Y\sim N(\mu_2,\sigma^2)$ 相互独立, 未知 $\mu_1$, $\mu_2$, $\sigma^2$, 给出 $\mu_1-\mu_2$ 的 $(1-\alpha)$ 置信区间估计.

  • 解答 设 $X_1,\cdots,X_n$, $Y_1,\cdots,Y_m$ 为随机样本, $S_1^2$ 为 $X$ 的样本方差, $S_2^2$ 为 $Y$ 的样本方差, 则

    因为

    从而得到

    也即

    这是我们用到的枢轴变量, 所求 $(1-\alpha)$ 置信区间估计为

    其中 $l=n+m-2$.

  • 定义(渐进置信区间) 通过大样本方法进行区间估计.

  • 例(选举问题) 真实支持率 $p$ 未知, $n=1200$, 观测比例 $\dfrac{684}{1200}\approx 0.57$. 给出 $p$ 的一个 $95\%$ 置信的区间估计.

  • 解答 $X_i\sim B(p)\,(1\le i\le n)$ iid (近似有放回, $n<<N$). 我们有

    因此

    CLT, 得到

    $[1]$ 用 $S^2=\dfrac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\overline{X})^2$ 来估计 $\sigma^2=p(1-p)$. 由 CLT, 得到

    其中 $S^2\approx 0.2475$, 区间估计为 $(0.542,0.598)$.

    $[2]$ 用 $m_2=\dfrac{1}{n}\sum\limits_{i=1}^{n}(X_i-\overline{X})^2$ 来估计 $\sigma^2=p(1-p)$.

    实际上, 我们有

    CLT, 得到

    $[3]$ 用 $p(1-p)$ 的最大值来估计 $\sigma^2=p(1-p)$. 由 CLT, 得到

  • 近似分布情况下, 置信度 $\approx 1-\alpha$, 近似程度取决于 $n$ 及总体分布.

  • 定义(利用 MLE 构建置信区间)

    总体分布 $f$ 满足一定的光滑性条件, 存在 $\sigma_n>0$, 使 $\dfrac{\theta^{*}-\theta}{\sigma_n}\rightarrow N(0,1)$.

  • 定义(Fisher 信息量) $X_1,\cdots,X_n$ iid, 其 PDF 为 $f(x;\theta)$. 定义对数似然函数

    定义

    注意到

    因此

    由极大似然估计的定义, 我们有

    研究上式分子: 设随机变量 $Y_i=\dfrac{\partial\log f(X_i;\theta)}{\partial\theta}=\dfrac{f_{\theta}(X_i;\theta)}{f(X_i;\theta)}$, 那么

    从而

    研究上式分母:

    注意到

    因此

    结合上述讨论可得

    这说明可以取 $\sigma_n=\dfrac{1}{\sqrt{nI(\theta)}}$ 或 $\dfrac{1}{\sqrt{nI(\theta^*)}}$.

  • 例(选举问题) 真实支持率 $p$ 未知, $n=1200$, 观测比例 $\dfrac{684}{1200}\approx 0.57$. 给出 $p$ 的一个 $95\%$ 置信的区间估计.

  • 解答续 注意到 $X_i\stackrel{iid}{\sim}B(p)$, $p$ 的 MLE 为 $p^{*}=P_n$. 有似然函数

    Fisher 信息量为:

    得到 $\sigma_n=\dfrac{1}{\sqrt{p(1-p)}}$ 或 $\dfrac{1}{\sqrt{p^{}(1-p^{})}}$. 这与前例 $[2]$ 完全一致.

  • 例(两总体) $X\sim N(\mu_1,\sigma_1^2)$, $Y\sim N(\mu_2,\sigma_2^2)$ 独立, 参数未知. 估计 $\mu_1-\mu_2$.

  • 解答 得到

    因此

Bayes 估计

  • 定义(Bayes 估计)

    • 在搜集数据之前, 对参数 $\theta$ 有先验知识, 可用一个概率分布来刻画 (先验分布).

    • $\Theta$ — 随机变量, $\theta$ — $\Theta$ 的实现值.

    • $X$ — 试验观测, $x$ — 具体观测结果.

    • $f_{\Theta}(\theta)$ — 先验分布, $f_{X\mid\Theta}(x\mid\theta)=f_X(x,\theta)$ — 搜集的样本分布.

    • 更新先验分布为后验分布:

      其中

      可通过后验期望或后验众数得到 Bayes 估计值.

  • 投掷硬币, 正面向上的概率为 $\theta$ (未知). 抛 $n$ 次观测到 $x$ 次正面向上.

  • 解答 对 $\theta$ 的先验认知: $\theta\sim U(0,1)$ (Bayes 法则). 此时有 $f_{\Theta}(\theta)=1$, $\theta\in(0,1)$.

    令 $X=n$ 次试验正面向上的次数, 给定 $\theta$ 时, $X\sim B(n,\theta)$. 即

    故 $(X,\Theta)$ 的联合分布为

    得到

    进而

    注意到这恰好为 $\beta(x+1,n-x+1)$ 的 PDF.

    后验均值估计值为

    后验众数估计值为 $f_{\Theta\mid X}(\theta\mid x)$ 的最大值点

    • 若 $n=20$, $x=13$, 后验分布服从 $\beta(14,8)$.
    • 此时 $P(\Theta>\dfrac{1}{2})\approx 0.91$, 而 $\Theta<\dfrac{1}{4}$ 基本不可能.
  • 注(合理的点估计)

    • 后验众数;
    • 后验均值.
  • 注(先验分布选取)

    • 本问题先验分布服从 $U(0,1)=\beta(1,1)$, 后验分布服从 $\beta(x+1,n-x+1)$;
    • 一般地, 先验分布服从 $\beta(a,b)$, 后验分布服从 $\beta(a+x,b+n-x)$.
  • 定义(Bayes 区间估计) 得到参数 $\theta$ 的后验分布 $f_{\Theta}(\theta\mid x)$, 给定观测值 $x$ 和实数 $\alpha\in(0,1)$, 若对参数 $\theta$ 的任意可能取值, 都成立

    则称 $(a,b)$ 为 $\theta$ 的 $(1−\alpha)$ 置信的 Bayes 区间估计.

    • 最大后验区间 (一般单峰);
    • 等尾可信区间.
  • $X\sim N(\mu,\sigma^2)$, $\sigma^2$ 已知, 给出 $\mu$ 的 $(1-\alpha)$ 置信的 Bayes 区间估计.

  • 解答 取 $\mu$ 的先验分布 $f(\mu)\propto 1$, 有后验分布为 $N(\overline{X},\dfrac{\sigma^2}{n})$.

    进一步可得

    得到所求 Bayes 估计区间为

Review

样本

  • $X_1,\cdots,X_n$ 为样本, 通常为 iid.
  • $\hat\theta=\hat\theta(X_1,\cdots,X_n)$ 为统计量.
  • 样本分布: $f(x_1,\cdots,x_n;\theta)$ (PDF\*PMF*).
  • 抽样分布: $\hat\theta$ 的分布.
  • 标准误差: $se=se(\hat\theta)=\sqrt{Var(\hat\theta)}$.

经典估计的优良性

  • $n$ 固定: 无偏性 & 有效性 (MSE 的分解)
  • $n\rightarrow\infty$: 渐近无偏 & 相合性 (WLLN 一致性) & 渐近正态性 (CLT)

置信区间

  • $\hat\theta_i=\hat\theta_i(X_1,\cdots,X_n)\,(i=1,2)$.
  • $P(\hat\theta_1<\theta<\hat\theta_2)\ge 1-\alpha$.
  • 置信 (水平、系数、度) 是针对方法.
  • 枢轴变量: $H(\hat\theta,\theta)$ 表示分布可用.

置信区间 v.s. Bayes 区间

  • (置信区间) 对具体的样本观测值 $(x_1,\cdots,x_n)$, 代入 $\hat\theta_1, \hat\theta_2$ 得到具体区间.

  • (Bayes 区间) 对具体的样本观测值 $(x_1,\cdots,x_n)$, 代入 $a, b$ 得到具体区间.

小样本方法 v.s. 大样本方法

  • 精确分布 v.s. 近似分布

Fisher 信息量


文章作者: Chengsx
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Chengsx !
  目录