概率论与数理统计 笔记8


Chap 8 线性回归

回归问题

  • 定义

    • $Y$ — 因变量(响应变量).
    • $X_1,\cdots,X_n$ — 自变量(回归变量).
    • $\varepsilon$ — 随机误差(无法测量或不重要的因素).

      假定 $E(\varepsilon\mid X_1,\cdots,X_n)=0$,

      称为 $Y$ 对 $X_1,\cdots,X_n$ 的回归函数. 由样本数据 $X_1,\cdots,X_n,Y$ 获取 $f$ 的过程称为回归(有监督学习).

    • $X_1,\cdots,X_n$ 可以是随机的(e.g. 随机抽取一人的身高、体重等).
    • $X_1,\cdots,X_n$ 也可以是非随机的控制变量(e.g. 施肥量、药品使用剂量).
    • 在应用中, 自变量一律视为非随机的.
  • 假设 $E(\varepsilon)=0$, $Var(\varepsilon)=\sigma^2$ (未知).

  • 要素是否完全、$f$ 的形式是否准确关乎 $\sigma^2$ 的大小.

简单线性回归

  • 定义

    这是理论模型, 提供背景作用. 其中回归参数(未知待定):

    • $\beta_0$ — 截距.
    • $\beta_1$ — 斜率(回归系数).

      对 $(X,Y)$ 进行 $n$ 次独立观测, 得到样本观测值 $(x_1,y_1),\cdots,(x_n,y_n)$. 则

      其中 $\varepsilon_i$ 作为第 $i$ 次观测的随机误差, 无法直接观测得到. 不妨认为

      这是简单线性回归模型. 其中:

    • $E(y_i)=\beta_0+\beta_1 x_i$.

    • $Var(y_i)=\sigma^2$.
    • 简单: $n=1$.
    • 线性: $f$ 关于参数 $\beta_0$, $\beta_1$ 线性.

最小二乘法 (LS) 估计参数

  • 定义

    最小化 $S(\beta_0,\beta_1)$, 得

    • $\hat\beta_1=\dfrac{\sum\limits_{i=1}^{n}(x_i-\overline{x})(y_i-\overline{y})}{\sum\limits_{i=1}^{n}(x_i-\overline{x})^2}=\dfrac{\sum\limits_{i=1}^{n}(x_i-\overline{x})y_i}{S_{xx}}$ ($y_i$ 的线性组合).
    • $\hat\beta_0=\overline{y}-\hat\beta_1\overline{x}=\sum\limits_{i=1}^{n}(\dfrac{1}{n}-\dfrac{(x_i-\overline{x})\overline{x}}{S_{xx}})y_i$ ($y_i$ 的线性组合).
    • $y=\hat\beta_0+\hat\beta_1 x$ (拟合直线).
    • 损失函数: $(y-(\beta_0+\beta_1 x))^2$.
    • 线性模型是否合理.
  • 命题 $\hat\beta_0$, $\hat\beta_1$ 分别为 $\beta_0$, $\beta_1$ 的无偏估计.

  • 证明

  • 中心化处理:

    此时常数项 $\beta_0+\beta_1\overline{x}$ 的估计 $=\hat\beta_0+\hat\beta_1\overline{x}=\overline{y}$.

  • 定义(残差) 当 $X=x_i$ 时, 拟合直线上相应点为 $(x_i,\hat\beta_0+\hat\beta_1 x_i)$.

    记 $\hat{y}_i=\hat\beta_0+\hat\beta_1 x_i$, 称为 $x_i$ 处的拟合值. 定义残差 $y_i-\hat{y}_i$. 考虑残差平方和

  • 命题 $\hat\sigma^2:=\dfrac{SSE}{n-2}$ 为 $\sigma^2$ 的无偏估计. 此时

    • $\hat{se}(\hat\beta_1)=\dfrac{\hat\sigma}{\sqrt{S_{xx}}}$.
    • $\hat{se}(\hat\beta_0)=\hat\sigma\sqrt{\dfrac{1}{n}+\dfrac{\overline{x}^2}{S_{xx}}}$.

回归参数推断

  • 追加假设 $\varepsilon_i\sim N(0,\sigma^2)$, $1\le i\le n$.

    • $y_i\sim N(\beta_0+\beta_1 x_i,\sigma^2)$ 独立, $1\le i\le n$.

    • MLE$(\beta_0^,\beta_1^)=(\hat\beta_0,\hat\beta_1)$ (习题课 5).

      $L(\beta_0,\beta_1,\sigma^2)=\prod\limits_{i=1}^{n}\dfrac{1}{\sqrt{2\pi}\sigma}e^{-\tfrac{(y_i-(\beta_0+\beta_1 x_i))^2}{2\sigma^2}}$.

      $(\sigma^2)^*=\dfrac{SSE}{n}$.

  • 定义(假设检验) $H_0:\beta_1=0$ v.s. $H_1:\beta_1\ne 0$. 因为 $\hat\beta_1$ 为 $y_i$ 的线性组合. 得到

    可证明

    从而

    检验统计量:

    当 $H_0$ 为真时, $T\sim t(n-2)$. 检验准则为: 当 $\vert T\vert\ge t_{\tfrac{\alpha}{2}}(n-2)$ 时拒绝 $H_0$.

    • 可以对其他的 $\beta_1$ 可能值进行检验.
    • 可以对 $\beta_1$ 进行区间估计.
    • 可以对 $\beta_0$ 进行相应推断, 过程类似.

预测

  • 当 $X=x_0$ 时, $y_0=\beta_0+\beta_1 x_0+\varepsilon_0$, 其中 $\varepsilon\sim N(0,\sigma^2)$. 令

    给出对 $\mu_0$ 的预测.

  • 解答 用拟合直线上 $x_0$ 处的取值 $\hat y_0$ 给出 $\mu_0$ 的点估计:

    分别给出

    • $E(\hat y_0)=E(\hat\beta_0+\hat\beta_1x_0)=\beta_0+\beta_1x_0=\mu_0$.
    • $Var(\hat y_0)=\sum_{i=1}^{n}\Big(\dfrac{1}{n}+\dfrac{(x_i-\overline{x})(x_0-\overline{x})}{S_{xx}}\Big)^2\sigma^2=\Big(\dfrac{1}{n}+\dfrac{(x_0-\overline{x})^2}{S_{xx}}\Big)\sigma^2$.

      从而

      使用 $\hat{se}(\hat y_0)=\hat\sigma\sqrt{\dfrac{1}{n}+\dfrac{(x_0-\overline{x})^2}{S_{xx}}}$ 估计 $se(\hat y_0)$, 我们有

      从而 $\mu_0$ 的 $(1-\alpha)-$ 置信的双侧区间估计为

  • 当 $X=x_0$ 时, $y_0=\beta_0+\beta_1 x_0+\varepsilon_0$, 其中 $\varepsilon\sim N(0,\sigma^2)$. 给出对 $y_0$ 的预测.

  • 解答 $y_0\sim N(\mu_0,\sigma^2)$. 若 $\mu_0$ 已知, 则 $y_0$ 的(均方意义下最优)估计为 $\mu_0$.

    一般情况下, $y_0$ 的良好点估计为 $\hat y_0=\hat\beta_0+\hat\beta_1x_0$.

    注意到 $y_0$ 与 $\hat y_0$ 相互独立, 从而 $\hat y_0- y_0$ 服从正态分布.

    分别给出

    • $E(\hat y_0-y_0)=E(\hat y_0)-E(y_0)=\mu_0-\mu_0=0$.
    • $Var(\hat y_0-y_0)=Var(\hat y_0)+Var(y_0)=\sigma^2(1+\dfrac{1}{n}+\dfrac{(x_0-\overline{x})^2}{S_{xx}})$.

      从而

      进而

从而 $y_0$ 的 $(1-\alpha)-$ 置信的双侧区间估计为
$$
\Big(\hat y_0-t_{\tfrac{\alpha}{2}}\hat\sigma\sqrt{1+\dfrac{1}{n}+\dfrac{(x_0-\overline{x})^2}{S_{xx}}},\hat y_0+t_{\tfrac{\alpha}{2}}\hat\sigma\sqrt{1+\dfrac{1}{n}+\dfrac{(x_0-\overline{x})^2}{S_{xx}}}\Big).
$$
  • 当 $x_0$ 与 $\overline{x}$ 距离增加时, 估计误差增大.

    • 结合实际理解 $\beta$.
    • 外推需谨慎.
    • 截距为 0 的回归复杂度 $n-2\rightarrow n-1$.
    • 回归方程不可逆转使用.
    • 常见应用:
      • 描述趋势.
      • 预测均值\取值.
      • 实验控制.

文章作者: Chengsx
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Chengsx !
  目录