Chap 8 线性回归
回归问题
定义
- $Y$ — 因变量(响应变量).
- $X_1,\cdots,X_n$ — 自变量(回归变量).
$\varepsilon$ — 随机误差(无法测量或不重要的因素).
假定 $E(\varepsilon\mid X_1,\cdots,X_n)=0$,
称为 $Y$ 对 $X_1,\cdots,X_n$ 的回归函数. 由样本数据 $X_1,\cdots,X_n,Y$ 获取 $f$ 的过程称为回归(有监督学习).
注
- $X_1,\cdots,X_n$ 可以是随机的(e.g. 随机抽取一人的身高、体重等).
- $X_1,\cdots,X_n$ 也可以是非随机的控制变量(e.g. 施肥量、药品使用剂量).
- 在应用中, 自变量一律视为非随机的.
假设 $E(\varepsilon)=0$, $Var(\varepsilon)=\sigma^2$ (未知).
注 要素是否完全、$f$ 的形式是否准确关乎 $\sigma^2$ 的大小.
简单线性回归
定义
这是理论模型, 提供背景作用. 其中回归参数(未知待定):
- $\beta_0$ — 截距.
$\beta_1$ — 斜率(回归系数).
对 $(X,Y)$ 进行 $n$ 次独立观测, 得到样本观测值 $(x_1,y_1),\cdots,(x_n,y_n)$. 则
其中 $\varepsilon_i$ 作为第 $i$ 次观测的随机误差, 无法直接观测得到. 不妨认为
这是简单线性回归模型. 其中:
$E(y_i)=\beta_0+\beta_1 x_i$.
- $Var(y_i)=\sigma^2$.
注
- 简单: $n=1$.
- 线性: $f$ 关于参数 $\beta_0$, $\beta_1$ 线性.
最小二乘法 (LS) 估计参数
定义
最小化 $S(\beta_0,\beta_1)$, 得
- $\hat\beta_1=\dfrac{\sum\limits_{i=1}^{n}(x_i-\overline{x})(y_i-\overline{y})}{\sum\limits_{i=1}^{n}(x_i-\overline{x})^2}=\dfrac{\sum\limits_{i=1}^{n}(x_i-\overline{x})y_i}{S_{xx}}$ ($y_i$ 的线性组合).
- $\hat\beta_0=\overline{y}-\hat\beta_1\overline{x}=\sum\limits_{i=1}^{n}(\dfrac{1}{n}-\dfrac{(x_i-\overline{x})\overline{x}}{S_{xx}})y_i$ ($y_i$ 的线性组合).
- $y=\hat\beta_0+\hat\beta_1 x$ (拟合直线).
注
- 损失函数: $(y-(\beta_0+\beta_1 x))^2$.
- 线性模型是否合理.
命题 $\hat\beta_0$, $\hat\beta_1$ 分别为 $\beta_0$, $\beta_1$ 的无偏估计.
证明
注 中心化处理:
此时常数项 $\beta_0+\beta_1\overline{x}$ 的估计 $=\hat\beta_0+\hat\beta_1\overline{x}=\overline{y}$.
定义(残差) 当 $X=x_i$ 时, 拟合直线上相应点为 $(x_i,\hat\beta_0+\hat\beta_1 x_i)$.
记 $\hat{y}_i=\hat\beta_0+\hat\beta_1 x_i$, 称为 $x_i$ 处的拟合值. 定义残差 $y_i-\hat{y}_i$. 考虑残差平方和
命题 $\hat\sigma^2:=\dfrac{SSE}{n-2}$ 为 $\sigma^2$ 的无偏估计. 此时
- $\hat{se}(\hat\beta_1)=\dfrac{\hat\sigma}{\sqrt{S_{xx}}}$.
- $\hat{se}(\hat\beta_0)=\hat\sigma\sqrt{\dfrac{1}{n}+\dfrac{\overline{x}^2}{S_{xx}}}$.
回归参数推断
追加假设 $\varepsilon_i\sim N(0,\sigma^2)$, $1\le i\le n$.
注
$y_i\sim N(\beta_0+\beta_1 x_i,\sigma^2)$ 独立, $1\le i\le n$.
MLE$(\beta_0^,\beta_1^)=(\hat\beta_0,\hat\beta_1)$ (习题课 5).
$L(\beta_0,\beta_1,\sigma^2)=\prod\limits_{i=1}^{n}\dfrac{1}{\sqrt{2\pi}\sigma}e^{-\tfrac{(y_i-(\beta_0+\beta_1 x_i))^2}{2\sigma^2}}$.
$(\sigma^2)^*=\dfrac{SSE}{n}$.
定义(假设检验) $H_0:\beta_1=0$ v.s. $H_1:\beta_1\ne 0$. 因为 $\hat\beta_1$ 为 $y_i$ 的线性组合. 得到
可证明
从而
检验统计量:
当 $H_0$ 为真时, $T\sim t(n-2)$. 检验准则为: 当 $\vert T\vert\ge t_{\tfrac{\alpha}{2}}(n-2)$ 时拒绝 $H_0$.
注
- 可以对其他的 $\beta_1$ 可能值进行检验.
- 可以对 $\beta_1$ 进行区间估计.
- 可以对 $\beta_0$ 进行相应推断, 过程类似.
预测
例 当 $X=x_0$ 时, $y_0=\beta_0+\beta_1 x_0+\varepsilon_0$, 其中 $\varepsilon\sim N(0,\sigma^2)$. 令
给出对 $\mu_0$ 的预测.
解答 用拟合直线上 $x_0$ 处的取值 $\hat y_0$ 给出 $\mu_0$ 的点估计:
分别给出
- $E(\hat y_0)=E(\hat\beta_0+\hat\beta_1x_0)=\beta_0+\beta_1x_0=\mu_0$.
$Var(\hat y_0)=\sum_{i=1}^{n}\Big(\dfrac{1}{n}+\dfrac{(x_i-\overline{x})(x_0-\overline{x})}{S_{xx}}\Big)^2\sigma^2=\Big(\dfrac{1}{n}+\dfrac{(x_0-\overline{x})^2}{S_{xx}}\Big)\sigma^2$.
从而
使用 $\hat{se}(\hat y_0)=\hat\sigma\sqrt{\dfrac{1}{n}+\dfrac{(x_0-\overline{x})^2}{S_{xx}}}$ 估计 $se(\hat y_0)$, 我们有
从而 $\mu_0$ 的 $(1-\alpha)-$ 置信的双侧区间估计为
例 当 $X=x_0$ 时, $y_0=\beta_0+\beta_1 x_0+\varepsilon_0$, 其中 $\varepsilon\sim N(0,\sigma^2)$. 给出对 $y_0$ 的预测.
解答 $y_0\sim N(\mu_0,\sigma^2)$. 若 $\mu_0$ 已知, 则 $y_0$ 的(均方意义下最优)估计为 $\mu_0$.
一般情况下, $y_0$ 的良好点估计为 $\hat y_0=\hat\beta_0+\hat\beta_1x_0$.
注意到 $y_0$ 与 $\hat y_0$ 相互独立, 从而 $\hat y_0- y_0$ 服从正态分布.
分别给出
- $E(\hat y_0-y_0)=E(\hat y_0)-E(y_0)=\mu_0-\mu_0=0$.
$Var(\hat y_0-y_0)=Var(\hat y_0)+Var(y_0)=\sigma^2(1+\dfrac{1}{n}+\dfrac{(x_0-\overline{x})^2}{S_{xx}})$.
从而
进而
从而 $y_0$ 的 $(1-\alpha)-$ 置信的双侧区间估计为
$$
\Big(\hat y_0-t_{\tfrac{\alpha}{2}}\hat\sigma\sqrt{1+\dfrac{1}{n}+\dfrac{(x_0-\overline{x})^2}{S_{xx}}},\hat y_0+t_{\tfrac{\alpha}{2}}\hat\sigma\sqrt{1+\dfrac{1}{n}+\dfrac{(x_0-\overline{x})^2}{S_{xx}}}\Big).
$$
注 当 $x_0$ 与 $\overline{x}$ 距离增加时, 估计误差增大.
注
- 结合实际理解 $\beta$.
- 外推需谨慎.
- 截距为 0 的回归复杂度 $n-2\rightarrow n-1$.
- 回归方程不可逆转使用.
- 常见应用:
- 描述趋势.
- 预测均值\取值.
- 实验控制.