概率论与数理统计 笔记4


Chap 4 随机变量的数字特征

期望

  • 定义(期望)

    • 存在 $\Leftrightarrow$ 绝对收敛;
    • (Lebesque-Stieltjes 积分) 一般定义: $E(X)=\int\limits_{-\infty}^{\infty}xdF$;
    • 集中趋势的一种刻画;
    • $E((X_1,\cdots,X_n)):=(E(X_1),\cdots,E(X_n))$.
  • 性质

    • (线性性质) $E(aX+bY)=aE(X)+bE(Y)$;

    • 若 $X_1,\cdots,X_n$ 独立, 则 $E(X_1\cdots X_n)=E(X_1)\cdots E(X_n)$.

分位数

  • 定义(中位数) $X$ 连续, 若 $P(X\le m)=\dfrac{1}{2}$, 则称 $m$ 为 $X$ 的中位数.

    • $F(m)=\dfrac{1}{2}$;
    • $P(Xm)$;
    • 中位数不一定唯一.
  • 定义(中位数) 若 $P(Xm)\le\dfrac{1}{2}$, 则称 $m$ 为 $X$ 的中位数.

  • 定义(下侧 $\alpha-$分位数)

    $\forall\alpha\in(0,1)$, 若 $P(Xa)\le 1-\alpha$, 称 $a$ 为 $X$ 的下侧 $\alpha-$分位数.

    • 若 $X$ 连续, 则 $P(X<a)=\alpha$;
    • $F^{-1}(\alpha)=\inf\{x\mid F(x)\ge\alpha\}$ 为一个 $\alpha$ 分位数.
    • 中位数也是集中趋势的一种刻画;
    • 众数 (方便定义: $f(x)$ 的最大值点).

方差

  • 定义(方差与标准差) 给出定义:
  • 刻画了数据的集中程度.
  • 性质
    • $Var(c)\equiv 0$;
    • $Var(X+c)\equiv Var(x)$;
    • $Var(cX)\equiv c^2Var(X)$;
    • $Var(X+Y)=Var(X)+Var(Y)+2E((X-E(X))(Y-E(Y)))$.
  • 定义变异系数 $\dfrac{\sigma}{\mu}$.

协方差与相关系数

  • 定义(协方差)
    • $Cov(X,X)=Var(X)$;

    • $Cov(X,Y)=Cov(Y,X)$;

    • $Cov(X,Y)=E(XY)-\mu_1\mu_2=E(XY)-E(X)E(Y)$;

    • $Cov(aX_1+bX_2+c,Y)=aCov(X_1,Y)+bCov(X_2,Y)$.

  • 定义(协方差矩阵) 对 $\overline{X}=(X_1,\cdots,X_n), \overline{Y}=(Y_1,\cdots,Y_n).$ 我们有协方差矩阵

  • 方差矩阵:

  • 定义(相关系数)

  • 定理

    • 若 $X,Y$ 独立, 则 $Corr(X,Y)=0$, 称为 $X,Y$ 不相关.
    • 联合正态的特殊情况, 不相关可推出独立.
    • $\vert Corr(X,Y)\vert\le 1$, 等号成立当且仅当 $\exist\,a,b$ 使得 $P(Y=aX+b)=1$.
  • 证明 给出引理 Schwartz 不等式:

    取等当且仅当 $\exist\,c\in\mathbb{R}$ 使得 $U=cV$. 取 $U=\dfrac{X-\mu_1}{\sigma_1},V=\dfrac{Y-\mu_2}{\sigma_2}$.

    • $\rho:=Corr(X,Y)=\pm 1$, 则 $a=\pm\dfrac{\sigma_2}{\sigma_1}$;
    • $\rho:=Corr(X,Y)=0$ (不相关) $\not\Rightarrow$ 独立;

      如 $X\sim N(0,1)$, $Y=X^2$ 不相关但是不独立.

    • 相关系数为线性相关系数.
  • $(X_1,X_2)\sim N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)$, 则

  • 定义(矩)

    为 $X$ 关于 $c$ 点的 $k$ 阶矩. 特别地, $c=0$ 对应原点矩, $c=\mu$ 对应中心矩.

    • $E(X)=$ 1 阶原点矩, 0 $\equiv$ 1 阶中心矩;
    • $Var(X)=$ 2 阶中心矩;
  • 定义(偏度系数)

    称为 3 阶标准矩.

    • 0 $\equiv$ 1 阶标准矩, 1 $\equiv$ 2 阶标准矩.
    • $Skew(X)<0$ 表示负偏, $Skew(X)>0$ 表示正偏, 刻画非对称程度;
    • 相比于 5 阶及以上的奇数阶矩, 3 阶矩的计算相对简单, 噪声影响较小;
    • 不是唯一的刻画偏度的特征数.
  • 定义(峰度系数)

    称为 4 阶标准矩.

    • 正态分布的峰度 $\equiv$ 3, 超额峰度 $:=Kurt(X)-3$;
    • $Kurt(X)>3\leftrightarrow$ 尖峰厚尾;
    • 没有一个数字特征能完美刻画尾部形.

矩母函数

  • 定义(矩母函数)

    若 $M_X(t)=E(e^{tX})$ 在 $t=0$ 的某个邻域内存在, 则称 $M_X(t)$ 为 $X$ 的矩母函数. 否则称 $X$ 的矩母函数 MGF 不存在.

  • $X\sim Exp(\lambda)$.

  • 解答

  • $X\sim N(0,1)$.

  • 解答

  • 性质

    • $M_X(0)\equiv 1$;
    • $Y=aX+b$, 则 $M_Y(t)=E(e^{t(aX+b)})=e^{tb}M_X(at)$.
  • $Y\sim N(\mu,\sigma^2)$.

  • 解答

  • 性质(矩母函数确定矩)

  • 证明

    又因为

    比较系数即得.

  • $X\sim N(0,1)$.

  • 解答

    可得

  • 性质(矩母函数确定分布)

    若 $\exists$ $a>0$, 使得 $M_X(t)=M_Y(t)$, $\forall\,t\in(-a,a)$, 则 $X$, $Y$ 同分布.

  • $M_X(t)=\dfrac{1}{4}e^{-t}+\dfrac{1}{2}+\dfrac{1}{8}e^{4t}+\dfrac{1}{8}e^{5t}$.

  • 解答 $X$ 离散, 设 $P(X=k)=p_k$, 我们有

    可得分布

  • $f_1(x)=\dfrac{1}{\sqrt{2\pi}x}e^{-\tfrac{(\ln x)^2}{2}}, x>0$, $f_2(x)=f_1(x)+f_1(x)\sin(2\pi\ln x)$.

  • 解答 注意到

    这是一个同矩不同分布的例子.

  • 性质(独立随机变量和的分布)

    若 $X$, $Y$ 独立, 则 $M_{X+Y}(t)=M_X(t)M_Y(t)$.

  • 证明 注意到

  • $X_1,X_2,\cdots,X_n$ 独立正态, 则 $X_1+X_2+\cdots+X_n$ 正态.

  • 解答 考察 $X_i\sim N(\mu_i,\sigma_i^2)$, 其中 $i=1,2$. 那么

    进而得到

    • 若 $N$ 为有限数;
    • 若 $N$ 为随机变量, 与 $X_i$ 独立.
    • $(X_1,X_2,\cdots,X_n)$ 的 MGF 为:

    • 特征函数

条件期望

  • 定义(条件期望)

    我们称 $E(Y\mid X)$ 为新的随机变量 $h(X)$, 是 $Y$ 对 $X$ 的回归函数.

  • $(X,Y)\sim N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)$, 则 $E(Y\mid X)=\mu_2+\rho\dfrac{\sigma_2}{\sigma_1}(X-\mu_1)$.

  • 甲乙两种同类产品, 评价使用寿命为 10 年, 15 年, 市场占有率为 60%, 40%. 随机购买一件产品, 求期望寿命?

  • 解答 为 $10\times 60\%+15\times 40\%=12$ 年.

    若记 $X$ 为产品类型, $Y$ 为产品寿命, 则上式可写成

    不同取值分层平均并加权.

  • 定义(全期望公式)

  • 证明 以连续型为例:

    从而有

  • 一般地, $E[g(X,Y)]=E[E(g(X,Y)\mid X)]$.

  • 定理(均方最优预测)

    称为均方误差 MSE 下的最优预测.

  • 证明

    因此

    两边对 $X$ 取均值, 可得

    • $E(Y\mid X)$ 依赖 $(X,Y)$ 的联合分布 (不易获取);

    • 转而求最优线性预测:


文章作者: Chengsx
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Chengsx !
  目录