Chap 3 联合分布
随机向量
定义(随机向量) 我们称
为随机向量, 当 $X_i(1\le i\le n)$ 均为随机变量.
定义(联合 CDF)
注 若 $X_i:\Omega_i\rightarrow\mathbb{R}$, 需扩充 $\Omega=\Omega_1\times\cdots\Omega_n$.
离散分布
定义(离散型随机向量)
定义(概率质量函数)(PMF)
注 $\sum\limits_{(x_1,\cdots,x_n)\in\mathbb{R}}f(x_1,\cdots,x_n)\equiv 1$.
定义(多项分布) 若 $B_1, B_2\cdots,B_n$ 为互斥事件, 且 $\sum\limits_{i=1}^{n}B_i=\Omega$. 其发生的概率为 $p_1,\cdots,p_n$, 且 $\sum\limits_{i=1}^{n}p_i\equiv 1$. 满足
其中 $\dfrac{N!}{k_1!\cdots k_n!}$ 为多项式系数.
连续分布
定义(联合 PDF) 若存在 $f(x_1,\cdots,x_n)\ge 0$, 使得 $\forall\,Q\subset\mathbb{R}^n$ 可测, 都有
则称 $(X_1,\cdots,X_n)$ 为连续型, $f$ 为 $(X_1,\cdots,X_n)$ 的概率密度函数 (PDF).
注
- $\int_{\mathbb{R}}f\equiv 1$;
- 以 $n=2$ 为例, $F(a,b)=\int_{-\infty}^{a}(\int_{-\infty}^{b}f(s,t)dt)ds$;
- $f(a,b)=\dfrac{\partial^2 F}{\partial y\partial x}(a,b),\,a.e$.
定义(连续分布)(矩形域)
定义(二元正态分布)
其中 $(x,y)\in\mathbb{R}^2, \vert\rho\vert<1$.
上式中 $\exp$ 的指数可视为 $-\dfrac{1}{2}\overline{X}^TW\overline{X}=-\dfrac{1}{2}\overline{AX}^T\overline{AX}$, 其 Cholesky 分解为
注
- $f(x,y)$ 的等值线图像为椭圆;
- $\rho$ 的意义?
边际分布
定义(边际 CDF)
连续型
$n=2$ 时
$n=3$ 时
离散型
$n=2$ 时
例(容斥原理)
定义(边际 PDF)
$\Rightarrow X$ 的边际 PDF 为
例 二元正态分布 $N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)$.
解答
因此 $X\sim N(\mu_1,\sigma_1^2)$. 同理 $Y\sim N(\mu_2,\sigma_2^2)$.
注 联合分布可确定边际分布, 边际分布不可确定联合分布.
条件分布 (以 $n=2$ 为例)
定义(离散型条件分布) $P(X=a_i,Y=b_j)=p_{ij}\ge 0$, $\sum\limits_{i,j}p_{ij}\equiv 1$.
注 $\sum\limits_{i}P(X=a_i\mid Y=b_j)\equiv 1$.
定义(连续型条件分布) $(X,Y)$ 的 PDF 为 $f(x,y)$.
定义(条件密度函数)
令 $dy\rightarrow 0$, 定义条件密度函数:
条件密度函数 $f_{X\mid Y}(x\mid y)$ 为 PDF.
注
- $F(a\mid y)=P(X\le a\mid Y=y)=\int_{-\infty}^{a}f_{X\mid Y}(x\mid y)dx$;
- (乘法法则) $f(x,y)=f_{X\mid Y}(x\mid y)f_Y(y)$;
- (全概率公式) $f_X(x)=\int_{-\infty}^{\infty}f(x,y)dy=\int_{-\infty}^{\infty}f_{X\mid Y}(x\mid y)f_Y(y)dy$;
- (Bayes 公式) $f_{Y\mid X}(y\mid x)=\dfrac{f(x,y)}{f_X(x)}=\dfrac{f_{X\mid Y}(x\mid y)f_Y(y)}{\int_{-\infty}^{\infty}f_{X\mid Y}(x\mid y)f_Y(y)dy}$.
例 二元正态分布.
解答 注意到
即当 $X=x$ 时, $Y\sim N(\mu_2+\rho\dfrac{\sigma_2}{\sigma_1}(x-\mu_1),(1-\rho^2)\sigma_2^2)$.
独立性
定义(独立性) $(X,Y)$ 的 CDF 为 $F(x,y)$, 边际 CDF $F_X(x)$, $F_Y(y)$. 若
则称 $X,Y$ 相互独立.
注 $X$, $Y$ 独立 $\Leftrightarrow f(x,y)=f_X(x)f_Y(y),\,\forall\,x,y\in\mathbb{R}$, 其中 $f$ 为 PDF/PMF.
定义 $X_1,\cdots,X_n$ 相互独立 $\Leftrightarrow F(x_1,\cdots,x_n)=F_1(x_1)\cdots F_n(x_n),\,\forall\,x_1,\cdots,x_n\in\mathbb{R}.$
注 $X_1,\cdots,X_n$ 独立 $\Leftrightarrow f(x_1,\cdots,x_n)=f_1(x_1)\cdots f_n(x_n),\,\forall\,x_1,\cdots,x_n\in\mathbb{R}$, 其中 $f$ 为 PDF/PMF.
定理
- $f(x_1,\cdots,x_n)=g_1(x_1)\cdots g_n(x_n),\,\forall\,x_1,\cdots,x_n\in\mathbb{R}$, 则 $X_1,\cdots,X_n$ 独立.
- $X_1,\cdots,X_n$ 独立, $Y_1=g_1(X_1,\cdots,X_n), Y_2=g_2(X_1,\cdots,X_n)$, 则 $Y_1$, $Y_2$ 独立.
随机向量的函数
定义 $Y=g(X_1,\cdots,X_n)$
例 $X_i\sim B(n_i, p),i=1,2$ 独立, $Y=X_1+X_2$.
解答
那么有 $Y\sim B(n_1+n_2,p).$
例 $X_1,X_2$ 连续, $X_1>0$, 其联合 PDF 为 $f(x_1,x_2)$, 且 $Y=\dfrac{X_2}{X_1}$.
解答 注意到 $\forall\,y>0$,
故 $Y$ 的 PDF 为
定义(密度函数变换法) $X_1,X_2$ 的联合 PDF 为 $f(x_1,x_2)$, $g_1,g_2$ 可微可逆, 满足
那么
其中
故 $Y_1,Y_2$ 的 PDF 为
例 $X_1,X_2$ 连续, $X_1>0$, 其联合 PDF 为 $f(x_1,x_2)$, 且 $Y=X_1+X_2$.
解答
令 $Z=X_1$, 则 $X_1=Z, X_2=Y-Z$. 故 $Y,Z$ 的 PDF 为
其中
那么 $Y$ 的 PDF 为
注
若 $X_1,X_2$ 独立, 则
若 $(X_1,X_2)\sim N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)$, 则
注 三大分布: Chi-Square 分布 $\chi^2(n)$, $t_n$, $F$.