卡方分布小记(一)

为了找回一点上学期学《概率论》时的感觉,把一些关于卡方分布的东西记一下。这里包括了用正态平方和导出、一些性质以及Fisher引理的一个证明。

希望之后有机会写(二),不过最近又有点倦怠了😭

随机变量 $X_1, X_2, \cdots, X_n \stackrel{i.i.d}{\sim} N(0,1)$。记 $X = \sum_{i=1}^n X_i^2$,有 X ∼ χ2(n),即自由度为 nχ2 分布,其 PDF 为:


$$ \begin{aligned} f_X(x) = \begin{cases} \frac{1}{2^{\frac{n}{2}}\Gamma(\frac{n}{2})} x^{\frac{n}{2}-1} e^{-\frac{x}{2}}, & x > 0 \\ 0, & x \le 0 \end{cases} \end{aligned} $$

证明:作换元


$$ \begin{aligned} \begin{cases} X_1 = R \cos\theta_1 \\ X_2 = R \sin\theta_1 \cos\theta_2 \\ \vdots \\ X_{n-1} = R \sin\theta_1 \sin\theta_2 \cdots \sin\theta_{n-2} \cos\theta_{n-1} \\ X_n = R \sin\theta_1 \sin\theta_2 \cdots \sin\theta_{n-2} \sin\theta_{n-1} \end{cases} \end{aligned} $$

(若记此换元下的雅可比行列式为 J,则 J 可通过数学归纳法求出。)

考虑 X 的 CDF,有:


$$ \begin{aligned} F_X(x) = P\left\{X = \sum_{i=1}^n X_i^2 \le x\right\} = P\{R^2 \le x\} = P\{R \le \sqrt{x}\} \quad (\text{由 } R \text{ 的非负性}) \end{aligned} $$

即:


$$ \begin{aligned} F_X(x) = F_R(\sqrt{x}) \end{aligned} $$

该等式两侧同时对 x 求导,得到 X 的 PDF 满足:


$$ \begin{aligned} f_X(x) = \frac{1}{2\sqrt{x}} f_R(\sqrt{x}) \end{aligned} $$

由于 $X_1, X_2, \cdots, X_n \stackrel{i.i.d}{\sim} N(0,1)$,其联合分布:


$$ \begin{aligned} f(x_1, \cdots, x_n) = \prod_{i=1}^n \varphi(x_i) = (2\pi)^{-\frac{n}{2}} \cdot \exp\left\{-\frac{1}{2}\sum_{i=1}^n x_i^2\right\} \end{aligned} $$

因而:


$$ \begin{aligned} f(r, \theta_1, \cdots, \theta_{n-1}) = (2\pi)^{-\frac{n}{2}} \cdot e^{-\frac{r^2}{2}} \end{aligned} $$

根据球换元的几何特性,$f_R(\sqrt{x})$ 即为在 $r=\sqrt{x}$ 处的 n 个随机变量的密度乘 n 维球表面积(若再乘 dr,即为 $r=\sqrt{x}$ 处高 dr 的球壳的质量)。

n 维球的表面积公式:


$$ \begin{aligned} S_n(r) = \frac{2\pi^{\frac{n}{2}}}{\Gamma(\frac{n}{2})} \cdot r^{n-1} \end{aligned} $$

有:


$$ \begin{aligned} f_R(\sqrt{x}) = f(\sqrt{x}, \theta_1, \cdots, \theta_{n-1}) \cdot S_n(\sqrt{x}) &= (2\pi)^{-\frac{n}{2}} \cdot e^{-\frac{x}{2}} \cdot \frac{2\pi^{\frac{n}{2}}}{\Gamma(\frac{n}{2})} \cdot x^{\frac{n-1}{2}} = \frac{2}{2^{\frac{n}{2}}\Gamma(\frac{n}{2})} x^{\frac{n-1}{2}} e^{-\frac{x}{2}} \end{aligned} $$

因而:


$$ \begin{aligned} f_X(x) = \frac{1}{2\sqrt{x}} f_R(\sqrt{x}) = \frac{1}{2^{\frac{n}{2}}\Gamma(\frac{n}{2})} \cdot x^{\frac{n}{2}-1} e^{-\frac{x}{2}} \end{aligned} $$

x ≤ 0,由 FX(x) = P{R2 ≤ x} = 0fX(x) = 0。故 X 的 PDF 为:


$$ \begin{aligned} f_X(x) = \begin{cases} \frac{1}{2^{\frac{n}{2}}\Gamma(\frac{n}{2})} x^{\frac{n}{2}-1} e^{-\frac{x}{2}}, & x > 0 \\ 0, & x \le 0 \end{cases} \end{aligned} $$

上述的证明方法运用了很奇妙的几何性质,似乎不太严谨。可以用矩母函数实现更严谨的证明:

Y1 = X12,此时:


$$ \begin{aligned} F_{Y_1}(y) &= P\{X_1^2 \le y\} \\ &= P\{-\sqrt{y} \le X_1 \le \sqrt{y}\} \quad (y > 0) \end{aligned} $$

由于 X ∼ N(0, 1),上式即为 $F_{Y_1}(y) = 2\Phi(\sqrt{y}) - 1$。 其中 Φ(y) 为标准正态分布的 CDF。

对两侧求导,得到:


$$ \begin{aligned} f_{Y_1}(y) &= \frac{1}{\sqrt{y}} \Phi'(\sqrt{y}) \\ &= \frac{1}{\sqrt{y}} \frac{1}{\sqrt{2\pi}} e^{-\frac{y}{2}} \\ &= \frac{1}{2^{\frac{1}{2}}\Gamma(\frac{1}{2})} y^{\frac{1}{2}-1} e^{-\frac{y}{2}} \quad (y > 0) \end{aligned} $$

因此,$Y_1 \sim \Gamma(\frac{1}{2}, \frac{1}{2})$,其 MGF 为:


$$ \begin{aligned} M_{Y_1}(t) = (1 - 2t)^{-\frac{1}{2}} \end{aligned} $$

依次设 Y2 = X22, ⋯, Yn = Xn2,由于 X1, X2, ⋯, Xn 相互独立,Y1, Y2, ⋯, Yn 亦然。

因而 X = Y1 + Y2 + ⋯ + Yn 的 MGF 为:


$$ \begin{aligned} M_X(t) = \prod_{i=1}^n M_{Y_i}(t) = (1 - 2t)^{-\frac{n}{2}} \end{aligned} $$

恰为 $\Gamma(\frac{n}{2}, \frac{1}{2})$χ2(n) 的 MGF,故得证。

不难发现 χ2 分布的许多特性,比如:

  • $\chi^2(n) = \Gamma(\frac{n}{2}, \frac{1}{2})$
  • X ∼ χ2(n) ⇒ EX = n, DX = 2n,众数为 (n − 2) (仅当 n ≥ 3 成立,n = 1, 2 时密度单减无极值)
  • $\chi^2(2) = Exp(\frac{1}{2})$

以上内容往往出现于概率论中对 χ2 分布的介绍。在数理统计课程,χ2 分布一般首次出现于样本方差的抽样分布。对来自正态总体 N(μ, σ2) 的样本 (X1, X2, ⋯, Xn),有:


$$ \begin{aligned} \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1) \end{aligned} $$

其中 $S^2 = \frac{1}{n-1}\sum_{i=1}^n(X_i - \bar{X})^2$ 为样本方差。

这其实正是大名鼎鼎的 Fisher 引理所讨论的内容。关于 Fisher 引理的证明,我在李贤平老师的《概率论基础》中读到了一个构造正交矩阵辅助的思路,但若对多元正态分布的性质不熟,此方法并不十分显然。下面的方法,个人认为对初学者而言更友好些:

证明:

要证 $\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)$,只要证其 MGF 为 χ2(n − 1) 的 MGF 即可。

首先进行变换:


$$ \begin{aligned} \frac{(n-1)S^2}{\sigma^2} &= \sum_{i=1}^n \left(\frac{X_i - \bar{X}}{\sigma}\right)^2 \\ &= \sum_{i=1}^n \left(\frac{X_i - \mu + \mu - \bar{X}}{\sigma}\right)^2 \\ &= \sum_{i=1}^n \left(\frac{X_i - \mu}{\sigma}\right)^2 + \frac{2(\mu - \bar{X})}{\sigma^2} \sum_{i=1}^n (X_i - \mu) + n \left(\frac{\bar{X} - \mu}{\sigma}\right)^2 \\ &= \sum_{i=1}^n \left(\frac{X_i - \mu}{\sigma}\right)^2 - n \left(\frac{\bar{X} - \mu}{\sigma}\right)^2 \end{aligned} $$

记以上结果为 O = P − Q,即 P = O + Q

由于 $X_1, X_2, \cdots, X_n \stackrel{i.i.d}{\sim} N(\mu, \sigma)$,故:


$$ \begin{aligned} P = \sum_{i=1}^n \left(\frac{X_i - \mu}{\sigma}\right)^2 \sim \chi^2(n) \end{aligned} $$

其 MGF:


$$ \begin{aligned} M_P(t) = (1 - 2t)^{-\frac{n}{2}} \end{aligned} $$

由于 $\bar{X} \sim N(\mu, \frac{\sigma^2}{n})$,故:


$$ \begin{aligned} Q = n \cdot \left(\frac{\bar{X} - \mu}{\sigma}\right)^2 = \left(\frac{\bar{X} - \mu}{\sigma/\sqrt{n}}\right)^2 \sim \chi^2(1) \end{aligned} $$

即有:


$$ \begin{aligned} M_Q(t) = (1 - 2t)^{-\frac{1}{2}} \end{aligned} $$

此时可以发现,若 OQ,则 P, O, Q 的 MGF 满足:


$$ \begin{aligned} M_P(t) = M_O(t) \cdot M_Q(t) \end{aligned} $$

结合 MP(t)MQ(t) 形式不难得到 $M_O(t) = (1 - 2t)^{-\frac{n-1}{2}}$。 即 $O = \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)$

下面就来证明 OQ

首先发现,O, Q 分别可以看作随机变量 S2 的函数,故我们只用 S2 即可知 OQ

$S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2$,故若 (Xi − ) ⫫ ,则 S2 亦成立。 这其实就是证明每个样本残差都与样本均值独立。

事实上,我们有:


$$ \begin{aligned} Cov(X_i - \bar{X}, \bar{X}) &= E[(X_i - \bar{X}) \cdot \bar{X}] - E(X_i - \bar{X}) \cdot E\bar{X} \\ &= E[X_i \bar{X}] - E[\bar{X}^2] - E[X_i] \cdot E[\bar{X}] + (E[\bar{X}])^2 \end{aligned} $$

其中:


$$ \begin{aligned} E[X_i \bar{X}] &= E\left[X_i \cdot \frac{1}{n} \sum_{k=1}^n X_k\right] \\ &= \frac{1}{n} \left(E[X_i^2] + \sum_{k=1, k \neq i}^n E[X_i X_k]\right) \\ &= \frac{1}{n} [\mu^2 + \sigma^2 + (n-1)\mu^2] \\ &= \mu^2 + \frac{1}{n}\sigma^2 \end{aligned} $$


$$ \begin{aligned} E[\bar{X}^2] &= (E[\bar{X}])^2 + D(\bar{X}) \\ &= \mu^2 + \frac{1}{n}\sigma^2 \end{aligned} $$


$$ \begin{aligned} E[X_i] \cdot E[\bar{X}] = \mu^2 \end{aligned} $$


$$ \begin{aligned} (E[\bar{X}])^2 = \mu^2 \end{aligned} $$

Cov(Xi − , ) = 0,即 Xi − 

由此,$\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)$ 得证。