随机变量及其独立性
设 $(\Omega, \mathcal{F}, P)$ 是概率空间。如果 $X: \Omega \to \mathbf{R}$ 是一个实值函数,且对任意实数 $a$,有
则称 $X$ 为 $(\Omega, \mathcal{F}, P)$ 上的随机变量。
随机变量是将随机试验的结果数值化的函数。例如,掷骰子的点数、某地区一天的降雨量、等待公交车的时间等都可以用随机变量来描述。
设 $X, Y$ 是两个随机变量。如果对任意实数 $a, b$,有
则称随机变量 $X$ 与 $Y$ 相互独立。
离散型随机变量
如果随机变量 $X$ 只取有限个或可列无穷多个值 $x_1, x_2, \cdots$,则称 $X$ 为离散型随机变量。
$X$ 的概率分布(或分布律)为:
其中 $p_k \ge 0$,$\sum_k p_k = 1$。
A. 两点分布 $B(1, p)$
B. 二项分布 $B(n, p)$
表示 $n$ 次独立重复试验中成功次数的分布,其中每次成功概率为 $p$。
C. 泊松分布 $P(\lambda)$
其中 $\lambda > 0$ 为参数,表示单位时间(或单位面积)内随机事件发生的平均次数。
D. 超几何分布 $H(n, M, N)$
表示从 $N$ 件产品(其中 $M$ 件正品)中不放回抽取 $n$ 件,正品数的分布。
E. 几何分布
表示首次成功所需试验次数的分布。
设 $\lambda > 0$ 为常数,$n$ 为正整数,$np_n = \lambda$。则对任意非负整数 $k$,有
这说明当 $n$ 很大、$p$ 很小、而 $np = \lambda$ 适中时,二项分布可以用泊松分布近似。
泊松分布适用于描述稀有事件在大量试验中出现的次数,例如:某路口一小时内发生交通事故的次数、一页书中印刷错误的个数、某服务台单位时间内到达的顾客数等。
连续型随机变量
如果存在非负可积函数 $f(x)$,使得随机变量 $X$ 的分布函数可以表示为
则称 $X$ 为连续型随机变量,$f(x)$ 称为 $X$ 的概率密度函数(简称密度函数或 PDF)。
- $f(x) \ge 0$
- $\int_{-\infty}^{+\infty} f(x) \, dx = 1$
- $P(a < X \le b) = \int_a^b f(x) \, dx = F(b) - F(a)$
- 对于连续型随机变量,$P(X = a) = 0$(单点概率为零)
A. 均匀分布 $U(a, b)$
B. 指数分布 $\mathcal{E}(\lambda)$
指数分布具有无记忆性:$P(X > s + t | X > s) = P(X > t)$
C. 正态分布 $N(\mu, \sigma^2)$
其中 $\mu$ 为均值(期望),$\sigma^2$ 为方差。当 $\mu = 0$,$\sigma = 1$ 时,称为标准正态分布 $N(0, 1)$。
D. $\Gamma$ 分布 $\Gamma(\alpha, \beta)$
其中 $\Gamma(\alpha) = \int_0^{+\infty} x^{\alpha-1} e^{-x} dx$ 为 Gamma 函数。
正态分布是概率论中最重要的分布。根据中心极限定理,大量独立随机变量的和近似服从正态分布,这解释了为什么自然界和社会中许多现象都呈正态分布。
概率分布函数
设 $X$ 是随机变量,对任意实数 $x$,定义
为 $X$ 的分布函数(或累积分布函数,CDF)。
- 单调性:$F(x)$ 是单调不减函数
- 有界性:$0 \le F(x) \le 1$,且 $\lim_{x \to -\infty} F(x) = 0$,$\lim_{x \to +\infty} F(x) = 1$
- 右连续性:$F(x) = F(x^+) = \lim_{t \to x^+} F(t)$
- $P(a < X \le b) = F(b) - F(a)$
设随机变量 $X$ 的分布函数为 $F(x) = \begin{cases} 0, & x < 0 \\ x^2, & 0 \le x < 1 \\ 1, & x \ge 1 \end{cases}$
求 $P(0.3 < X \le 0.7)$。
解:
随机变量函数的分布
设离散型随机变量 $X$ 的分布律为 $P(X = x_k) = p_k$,$Y = g(X)$,则
设连续型随机变量 $X$ 的密度函数为 $f_X(x)$,$Y = g(X)$。
方法一:分布函数法
先求 $Y$ 的分布函数 $F_Y(y) = P(Y \le y) = P(g(X) \le y)$,再求导得密度函数。
方法二:公式法(当 $g$ 严格单调时)
若 $y = g(x)$ 在 $X$ 的取值范围内严格单调,其反函数为 $x = h(y)$,则
设 $X \sim N(\mu, \sigma^2)$,$Y = aX + b$($a \ne 0$),求 $Y$ 的分布。
解:
由 $y = ax + b$ 得 $x = \frac{y - b}{a}$,$\frac{dx}{dy} = \frac{1}{a}$。
因此 $Y \sim N(a\mu + b, a^2\sigma^2)$。
特别地,$Z = \frac{X - \mu}{\sigma} \sim N(0, 1)$(标准化)。
随机变量的 $p$ 分位数
设随机变量 $X$ 的分布函数为 $F(x)$,对于 $0 < p < 1$,称满足
的 $x_p$ 为 $X$ 的 $p$ 分位数(或下侧 $p$ 分位点)。
中位数:$p = 0.5$ 时的分位数,记为 $x_{0.5}$ 或 $M$。
四分位数:$Q_1 = x_{0.25}$(下四分位数),$Q_3 = x_{0.75}$(上四分位数)。
标准正态分布分位数:常用 $z_\alpha$ 表示满足 $P(Z > z_\alpha) = \alpha$ 的值。
设 $X \sim N(0, 1)$,求 $x_{0.975}$。
解:
查标准正态分布表,$\Phi(1.96) \approx 0.975$。
因此 $x_{0.975} = 1.96$。
这意味着 $P(X \le 1.96) = 0.975$,或 $P(X > 1.96) = 0.025$。