概率论基础(四)随机变量的数学特征
心血来潮填了好久之前埋下的坑,虽然感觉还是有点潦草;不过反正这些东西日常也是会用到的,之后及时更新吧~
这部分内容包括
- 数学期望
- 方差
- Markov 不等式
- 协方差和相关系数
- 协方差阵
随机变量的数学期望
这里仅仅给出一些定义、常用的性质的介绍;在实际应用中,更为常用的是各中分布,要记住它们的分布、期望、方差等性质,更重要的是会推导的过程;在此不列出,在下面的链接中给出了较为全面的推导:常用概率分布的矩母函数、特征函数以及期望、方差的推导
一元情况下略,注意按照定义期望存在需要满足绝对可积,是为了保障期望这个积分有明确的数学意义。下面仅给出随机向量的数学期望:
定理:设 \(X=(X_1,...X_n)\) 是随机向量,若 X 有联合 pdf,以及实函数 \(g(X)\) 使得 \[ \int_{\mathbb{R}^n}|g(\mathbf x)|f(\mathbf x)d\mathbf x<\infty \] 则 \(Y=g(\mathbf x)\) 有数学期望 \[ E(Y)=\int_{\mathbb{R}^n}g(\mathbf x)f(\mathbf x)d\mathbf x<\infty \] 离散情况下有类似的表达。
数学期望有性质:
\(EX\) 有限的充分必要条件是 \(E|X|<\infty\)
设 \(E|X_j|<\infty\) 则随机向量的线性组合/乘积的期望为对应的期望的线性组合/乘积。 另外,若 \(X_1\le X_2\) 则 \(EX_1\le EX_2\) 。可以通过简单的定义(积分)证明。
e.g. (以概率 1 发生)证明 \(E|X|=0\) 的充分必要条件为 \[ P(X=0)=1\tag{1.1} \] 充分性是显然的,下证必要性:用 \(I_{\{n|X|>1\}}\) 表示事件 \(\{n|X|>1\}\) 的示性函数,根据上面的性质,有 \[ P(|X|>1/n)=P(n|X|>1)=E(I_{\{n|X|>1\}})\\ \le E(n|X|I_{\{n|X|>1\}})\le n|X|=0 \] 其中,利用示性函数将一个事件的概率转化为期望;第一个不等式成立是因为当示性函数取 1 时 \(n|X|>1\) ;第二个不等式成立是根据示性函数的性质。因此,由概率的连续性得到 \[ P(|X|>0)=P(\cup_{n=1}^\infty \{|X|<1/n\})=\lim_{n\rightarrow\infty}P(|X|<1/n)=0 \] 即 \(P(|X|=0)=1\)。
- 当 \(P(X = 0) = 1\), 我们称 \(X = 0\) 以概率 1 发生, 记做 \(X = 0, wp1\). 这 里 wp1. 表示 with probability 1.
- 完全类似地, 我们把 \(P(X ≤ Y ) = 1\) 记做 \(X ≤ Y , wp1\).
- 以概率 1 发生又称作几乎处处或几乎必然 (almost surely) 发生, 用 \(a.s.\) 表示.
随机变量的方差
定义: 若果随机变量 X 的期望 \(\mu=EX\) 有限,就称 \(E(X-\mu)^2\) 为 X 的方差。
性质:
- \(Var(a + bX) = b^2 Var(X)\)
- \(Var(X) = E(X − \mu)^2 < E(X − c) ^2\) , 只要 \(c ≠ \mu\) (说明随机变量 X 在均方误差意义下距离 \(\mu\) 最近)
- \(Var(X) = 0\) 的充分必要条件是 \(P(X = \mu) = 1\) (根据上一节中的例子)
- \(Var(\sum_{ j=1}^n X_j ) =\sum_{i=1}^n\sum_ {j=1}^n [E(X_i X_j ) − \mu_i \mu_j ]\)
- 当 \(X_1 , X_2 , · · · , X_n\) 相互独立, \(Var( \sum_{j=1}^n X_j ) = \sum_{j=1}^n Var(X j )\)
Markov 不等式
定理:对随机变量 X 和 \(ε > 0\), 有 \[ P(|X| ≥ ε) ≤ {1\over \varepsilon^\alpha}E|X|^α , α=1,2...\tag{2.1} \] 取 \(X-EX\),并另 \(\alpha=2\) 就得到了切比雪夫 (Chebyshev) 不等式 \[ P(|X − EX| ≥ ε) ≤{1\over\varepsilon^2} Var(X), ε > 0. \tag{2.2} \] 证明如下,利用示性函数 \[ P(|X|\ge\varepsilon)=EI(|X|\ge ε)\le E{|X|^\alpha\over ε^\alpha}I(|X|\geε)\\ \le{1\over \varepsilon^\alpha}E|X|^α \] 和上一节的证明一样第一个不等式利用了示性函数取 1 时 \({|X|^\alpha\over ε^\alpha}>1\) ;第二个不等式消去了示性函数。
协方差和相关系数
定义:当 \(E|(X − \mu_X )(Y − \mu_Y )| < ∞\) 时,称 \[ E(X − \mu_X )(Y − \mu_Y )\tag{3.1} \] 为随机变量 \(X, Y\) 的协方差 (covariance), 记做 \(Cov(X, Y )\) 或 \(σ_{XY}\) . 当 \(Cov(X, Y ) = 0\) 时, 称 \(X, Y\) 不相关. 实际计算中,更为常用的计算协方差的公式是 \[ \sigma_{XY}=EXY-EXEY\tag{3.2} \] 另外,仅从公式就可以看出,一个随机变量的方差可以看成是它和自己的协方差。
定义(相关系数):当 \(0 < σ_X σ_Y < ∞\), 称 \[ \rho_{XY}={\sigma_{XY}\over \sigma_X\sigma_Y}\tag{3.2} \] 为 \(X, Y\) 的 相关系数 (correlation coefficient). 有时也用 \(ρ(X, Y )\) 表示相关系数 \(ρ_{XY}\) .
容易得到相关系数的一些性质(证明参见 C-S 不等式):
- \(|\rho_{XY}|\le1\)
- \(|ρ_ XY | = 1\) 的充分必要条件是有常数 \(a, b\) 使得 \(P(Y = a + bX) = 1\)
- 如果 \(X, Y\) 独立, 则 \(X, Y\) 不相关
需要说明的是,协方差和相关系数刻画的仅仅是变量之间的一阶性质;而独立则意味着两者的任意阶都没有关系,所以不相关并不意味着两者独立。需要区分相关和独立之间的区别,最好的方式就是牢记两者的定义。
e.g. (不相关也不独立)设 \((X,Y)\) 在单位圆 D 内均匀分布,则 X 和 Y 不相关和不独立。
不独立可以从边际分布 \(Y|X=x\) 的表达式中看出来(含有 x)。下面说明不相关:易知 \(EX=EY=0\) ,因此 \[ Cov(X,Y)=\int\int_D xyf(x,y)dxdy=\frac{1}{\pi}\int_{-1}^1ydy\int_{-\sqrt{1-y^2}}^{\sqrt{1-y^2}}xdx=0 \] 所以 X 和 Y 不相关。
- 然而有特殊情况:在正态分布中,不相关和独立等价。
协方差阵
定义:如果随机向量 \(X=(X_1,...,X_n)\) 的数学期望 \(\mathbf{\mu} =E\mathbf X\) 存在且每个 \(X_i\) 的方差有限,则称 \[ \Sigma=E(X-\mu)'(X-\mu)=(\sigma_{ij})_{n\times n} \] 为 X 的协方差矩阵,其中 \(\sigma_{ij}\) 是 \(X_i,X_j\) 的协方差。
显然,协方差阵是对称。
定理:对于协方差阵来说
- \(\Sigma\) 非负定
- \(\Sigma\) 退化的充分必要条件是存在不全为零的一组常数使得 \(P(\sum_{i=1}^na_i(X_i-\mu_i)=0)=1\) (矩阵退化即使指其行列式=0)
证明:任取一个 n 为向量 a ,有 \[ \begin{aligned} a\Sigma a'&=\sum_i\sum_ja_ia_j\sigma_{ij}=\sum_i\sum_ja_ia_jE(X_i-\mu_i)(X_j-\mu_j)\\ &=E[\sum_i\sum_ja_ia_j(X_i-\mu_i)(X_j-\mu_j)]=E(\sum_ia_i(X_i-\mu_i)^2)\\ &=Var(\sum_ia_i(X_i-\mu_i))\ge0 \end{aligned} \] 证明了协方差阵非负定。而对于其退化条件,即存在一个非零向量 a 使得上面的等号成立,利用式(1.1)的结果即可得到。