概率论基础（一）随机事件和概率

说明

这部分开头是早先试图写的一个知乎专栏，后不了了之，现在准备整合一下内容变为一个参考性质的手册。

关于使用的教材，课上使用的是 Ross 的 A Fist Course in Probability ，初学时翻阅过浙大茆诗松的概统，前者仅针对概率论，内容较为详实丰富，但读起来不算晓畅，后者则是中规中矩的中文入门教材。直到看到陈希孺《概率论与数理统计》，对于随机事件和概率的讲解鞭辟入里，惊为天书。最近重新整理，使用的是北大陈家鼎的《概率与统计》分为两小册，内容算是比较难的偏向数理证明，文字很精炼适合有一定基础的进行深入阅读。

以下为目录

事件的概率 https://www.cnblogs.com/easonshi/p/12828891.html
- 随机事件、概率的定义、古典概型、事件的运算、条件概率与独立性
随机变量及概率分布 https://www.cnblogs.com/easonshi/p/12119486.html
- 一维随机变量、多维随机变量（随机向量）、条件概率分布与随机变量的独立性、随机变量的函数的概率分布
- 补充：概率的公理化定义与随机变量的概念 https://www.cnblogs.com/easonshi/p/12828674.html
随机向量 https://www.cnblogs.com/easonshi/p/12830303.html
- 随机向量的分布、边缘分布、条件分布、函数的概率分布
- 随机变量的数学特征 https://www.cnblogs.com/easonshi/p/12830767.html
  - 数学期望（均值）与中位数、方差与矩、协方差与相关系数、大数定理和中心极限定理

Reference

《概率论与数理统计》陈希孺；
《A Fist Course in Probability》Shelen M. Ross；
《概率论与数理统计教程（第二版）》茆诗松等；
《概率与统计（第二版）》陈家鼎郑忠国

本节内容主要可分为

什么是概率
古典概率计算
事件的关系与运算
- 条件概率与独立性
- 全概率公式和贝叶斯公式

概率论是一门数学分支，同数学科目的其他分支一样，是建立在一些公理上的严格的数学体系，其研究的主要对象是随机变量、随机分布和随机过程。对于随机事件是不可能准确预测其结果的，但是我们可以描述其规律，分别是大数定理和中心极限定理，统计学正是建立在这个基础之上的。

什么是概率

概率是一个生活中常见的词汇，笼统地说来很容易理解，但若从理论或者从哲学地高度去分析，就可以提出一系列问题，具体可参考测度学，在此不给出一个定义，直接从一些实例中理解：

简单的例子如投骰子、扔硬币等事件，虽然可能的结果又多种，但是根据生活的经验，我们可能会对于每种可能出现的结果给出一个描述其“可能性”的数量指标，是即为概率。如果忽略一个硬币的物理不均匀性和投掷因素的影响，我们有理由认为正反两面出现的机会是均等的，称之为“等可能性”。
生活中，第二天的天气也是未知的，但是我们每个人根据自己的经验可以对“明天是否会下雨”给出一个可能性的估计，可理解为一种心态或倾向性，是为主观概率。
对于一个随机的事件，比如说从一批产品中随机抽取一个，其合格的可能性是为知的。但若我们持续抽取，根据抽出的产品的质量情况，可以对其做出一个估计，或者说是用频率来估计概率，是为统计概率。

以下对于相关概念做一些解释：

从上述例子也可以看出，概率是对于事件而言的，不同于生活中的意思，概率论中，“事件”是指某种情况的的“陈述”，它可能发生，也可能不发生，发生与否，要到有关的“试验”有了结果以后，才能知晓。
对于“事件”进一步解释：1. 有一个明确界定的实验，即人为主动的意思，只是记录而不干预称为“观察”；2. 这个实验的全部可能结果，是在实验前就明确的。
对于“必然事件”“不可能事件”等同于概率为1和0的事件，严格的理论而言二者有所区别，但这种区别并无实际的重要性。

古典概率计算

古典概型可以说是我们生活中最为常见、也是最好理解的概率场景。其核心在于假定试验中所有结果出现的可能性是相等的，即上述所谓的等可能性，而古典概率的计算主要基于排列组合。在《A Fist Course in Probability》中第一章就讲排列组合，在此给出基本公式。

1 组合分析

排列：从n个元素中取出k个元素，k个元素的排列数量为 $P_k^n=n!/(n−k)!$
组合：和排列不同的是，组合取出元素的顺序不考虑 $C_k^n=n!/k!(n−k)! $
常用公式 \[ \begin{aligned} (2n)!!=(2n)(2n−2)…2 \\ C_n^0+C_n^1+…+C_n^n=2^n \\ C_n^0+C_n^2+…=2^{n−1} \\ C_m^{n+m}+C_{m+1}^{n+m}=C_{m+1}^{n+m+1} \end{aligned} \]

古典概型中涉及到一些计数公式；原以为除了在概率论的考试中涉及以后不会遇到，没想到后来一次通选课的考试居然也涉及到了；在此补充。

高中时候讲到的分类的加法原理、分步骤的乘法原理

有重复的排列数：n 种球放回取 m 次，共 $n^m$

排列数：无放回取 m 次，共 $A_n^m={n!\over (n-m)!}$

组合数：n 种球无放回取 m 次，不计顺序，共 $C_n^m=(\begin{matrix}n\\m\end{matrix})={n!\over m!(n-m)!}$

分组方式数：n 个不同元素分为有顺序的 k 组，共 $(\begin{matrix}n\\ n_1, ...,n_k\end{matrix})={n!\over n_1!...n_k!}$ 。形式上看是组合数的推广，后者可以看做是特例，其关注的是两组中的一组。直观的对于公式的理解：n 个不同元素排列共 $n!$ 种可能，将依次的 $n_1,...,n_k$ 个元素认为是一组的，顺序无关，所以分母上除以各自的组内排列的可能。再次注意，组间是有顺序的。如 5 个元素分为 $(1,2,2)$ 三组，不讲顺序，则还要在公式上除以 2。

可重复分组数：n 个球有放回取 m 次，结果不计顺序，共 $C_{n+m-1}^{m}=C_{n+m-1}^{n-1}$ 。这里和上一中情况的区别在于取到的 m 个球随机。需要换一种想法：和每个球标号序号，然后把 m 个球按序号排列，显然就变成了有序的 n 组，其中有 $n-1$ 个「空格」；反过来，我们还没有取出球，但我们知道了最终的结果是 $n-1$ 个分隔符分割了 m 个球（高中时候好像是用 0 和 1 来示意），也就是从 $n+m-1$ 个元素中选 $n-1$ 个分隔符，所以是 $C_{n+m-1}^{m}=C_{n+m-1}^{n-1}$ 。注意，这里的每一个分组是非等可能的（前面的分组方式数按这种定义是等可能的）。

2 计算示例

n双相异的鞋共2n只，随机分为n堆，每堆2只，问“各堆都自成一双鞋”这一事件E的概率是多少？
- 对于把n个相异物件分成k堆，分法有 $n!/(r_1 !r_2 !…r_k !) $，注意上式是有序的，所以对于本题可分为 $N=(2n)!/2^n$ 种（所有可能情况）。对于事件$E$ ，可以看作把每一双鞋看成一个整体分成n堆，可见有 $M=n!$ 种可能性。于是 $P(E)=M/N=(2^n n!)/(2n)!=1/(2n−1)!! $
- 另一种算法：把这2n个鞋子从左到右排成一排，然后把1，2位置的看作一堆，3，4看成一堆。因此有所可能情况为种，而各成一堆的情况下，每组中第一个元素取定后，第二个元素是确定了的，因此可能的情况有$ (2n)(2n−2)…2=(2n)!!$种，因此$P(E)=M/N=2^n/(2n)!!=1/(2n−1)!!$

事件的关系与运算

1 基本关系与运算

上述已对随机事件有所介绍，对于任一事件，我们想要用概率的方式去描述它。但是对于我们感兴趣的复杂事件来说，直接计算其概率是困难的，因此我们希望能够利用复杂事件与简单事件之间的关系，以便利用简单事件的概率去计算复杂事件的概率。正如微积分中，利用导数所满足的法则，可据此计算出复杂函数的导数，若直接利用定义来计算则太过复杂。以下对于事件的关系和运算做简单描述，很多是符合直觉的，注意这部分可以从集合论的角度来考虑。

蕴含、包含和相等

字面理解，若A蕴含B，也可说为B包含A，记为 $A\subset B$，这意味着A发生则B一定发生，从集合论的角度来说A是B的子集，从韦恩图上来看A被B所“包围”。

互斥和对立

若A和B不能在同一次试验内都发生，则称它们为互斥的。对立事件是一种特殊的互斥事件，即B是A的补集，记作 $ B={A} $ 。

事件的和（并）

对于两事件A和B，定义事件和$C = \{A发生，或B发生\}$，记作 $A\cup B$, 或 $A+B $，即为代表两事件的集合的并集，通过韦恩图来看更为直观。

概率的加法定理：对于互斥事件，我们有，若干互斥事件之和的概率，等于各事件概率之和。即$P(A_1+A_2+…)=P(A_1 )+P(A_2 )+…$

事件的积（交）、事件的差

定义事件积$C = \{A，B都发生\}$，记为 $A\cap B$ 或 $AB $。定义事件差 $C = \{A发生，B不发生\}$，记为 $A−B$ 。

容易看出上述定义的事件关系及其运算满足以下性质。同时，虽然上面借用了算术中的相关名词，算术法则不一定能用于计算事件运算（因为本质上可以说是集合之间的关系）。注：可以根据韦恩图进行直观的理解不需要死记硬背。

事件和、事件积的交换律、结合律

$A\cup B = B\cup A,AB=BA$

$A\cup B\cup C = (A\cup B)\cup C = A \cup (B\cup C), ABC = (AB)C = A(BC)$

事件和对事件积、事件积对事件和的分配律

$(A\cup B)C = AC\cup BC$

$(AB)\cup C = (A\cup C)(B\cup C)$

棣莫弗公式（对偶法则）

$\overline{A\cup B} =\bar{A}\cap\bar{B}$

$\overline{A\cap B} = \bar{A} \cup \bar{B}$

此公式可以推广到n个事件：事件和的非等于事件非的积；事件积的非等于事件非的和。

当时怎么没有介绍概率的加法公式，补充如下： \[ P(A\cup B)=P(A)+P(B)-P(AB) \] 其推广，Jordan 公式 \[ P(\bigcup^n_{i=1}A_i)=\sum_{k=1}^n(-1)^{k-1}p_k \] 其中 \[ p_k=\sum_{1\le j_1\le j_2\le...\le n}P(A_{j_1}...A_{j_k}) \] 可以根据韦恩图直观理解。

2 条件概率

条件概率是概率论中非常重要的概念，此后随机变量的条件分布等一系列知识点需要建立在对于条件概率的理解上。一般来讲，条件概率就是在附加一定条件之下所计算的概率。严格来说，现实中的任何概率都是条件概率：假定你在实验室投掷硬币，出现正面的频率约为1/2，你只能说在此时此地，在这种试验条件下，可以认为这枚硬币是均匀的，试验环境即为“条件”。形式化的定义：设有两事件A，B，在给定B发生的条件下A的条件概率记为 $P(A|B)$ ：

\[ P(A|B) = \frac{P(AB)}{P(B)} \]

其中，当$P(B)=0$时，上式无意义，因此在一般的定义中还要求$P(B)$不为零。当然，在高等概率论中也会给出在$P(B)=0$时概率的定义，在此不表。

3 事件的独立性

一般情况下，A的无条件概率和在给定B发生之下的条件概率是有差异的，这反映了两者之间的关联。例如，若 $P(A|B)>P(A) $，则B的发生使A发生的可能性增加的，B促进了A的发生。反之，若 $P(A|B)=P(A) $，则B的发生与否与A发生的可能性无关，这就称为两事件独立。因此上式即可作为事件独立的定义。然而，根据条件概率的定义，上式等价于：

$P(AB)=P(A)P(B) $

在这条式子中，A和B是对称的，即“A和B相互独立”，更好得反映了事件独立的概念，因此在一般的教材中采用此作为独立性定义。推广到多个事件，其独立性定义如下：设 $A_1,A_2,...; $为有限或无限个事件，若从中任意取出有限个事件，都有：

\[ P(A_{i_{1}}A_{i_{2}}...A_{i_{m}}) = P(A_{i_{1}})P(A_{i_{2}})...P(A_{i_{m}}) \]

则称事件 $A_1,A2,...$（相互）独立。注意，这个定义与由条件概率出发的定义等价：$P(A_{i_{1}}|A_{i_{2}}...A_{i_{m}}) = P(A_{i_{1}})$ 对于任意的 $A_{i_1} $都成立。从这里也可以看到，n个事件独立和此n个事件两两独立是不同的，后者只能保证在“简单条件”下某一事件的概率不受影响，但不意味着其他任意多个事件的发生与否与它是否有关联。

在实际运用中，虽然我们常用两种等价定义来形式化得证明事件的独立性，但在更多的情况中，我们假定事件满足独立性，然后用$P(A_{i_{1}}A_{i_{2}}...A_{i_{m}}) = P(A_{i_{1}})P(A_{i_{2}})...P(A_{i_{m}})$式，从简单事件的概率出发计算事件积的概率。因此，从另一个角度出发来看定义式，则可认为是独立事件事件积的乘法公式。

4 全概率公式

对于一组事件 $B_1,B_2,...$ 来说，若它们两两互斥，并且在每次试验中至少发生一个（事件积为空，概率之和为1），则称这组事件为一个“完备事件群”。形象地理解，这些事件对于所有可能发生的情况构成了一个分割，用集合论或文氏图来理解更为直观。例如，一个事件B和它的对立事件即构成完备事件群。考虑任一事件A， $A=A=AB_1 +AB_2 + ... $ ，因 $B_i $两两互斥，可见 $AB_i$ 也两两互斥，因此有 $P(A)= P(AB_1) +P(AB_2) + ...$ ，再由条件概率公式，

\[ P(A)= P(B_1)P(A|B_1) +P(B_2)P(A|B_2) + ... \]

称为全概率公式，即全部概率被分成许多部分之和，因此，在现实中，若某一事件A经常伴随 $B_i$ 发生，我们可以构造一组 $B_i$ 来计算A的概率。

从另一个角度来理解，可以把 $B_i$ 看作导致事件 $A$ 发生的一种可能途径。对不同途径，A发生的概率即条件概率各各不同，而采取哪个途径却是随机的。因此对于所有可能的途径 $ P(B_i)$ 作加权平均。

特别的， $A,\bar A$ 构成一个完备事件组，于是 $P(B)=P(A)P(A|B)+P(A)P(A|\bar B)$

补充一道题：证明 n 个签中有 m 个为目标，无放回抽样，则每一次「中签」的概率均为 $m/n$ 。

记抽中这一事件为 $A_j$。下用归纳法证明。首先，必有 $P(A_1)=m/n$；假设上面的概率公式在 $j-1$ 时成立，则对于第 j 次抽样，我们用全概率公式： \[ P(A_j)=P(A_1)P(A_j|A_1)+P(\overline{A_1})P(A_j\overline {A_1}) \] 这样，后面的两个条件概率就转化成了 $j-1$ 的形式，代入假设中的公式（分别为 $m-1\over n-1$, $m \over n-1$）即可得 $P(A_j)={m\over n}$

5 贝叶斯（逆概率）公式

由全概率公式可得著名的贝叶斯公式：

\[ P(B_i|A)= \frac{P(AB_i)}{P(A)} = \frac{P(B_i)P(A|B_i)}{\sum_{j}{P(B_j)P(A|B_j)}} \]

刚看到这个公式有点绕，似乎只是一个数学变换，更重要的是理解其意义。在等式的右边，我们已知了 $P(B_i)$ 和 $P(A|B_i) $，而在等式右边，我们希望得到的是 $P(B_i|A) $，也就是在A发生的情况下，新的信息之下我们对于事件 $B_i$ 的可能性有了新的认识。

如果我们把A看成“结果”，把看成导致者结果的可能“原因”，则可形象地把全概率公式看作成为“由原因推结果”，而贝叶斯公式作用在于“由结果推原因”：现在一个结果A发生了，在众多可能的原因中，哪一个导致了结果。

好的说了这么多也不知道有没有表达清楚，反正我一开始学的时候一脸懵逼，还是看一个例子理解一下：

某种病菌在人群中带菌率为0.03，由于检测技术存在一定的误差，带菌者检测出阳性的概率为0.99，而未带菌者检出阳性的概率为0.05，问若一人检测出阳性，其带菌的概率。
$P(阳性|带菌) = 0.99$； $P(阳性|不带菌) = 0.05$；$P(带菌)= 0.03$；问 $P(带菌|阳性) $
由贝叶斯公式，易得答案为 $\frac{0.03\times0.99}{0.03\times0.99+0.97\times0.05} = 0.380$

一个有趣的结论：检测结果为阳性的患者带菌的可能性不到0.4，理由很简单：因为人群中带菌率很低，即使误检的可能性很低，因为其基数很大，所以检测结果为阳性的人中任有很大一部分是这些误检患者。

从这个例子也可以看出贝叶斯公式在统计学之中的重要意义。在统计学中，我们搜集相关的数据，希望能找到所感兴趣问题的答案（由结果找原因），然而，在此之前，我们需要对其有一个大致的估计（即先验概率），然后根据所得到的信息更新我们的估计（即后验概率）。事实上，根据这个公式的思想发展了一整套统计推断方法，叫做“贝叶斯统计”。

以下补充关于贝叶斯公式的论述

在贝叶斯公式中，我们把 $P(B_i)$ 叫作先验概率，它们的值是根据先前的只是和经验确定出，既可以利用频率和概率的关系来确定，也可以基于「主观概率」来确定。
$P(B_i|A)$ 是在观察到事件A后发生 $B_i$ 的概率，称之为后验概率，贝叶斯公式可以看成是从先验概率到后验概率的转换公式。