概率模型与公理 Probability Models and Axioms

样本空间 sample space：

离散，如抛骰子
连续，如在面积中取某个子区域

事件 event 是样本空间的一个子集

公理：

非负： $P(A) ≥ 0$
标准化： $P(Ω) = 1$
加法：如果 $A ∩ B = \emptyset$ ，则 $P(A ∪ B) = P(A) + P(B)$

离散一致律 Discrete uniform law：若所有结果等可能，则

P(A) = \frac{\text{A 中的元素数量}}{\text{样本空间的总元素数量}}

计算概率 = 计数

连续一致律 Continuous uniform law：落在面积中半部分的概率

可数加法公理：如果 $A_1, A_2, …$ 是互斥 disjoint 事件，则

P(A_1 ∪ A_2 ∪ … ) = P(A_1) + P(A_2) + …

条件概率和贝叶斯法则 Conditioning and Bayes' Rule

条件概率的定义：

P(A|B) = \frac{P(A ∩ B)}{P(B)}

如果 $P(B) = 0$ ，则不存在 $P(A|B)$

本质上是更换了样本空间

全概率定理 Total probability theorem：

分治
把样本空间分成 $A_1, A_2, …$
已知 $P(B|A_i)$

P(B) = P(A_1)P(B|A_1) + P(A_1)P(B|A_2) + …

贝叶斯法则 Bayes' Rule

先验 prior 概率 $P(A_i)$ ，即初始的信念
已知 $P(B|A_i)$
想要计算 $P(A_i|B)$ 即 $B$ 发生了，修改信念

P(A_i|B) = \frac{P(A_i)P(B|A_i)}{P(B)}

独立性 Independence

定义：

P(A ∩ B) = P(A) ⋅ P(B)

关于 $A, B$ 对称
注意当 $P(A) = 0$ 时，仍适用
推导出 $P(A|B) = P(A)$

条件会影响独立性

推广到多个事件

P(A_1 ∩ A_2 ∩ … ∩ A_n) = P(A_1) P(A_2) … P(A_n)

两两独立不能推导出独立

计数 Counting

离散一致律：

$P(A) = \frac{|A|}{|Ω|}$

所以只需要计数即可求出概率

$\binom{n}{k}$ ： $n$ 个元素的集合， $k$ 个元素的子集的个数

\binom{n}{k} = \frac{n!}{k!(n-k)!}

二项式概率 Binomial probabilities

p(k) = \binom{n}{k} p^k (1-p)^{n-k}

离散随机变量 Discrete Random Variables

即把一个数值赋给每个可能的结果

数学解释：一个从样本空间 Ω 映射到实数的函数

可以在一个样本空间上定义多个随机变量

记号：

随机变量 $X$
数值 $x$

概率密度函数 probability mass function(PMF)，也是 $X$ 的分布

记号：

p_X(x) = P(X = x)

存在：

$p_X(x) ≥ 0$
$\sum_x p_X(x) = 1$

计算 $p_X(x)$

二项式 PMF：

p_X(x) = \binom{n}{k} p^k (1-p)^{n-k}, k = 0, 1, …, n

期望 expectation：

E[x] = \sum_x xp_X(x)

解释：

PMF 的重心
大量重复实验的平均值

性质： $E[g(X)] = \sum_x g(x) p_X(x)$

期望是线性的，即

E[αX + β] = αE[X] + β

方差 variance

\operatorname{var}(X) = \sum_x(x-E[X])^2 p_X(x) = E[X^2] - (E[X])^2

性质：

$\operatorname{var}(X) ≥ 0$
$\operatorname{var}(αX + β) = α^2 \operatorname{var}(X)$

条件 PMF 和期望

$p_{X|A}(x) = P(X = x|A)$
$E[X|A] = \sum_x xp_{X|A}(x)$

几何 PMF

$p_X(k) = (1-p)^{k-1}p$
$E[X] = \sum_{k=1}^{∞} k(1-p)^{k-1}p$

无记忆的性质： $X > 2$ 的部分和整个部分有相同的 PMF

全期望定理 total expectation theorem：

E[X] = P(A_1)E[X|A_1] + … + P(A_n)E[X|A_n]

联合 PMF joint PMFs

p_{X,Y}(x,y) = P(X=x, Y=y)

p_{X|Y}(x|y) = P(X = x | Y = y)

独立随机变量 Independent random variables：如果对于所有 $x, y, z$ ，有

p_{X,Y,Z} = p_X(x) p_Y(y) p_Z(z)

则随机变量 $X,Y,Z$ 独立

二项式平均值：

E[X] = \sum_{k=0}^{n} k \binom{n}{k} p^k (1-p)^{n-k}

连续随机变量 Continuous Random Variables

连续随机变量用概率密度函数描述

P(a ≤ X ≤ b) = \int_a^b f_X(x) \mathrm{d}x

性质：

$\int_{-∞}^{∞} f_X(x) \mathrm{d}x = 1$
$P(x ≤ X ≤ x + δ) ≈ f_X(x) δ$

期望和方差与离散情况类似，只是把求和换成了积分

累积分布函数 cumulative distribution function(CDF)

既有离散，又有连续

标准高斯（正态）分布 $N(0,1)$ ：

钟形曲线

f_X(x) = \frac{1}{\sqrt{2π}} e^{-x^2/2}

一般的正态分布 $N(μ, σ^2)$

f_X(x) = \frac{1}{σ \sqrt{2π}} e^{-(x - μ)^2 /2 σ^2}

计算正态概率：因为没有闭式，所以使用表格，将非标准化为标准形式

多重连续随机变量 Multiple Continuous Random Variables

P((X, Y) ∈ S) = \iint_S f_{X,Y} (x, y) \mathrm{d}x \mathrm{d}y

解释：

P(x ≤ X ≤ x + \delta, y ≤ Y ≤ y + δ) ≈ f_{X,Y}(x, y) ⋅ δ^2

从联合概率到边缘概率：

f_X(x) = \int_{-∞}^∞ f_{x,y} (x, y) \mathrm{d}y

如果对所有 $x, y$ ，有

f_{X,Y}(x,y) = f_X(x) f_Y(y)

则 $X$ 和 $Y$ 相互独立

布丰投针

条件概率：

f_{X|Y}(x|y) = \frac{f_{X,Y}(x, y)}{f_Y (y)}

其中 $f_Y(y) > 0$

换句话说，条件 PDF 是联合 PDF 的标准化部分

条件概率和联合概率的关系

连续贝叶斯法则和导出分布 Continuous Bayes' Rule & Derived Distributions

贝叶斯法则变式	公式	例子
离散	$p_{X \lvert Y}(x \lvert y) = \frac{p{X}(x)p{Y \lvert X}(y \lvert x)}{p_Y(y)}$	X：飞机是否出现，Y：是否被雷达识别
连续	$f_{X \lvert Y}(x \lvert y) = \frac{f{X}(x)f{Y \lvert X}(y \lvert x)}{f_Y(y)}$	X：某种信号，Y：某种噪声
离散 X，连续 Y	$p_{X \lvert Y}(x \lvert y) = \frac{p{X}(x)f{Y \lvert X}(y \lvert x)}{f_Y(y)}$	X：离散信号，Y：X 的噪声版本
连续 X，离散 Y	$f_{X \lvert Y}(x \lvert y) = \frac{f{X}(x)p{Y \lvert X}(y \lvert x)}{p_Y(y)}$	X：连续信号，Y：受 X 影响的离散随机变量

导出分布 derived distribution 是已知的一个或多个随机变量的概率法则的函数

例如 $g(X, Y) = Y / X$ 导出一个分布

注意：如果求期望，不需要知道导出分布

离散情况：令 $Y = g(X)$

p_Y(y) = P(g(X) = y) = \sum_{x:g(x)=y} p_X(x)

线性导出分布

f_Y(y) = \frac{1}{|a|} f_X (\frac{y-b}{a})

导出分布和协方差 Derived Distributions(ctd.) Covariance

事件 $x ≤ X ≤ x + δ$ 近似于 $g(x) ≤ Y ≤ g(x) + δ |\frac{\mathrm{d}g}{\mathrm{d}x}(x)|$ ，故

连续情况的公式：

f_X(x) = f_Y(y) |\frac{\mathrm{d}g}{\mathrm{d}x}(x)|

其中 $y = g(x)$

$W = X + Y$ ， $X, Y$ 独立

离散情况：

p_W(w) = \sum_x p_X(x) p_Y(w-x)

机械上：

PMF 对齐
把 Y 的 PMF 反转
位移 w
交叉相乘

连续情况：

f_W(w) = \int_{-∞}^{∞} f_X(x) f_Y(w-x) \mathrm{d}x

即卷积公式 convolution

注意到成了关于 w 的函数

协方差 covariance：

\operatorname{cov}(X, Y) = E \Big[(X - E[X]) ⋅ (Y - E[Y])\Big]

平均值为 0 的情况： $\operatorname{cov}(X, Y) = E[XY]$

$\operatorname{cov}(X, Y) > 0$ 表示 $X,Y$ 正相关
$\operatorname{cov}(X, Y) < 0$ 表示 $X,Y$ 负相关
若 $X,Y$ 相互独立，则 $\operatorname{cov}(X, Y) = 0$ （反之不成立）

注意到协方差是有量纲的，所以有一个无量纲的版本，即相关系数 correlation coefficient

ρ = \frac{\operatorname{cov}(X, Y)}{σ_x, σ_y}

$-1 ≤ ρ ≤ 1$
$|ρ| = 1$ 意味着线性相关
独立意味着 $ρ = 0$ （反之不成立）

迭代期望 Iterated Expectations

条件期望： $E[X|Y]$ 是一个随机变量，也可以求期望和方差，故有迭代期望法则 law of iterated expectations：

E[E[X|Y]] = E[X]

全方差公式 law of total variance：

\operatorname{var}(X) = E[\operatorname{var}(X|Y)] + \operatorname{var}(E[X|Y])

即总方差 = 每个部分内部的平均方差 + 部分之间的方差

随机数量的独立随机变量之和：

E[Y] = E[N]E[X]

随机数量的独立随机变量之和的方差：

\operatorname{var}(Y) = E[N]\operatorname{var}(X) + (E[X])^2 \operatorname{var}(N)

伯努利过程 Bernoulli Process

定义：

一系列独立的伯努利试验
每次试验
- P(成功) = $p$
- P(失败) = $1 - p$

在 n 时间槽中成功 S 的数量： $P(S = k) = \binom{n}{k}p^k(1-p)^{n-k}$ ，即二项分布

间隔到达的时间： $T_1$ ：直到第一次成功的尝试次数

$P(T_1 = t) = (1 - p)^{t-1} p$ ，即几何分布

第 k 次到达的时间： $Y_k$ ：第 k 次成功的尝试次数

$P(Y_k = t) = \binom{t-1}{k-1}p^{k-1}(1-p)^{t-k}p$

伯努利过程的分裂

伯努利过程的合并（重复的到达只计算为一次）

两者都是伯努利过程

泊松过程 Poisson Process

时间同质性 time homogeneity： $P(k, τ) =$ 在间隔 τ 中 k 次抵达的概率

不同时间间隔的抵达次数独立

小间隔 δ 的概率：

P(k, δ) ≈ \begin{cases} 1 - λδ, k = 0 \\ λδ, k = 1 \\ 0, k > 1 \end{cases}

其中 λ 表示到达的速率

对于每个小间隔，近似看作伯努利过程，取 $δ → 0$ ，有

P(k, τ) = \frac{(λτ)^k e^{-λτ}}{k!}

间隔时间： $Y_k$ ：第 k 次到达的时间

Erlang 分布：

f_{Y_k}(y) = \frac{λ^k y^{k-1} e^{-λ y}}{(k-1)!}

第一次到达是指数分布的

第 k 次到达的时间

	泊松	伯努利
到达时间	连续	离散
到达速率	λ 每单位时间	$p$ 每次试验
到达的 PMF	泊松	二项式
到达的时间间隔分布	指数	几何
第 k 次到达的时间	Erlang	Pascal

合并泊松过程：

独立的泊松随机变量的和是泊松
合并独立的泊松过程是泊松

合并泊松过程

同样的，泊松过程分裂后也是泊松

注意泊松过程选择的对象

马尔科夫链 Markov Chains

有限状态马尔科夫链

$X_n$ ： $n$ 次转移后的状态
马尔科夫性质：给点当前状态，过去的状态不重要

n 步转移概率： $r_{ij}(n) = P(X_n = j | X_0 = i)$

关键递归：（两种思考方式：从开头或从结尾入手）

r_{ij}(n) = \sum_{k=1}^m r_{ik}(n-1) p_{kj}

如果从 $i$ 开始，从所有能到达的地方都能返回，则称该状态 $i$ 是经常性的 recurrent；反之，则为短暂的 transient

经常性类 recurrent class：经常性状态的集合，其中彼此交流但不与外界通信

如果一个经常性类中的状态可以被分到 $d > 1$ 个组，所有从一个组的转移都指向另一个组，则称这些状态是周期性的 periodic

稳定状态概率： $r_{ij}(n)$ 收敛为某个 $π_j$ （与初始状态无关），需要满足

经常性状态都在一个单个类中
单个经常性类不是周期的

则可以把关键递归简化并取极限为

π_j = \sum_k π_k p_{kj}

增加一个限定条件：

\sum_j π_j = 1

这个公式的一种解释是访问 $j$ 的频率（频率也是概率的一种定义）

生死过程

特殊情况：对于所有 $i$ ， $ρ = p/q$ ，则有 $π_i = π_0 ρ^i$ ， $E[X_n] = \frac{ρ}{1 - ρ}$

计算吸收概率：给定初始状态 i， $a_i$ 表示安顿在状态 4 的概率

a_i = \sum_j p_{ij} a_j

吸收的期望时间：（平均第一个从 i 到 j 的消息）

μ_i = 1 + \sum_j p_{ij} μ_j

弱大数定律 Weak Law of Large Numbers

切比雪夫不等式 Chebyshev's inequality：

P(|X - μ| ≥ c) ≤ \frac{σ^2}{c^2}

序列 $a_n$ 收敛于 $a$

概率的收敛：

\lim_{n → ∞} P(|Y_n - a| ≥ ϵ) = 0

标准化 S_n =X_1 + ⋯ + X_n$ ：

Z_n = \frac{S_n - nE[X]}{\sqrt{n} σ}

平均值为 0
单位偏差

若 $Z$ 是一个正态随机变量，则对于每个 $c$

P(Z_n ≤ c) → P(Z ≤ c)

这就是中心极限定理 The central limit theorem

注意： $P(Z ≤ c)$ 是正态 CDF

中心极限定理 Central Limit Theorem

用处：

通用：仅仅关于平均值和方差
快速计算

实质： $Z_n$ 的 CDF 收敛为正态 CDF

正态近似：把 $S_n$ 当作正态

对于二项分布的应用：

1/2 纠正： $P(S_n ≤ 21) = P(S_n < 22)$ 应该计算 $P(S_n ≤ 21.5)$

De Moivre-Laplace CLT：对于二项分布来说， $P(S_n = 19) = P(18.5 ≤ S_n ≤ 19.5)$

注意：泊松分布的切成小块不能使用中心极限定理，因为每一块的概率会变化

对于二项分布 $(n, p)$

$p$ 固定， $n → ∞$ ：正态
$np$ 固定， $n → ∞$ ， $p → 0$ ：泊松

贝叶斯统计推理 Bayesian Statistical Inference

使用先验概率和贝叶斯法则推理

输出是后验分布

如果对一个答案感兴趣，则是最大化后验概率，即

p_{Θ|X}(θ^*|x) = \max_θ p_{Θ|X}(θ|x)

最小二乘法估计：

最小化 $E[(Θ - c)^2]$
最优估计 $c = E[Θ]$
最优平均值平方差 $E[(Θ - E[Θ])^2] = \operatorname{Var}(Θ)$

可以得到，对于所有的估计函数 $g(.)$ ， $E[Θ|X]$ 最小化 $E[(Θ - g(X))^2]$

对于更多随机变量 $X_1, ⋯, X_n$ ，最优估计为 $E[Θ|X_1, ⋯, X_n]$

最小平均值平方估算 Least Means Squares（LMS）

估算： $\hat{Θ} = E[Θ|X]$
估算误差： $\tilde{Θ} = \hat{Θ} - Θ$

性质：

$E[\tilde{Θ}] = 0$
$E[\tilde{Θ}|X = x] = 0$
对于所有函数 $h$ ，有 $E[\tilde{Θ h(X)}] = 0$
$\operatorname{cov}(\tilde{Θ}, \tilde{Θ}) = 0$
$\operatorname{var}(Θ) = \operatorname{var}(\hat{Θ}) + \operatorname{var}(\tilde{Θ})$