概率模型与公理 Probability Models and Axioms

样本空间 sample space

  • 离散,如抛骰子
  • 连续,如在面积中取某个子区域

事件 event 是样本空间的一个子集

公理:

  • 非负:P(A)0P(A) ≥ 0
  • 标准化:P(Ω)=1P(Ω) = 1
  • 加法:如果 AB=A ∩ B = \emptyset,则 P(AB)=P(A)+P(B)P(A ∪ B) = P(A) + P(B)

离散一致律 Discrete uniform law:若所有结果等可能,则

P(A)=A 中的元素数量样本空间的总元素数量P(A) = \frac{\text{A 中的元素数量}}{\text{样本空间的总元素数量}}

计算概率 = 计数

连续一致律 Continuous uniform law:落在面积中半部分的概率

可数加法公理:如果 A1,A2,A_1, A_2, …互斥 disjoint 事件,则

P(A1A2)=P(A1)+P(A2)+P(A_1 ∪ A_2 ∪ … ) = P(A_1) + P(A_2) + …

条件概率和贝叶斯法则 Conditioning and Bayes' Rule

条件概率的定义:

P(AB)=P(AB)P(B)P(A|B) = \frac{P(A ∩ B)}{P(B)}

如果 P(B)=0P(B) = 0,则不存在 P(AB)P(A|B)

本质上是更换了样本空间

全概率定理 Total probability theorem

  • 分治
  • 把样本空间分成 A1,A2,A_1, A_2, …
  • 已知 P(BAi)P(B|A_i)

P(B)=P(A1)P(BA1)+P(A1)P(BA2)+P(B) = P(A_1)P(B|A_1) + P(A_1)P(B|A_2) + …

贝叶斯法则 Bayes' Rule

  • 先验 prior 概率 P(Ai)P(A_i),即初始的信念

  • 已知 P(BAi)P(B|A_i)

  • 想要计算 P(AiB)P(A_i|B)BB 发生了,修改信念

P(AiB)=P(Ai)P(BAi)P(B)P(A_i|B) = \frac{P(A_i)P(B|A_i)}{P(B)}

独立性 Independence

定义:

P(AB)=P(A)P(B)P(A ∩ B) = P(A) ⋅ P(B)

  • 关于 A,BA, B 对称

  • 注意当 P(A)=0P(A) = 0 时,仍适用

  • 推导出 P(AB)=P(A)P(A|B) = P(A)

条件会影响独立性

推广到多个事件

P(A1A2An)=P(A1)P(A2)P(An)P(A_1 ∩ A_2 ∩ … ∩ A_n) = P(A_1) P(A_2) … P(A_n)

两两独立不能推导出独立

计数 Counting

离散一致律:

P(A)=AΩP(A) = \frac{|A|}{|Ω|}

所以只需要计数即可求出概率

(nk)\binom{n}{k}nn 个元素的集合,kk 个元素的子集的个数

(nk)=n!k!(nk)!\binom{n}{k} = \frac{n!}{k!(n-k)!}

二项式概率 Binomial probabilities

p(k)=(nk)pk(1p)nkp(k) = \binom{n}{k} p^k (1-p)^{n-k}

离散随机变量 Discrete Random Variables

即把一个数值赋给每个可能的结果

数学解释:一个从样本空间 Ω 映射到实数的函数

可以在一个样本空间上定义多个随机变量

记号:

  • 随机变量 XX
  • 数值 xx

概率密度函数 probability mass function(PMF),也是 XX 的分布

记号:

pX(x)=P(X=x)p_X(x) = P(X = x)

存在:

  • pX(x)0p_X(x) ≥ 0
  • xpX(x)=1\sum_x p_X(x) = 1

计算 pX(x)p_X(x)

二项式 PMF:

pX(x)=(nk)pk(1p)nk,k=0,1,,np_X(x) = \binom{n}{k} p^k (1-p)^{n-k}, k = 0, 1, …, n

期望 expectation

E[x]=xxpX(x)E[x] = \sum_x xp_X(x)

解释:

  • PMF 的重心
  • 大量重复实验的平均值

性质:E[g(X)]=xg(x)pX(x)E[g(X)] = \sum_x g(x) p_X(x)

期望是线性的,即

E[αX+β]=αE[X]+βE[αX + β] = αE[X] + β

方差 variance

var(X)=x(xE[X])2pX(x)=E[X2](E[X])2\operatorname{var}(X) = \sum_x(x-E[X])^2 p_X(x) = E[X^2] - (E[X])^2

性质:

  • var(X)0\operatorname{var}(X) ≥ 0
  • var(αX+β)=α2var(X)\operatorname{var}(αX + β) = α^2 \operatorname{var}(X)

条件 PMF 和期望

  • pXA(x)=P(X=xA)p_{X|A}(x) = P(X = x|A)
  • E[XA]=xxpXA(x)E[X|A] = \sum_x xp_{X|A}(x)

几何 PMF

  • pX(k)=(1p)k1pp_X(k) = (1-p)^{k-1}p
  • E[X]=k=1k(1p)k1pE[X] = \sum_{k=1}^{∞} k(1-p)^{k-1}p

无记忆的性质:X>2X > 2 的部分和整个部分有相同的 PMF

全期望定理 total expectation theorem

E[X]=P(A1)E[XA1]++P(An)E[XAn]E[X] = P(A_1)E[X|A_1] + … + P(A_n)E[X|A_n]

联合 PMF joint PMFs

pX,Y(x,y)=P(X=x,Y=y)p_{X,Y}(x,y) = P(X=x, Y=y)

pXY(xy)=P(X=xY=y)p_{X|Y}(x|y) = P(X = x | Y = y)

独立随机变量 Independent random variables:如果对于所有 x,y,zx, y, z,有

pX,Y,Z=pX(x)pY(y)pZ(z)p_{X,Y,Z} = p_X(x) p_Y(y) p_Z(z)

则随机变量 X,Y,ZX,Y,Z 独立

二项式平均值:

E[X]=k=0nk(nk)pk(1p)nkE[X] = \sum_{k=0}^{n} k \binom{n}{k} p^k (1-p)^{n-k}

连续随机变量 Continuous Random Variables

连续随机变量用概率密度函数描述

P(aXb)=abfX(x)dxP(a ≤ X ≤ b) = \int_a^b f_X(x) \mathrm{d}x

性质:

  • fX(x)dx=1\int_{-∞}^{∞} f_X(x) \mathrm{d}x = 1
  • P(xXx+δ)fX(x)δP(x ≤ X ≤ x + δ) ≈ f_X(x) δ

期望和方差与离散情况类似,只是把求和换成了积分

累积分布函数 cumulative distribution function(CDF)

既有离散,又有连续

标准高斯(正态)分布 N(0,1)N(0,1)

钟形曲线

fX(x)=12πex2/2f_X(x) = \frac{1}{\sqrt{2π}} e^{-x^2/2}

一般的正态分布 N(μ,σ2)N(μ, σ^2)

fX(x)=1σ2πe(xμ)2/2σ2f_X(x) = \frac{1}{σ \sqrt{2π}} e^{-(x - μ)^2 /2 σ^2}

计算正态概率:因为没有闭式,所以使用表格,将非标准化为标准形式

多重连续随机变量 Multiple Continuous Random Variables

P((X,Y)S)=SfX,Y(x,y)dxdyP((X, Y) ∈ S) = \iint_S f_{X,Y} (x, y) \mathrm{d}x \mathrm{d}y

解释:

P(xXx+δ,yYy+δ)fX,Y(x,y)δ2P(x ≤ X ≤ x + \delta, y ≤ Y ≤ y + δ) ≈ f_{X,Y}(x, y) ⋅ δ^2

从联合概率到边缘概率:

fX(x)=fx,y(x,y)dyf_X(x) = \int_{-∞}^∞ f_{x,y} (x, y) \mathrm{d}y

如果对所有 x,yx, y,有

fX,Y(x,y)=fX(x)fY(y)f_{X,Y}(x,y) = f_X(x) f_Y(y)

XXYY 相互独立

布丰投针

条件概率

fXY(xy)=fX,Y(x,y)fY(y)f_{X|Y}(x|y) = \frac{f_{X,Y}(x, y)}{f_Y (y)}

其中 fY(y)>0f_Y(y) > 0

换句话说,条件 PDF 是联合 PDF 的标准化部分

条件概率和联合概率的关系

连续贝叶斯法则和导出分布 Continuous Bayes' Rule & Derived Distributions

贝叶斯法则变式 公式 例子
离散 pXY(xy)=pX(x)pYX(yx)pY(y)p_{X \lvert Y}(x \lvert y) = \frac{p*{X}(x)p*{Y \lvert X}(y \lvert x)}{p_Y(y)} X:飞机是否出现,Y:是否被雷达识别
连续 fXY(xy)=fX(x)fYX(yx)fY(y)f_{X \lvert Y}(x \lvert y) = \frac{f*{X}(x)f*{Y \lvert X}(y \lvert x)}{f_Y(y)} X:某种信号,Y:某种噪声
离散 X,连续 Y pXY(xy)=pX(x)fYX(yx)fY(y)p_{X \lvert Y}(x \lvert y) = \frac{p*{X}(x)f*{Y \lvert X}(y \lvert x)}{f_Y(y)} X:离散信号,Y:X 的噪声版本
连续 X,离散 Y fXY(xy)=fX(x)pYX(yx)pY(y)f_{X \lvert Y}(x \lvert y) = \frac{f*{X}(x)p*{Y \lvert X}(y \lvert x)}{p_Y(y)} X:连续信号,Y:受 X 影响的离散随机变量

导出分布 derived distribution 是已知的一个或多个随机变量的概率法则的函数

例如 g(X,Y)=Y/Xg(X, Y) = Y / X 导出一个分布

注意:如果求期望,不需要知道导出分布

离散情况:令 Y=g(X)Y = g(X)

pY(y)=P(g(X)=y)=x:g(x)=ypX(x)p_Y(y) = P(g(X) = y) = \sum_{x:g(x)=y} p_X(x)

线性导出分布

fY(y)=1afX(yba)f_Y(y) = \frac{1}{|a|} f_X (\frac{y-b}{a})

导出分布和协方差 Derived Distributions(ctd.) Covariance

事件 xXx+δx ≤ X ≤ x + δ 近似于 g(x)Yg(x)+δdgdx(x)g(x) ≤ Y ≤ g(x) + δ |\frac{\mathrm{d}g}{\mathrm{d}x}(x)|,故

连续情况的公式:

fX(x)=fY(y)dgdx(x)f_X(x) = f_Y(y) |\frac{\mathrm{d}g}{\mathrm{d}x}(x)|

其中 y=g(x)y = g(x)

W=X+YW = X + YX,YX, Y 独立

离散情况:

pW(w)=xpX(x)pY(wx)p_W(w) = \sum_x p_X(x) p_Y(w-x)

机械上:

  • PMF 对齐

  • 把 Y 的 PMF 反转

  • 位移 w

  • 交叉相乘

连续情况:

fW(w)=fX(x)fY(wx)dxf_W(w) = \int_{-∞}^{∞} f_X(x) f_Y(w-x) \mathrm{d}x

卷积公式 convolution

注意到成了关于 w 的函数

协方差 covariance

cov(X,Y)=E[(XE[X])(YE[Y])]\operatorname{cov}(X, Y) = E \Big[(X - E[X]) ⋅ (Y - E[Y])\Big]

平均值为 0 的情况:cov(X,Y)=E[XY]\operatorname{cov}(X, Y) = E[XY]

  • cov(X,Y)>0\operatorname{cov}(X, Y) > 0 表示 X,YX,Y 正相关
  • cov(X,Y)<0\operatorname{cov}(X, Y) < 0 表示 X,YX,Y 负相关
  • X,YX,Y 相互独立,则 cov(X,Y)=0\operatorname{cov}(X, Y) = 0(反之不成立)

注意到协方差是有量纲的,所以有一个无量纲的版本,即相关系数 correlation coefficient

ρ=cov(X,Y)σx,σyρ = \frac{\operatorname{cov}(X, Y)}{σ_x, σ_y}

  • 1ρ1-1 ≤ ρ ≤ 1

  • ρ=1|ρ| = 1 意味着线性相关

  • 独立意味着 ρ=0ρ = 0(反之不成立)

迭代期望 Iterated Expectations

条件期望:E[XY]E[X|Y] 是一个随机变量,也可以求期望和方差,故有迭代期望法则 law of iterated expectations

E[E[XY]]=E[X]E[E[X|Y]] = E[X]

全方差公式 law of total variance:

var(X)=E[var(XY)]+var(E[XY])\operatorname{var}(X) = E[\operatorname{var}(X|Y)] + \operatorname{var}(E[X|Y])

总方差 = 每个部分内部的平均方差 + 部分之间的方差

随机数量的独立随机变量之和:

E[Y]=E[N]E[X]E[Y] = E[N]E[X]

随机数量的独立随机变量之和的方差:

var(Y)=E[N]var(X)+(E[X])2var(N)\operatorname{var}(Y) = E[N]\operatorname{var}(X) + (E[X])^2 \operatorname{var}(N)

伯努利过程 Bernoulli Process

定义:

  • 一系列独立的伯努利试验
  • 每次试验
    • P(成功) = pp
    • P(失败) = 1p1 - p

在 n 时间槽中成功 S 的数量:P(S=k)=(nk)pk(1p)nkP(S = k) = \binom{n}{k}p^k(1-p)^{n-k},即二项分布

间隔到达的时间:T1T_1:直到第一次成功的尝试次数

P(T1=t)=(1p)t1pP(T_1 = t) = (1 - p)^{t-1} p,即几何分布

第 k 次到达的时间:YkY_k:第 k 次成功的尝试次数

P(Yk=t)=(t1k1)pk1(1p)tkpP(Y_k = t) = \binom{t-1}{k-1}p^{k-1}(1-p)^{t-k}p

伯努利过程的分裂

伯努利过程的合并(重复的到达只计算为一次)

两者都是伯努利过程

泊松过程 Poisson Process

时间同质性 time homogeneityP(k,τ)=P(k, τ) = 在间隔 τ 中 k 次抵达的概率

不同时间间隔的抵达次数独立

小间隔 δ 的概率:

P(k,δ){1λδ,k=0λδ,k=10,k>1P(k, δ) ≈ \begin{cases} 1 - λδ, k = 0 \\ λδ, k = 1 \\ 0, k > 1 \end{cases}

其中 λ 表示到达的速率

对于每个小间隔,近似看作伯努利过程,取 δ0δ → 0,有

P(k,τ)=(λτ)keλτk!P(k, τ) = \frac{(λτ)^k e^{-λτ}}{k!}

间隔时间:YkY_k:第 k 次到达的时间

Erlang 分布:

fYk(y)=λkyk1eλy(k1)!f_{Y_k}(y) = \frac{λ^k y^{k-1} e^{-λ y}}{(k-1)!}

第一次到达是指数分布的

第 k 次到达的时间

泊松 伯努利
到达时间 连续 离散
到达速率 λ 每单位时间 pp 每次试验
到达的 PMF 泊松 二项式
到达的时间间隔分布 指数 几何
第 k 次到达的时间 Erlang Pascal

合并泊松过程:

  • 独立的泊松随机变量的和是泊松
  • 合并独立的泊松过程是泊松

合并泊松过程

同样的,泊松过程分裂后也是泊松

注意泊松过程选择的对象

马尔科夫链 Markov Chains

有限状态马尔科夫链

  • XnX_nnn 次转移后的状态

  • 马尔科夫性质:给点当前状态,过去的状态不重要

n 步转移概率:rij(n)=P(Xn=jX0=i)r_{ij}(n) = P(X_n = j | X_0 = i)

关键递归:(两种思考方式:从开头或从结尾入手)

rij(n)=k=1mrik(n1)pkjr_{ij}(n) = \sum_{k=1}^m r_{ik}(n-1) p_{kj}

如果从 ii 开始,从所有能到达的地方都能返回,则称该状态 ii经常性的 recurrent;反之,则为短暂的 transient

经常性类 recurrent class:经常性状态的集合,其中彼此交流但不与外界通信

如果一个经常性类中的状态可以被分到 d>1d > 1 个组,所有从一个组的转移都指向另一个组,则称这些状态是周期性的 periodic

稳定状态概率:rij(n)r_{ij}(n) 收敛为某个 πjπ_j(与初始状态无关),需要满足

  • 经常性状态都在一个单个类中
  • 单个经常性类不是周期的

则可以把关键递归简化并取极限为

πj=kπkpkjπ_j = \sum_k π_k p_{kj}

增加一个限定条件:

jπj=1\sum_j π_j = 1

这个公式的一种解释是访问 jj 的频率(频率也是概率的一种定义)

生死过程

特殊情况:对于所有 iiρ=p/qρ = p/q,则有 πi=π0ρiπ_i = π_0 ρ^iE[Xn]=ρ1ρE[X_n] = \frac{ρ}{1 - ρ}

计算吸收概率:给定初始状态 i,aia_i 表示安顿在状态 4 的概率

ai=jpijaja_i = \sum_j p_{ij} a_j

吸收的期望时间:(平均第一个从 i 到 j 的消息)

μi=1+jpijμjμ_i = 1 + \sum_j p_{ij} μ_j

弱大数定律 Weak Law of Large Numbers

切比雪夫不等式 Chebyshev's inequality

P(Xμc)σ2c2P(|X - μ| ≥ c) ≤ \frac{σ^2}{c^2}

序列 ana_n 收敛于 aa

概率的收敛:

limnP(Ynaϵ)=0\lim_{n → ∞} P(|Y_n - a| ≥ ϵ) = 0

标准化 S_n =X_1 + ⋯ + X_n$ :

Zn=SnnE[X]nσZ_n = \frac{S_n - nE[X]}{\sqrt{n} σ}

  • 平均值为 0
  • 单位偏差

ZZ 是一个正态随机变量,则对于每个 cc

P(Znc)P(Zc)P(Z_n ≤ c) → P(Z ≤ c)

这就是中心极限定理 The central limit theorem

注意:P(Zc)P(Z ≤ c) 是正态 CDF

中心极限定理 Central Limit Theorem

用处:

  • 通用:仅仅关于平均值和方差
  • 快速计算

实质:ZnZ_n 的 CDF 收敛为正态 CDF

正态近似:把 SnS_n 当作正态

对于二项分布的应用:

1/2 纠正:P(Sn21)=P(Sn<22)P(S_n ≤ 21) = P(S_n < 22) 应该计算 P(Sn21.5)P(S_n ≤ 21.5)

De Moivre-Laplace CLT:对于二项分布来说,P(Sn=19)=P(18.5Sn19.5)P(S_n = 19) = P(18.5 ≤ S_n ≤ 19.5)

注意:泊松分布的切成小块不能使用中心极限定理,因为每一块的概率会变化

对于二项分布 (n,p)(n, p)

  • pp 固定,nn → ∞:正态
  • npnp 固定,nn → ∞p0p → 0:泊松

贝叶斯统计推理 Bayesian Statistical Inference

使用先验概率和贝叶斯法则推理

输出是后验分布

如果对一个答案感兴趣,则是最大化后验概率,即

pΘX(θx)=maxθpΘX(θx)p_{Θ|X}(θ^*|x) = \max_θ p_{Θ|X}(θ|x)

最小二乘法估计:

  • 最小化 E[(Θc)2]E[(Θ - c)^2]

  • 最优估计 c=E[Θ]c = E[Θ]

  • 最优平均值平方差 E[(ΘE[Θ])2]=Var(Θ)E[(Θ - E[Θ])^2] = \operatorname{Var}(Θ)

可以得到,对于所有的估计函数 g(.)g(.)E[ΘX]E[Θ|X] 最小化 E[(Θg(X))2]E[(Θ - g(X))^2]

对于更多随机变量 X1,,XnX_1, ⋯, X_n,最优估计为 E[ΘX1,,Xn]E[Θ|X_1, ⋯, X_n]

最小平均值平方估算 Least Means Squares(LMS)

  • 估算:Θ^=E[ΘX]\hat{Θ} = E[Θ|X]
  • 估算误差:Θ~=Θ^Θ\tilde{Θ} = \hat{Θ} - Θ

性质:

  • E[Θ~]=0E[\tilde{Θ}] = 0
  • E[Θ~X=x]=0E[\tilde{Θ}|X = x] = 0
  • 对于所有函数 hh,有 E[Θh(X)~]=0E[\tilde{Θ h(X)}] = 0
  • cov(Θ~,Θ~)=0\operatorname{cov}(\tilde{Θ}, \tilde{Θ}) = 0
  • var(Θ)=var(Θ^)+var(Θ~)\operatorname{var}(Θ) = \operatorname{var}(\hat{Θ}) + \operatorname{var}(\tilde{Θ})

线性 LMS:Θ^=aX+b\hat{Θ} = aX + b

最小化 E[(ΘaXb)2]E[(Θ - aX - b)^2]

最优选择为

Θ^L=E[Θ]+Cov(X,Θ)var(X)(XE[X])\hat{Θ}_L = E[Θ] + \frac{\operatorname{Cov}(X, Θ)}{\operatorname{var}(X)}(X- E[X])

多维数据:

Θ^L=μ/σ2+i=1nXi/σi2i=0n1/σi2\hat{Θ}_L = \frac{μ/σ^2 + \sum_{i=1}^n X_i/σ_i^2}{\sum_{i=0}^n 1/σ_i^2}

μ,X1,,Xnμ, X_1, ⋯, X_n 的加权平均值

古典推理 Classical Inference

pX(x;θ)p_{X}(x;θ) 注意不是条件概率,因为 θ 不是随机的

最大可能性估计

θ^ML=argmaxθpX(x;θ)\hat{θ}_{ML} = \arg \max_θ p_X(x;θ)

对于所有 θ 应该满足:

  • 不偏袒:E[Θ^n]=θE[\hat{Θ}_n] = θ
  • 一致:Θ^nθ\hat{Θ}_n → θ
  • 小的平均值平方误差 MSEE[(Θ^θ)2]=var(Θ^)+(bias)2E[(\hat{Θ} - θ)^2] = \operatorname{var}(\hat{Θ}) + (bias)^2

估计平均值:Θ^n=X1++Xnn\hat{Θ}_n = \frac{X_1 + ⋯ + X_n}{n}

置信区间 Confidence intervals [Θ^n,Θ^n+][\hat{Θ}_n^-, \hat{Θ}_n^+],注意变化的是区间端点而不是 θ

一般的说,对于 Φ(z)=1α/2Φ(z) = 1 - α / 2

P(Θ^nzσnθΘ^n+zσn)=1αP(\hat{Θ}_n - \frac{zσ}{\sqrt{n}} ≤ θ ≤ \hat{Θ}_n + \frac{zσ}{\sqrt{n}}) = 1 - α

对于其中的 σ

  • 使用上界
  • 使用特定估计
  • 使用泛化估计,即 S^n2=1n1i=1n(XiΘ^n)2σ2\hat{S}_n^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \hat{Θ}_n)^2 → σ^2

线性回归 linear regression

  • 模型:y=θ0+θ1xy = θ_0 + θ_1 x
  • 最小化 i=1n(yiθ0θ1xi)2\sum_{i=1}^n (y_i - θ_0 - θ_1 x_i)^2

θ^1=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2\hat{θ}_1 = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^n (x_i - \bar{x})^2}

θ^0=yˉθ^1xˉ\hat{θ}_0 = \bar{y} - \hat{θ}_1 \bar{x}

多重线性回归:y=θ0+θx+θxy = θ_0 + θ x + θ^{\prime} x^{\prime}

选择正确的变量:y=θ0+θ1h(x)y = θ_0 + θ_1 h(x)

注意回归只能表示两者的关系,不能表示两个变量的因果

二项假设测试 binary hypothesis testing

零假设 H0H_0、替代假设 H1H_1

可能性比率测试:拒绝 H0H_0 如果

pX(x;H1)pX(x;H0)>ξ\frac{p_X(x;H_1)}{p_X(x;H_0)} > ξ

fX(x;H1)fX(x;H0)>ξ\frac{f_X(x;H_1)}{f_X(x;H_0)} > ξ

固定假拒绝概率 α,选择 ξ 使得 P(拒绝H0;H0)=αP(\text{拒绝} H_0;H_0) = α

复合假设:

  • 选择统计
  • 选择拒绝区域
  • 选择重要性级别
  • 选择临界值