概率模型与公理 Probability Models and Axioms
样本空间 sample space:
事件 event 是样本空间的一个子集
公理:
- 非负:P(A)≥0
- 标准化:P(Ω)=1
- 加法:如果 A∩B=∅,则 P(A∪B)=P(A)+P(B)
离散一致律 Discrete uniform law:若所有结果等可能,则
P(A)=样本空间的总元素数量A 中的元素数量
计算概率 = 计数
连续一致律 Continuous uniform law:落在面积中半部分的概率
可数加法公理:如果 A1,A2,… 是互斥 disjoint 事件,则
P(A1∪A2∪…)=P(A1)+P(A2)+…
条件概率和贝叶斯法则 Conditioning and Bayes' Rule
条件概率的定义:
P(A∣B)=P(B)P(A∩B)
如果 P(B)=0,则不存在 P(A∣B)
本质上是更换了样本空间
全概率定理 Total probability theorem:
- 分治
- 把样本空间分成 A1,A2,…
- 已知 P(B∣Ai)
P(B)=P(A1)P(B∣A1)+P(A1)P(B∣A2)+…
贝叶斯法则 Bayes' Rule
-
先验 prior 概率 P(Ai),即初始的信念
-
已知 P(B∣Ai)
-
想要计算 P(Ai∣B) 即 B 发生了,修改信念
P(Ai∣B)=P(B)P(Ai)P(B∣Ai)
独立性 Independence
定义:
P(A∩B)=P(A)⋅P(B)
条件会影响独立性
推广到多个事件
P(A1∩A2∩…∩An)=P(A1)P(A2)…P(An)
两两独立不能推导出独立
计数 Counting
离散一致律:
P(A)=∣Ω∣∣A∣
所以只需要计数即可求出概率
(kn):n 个元素的集合,k 个元素的子集的个数
(kn)=k!(n−k)!n!
二项式概率 Binomial probabilities
p(k)=(kn)pk(1−p)n−k
离散随机变量 Discrete Random Variables
即把一个数值赋给每个可能的结果
数学解释:一个从样本空间 Ω 映射到实数的函数
可以在一个样本空间上定义多个随机变量
记号:
概率密度函数 probability mass function(PMF),也是 X 的分布
记号:
pX(x)=P(X=x)
存在:
- pX(x)≥0
- ∑xpX(x)=1
计算 pX(x)
二项式 PMF:
pX(x)=(kn)pk(1−p)n−k,k=0,1,…,n
期望 expectation:
E[x]=x∑xpX(x)
解释:
性质:E[g(X)]=∑xg(x)pX(x)
期望是线性的,即
E[αX+β]=αE[X]+β
方差 variance
var(X)=x∑(x−E[X])2pX(x)=E[X2]−(E[X])2
性质:
- var(X)≥0
- var(αX+β)=α2var(X)
条件 PMF 和期望
- pX∣A(x)=P(X=x∣A)
- E[X∣A]=∑xxpX∣A(x)
几何 PMF
- pX(k)=(1−p)k−1p
- E[X]=∑k=1∞k(1−p)k−1p
无记忆的性质:X>2 的部分和整个部分有相同的 PMF
全期望定理 total expectation theorem:
E[X]=P(A1)E[X∣A1]+…+P(An)E[X∣An]
联合 PMF joint PMFs
pX,Y(x,y)=P(X=x,Y=y)
pX∣Y(x∣y)=P(X=x∣Y=y)
独立随机变量 Independent random variables:如果对于所有 x,y,z,有
pX,Y,Z=pX(x)pY(y)pZ(z)
则随机变量 X,Y,Z 独立
二项式平均值:
E[X]=k=0∑nk(kn)pk(1−p)n−k
连续随机变量 Continuous Random Variables
连续随机变量用概率密度函数描述
P(a≤X≤b)=∫abfX(x)dx
性质:
- ∫−∞∞fX(x)dx=1
- P(x≤X≤x+δ)≈fX(x)δ
期望和方差与离散情况类似,只是把求和换成了积分
累积分布函数 cumulative distribution function(CDF)
标准高斯(正态)分布 N(0,1):
fX(x)=2π1e−x2/2
一般的正态分布 N(μ,σ2)
fX(x)=σ2π1e−(x−μ)2/2σ2
计算正态概率:因为没有闭式,所以使用表格,将非标准化为标准形式
多重连续随机变量 Multiple Continuous Random Variables
P((X,Y)∈S)=∬SfX,Y(x,y)dxdy
解释:
P(x≤X≤x+δ,y≤Y≤y+δ)≈fX,Y(x,y)⋅δ2
从联合概率到边缘概率:
fX(x)=∫−∞∞fx,y(x,y)dy
如果对所有 x,y,有
fX,Y(x,y)=fX(x)fY(y)
则 X 和 Y 相互独立
布丰投针
条件概率:
fX∣Y(x∣y)=fY(y)fX,Y(x,y)
其中 fY(y)>0
换句话说,条件 PDF 是联合 PDF 的标准化部分
连续贝叶斯法则和导出分布 Continuous Bayes' Rule & Derived Distributions
贝叶斯法则变式 |
公式 |
例子 |
离散 |
pX∣Y(x∣y)=pY(y)p∗X(x)p∗Y∣X(y∣x) |
X:飞机是否出现,Y:是否被雷达识别 |
连续 |
fX∣Y(x∣y)=fY(y)f∗X(x)f∗Y∣X(y∣x) |
X:某种信号,Y:某种噪声 |
离散 X,连续 Y |
pX∣Y(x∣y)=fY(y)p∗X(x)f∗Y∣X(y∣x) |
X:离散信号,Y:X 的噪声版本 |
连续 X,离散 Y |
fX∣Y(x∣y)=pY(y)f∗X(x)p∗Y∣X(y∣x) |
X:连续信号,Y:受 X 影响的离散随机变量 |
导出分布 derived distribution 是已知的一个或多个随机变量的概率法则的函数
例如 g(X,Y)=Y/X 导出一个分布
注意:如果求期望,不需要知道导出分布
离散情况:令 Y=g(X)
pY(y)=P(g(X)=y)=x:g(x)=y∑pX(x)
fY(y)=∣a∣1fX(ay−b)
导出分布和协方差 Derived Distributions(ctd.) Covariance
事件 x≤X≤x+δ 近似于 g(x)≤Y≤g(x)+δ∣dxdg(x)∣,故
连续情况的公式:
fX(x)=fY(y)∣dxdg(x)∣
其中 y=g(x)
W=X+Y,X,Y 独立
离散情况:
pW(w)=x∑pX(x)pY(w−x)
机械上:
-
PMF 对齐
-
把 Y 的 PMF 反转
-
位移 w
-
交叉相乘
连续情况:
fW(w)=∫−∞∞fX(x)fY(w−x)dx
即卷积公式 convolution
注意到成了关于 w 的函数
协方差 covariance:
cov(X,Y)=E[(X−E[X])⋅(Y−E[Y])]
平均值为 0 的情况:cov(X,Y)=E[XY]
- cov(X,Y)>0 表示 X,Y 正相关
- cov(X,Y)<0 表示 X,Y 负相关
- 若 X,Y 相互独立,则 cov(X,Y)=0(反之不成立)
注意到协方差是有量纲的,所以有一个无量纲的版本,即相关系数 correlation coefficient
ρ=σx,σycov(X,Y)
迭代期望 Iterated Expectations
条件期望:E[X∣Y] 是一个随机变量,也可以求期望和方差,故有迭代期望法则 law of iterated expectations:
E[E[X∣Y]]=E[X]
全方差公式 law of total variance:
var(X)=E[var(X∣Y)]+var(E[X∣Y])
即总方差 = 每个部分内部的平均方差 + 部分之间的方差
随机数量的独立随机变量之和:
E[Y]=E[N]E[X]
随机数量的独立随机变量之和的方差:
var(Y)=E[N]var(X)+(E[X])2var(N)
伯努利过程 Bernoulli Process
定义:
- 一系列独立的伯努利试验
- 每次试验
- P(成功) = p
- P(失败) = 1−p
在 n 时间槽中成功 S 的数量:P(S=k)=(kn)pk(1−p)n−k,即二项分布
间隔到达的时间:T1:直到第一次成功的尝试次数
P(T1=t)=(1−p)t−1p,即几何分布
第 k 次到达的时间:Yk:第 k 次成功的尝试次数
P(Yk=t)=(k−1t−1)pk−1(1−p)t−kp
两者都是伯努利过程
泊松过程 Poisson Process
时间同质性 time homogeneity:P(k,τ)= 在间隔 τ 中 k 次抵达的概率
不同时间间隔的抵达次数独立
小间隔 δ 的概率:
P(k,δ)≈⎩⎪⎪⎨⎪⎪⎧1−λδ,k=0λδ,k=10,k>1
其中 λ 表示到达的速率
对于每个小间隔,近似看作伯努利过程,取 δ→0,有
P(k,τ)=k!(λτ)ke−λτ
间隔时间:Yk:第 k 次到达的时间
Erlang 分布:
fYk(y)=(k−1)!λkyk−1e−λy
第一次到达是指数分布的
|
泊松 |
伯努利 |
到达时间 |
连续 |
离散 |
到达速率 |
λ 每单位时间 |
p 每次试验 |
到达的 PMF |
泊松 |
二项式 |
到达的时间间隔分布 |
指数 |
几何 |
第 k 次到达的时间 |
Erlang |
Pascal |
合并泊松过程:
- 独立的泊松随机变量的和是泊松
- 合并独立的泊松过程是泊松
同样的,泊松过程分裂后也是泊松
注意泊松过程选择的对象
马尔科夫链 Markov Chains
有限状态马尔科夫链
-
Xn:n 次转移后的状态
-
马尔科夫性质:给点当前状态,过去的状态不重要
n 步转移概率:rij(n)=P(Xn=j∣X0=i)
关键递归:(两种思考方式:从开头或从结尾入手)
rij(n)=k=1∑mrik(n−1)pkj
如果从 i 开始,从所有能到达的地方都能返回,则称该状态 i 是经常性的 recurrent;反之,则为短暂的 transient
经常性类 recurrent class:经常性状态的集合,其中彼此交流但不与外界通信
如果一个经常性类中的状态可以被分到 d>1 个组,所有从一个组的转移都指向另一个组,则称这些状态是周期性的 periodic
稳定状态概率:rij(n) 收敛为某个 πj(与初始状态无关),需要满足
- 经常性状态都在一个单个类中
- 单个经常性类不是周期的
则可以把关键递归简化并取极限为
πj=k∑πkpkj
增加一个限定条件:
j∑πj=1
这个公式的一种解释是访问 j 的频率(频率也是概率的一种定义)
生死过程
特殊情况:对于所有 i,ρ=p/q,则有 πi=π0ρi,E[Xn]=1−ρρ
计算吸收概率:给定初始状态 i,ai 表示安顿在状态 4 的概率
ai=j∑pijaj
吸收的期望时间:(平均第一个从 i 到 j 的消息)
μi=1+j∑pijμj
弱大数定律 Weak Law of Large Numbers
切比雪夫不等式 Chebyshev's inequality:
P(∣X−μ∣≥c)≤c2σ2
序列 an 收敛于 a
概率的收敛:
n→∞limP(∣Yn−a∣≥ϵ)=0
标准化 S_n =X_1 + ⋯ + X_n$ :
Zn=nσSn−nE[X]
若 Z 是一个正态随机变量,则对于每个 c
P(Zn≤c)→P(Z≤c)
这就是中心极限定理 The central limit theorem
注意:P(Z≤c) 是正态 CDF
中心极限定理 Central Limit Theorem
用处:
实质:Zn 的 CDF 收敛为正态 CDF
正态近似:把 Sn 当作正态
对于二项分布的应用:
1/2 纠正:P(Sn≤21)=P(Sn<22) 应该计算 P(Sn≤21.5)
De Moivre-Laplace CLT:对于二项分布来说,P(Sn=19)=P(18.5≤Sn≤19.5)
注意:泊松分布的切成小块不能使用中心极限定理,因为每一块的概率会变化
对于二项分布 (n,p)
- p 固定,n→∞:正态
- np 固定,n→∞,p→0:泊松
贝叶斯统计推理 Bayesian Statistical Inference
使用先验概率和贝叶斯法则推理
输出是后验分布
如果对一个答案感兴趣,则是最大化后验概率,即
pΘ∣X(θ∗∣x)=θmaxpΘ∣X(θ∣x)
最小二乘法估计:
-
最小化 E[(Θ−c)2]
-
最优估计 c=E[Θ]
-
最优平均值平方差 E[(Θ−E[Θ])2]=Var(Θ)
可以得到,对于所有的估计函数 g(.),E[Θ∣X] 最小化 E[(Θ−g(X))2]
对于更多随机变量 X1,⋯,Xn,最优估计为 E[Θ∣X1,⋯,Xn]
最小平均值平方估算 Least Means Squares(LMS)
- 估算:Θ^=E[Θ∣X]
- 估算误差:Θ~=Θ^−Θ
性质:
- E[Θ~]=0
- E[Θ~∣X=x]=0
- 对于所有函数 h,有 E[Θh(X)~]=0
- cov(Θ~,Θ~)=0
- var(Θ)=var(Θ^)+var(Θ~)
线性 LMS:Θ^=aX+b
最小化 E[(Θ−aX−b)2]
最优选择为
Θ^L=E[Θ]+var(X)Cov(X,Θ)(X−E[X])
多维数据:
Θ^L=∑i=0n1/σi2μ/σ2+∑i=1nXi/σi2
即 μ,X1,⋯,Xn 的加权平均值
古典推理 Classical Inference
pX(x;θ) 注意不是条件概率,因为 θ 不是随机的
最大可能性估计
θ^ML=argθmaxpX(x;θ)
对于所有 θ 应该满足:
- 不偏袒:E[Θ^n]=θ
- 一致:Θ^n→θ
- 小的平均值平方误差 MSE:E[(Θ^−θ)2]=var(Θ^)+(bias)2
估计平均值:Θ^n=nX1+⋯+Xn
置信区间 Confidence intervals [Θ^n−,Θ^n+],注意变化的是区间端点而不是 θ
一般的说,对于 Φ(z)=1−α/2
P(Θ^n−nzσ≤θ≤Θ^n+nzσ)=1−α
对于其中的 σ
- 使用上界
- 使用特定估计
- 使用泛化估计,即 S^n2=n−11∑i=1n(Xi−Θ^n)2→σ2
线性回归 linear regression
- 模型:y=θ0+θ1x
- 最小化 ∑i=1n(yi−θ0−θ1xi)2
θ^1=∑i=1n(xi−xˉ)2∑i=1n(xi−xˉ)(yi−yˉ)
θ^0=yˉ−θ^1xˉ
多重线性回归:y=θ0+θx+θ′x′
选择正确的变量:y=θ0+θ1h(x)
注意回归只能表示两者的关系,不能表示两个变量的因果
二项假设测试 binary hypothesis testing
零假设 H0、替代假设 H1
可能性比率测试:拒绝 H0 如果
pX(x;H0)pX(x;H1)>ξ
fX(x;H0)fX(x;H1)>ξ
固定假拒绝概率 α,选择 ξ 使得 P(拒绝H0;H0)=α
复合假设:
- 选择统计
- 选择拒绝区域
- 选择重要性级别
- 选择临界值