概率相关概念
可能世界指样本空间中可能的组合,例如,掷两个骰子可能产生的组合产生的集合即为一个样本空间 Ω:
Ω={(1,1),(1,2),(1,3),...,(2,1),(2,2),(2,3),...,(6,5),(6,6)}
样本空间 Ω 中共包含 36 个元素,其中的任意一个元素 ω=(2,3) 为一个可能世界。每一个可能世界拥有一个概率值 P(ω),根据概率理论的基本公理,有:
0<P(ω)≤1,ω∈Ω∑P(ω)=1
事件指可能世界的集合,在 AI 中,总是用形式语言的命题表示事件,对于一个命题 ϕ,有
P(ϕ)=ω∈ϕ∑P(ω)
例如骰子总点数为 11 的事件为
P(Total=11)=P((5,6))+P((6,5))=1/18
像上面这种事件的概率称为无条件概率或先验概率,他们指不知道其他信息的情况下命题的概率。
不过通常,我们都会有一些已知的信息,通常称为证据,例如已知第一个骰子的值为 5 时第二个骰子的值为 5 的概率可以表示为 P(Die2=5∣Die1=5) 这样的概率称为条件概率或后验概率。
条件概率和无条件概率的关系:
P(a∣b)=P(b)P(a∧b),P(b)>0
乘法规则形式:
P(a∧b)=P(a∣b)P(b)
命题语言
我们约定,对于 A=true 这样的命题可以简写为 a,而 A=false 可以简写为 ¬a,例如,用下面的方式表示这个命题“如果患者是一个没有牙痛的青少年,那么他有牙洞的概率是0.1”:
P(cavity∣¬toothache∧teen)=0.1
对于一个随机变量的所有取值可以写为:
P(Weather=sunny)=0.6P(Weather=rain)=0.1P(Weather=cloudy)=0.29P(Weather=snow)=0.01
可以简写为:
P(Weather)=<0.6,0.1,0.29,0.01>
我们说 P 定义了随机变量 Weather 的一个概率分布。对于 P(X∣Y) 则为条件分布,包含每个可能的 i,j 组合的概率值 P(X=xi∣Y=yj)。
对于有多个变量的分布,使用逗号分隔多个变量,例如 P(Weather,Cavity) 为一个多变量分布,其值是一个 4×2 的概率表(Weather 有 4 种取值,Cavity 则有 2 个取值),也称为 Weather 和 Cavity 的联合概率分布。
除了使用随机变量,也可以使用变量的值定义概率分布,例如 P(sunny,Cavity) 表示晴天且有牙洞和晴天且无牙洞的概率,是一个二元向量。
使用符号 P 描述 Weather 和 Cavity 的所有取值的乘法规则表示如下:
P(Weather,Cavity)=P(Weather∣Cavity)P(Cavity)
相比于写成 4×2=8 个等式更为简洁:
P(W=sunny∧C=true)=P(W=sunny∣C=true)P(C=true)P(W=rain∧C=true)=P(W=rain∣C=true)P(C=true)P(W=cloudy∧C=true)=P(W=cloudy∣C=true)P(C=true)P(W=snow∧C=true)=P(W=snow∣C=true)P(C=true)P(W=sunny∧C=false)=P(W=sunny∣C=false)P(C=false)P(W=rain∧C=false)=P(W=rain∣C=false)P(C=false)P(W=cloudy∧C=false)=P(W=cloudy∣C=false)P(C=false)P(W=snow∧C=false)=P(W=snow∣C=false)P(C=false)
使用完全联合概率分布可以计算任何问题域中命题的概率。例如对于变量 Cavity、Toothache 和 Weather,其完全联合分布为 P(Cavity,Toothache,Weather)。