文章目录
- 1 条件概率
 - 2 贝叶斯定理
 - 3 语言建模
 - 4 语言模型
 - 5 解决办法——>n元语法
 - 6 参数的估计
 - 7 数据平滑技术
 - 8 基于词类的N-gram模型
 
1 条件概率
如果两个事件 A 和 B 不是互相独立的,并且知道事件 B 已经发生,我们就能得到关于 P(A)的信息。这反映为 A 在 B 中的条件概率(在B的条件下A的概率),记为P(A|B):



2 贝叶斯定理

 【先验概率】
 P(A)称为"先验概率",即在不知道B事件发生的前提下,对A事件发生概率的一个主观判断。
【可能性函数】
 是一个调整因子,即新信息事件B的发生调整,作用是,使得先验概率更接近真实概率。(可能性函数可以理解为新信息过来后,对先验概率的一个调整)
- 如果可能性函数>1,意味着"先验概率"被增强,事件A的发生的可能性变大;
 - 如果"可能性函数"=1,意味着B事件无助于判断事件A的可能性;
 - 如果"可能性函数"<1,意味着"先验概率"被削弱,事件A的可能性变小。
 
【后验概率】
 即在B事件发生之后,我们对A事件概率的重新评估。

 【贝叶斯的底层思想】
 如果能掌握一个事情的全部信息,当然能计算出一个客观概率,可是绝大多数决策面临的信息都是不全的,手中只有有限的信息。 既然无法得到全面的信息,就在信息有限的情况下,尽可能做出一个好的预测:在主观判断的基础上,可以先估计一个值(先验概率),然后根据观察的新信息不断修正(可能性函数)。
【全概率公式】
 全概率公式的作用是计算贝叶斯定理中的P(B)。假定样本空间S,由两个事件A与A‘组成的和(下左图):

 这时发生新的一个事件B(上右图)

 含义:如果A和A’构成一个问题的全部(全部的样本空间),那么事件B的概率,就等于A和A’的概率分别乘以B对这两个事件的条件概率之和。
3 语言建模
从统计角度看,自然语言中的一个句子s可以由任何词串构成,不过P(s)有大有小。如:
s1= 我刚吃过晚饭
 s2= 刚我过晚饭吃
 P(s1) > P(s2) (并不要求语法是完备的,可对任意s给出概率)
语言模型与句子是否合乎句法是没有关系。对于给定的句子s而言,通常P(s)是未知的 。
对于一个服从某个未知概率分布P的语言L,根据给定的语言样本估计P的过程被称作语言建模。
4 语言模型
根据语言样本估计出的概率分布P就称为语言L的语言模型。

 语言建模技术首先在语音识别研究中提出,后来陆续用到OCR、手写体识别、机器翻译、信息检索等领域。在语音识别中,如果识别结果有多个,则可以根据语言模型计算每个识别结果的可能性,然后挑选一个可能性较大的识别结果。
任何语言片断都有存在的可能,只是可能性大小不同。对于一个文档片段或句子 s=w1w2…wn,统计语言模型是指概率P(w1w2…wn)的求解,
根据贝叶斯公式,有:


 语言模型的建立
 (1)确定模型的参数集合
 (2)确定模型各参数的值(参数训练)
对于二元模型:

 【语言模型存在的问题】
 随着i的增长, wi 的历史在训练语料中出现的概率几乎为0

5 解决办法——>n元语法
【n元语法模型】
 一个词出现的概率只依赖于它前面的n-1个词:

 【二元语法模型(Bigram,n=2)】


 【一元语法模型(Unigram,n=1)】

 例子:

6 参数的估计
最大似然估计(Maximum likelihood estimation, MLE)
设试验的样本空间:

在相同情况下重复试验N次,观察到样本sk(1<=k<=n)的次数为nN(sk),那么,样本sk在这N次试验中的相对频率为:

当N越来越大时,相对频率qN(sk)就越来越接近sk的概率P(sk),即:

 因此,通常用相对频率作为概率的估计值 。这种估计概率值的方法称为最大似然估计。
【二元语法模型参数P(wi|wi-1)的最大似然估计】



 数据平滑技术——为了产生更准确的概率来调整最大似然估计的技术。
7 数据平滑技术
看这里。
- Laplace法则、Lidstone法则
 - Good-Turing估计
 - 绝对折扣和线性折扣
 - Witten-Bell平滑算法
 - 扣留估计与交叉校验
 - 线性插值
 - Katz回退算法
 
【开发和测试模型的数据集】
统计自然语言处理中的一个最大的错误,是在训练数据上进行测试!!
【数据集】
1、训练数据
- 主要的训练数据
 - 留存数据
 
2、训练数据
- 开发测试集
 - 最终测试集
 

 【如何选择测试数据?】
随机法:测试数据尽可能类似于训练数据(在流派、术语、作者和词表等方面)
数据块法:实际上最终使用的数据集和训练数据一定会有些许不同,因为随着时间的推移,语言在话题和结构上会有变化。
最好选择和测试数据相同的策略来保留数据作为留存数据,使留存数据更好地模拟测试数据。
8 基于词类的N-gram模型


 p(w3 | w1 , w2) ≈ p(C3 | C1 , C2) p(w3 | C3 ),Ci→ wi所属的类


 END
                










