3 NLP之语言模型-CFANZ编程社区

文章目录

1 条件概率
2 贝叶斯定理
3 语言建模
4 语言模型
5 解决办法——>n元语法
6 参数的估计
7 数据平滑技术
8 基于词类的N-gram模型

1 条件概率

如果两个事件 A 和 B 不是互相独立的，并且知道事件 B 已经发生，我们就能得到关于 P(A)的信息。这反映为 A 在 B 中的条件概率（在B的条件下A的概率），记为P(A|B)：

3 NLP之语言模型_nlp

3 NLP之语言模型_自然语言处理_02

3 NLP之语言模型_NLP_03

2 贝叶斯定理

3 NLP之语言模型_nlp_04

【先验概率】

P(A)称为"先验概率"，即在不知道B事件发生的前提下，对A事件发生概率的一个主观判断。

【可能性函数】
是一个调整因子，即新信息事件B的发生调整，作用是，使得先验概率更接近真实概率。（可能性函数可以理解为新信息过来后，对先验概率的一个调整）

如果可能性函数>1，意味着"先验概率"被增强，事件A的发生的可能性变大；
如果"可能性函数"=1，意味着B事件无助于判断事件A的可能性；
如果"可能性函数"<1，意味着"先验概率"被削弱，事件A的可能性变小。

【后验概率】
即在B事件发生之后，我们对A事件概率的重新评估。

3 NLP之语言模型_语言模型_05

【贝叶斯的底层思想】

如果能掌握一个事情的全部信息，当然能计算出一个客观概率，可是绝大多数决策面临的信息都是不全的，手中只有有限的信息。既然无法得到全面的信息，就在信息有限的情况下，尽可能做出一个好的预测：在主观判断的基础上，可以先估计一个值（先验概率），然后根据观察的新信息不断修正(可能性函数)。

【全概率公式】
全概率公式的作用是计算贝叶斯定理中的P(B)。假定样本空间S，由两个事件A与A‘组成的和(下左图)：

3 NLP之语言模型_nlp_06

这时发生新的一个事件B（上右图）

3 NLP之语言模型_nlp_07

含义：如果A和A’构成一个问题的全部（全部的样本空间），那么事件B的概率，就等于A和A’的概率分别乘以B对这两个事件的条件概率之和。

3 语言建模

从统计角度看，自然语言中的一个句子s可以由任何词串构成，不过P(s)有大有小。如：

s1= 我刚吃过晚饭
s2= 刚我过晚饭吃
P(s1) > P(s2) (并不要求语法是完备的,可对任意s给出概率)

语言模型与句子是否合乎句法是没有关系。对于给定的句子s而言，通常P(s)是未知的。

对于一个服从某个未知概率分布P的语言L，根据给定的语言样本估计P的过程被称作语言建模。

4 语言模型

根据语言样本估计出的概率分布P就称为语言L的语言模型。

3 NLP之语言模型_自然语言处理_08

语言建模技术首先在语音识别研究中提出，后来陆续用到OCR、手写体识别、机器翻译、信息检索等领域。在语音识别中，如果识别结果有多个，则可以根据语言模型计算每个识别结果的可能性，然后挑选一个可能性较大的识别结果。

任何语言片断都有存在的可能，只是可能性大小不同。对于一个文档片段或句子 s=w1w2…wn，统计语言模型是指概率P(w1w2…wn)的求解，

根据贝叶斯公式，有：

3 NLP之语言模型_数据_09

3 NLP之语言模型_NLP_10

语言模型的建立

（1）确定模型的参数集合

（2）确定模型各参数的值（参数训练）

对于二元模型：

3 NLP之语言模型_自然语言处理_11

【语言模型存在的问题】

随着i的增长， wi 的历史在训练语料中出现的概率几乎为0

3 NLP之语言模型_nlp_12

5 解决办法——>n元语法

【n元语法模型】
一个词出现的概率只依赖于它前面的n-1个词：

3 NLP之语言模型_NLP_13

【二元语法模型（Bigram，n=2）】

3 NLP之语言模型_数据_14

3 NLP之语言模型_语言模型_15

【一元语法模型（Unigram，n=1）】

3 NLP之语言模型_语言模型_16

例子：

3 NLP之语言模型_数据_17

6 参数的估计

最大似然估计(Maximum likelihood estimation, MLE)

设试验的样本空间：

3 NLP之语言模型_数据_18

在相同情况下重复试验N次，观察到样本s_k（1<=k<=n)的次数为n_N(s_k)，那么，样本s_k在这N次试验中的相对频率为：

3 NLP之语言模型_语言模型_19

当N越来越大时，相对频率q_N(s_k)就越来越接近s_k的概率P(s_k)，即：

3 NLP之语言模型_nlp_20

因此，通常用相对频率作为概率的估计值。这种估计概率值的方法称为最大似然估计。

【二元语法模型参数P(wi|wi-1)的最大似然估计】

3 NLP之语言模型_NLP_21

3 NLP之语言模型_语言模型_22

3 NLP之语言模型_nlp_23

数据平滑技术——为了产生更准确的概率来调整最大似然估计的技术。

7 数据平滑技术

看这里。

Laplace法则、Lidstone法则
Good-Turing估计
绝对折扣和线性折扣
Witten-Bell平滑算法
扣留估计与交叉校验
线性插值
Katz回退算法

【开发和测试模型的数据集】

统计自然语言处理中的一个最大的错误，是在训练数据上进行测试！！

【数据集】

1、训练数据

主要的训练数据
留存数据

2、训练数据

开发测试集
最终测试集

3 NLP之语言模型_nlp_24

【如何选择测试数据？】

随机法：测试数据尽可能类似于训练数据（在流派、术语、作者和词表等方面）

数据块法：实际上最终使用的数据集和训练数据一定会有些许不同，因为随着时间的推移，语言在话题和结构上会有变化。

最好选择和测试数据相同的策略来保留数据作为留存数据，使留存数据更好地模拟测试数据。

8 基于词类的N-gram模型

3 NLP之语言模型_语言模型_25

3 NLP之语言模型_NLP_26

p(w3 | w1 , w2) ≈ p(C3 | C1 , C2) p(w3 | C3 )，Ci→ wi所属的类

3 NLP之语言模型_NLP_27

3 NLP之语言模型_nlp_28

END