2 NLP之语料库-CFANZ编程社区

语料库：存放语言材料的仓库。现代的语料库是指存放在计算机里的原始语料文本或经过加工后带有语言学信息标注的语料文本。

基本认识（三点）：

语料库中存放的是在实际使用中真实出现过的语言材料；
语料库是以计算机为载体承载语言知识的基础资源；
真实语料需要经过分析、处理和加工，才能成为有用的资源。

语料库样例：

人们/n 将/d 铭记/v 这/r 一/m 时刻/n ：/w １９９８年/t １月/t １０日/t １１时/t ５０分/t 。/w

词性标注的符号：

2 NLP之语料库_语料库

语料库的分类：

1、付费语料和免费语料

2、专用语料库和通用语料库。
专用语料库：为了某种专门的目的，只采集某一特定领域、特定地区、特定时间、特定语体类型的语料构成的语料库，如，新闻语料库、科技语料库
通用语料库：抽样时仔细从各个方面（如，领域分布、地域分布、时间分布）考虑了平衡问题的平衡语料库，按照事先确定好的某种标准，把每个子类的文本按照一定比例收集到一起的语料库

3、单语种语料库和双语种（或多语种）语料库。
·单语语料库：只含有单一语言文本的语料库
多语语料库：不只有一种语言的语料库。多语语料库又分为平行语料库（库中的两种或多种文本互相是对方的译文）和比较语料库（库中两种或多种语言的文本不构成对译关系，只是领域相同，主题相近）。

4、生语料库和熟语料库。
生语料库：没有经过任何加工处理的原始语料数据
熟语料库：经过了加工处理、标注了特定信息的语料库。**语料库标注（加工）**就是对电子语料（包括书面语和口语）进行不同层次的语言学分析，并添加相应的“显性”的解释性的语言学信息过程；把某种分类代码插入到计算机文件中，通过这些分类代码，可以了解文件的结构或格式信息。
如本报/r 讯/Ng 河北省/ns 重点/n 建设/vn 项目/n 石家庄/ns 机场/n 跑道/n 延长/vn 工程/n ，/w 日前/t 通过/v 国家/n 验收/vn 委员会 /n 审验/v ，/w 正式/ad 投入/v 使用/v 。/w

歧义消解与语料库加工的关系

2 NLP之语料库_自然语言处理_02

高性能的歧义消解技术是实现语料库加工自动化的关键。语料库特别是经过加工的语料库又为歧义消解提供了资源支持。

语料库加工的三种主要方式

人工，非常昂贵，需要大量的人力资源
自动，不完全准确
半自动（人机结合），兼顾两者的优点：先由计算机对待加工的语料进行自动加工，然后由人工校对

语料库与语言知识库

语料库：以语言的真实材料为基础来呈现语言知识，反映语言单位的用法和意义，基本以知识的原始形态表现——语言的原貌；

语言知识库：由专家从大量的实例中提炼、抽象、概括出来的系统的语言知识，如电子词典、句法规则库、词法分析规则库等。

语料的收集与加工

语料库的编码，语料文件的统一规范：1、TEI计划(Text Encoding Initiative)；2、LDC要求其提交的语料库遵循SGML规范(Standard Generalized Mark-up Language)；3、CES标准；等等。

2 NLP之语料库_nlp_03

双语(平行)语料库的对齐：段落对齐、句子对齐、词对齐、短语对齐。双语(平行)语料库的句子对齐：原文句子 -> 译文句子：确定源语言文本中哪个/些句子和目标语言文本中哪个/些句子互为译文。双语句子对齐的方法：1、基于长度（length-based）的对齐方法，纯粹基于句子的长度来估计对齐可能性；算法效率相对较高；2、基于词（word-based）的对齐方法，一般要依赖词典资源，算法效率相对较低。

基于长度（length-based）的对齐方法

依据：源语言文本的长度和译语言文本的长度有很强的相关性