论文解读:DCSpell:A Detector-Corrector Framework for Chinese Spelling Error Correction

寒羽鹿

关注

阅读 87

2022-12-22


论文解读:DCSpell:A Detector-Corrector Framework for Chinese Spelling Error Correction

简要信息:

序号

属性


1

模型名称

DCSpell

2

发表位置

SIGIR2021

3

所属领域

自然语言处理、中文拼写纠错

4

研究内容

中文拼写纠错

5

核心内容

端到端纠错

6

GitHub源码

7

论文PDF

​​https://dl.acm.org/doi/10.1145/3404835.3463050​​

一、动机:

  • 基于端到端的方法(例如基于MLM)会存在很高的误报率(FAR),因为其会对所有的token进行纠错,正常情况下,一个句子中只有很少的几个token是需要纠正的;

these methods correct each character of the sentence regardless of its correctness, which might change the correct characters and result in high false alarm rates (FAR)
这些方法纠正句子的每个字符,而不管其正确性,这可能会改变正确的字符并导致高误报率 (FAR)

  • 中文的拼写错误基本来自于语音或字形相似性;

二、方法:

提出DCSpell模型,主要包含两个模块:Detector和Corrector

  • Detector:输入原始的文本,并采用序列标注的方法检测每个位置是否是错误的,然后将错误的token替换为空格([MASK])
  • Corrector:对于检测的位置,通过MLM去预测其对应的可能正确的结果;
  • Detector与Corrector均采用Transformer模型:

Both the Detector and the Corrector are transformer-based networks, which fully utilize the power of MLM pre-training models

模型架构如图所示:


论文解读:DCSpell:A Detector-Corrector Framework for Chinese Spelling Error Correction_自然语言处理

(1)Detector:

  • Detector部分喂入原始的句子,输出序列标注结果(1表示错误,0表示正确);
  • Detector选择ELECTRA模型的判别器:
    在ELECTRA模型(《ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators.》)中,提出了replaced token detection pre-training task (即随机对部分token替换为confusion set中的其他词),采用对抗生成网络完成训练:
  • 生成器与判别器都是transformer模块
  • The generator learns to predict the original identities of the masked-out tokens. Then the discrimi- nator is trained to predict whether each token was replaced by the generator or not
  • 本文重新跑了ELECTRA模型,然后只获取判别器
    最后生成器识别出来的错误,则直接替换为[MASK],其他的则保持不变。

论文解读:DCSpell:A Detector-Corrector Framework for Chinese Spelling Error Correction_深度学习_02

(2)Corrector:
将Detector得到的带有[MASK]的序列,与原始的待纠错的文本拼接起来,喂入到MLM中;

(3)Confusion Set后处理
在Corrector得出预测结果后,需要根据混淆集进行处理,论文中给出的处理过程比较详细,因此直接进行截图,如图所示:


论文解读:DCSpell:A Detector-Corrector Framework for Chinese Spelling Error Correction_自然语言处理_03

具体的处理过程本文进行了整理,可以用于具体的实验或业务中,如下所示:


精彩评论(0)

0 0 举报