0
点赞
收藏
分享

微信扫一扫

【论文笔记】MedDialog Large-scale Medical Dialogue Datasets

四月天2021 2022-03-30 阅读 99
nlp

MedDialog: Large-scale Medical Dialogue Datasets

数据集

会议:EMNLP2020

任务:医疗对话生成

动机:现有的医疗对话数据集规模太小,涵盖范围不够广,或偏向某种确定的疾病。

贡献:

  1. 提出了目前最大规模的医疗对话数据集MedDialog,有中文和英文数据集。
  2. 在中文数据及上预训练了几个对话生成模型,评估其性能。
  3. 通过人工评估和自动评估,研究表明在MedDialog-CN上预训练的模型通过迁移学习,应用于低资源对话生成任务上,可以显著提升其性能。

数据集介绍

  • 中文数据集覆盖了172种疾病。每个对话以对医疗状况和病史的描述(包括疾病现状、病程、过敏症、药物治疗、既往疾病)开始,然后进行医患对话,最后医生提出诊断和治疗意见。
    在这里插入图片描述
  • 英文数据集覆盖了96种疾病。每个对话包括两部分,第一部分是对病情的描述,第二部分是多轮对话。这些咨询涵盖了51类社区,包括糖尿病、老年问题、疼痛管理等。2008-2020年。
  • 优点:
    规模大,覆盖的疾病多。
    MedDialog-EN的患者来自世界各地,具有不同的国籍、伦理、年龄、性别、职业、教育、收入等方面。

    在这里插入图片描述
  • 和其他数据集的对比。
    在这里插入图片描述
  • 数据集的优点。
    • 规模大。
    • 各种各样的病人。

方法

  1. 在中文医疗对话数据集上预训练了几种对话生成模型,包括Transformer,GPT,BERT-GPT,并比较了他们的性能。结果表明,用MedDialog训练的模型能够生成临床正确和类人的医学对话。我们还研究了在MedDialog上训练的模型对低资源医疗对话生成任务的可转移性。结果表明,通过对MedDialog预训练的模型进行迁移学习,可以大大提高小数据集下医疗对话生成任务的性能,如人工评估和自动评估所示。

    首先在比MedDialog更大规模的通用对话数据集上预训练Transformer和GPT。

实验

  1. 在中文数据集上的实验。

    8:1:1,以dialogue划分数据集,编码嵌入以汉字为单位,不做分词。

  2. 模型。

    • BERT-GPT:BERT和GPT都是12层Transformer,隐藏状态大小是768,SGD,输入序列最大长度是400,输出序列最大是100。

      在一个大规模的NLP中文语料库做预训练。nlp_chinese_corpus

    • GPT: DialoGPT-small,10层,embedding size=768,context size=300,多头注意力:12个head。Adam。

      在两个中文对话语料库上做预训练。chinese_chat_bot_corpus 500k-Chinese-Dialog

  3. 实验及结果。

    • 自动评估。三方面:机器翻译指标、多样性指标、困惑度。

    • BERT-GPT的perplexity更低。因为它在一个大规模中文语料库上做了预训练然后再在MedDialog上做微调。在机器翻译指标上评估结果低于Transformer。在多样性指标上,效果基本相同。

  4. 迁移到其他数据集。

    在MedDialog预训练后,在中文COVID-19Dialog上微调后的结果得到提升。

    • 模型评估
      • 自动评估。三方面:机器翻译指标、多样性指标、困惑度。
      • 人工评估。随机选择100个对话例子,让5名本科生和研究生从信息量、相关性和人类相似性方面对生成的回答进行评分。
    • 实验结果
      • 预训练后的Transformer自动评估指标全面提升。GPT和BERT-GPT相对不如。

成的回答进行评分。

  • 实验结果
    • 预训练后的Transformer自动评估指标全面提升。GPT和BERT-GPT相对不如。
举报

相关推荐

0 条评论