MedDialog: Large-scale Medical Dialogue Datasets

数据集

会议：EMNLP2020

任务：医疗对话生成

动机：现有的医疗对话数据集规模太小，涵盖范围不够广，或偏向某种确定的疾病。

贡献：

数据集介绍

中文数据集覆盖了172种疾病。每个对话以对医疗状况和病史的描述（包括疾病现状、病程、过敏症、药物治疗、既往疾病）开始，然后进行医患对话，最后医生提出诊断和治疗意见。
英文数据集覆盖了96种疾病。每个对话包括两部分，第一部分是对病情的描述，第二部分是多轮对话。这些咨询涵盖了51类社区，包括糖尿病、老年问题、疼痛管理等。2008-2020年。
优点：
规模大，覆盖的疾病多。
MedDialog-EN的患者来自世界各地，具有不同的国籍、伦理、年龄、性别、职业、教育、收入等方面。
和其他数据集的对比。
数据集的优点。
- 规模大。
- 各种各样的病人。

在中文医疗对话数据集上预训练了几种对话生成模型，包括Transformer，GPT，BERT-GPT，并比较了他们的性能。结果表明，用MedDialog训练的模型能够生成临床正确和类人的医学对话。我们还研究了在MedDialog上训练的模型对低资源医疗对话生成任务的可转移性。结果表明，通过对MedDialog预训练的模型进行迁移学习，可以大大提高小数据集下医疗对话生成任务的性能，如人工评估和自动评估所示。

首先在比MedDialog更大规模的通用对话数据集上预训练Transformer和GPT。

在中文数据集上的实验。

8:1:1，以dialogue划分数据集，编码嵌入以汉字为单位，不做分词。
模型。
- BERT-GPT：BERT和GPT都是12层Transformer，隐藏状态大小是768，SGD，输入序列最大长度是400，输出序列最大是100。
  
  在一个大规模的NLP中文语料库做预训练。nlp_chinese_corpus
- GPT： DialoGPT-small，10层，embedding size=768，context size=300，多头注意力：12个head。Adam。
  
  在两个中文对话语料库上做预训练。chinese_chat_bot_corpus 500k-Chinese-Dialog
实验及结果。
- 自动评估。三方面：机器翻译指标、多样性指标、困惑度。
- BERT-GPT的perplexity更低。因为它在一个大规模中文语料库上做了预训练然后再在MedDialog上做微调。在机器翻译指标上评估结果低于Transformer。在多样性指标上，效果基本相同。
迁移到其他数据集。

在MedDialog预训练后，在中文COVID-19Dialog上微调后的结果得到提升。
- 模型评估
  - 自动评估。三方面：机器翻译指标、多样性指标、困惑度。
  - 人工评估。随机选择100个对话例子，让5名本科生和研究生从信息量、相关性和人类相似性方面对生成的回答进行评分。
- 实验结果
  - 预训练后的Transformer自动评估指标全面提升。GPT和BERT-GPT相对不如。