文章目录
- 一、论文速读
- 二、GLUE 任务列表
- 2.1 CoLA(Corpus of Linguistic Acceptability)
- 2.2 SST-2(The Stanford Sentiment Treebank)
- 2.3 MRPC(The Microsoft Research Paraphrase Corpus)
- 2.4 STSB(The Semantic Textual Similarity Benchmark)
- 2.5 QQP(The Quora Question Pairs)
- 2.6 MNLI(The Multi-Genre Natural Language Inference Corpus)
- 2.7 QNLI(Qusetion-answering NLI)
- 2.8 RTE(The Recognizing Textual Entailment datasets)
- 2.9 WNLI(Winograd NLI)
一、论文速读
GLUE benchmark 包含 9 个 NLU 任务来评估 NLP 模型的语义理解能力。这些任务均为 sentence or sentence-pair NLU tasks,语言均为英语。
二、GLUE 任务列表
下图是各个任务的一个统计:
2.1 CoLA(Corpus of Linguistic Acceptability)
单句子分类任务。每个 sentence 被标注为是否合乎语法的单词序列,是一个二分类任务。
样本个数:训练集 8551 个,开发集 1043 个,测试集 1063 个。
注意到,这里面的句子看起来不是很长,有些错误是性别不符,有些是缺词、少词,有些是加s不加s的情况,各种语法错误。但我也注意到,有一些看起来错误并没有那么严重,甚至在某些情况还是可以说的通的。
2.2 SST-2(The Stanford Sentiment Treebank)
单句子分类任务:给定一个 sentence(电影评论中的句子),预测其情感是 positive 还是 negative,是一个二分类任务。
样本个数:训练集 67350 个,开发集 873 个,测试集 1821 个。
注意到,由于句子来源于电影评论,又有它们情感的人类注释,不同于CoLA的整体偏短,有些句子很长,有些句子很短,长短并不整齐。
2.3 MRPC(The Microsoft Research Paraphrase Corpus)
相似性和释义任务:给定两个 sentence(来自于在线新闻),判断两个句子在语义上是否等效。
样本个数:训练集 3668 个,开发集 408 个,测试集 1725 个。
本任务的数据集,包含两句话,每个样本的句子长度都非常长,且数据不均衡,正样本占比 68%,负样本仅占 32%。
2.4 STSB(The Semantic Textual Similarity Benchmark)
相似性和释义任务。预测两个 sentence 的相似性得分,评分为 0~5 的一个 float。
样本个数:训练集 5749 个,开发集 1379 个,测试集 1377 个。
整体句子长度适中偏短,且均衡。
2.5 QQP(The Quora Question Pairs)
相似性和释义任务。预测两个 question 在语义上是否等效,是二分类任务。
样本个数:训练集 363,870 个,开发集 40,431 个,测试集 390,965 个。
任务类似于 MRPC,这个任务的正负样本也不均衡,负样本占 63%,正样本是 37%,而且这个训练集、测试集都非常大,这里的测试集比其他训练集都要多好几倍。
2.6 MNLI(The Multi-Genre Natural Language Inference Corpus)
自然语言推断任务。给定 premise 和 hypothesis 两个 sentence,预测两者关系:entailment or condradiction or neutral。
样本个数:训练集392, 702个,开发集dev-matched 9, 815个,开发集dev-mismatched9, 832个,测试集test-matched 9, 796个,测试集test-dismatched9, 847个。因为MNLI是集合了许多不同领域风格的文本,所以又分为了matched和mismatched两个版本的数据集,matched指的是训练集和测试集的数据来源一致,mismached指的是训练集和测试集来源不一致。
总体训练集很充足,GLUE 论文作者使用并推荐 SNLI 数据集作为辅助训练数据。
2.7 QNLI(Qusetion-answering NLI)
自然语言推断任务。给定一个 question 和来自 Wikipedia 的 sentence,判断两者关系:蕴含 or 不蕴含。
数据是从 SQuAD 1.0(The Stanford Question Answering Dataset)中转换而来。
样本个数:训练集104, 743个,开发集5, 463个,测试集5, 461个。
总体就是问答句子组成的问答对,一个是问题,一个是句子信息,后者包含前者的答案就是蕴含,不包含就是不蕴含,是一个二分类。
2.8 RTE(The Recognizing Textual Entailment datasets)
自然语言推断任务。判断两个 sentence 是否互为蕴含,二分类任务。
数据来源于一系列的年度文本蕴含挑战赛。
样本个数:训练集2, 491个,开发集277个,测试集3, 000个。
2.9 WNLI(Winograd NLI)
自然语言推断任务。预测两个句子对是否有关(蕴含、不蕴含),二分类任务。
数据来源于指代消解比赛。训练集两个类别是均衡的,测试集是不均衡的,65% 是不蕴含。
样本个数:训练集635个,开发集71个,测试集146个。
这个数据集是数量最少,训练集600多个,测试集才100多个。同时目前GLUE上这个数据集还有些问题。