【LLM 评估】GLUE benchmark：NLU 的多任务 benchmark-CFANZ编程社区

文章目录

一、论文速读

GLUE benchmark 包含 9 个 NLU 任务来评估 NLP 模型的语义理解能力。这些任务均为 sentence or sentence-pair NLU tasks，语言均为英语。

二、GLUE 任务列表

下图是各个任务的一个统计：

在这里插入图片描述

2.1 CoLA（Corpus of Linguistic Acceptability）

单句子分类任务。每个 sentence 被标注为是否合乎语法的单词序列，是一个二分类任务。

样本个数：训练集 8551 个，开发集 1043 个，测试集 1063 个。

注意到，这里面的句子看起来不是很长，有些错误是性别不符，有些是缺词、少词，有些是加s不加s的情况，各种语法错误。但我也注意到，有一些看起来错误并没有那么严重，甚至在某些情况还是可以说的通的。

2.2 SST-2（The Stanford Sentiment Treebank）

单句子分类任务：给定一个 sentence（电影评论中的句子），预测其情感是 positive 还是 negative，是一个二分类任务。

样本个数：训练集 67350 个，开发集 873 个，测试集 1821 个。

注意到，由于句子来源于电影评论，又有它们情感的人类注释，不同于CoLA的整体偏短，有些句子很长，有些句子很短，长短并不整齐。

2.3 MRPC（The Microsoft Research Paraphrase Corpus）

相似性和释义任务：给定两个 sentence（来自于在线新闻），判断两个句子在语义上是否等效。

样本个数：训练集 3668 个，开发集 408 个，测试集 1725 个。

本任务的数据集，包含两句话，每个样本的句子长度都非常长，且数据不均衡，正样本占比 68%，负样本仅占 32%。

2.4 STSB（The Semantic Textual Similarity Benchmark）

相似性和释义任务。预测两个 sentence 的相似性得分，评分为 0~5 的一个 float。

样本个数：训练集 5749 个，开发集 1379 个，测试集 1377 个。

整体句子长度适中偏短，且均衡。

2.5 QQP（The Quora Question Pairs）

相似性和释义任务。预测两个 question 在语义上是否等效，是二分类任务。

样本个数：训练集 363,870 个，开发集 40,431 个，测试集 390,965 个。

任务类似于 MRPC，这个任务的正负样本也不均衡，负样本占 63%，正样本是 37%，而且这个训练集、测试集都非常大，这里的测试集比其他训练集都要多好几倍。

2.6 MNLI（The Multi-Genre Natural Language Inference Corpus）

自然语言推断任务。给定 premise 和 hypothesis 两个 sentence，预测两者关系：entailment or condradiction or neutral。

样本个数：训练集392, 702个，开发集dev-matched 9, 815个，开发集dev-mismatched9, 832个，测试集test-matched 9, 796个，测试集test-dismatched9, 847个。因为MNLI是集合了许多不同领域风格的文本，所以又分为了matched和mismatched两个版本的数据集，matched指的是训练集和测试集的数据来源一致，mismached指的是训练集和测试集来源不一致。

总体训练集很充足，GLUE 论文作者使用并推荐 SNLI 数据集作为辅助训练数据。