0
点赞
收藏
分享

微信扫一扫

【LLM 评估】GLUE benchmark:NLU 的多任务 benchmark

文章目录

一、论文速读

GLUE benchmark 包含 9 个 NLU 任务来评估 NLP 模型的语义理解能力。这些任务均为 sentence or sentence-pair NLU tasks,语言均为英语。

二、GLUE 任务列表

下图是各个任务的一个统计:

在这里插入图片描述

2.1 CoLA(Corpus of Linguistic Acceptability)

单句子分类任务。每个 sentence 被标注为是否合乎语法的单词序列,是一个二分类任务。

样本个数:训练集 8551 个,开发集 1043 个,测试集 1063 个。

注意到,这里面的句子看起来不是很长,有些错误是性别不符,有些是缺词、少词,有些是加s不加s的情况,各种语法错误。但我也注意到,有一些看起来错误并没有那么严重,甚至在某些情况还是可以说的通的。

2.2 SST-2(The Stanford Sentiment Treebank)

单句子分类任务:给定一个 sentence(电影评论中的句子),预测其情感是 positive 还是 negative,是一个二分类任务。

样本个数:训练集 67350 个,开发集 873 个,测试集 1821 个。

注意到,由于句子来源于电影评论,又有它们情感的人类注释,不同于CoLA的整体偏短,有些句子很长,有些句子很短,长短并不整齐。

2.3 MRPC(The Microsoft Research Paraphrase Corpus)

相似性和释义任务:给定两个 sentence(来自于在线新闻),判断两个句子在语义上是否等效。

样本个数:训练集 3668 个,开发集 408 个,测试集 1725 个。

本任务的数据集,包含两句话,每个样本的句子长度都非常长,且数据不均衡,正样本占比 68%,负样本仅占 32%。

2.4 STSB(The Semantic Textual Similarity Benchmark)

相似性和释义任务。预测两个 sentence 的相似性得分,评分为 0~5 的一个 float。

样本个数:训练集 5749 个,开发集 1379 个,测试集 1377 个。

整体句子长度适中偏短,且均衡。

2.5 QQP(The Quora Question Pairs)

相似性和释义任务。预测两个 question 在语义上是否等效,是二分类任务。

样本个数:训练集 363,870 个,开发集 40,431 个,测试集 390,965 个。

任务类似于 MRPC,这个任务的正负样本也不均衡,负样本占 63%,正样本是 37%,而且这个训练集、测试集都非常大,这里的测试集比其他训练集都要多好几倍。

2.6 MNLI(The Multi-Genre Natural Language Inference Corpus)

自然语言推断任务。给定 premise 和 hypothesis 两个 sentence,预测两者关系:entailment or condradiction or neutral。

样本个数:训练集392, 702个,开发集dev-matched 9, 815个,开发集dev-mismatched9, 832个,测试集test-matched 9, 796个,测试集test-dismatched9, 847个。因为MNLI是集合了许多不同领域风格的文本,所以又分为了matched和mismatched两个版本的数据集,matched指的是训练集和测试集的数据来源一致,mismached指的是训练集和测试集来源不一致。

总体训练集很充足,GLUE 论文作者使用并推荐 SNLI 数据集作为辅助训练数据。

2.7 QNLI(Qusetion-answering NLI)

自然语言推断任务。给定一个 question 和来自 Wikipedia 的 sentence,判断两者关系:蕴含 or 不蕴含。

数据是从 SQuAD 1.0(The Stanford Question Answering Dataset)中转换而来。

样本个数:训练集104, 743个,开发集5, 463个,测试集5, 461个。

总体就是问答句子组成的问答对,一个是问题,一个是句子信息,后者包含前者的答案就是蕴含,不包含就是不蕴含,是一个二分类。

2.8 RTE(The Recognizing Textual Entailment datasets)

自然语言推断任务。判断两个 sentence 是否互为蕴含,二分类任务。

数据来源于一系列的年度文本蕴含挑战赛。

样本个数:训练集2, 491个,开发集277个,测试集3, 000个。

2.9 WNLI(Winograd NLI)

自然语言推断任务。预测两个句子对是否有关(蕴含、不蕴含),二分类任务。

数据来源于指代消解比赛。训练集两个类别是均衡的,测试集是不均衡的,65% 是不蕴含。

样本个数:训练集635个,开发集71个,测试集146个。

这个数据集是数量最少,训练集600多个,测试集才100多个。同时目前GLUE上这个数据集还有些问题。

举报

相关推荐

0 条评论