aps/super_glue

Hugging Face2024-01-29 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/aps/super_glue

下载链接

链接失效反馈

官方服务：

资源简介：

SuperGLUE是一个新的基准测试，模仿GLUE，但包含一组更困难的语言理解任务，改进了资源，并提供了一个新的公共排行榜。该数据集主要用于自然语言理解任务，包含多个子任务，如文本分类、词义消歧、问答系统等。数据集由专家生成，语言为英语，规模在10K到100K之间。

SuperGLUE is a novel benchmark modeled after GLUE, boasting a more challenging suite of language understanding tasks, enhanced resources, and a new public leaderboard. This dataset is primarily designed for natural language understanding tasks, encompassing multiple subtasks including text classification, word sense disambiguation, question answering, and more. Developed by domain experts, the dataset uses English as its working language, with a scale ranging from 10K to 100K.

提供机构：

aps

原始信息汇总

数据集概述

数据集名称: SuperGLUE
别名: superglue
语言: 英语
许可证: 其他
多语言性: 单语
大小类别: 10K<n<100K
源数据集: 扩展自其他数据集
任务类别:

文本分类
令牌分类
问答
任务ID:
自然语言推理
词义消歧
指代消解
抽取式问答
论文代码ID: superglue
标签:
superglue
NLU
自然语言理解

数据集结构

数据实例

boolq
- 训练集: 9427个样本
- 验证集: 3270个样本
- 测试集: 3245个样本
- 特征:
  - question: 字符串
  - passage: 字符串
  - idx: 整数
  - label: 分类标签，包括False(0)和True(1)
cb
- 训练集: 250个样本
- 验证集: 56个样本
- 测试集: 250个样本
- 特征:
  - premise: 字符串
  - hypothesis: 字符串
  - idx: 整数
  - label: 分类标签，包括entailment(0), contradiction(1), neutral(2)
copa
- 训练集: 400个样本
- 验证集: 100个样本
- 测试集: 500个样本
- 特征:
  - premise: 字符串
  - choice1: 字符串
  - choice2: 字符串
  - question: 字符串
  - idx: 整数
  - label: 分类标签，包括choice1(0), choice2(1)
multirc
- 训练集: 27243个样本
- 验证集: 4848个样本
- 测试集: 9693个样本
- 特征:
  - paragraph: 字符串
  - question: 字符串
  - answer: 字符串
  - idx: 结构化，包括paragraph, question, answer
  - label: 分类标签，包括False(0)和True(1)
record
- 训练集: 100730个样本
- 验证集: 10000个样本
- 测试集: 10000个样本
- 特征:
  - passage: 字符串
  - query: 字符串
  - entities: 序列，字符串
  - entity_spans: 序列，包括text, start, end
  - answers: 序列，字符串
  - idx: 结构化，包括passage, query
rte
- 训练集: 2490个样本
- 验证集: 277个样本
- 测试集: 3000个样本
- 特征:
  - premise: 字符串
  - hypothesis: 字符串
  - idx: 整数
  - label: 分类标签，包括entailment(0), not_entailment(1)
wic
- 训练集: 5428个样本
- 验证集: 638个样本
- 测试集: 1400个样本
- 特征:
  - word: 字符串
  - sentence1: 字符串
  - sentence2: 字符串
  - start1: 整数
  - start2: 整数
  - end1: 整数
  - end2: 整数
  - idx: 整数
  - label: 分类标签，包括False(0)和True(1)
wsc
- 训练集: 554个样本
- 验证集: 104个样本
- 测试集: 146个样本
- 特征:
  - text: 字符串
  - span1_index: 整数
  - span2_index: 整数
  - span1_text: 字符串
  - span2_text: 字符串
  - idx: 整数
  - label: 分类标签，包括False(0)和True(1)
wsc.fixed
- 训练集: 554个样本
- 验证集: 104个样本
- 测试集: 146个样本
- 特征:
  - text: 字符串
  - span1_index: 整数
  - span2_index: 整数
  - span1_text: 字符串
  - span2_text: 字符串
  - idx: 整数
  - label: 分类标签，包括False(0)和True(1)
axb
- 测试集: 1104个样本
- 特征:
  - sentence1: 字符串
  - sentence2: 字符串
  - idx: 整数
  - label: 分类标签，包括entailment(0), not_entailment(1)
axg
- 测试集: 356个样本
- 特征:
  - premise: 字符串
  - hypothesis: 字符串
  - idx: 整数
  - label: 分类标签，包括entailment(0), not_entailment(1)

数据集创建

注释创建者: 专家生成
语言创建者: 其他
源数据: 扩展自其他数据集

许可证信息

数据集的许可证信息参考原始数据集的许可证，主要用于研究目的。

搜集汇总

数据集介绍

构建方式

SuperGLUE数据集的构建基于一系列复杂的自然语言理解任务，旨在提升模型的语言处理能力。该数据集由多个子任务组成，每个子任务都经过精心设计，以评估模型在不同语言理解任务中的表现。数据集的构建过程中，专家生成了高质量的标注，确保了数据集的准确性和可靠性。此外，数据集的来源多样，涵盖了从扩展数据集到其他来源的数据，进一步增强了其广泛性和代表性。

特点

SuperGLUE数据集的一个显著特点是其多样性和复杂性。该数据集包含了多种任务类型，如文本分类、词义消歧、共指消解和问答系统等，能够全面评估模型的语言理解能力。此外，数据集的规模适中，介于10K到100K样本之间，既保证了数据的丰富性，又便于模型训练和评估。数据集的标注质量高，由专家生成，确保了每个任务的准确性和一致性。

使用方法

使用SuperGLUE数据集时，用户可以根据具体需求选择不同的子任务进行模型训练和评估。每个子任务都有明确的输入输出格式和标签定义，便于模型集成和性能评估。用户可以通过HuggingFace的datasets库轻松加载和处理数据集，利用提供的特征字段进行数据预处理和模型训练。此外，数据集支持多种语言理解任务，用户可以根据研究目标选择合适的任务进行实验和分析。

背景与挑战

背景概述

SuperGLUE数据集是由Alex Wang等人于2019年创建的，旨在推动自然语言理解（NLU）领域的发展。该数据集基于GLUE基准，但引入了更具挑战性的任务，以评估和提升模型的语言理解能力。SuperGLUE的核心研究问题集中在自然语言推理、词义消歧、共指消解和问答系统等多个方面。其主要研究人员来自多个知名机构，如纽约大学和DeepMind，他们的工作对推动NLU领域的技术进步具有重要影响。

当前挑战

SuperGLUE数据集面临的挑战主要集中在任务的复杂性和多样性上。首先，数据集涵盖了多种自然语言处理任务，如文本分类、词性消歧和问答系统，这些任务对模型的语言理解能力提出了极高的要求。其次，构建过程中，研究人员需要确保数据的质量和多样性，以避免模型在特定类型的数据上过拟合。此外，数据集的标注过程依赖于专家生成，确保了数据的准确性，但也增加了数据集构建的复杂性和成本。

常用场景

经典使用场景

SuperGLUE数据集在自然语言理解（NLU）领域中被广泛用于评估和提升模型的语言推理能力。其经典使用场景包括自然语言推理（NLI）、词义消歧（WSD）、共指消解（Coreference Resolution）以及问答系统（QA）等任务。通过这些任务，研究者可以测试模型在处理复杂语言现象时的表现，从而推动自然语言处理技术的发展。

实际应用

在实际应用中，SuperGLUE数据集的成果被广泛应用于智能客服、自动文档摘要、信息检索系统等领域。例如，通过提升自然语言推理能力，智能客服系统能够更准确地理解用户意图，提供更精准的回答。此外，在法律文本分析和医疗诊断支持系统中，SuperGLUE的问答和推理技术也展现了巨大的应用潜力。

衍生相关工作

基于SuperGLUE数据集，研究者们开发了多种先进的自然语言处理模型，如BERT、RoBERTa等，这些模型在多个基准测试中取得了显著的成绩。此外，SuperGLUE还激发了大量关于模型鲁棒性、泛化能力以及对抗样本的研究，推动了自然语言处理领域的技术进步和理论深化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集