aps/super_glue|自然语言理解数据集|文本分类数据集

hugging_face2024-01-29 更新2024-05-25 收录

自然语言理解

文本分类

下载链接：

https://hf-mirror.com/datasets/aps/super_glue

下载链接

链接失效反馈

资源简介：

SuperGLUE是一个新的基准测试，模仿GLUE，但包含一组更困难的语言理解任务，改进了资源，并提供了一个新的公共排行榜。该数据集主要用于自然语言理解任务，包含多个子任务，如文本分类、词义消歧、问答系统等。数据集由专家生成，语言为英语，规模在10K到100K之间。

提供机构：

aps

原始信息汇总

数据集概述

数据集名称: SuperGLUE
别名: superglue
语言: 英语
许可证: 其他
多语言性: 单语
大小类别: 10K<n<100K
源数据集: 扩展自其他数据集
任务类别:

文本分类
令牌分类
问答
任务ID:
自然语言推理
词义消歧
指代消解
抽取式问答
论文代码ID: superglue
标签:
superglue
NLU
自然语言理解

数据集结构

数据实例

boolq
- 训练集: 9427个样本
- 验证集: 3270个样本
- 测试集: 3245个样本
- 特征:
  - question: 字符串
  - passage: 字符串
  - idx: 整数
  - label: 分类标签，包括False(0)和True(1)
cb
- 训练集: 250个样本
- 验证集: 56个样本
- 测试集: 250个样本
- 特征:
  - premise: 字符串
  - hypothesis: 字符串
  - idx: 整数
  - label: 分类标签，包括entailment(0), contradiction(1), neutral(2)
copa
- 训练集: 400个样本
- 验证集: 100个样本
- 测试集: 500个样本
- 特征:
  - premise: 字符串
  - choice1: 字符串
  - choice2: 字符串
  - question: 字符串
  - idx: 整数
  - label: 分类标签，包括choice1(0), choice2(1)
multirc
- 训练集: 27243个样本
- 验证集: 4848个样本
- 测试集: 9693个样本
- 特征:
  - paragraph: 字符串
  - question: 字符串
  - answer: 字符串
  - idx: 结构化，包括paragraph, question, answer
  - label: 分类标签，包括False(0)和True(1)
record
- 训练集: 100730个样本
- 验证集: 10000个样本
- 测试集: 10000个样本
- 特征:
  - passage: 字符串
  - query: 字符串
  - entities: 序列，字符串
  - entity_spans: 序列，包括text, start, end
  - answers: 序列，字符串
  - idx: 结构化，包括passage, query
rte
- 训练集: 2490个样本
- 验证集: 277个样本
- 测试集: 3000个样本
- 特征:
  - premise: 字符串
  - hypothesis: 字符串
  - idx: 整数
  - label: 分类标签，包括entailment(0), not_entailment(1)
wic
- 训练集: 5428个样本
- 验证集: 638个样本
- 测试集: 1400个样本
- 特征:
  - word: 字符串
  - sentence1: 字符串
  - sentence2: 字符串
  - start1: 整数
  - start2: 整数
  - end1: 整数
  - end2: 整数
  - idx: 整数
  - label: 分类标签，包括False(0)和True(1)
wsc
- 训练集: 554个样本
- 验证集: 104个样本
- 测试集: 146个样本
- 特征:
  - text: 字符串
  - span1_index: 整数
  - span2_index: 整数
  - span1_text: 字符串
  - span2_text: 字符串
  - idx: 整数
  - label: 分类标签，包括False(0)和True(1)
wsc.fixed
- 训练集: 554个样本
- 验证集: 104个样本
- 测试集: 146个样本
- 特征:
  - text: 字符串
  - span1_index: 整数
  - span2_index: 整数
  - span1_text: 字符串
  - span2_text: 字符串
  - idx: 整数
  - label: 分类标签，包括False(0)和True(1)
axb
- 测试集: 1104个样本
- 特征:
  - sentence1: 字符串
  - sentence2: 字符串
  - idx: 整数
  - label: 分类标签，包括entailment(0), not_entailment(1)
axg
- 测试集: 356个样本
- 特征:
  - premise: 字符串
  - hypothesis: 字符串
  - idx: 整数
  - label: 分类标签，包括entailment(0), not_entailment(1)

数据集创建

注释创建者: 专家生成
语言创建者: 其他
源数据: 扩展自其他数据集

许可证信息

数据集的许可证信息参考原始数据集的许可证，主要用于研究目的。

AI搜集汇总

数据集介绍

构建方式

SuperGLUE数据集的构建基于一系列复杂的自然语言理解任务，旨在提升模型的语言处理能力。该数据集由多个子任务组成，每个子任务都经过精心设计，以评估模型在不同语言理解任务中的表现。数据集的构建过程中，专家生成了高质量的标注，确保了数据集的准确性和可靠性。此外，数据集的来源多样，涵盖了从扩展数据集到其他来源的数据，进一步增强了其广泛性和代表性。

特点

SuperGLUE数据集的一个显著特点是其多样性和复杂性。该数据集包含了多种任务类型，如文本分类、词义消歧、共指消解和问答系统等，能够全面评估模型的语言理解能力。此外，数据集的规模适中，介于10K到100K样本之间，既保证了数据的丰富性，又便于模型训练和评估。数据集的标注质量高，由专家生成，确保了每个任务的准确性和一致性。

使用方法

使用SuperGLUE数据集时，用户可以根据具体需求选择不同的子任务进行模型训练和评估。每个子任务都有明确的输入输出格式和标签定义，便于模型集成和性能评估。用户可以通过HuggingFace的datasets库轻松加载和处理数据集，利用提供的特征字段进行数据预处理和模型训练。此外，数据集支持多种语言理解任务，用户可以根据研究目标选择合适的任务进行实验和分析。

背景与挑战

背景概述

SuperGLUE数据集是由Alex Wang等人于2019年创建的，旨在推动自然语言理解（NLU）领域的发展。该数据集基于GLUE基准，但引入了更具挑战性的任务，以评估和提升模型的语言理解能力。SuperGLUE的核心研究问题集中在自然语言推理、词义消歧、共指消解和问答系统等多个方面。其主要研究人员来自多个知名机构，如纽约大学和DeepMind，他们的工作对推动NLU领域的技术进步具有重要影响。

当前挑战

SuperGLUE数据集面临的挑战主要集中在任务的复杂性和多样性上。首先，数据集涵盖了多种自然语言处理任务，如文本分类、词性消歧和问答系统，这些任务对模型的语言理解能力提出了极高的要求。其次，构建过程中，研究人员需要确保数据的质量和多样性，以避免模型在特定类型的数据上过拟合。此外，数据集的标注过程依赖于专家生成，确保了数据的准确性，但也增加了数据集构建的复杂性和成本。

常用场景

经典使用场景

SuperGLUE数据集在自然语言理解（NLU）领域中被广泛用于评估和提升模型的语言推理能力。其经典使用场景包括自然语言推理（NLI）、词义消歧（WSD）、共指消解（Coreference Resolution）以及问答系统（QA）等任务。通过这些任务，研究者可以测试模型在处理复杂语言现象时的表现，从而推动自然语言处理技术的发展。

实际应用

在实际应用中，SuperGLUE数据集的成果被广泛应用于智能客服、自动文档摘要、信息检索系统等领域。例如，通过提升自然语言推理能力，智能客服系统能够更准确地理解用户意图，提供更精准的回答。此外，在法律文本分析和医疗诊断支持系统中，SuperGLUE的问答和推理技术也展现了巨大的应用潜力。

衍生相关工作

基于SuperGLUE数据集，研究者们开发了多种先进的自然语言处理模型，如BERT、RoBERTa等，这些模型在多个基准测试中取得了显著的成绩。此外，SuperGLUE还激发了大量关于模型鲁棒性、泛化能力以及对抗样本的研究，推动了自然语言处理领域的技术进步和理论深化。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

CHIRPS v2.0

CHIRPS v2.0是一个全球降水数据集，提供高分辨率的降水估计，结合了卫星观测和气象站数据。数据集覆盖全球，时间范围从1981年至今，空间分辨率为0.05度。

www.chc.ucsb.edu 收录

FROM-GLC全球30米地表覆盖数据集（2017）

该数据集中的数据获取自清华大学宫鹏团队。全球土地覆盖数据是了解人类活动与全球变化之间复杂互动关系的关键信息来源。FROM-GLC（更精细的全球土地覆盖观测和监测）是利用大地卫星专题成像仪（TM）和增强型专题成像仪（ETM+）数据制作的第一个30米分辨率的全球土地覆盖图。

国家对地观测科学数据中心收录

CIFAR-10

CIFAR-10 数据集由 10 个类别的 60000 个 32x32 彩色图像组成，每个类别包含 6000 个图像。有 50000 个训练图像和 10000 个测试图像。数据集分为五个训练批次和一个测试批次，每个批次有 10000 张图像。测试批次恰好包含来自每个类别的 1000 个随机选择的图像。训练批次包含随机顺序的剩余图像，但一些训练批次可能包含来自一个类的图像多于另一个。在它们之间，训练批次恰好包含来自每个类别的 5000 张图像。

OpenDataLab 收录