aps/super_glue|自然语言理解数据集|文本分类数据集
收藏数据集概述
数据集名称: SuperGLUE
别名: superglue
语言: 英语
许可证: 其他
多语言性: 单语
大小类别: 10K<n<100K
源数据集: 扩展自其他数据集
任务类别:
- 文本分类
- 令牌分类
- 问答
任务ID: - 自然语言推理
- 词义消歧
- 指代消解
- 抽取式问答
论文代码ID: superglue
标签: - superglue
- NLU
- 自然语言理解
数据集结构
数据实例
-
boolq
- 训练集: 9427个样本
- 验证集: 3270个样本
- 测试集: 3245个样本
- 特征:
question
: 字符串passage
: 字符串idx
: 整数label
: 分类标签,包括False
(0)和True
(1)
-
cb
- 训练集: 250个样本
- 验证集: 56个样本
- 测试集: 250个样本
- 特征:
premise
: 字符串hypothesis
: 字符串idx
: 整数label
: 分类标签,包括entailment
(0),contradiction
(1),neutral
(2)
-
copa
- 训练集: 400个样本
- 验证集: 100个样本
- 测试集: 500个样本
- 特征:
premise
: 字符串choice1
: 字符串choice2
: 字符串question
: 字符串idx
: 整数label
: 分类标签,包括choice1
(0),choice2
(1)
-
multirc
- 训练集: 27243个样本
- 验证集: 4848个样本
- 测试集: 9693个样本
- 特征:
paragraph
: 字符串question
: 字符串answer
: 字符串idx
: 结构化,包括paragraph
,question
,answer
label
: 分类标签,包括False
(0)和True
(1)
-
record
- 训练集: 100730个样本
- 验证集: 10000个样本
- 测试集: 10000个样本
- 特征:
passage
: 字符串query
: 字符串entities
: 序列,字符串entity_spans
: 序列,包括text
,start
,end
answers
: 序列,字符串idx
: 结构化,包括passage
,query
-
rte
- 训练集: 2490个样本
- 验证集: 277个样本
- 测试集: 3000个样本
- 特征:
premise
: 字符串hypothesis
: 字符串idx
: 整数label
: 分类标签,包括entailment
(0),not_entailment
(1)
-
wic
- 训练集: 5428个样本
- 验证集: 638个样本
- 测试集: 1400个样本
- 特征:
word
: 字符串sentence1
: 字符串sentence2
: 字符串start1
: 整数start2
: 整数end1
: 整数end2
: 整数idx
: 整数label
: 分类标签,包括False
(0)和True
(1)
-
wsc
- 训练集: 554个样本
- 验证集: 104个样本
- 测试集: 146个样本
- 特征:
text
: 字符串span1_index
: 整数span2_index
: 整数span1_text
: 字符串span2_text
: 字符串idx
: 整数label
: 分类标签,包括False
(0)和True
(1)
-
wsc.fixed
- 训练集: 554个样本
- 验证集: 104个样本
- 测试集: 146个样本
- 特征:
text
: 字符串span1_index
: 整数span2_index
: 整数span1_text
: 字符串span2_text
: 字符串idx
: 整数label
: 分类标签,包括False
(0)和True
(1)
-
axb
- 测试集: 1104个样本
- 特征:
sentence1
: 字符串sentence2
: 字符串idx
: 整数label
: 分类标签,包括entailment
(0),not_entailment
(1)
-
axg
- 测试集: 356个样本
- 特征:
premise
: 字符串hypothesis
: 字符串idx
: 整数label
: 分类标签,包括entailment
(0),not_entailment
(1)
数据集创建
注释创建者: 专家生成
语言创建者: 其他
源数据: 扩展自其他数据集
许可证信息
数据集的许可证信息参考原始数据集的许可证,主要用于研究目的。

Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
CHIRPS v2.0
CHIRPS v2.0是一个全球降水数据集,提供高分辨率的降水估计,结合了卫星观测和气象站数据。数据集覆盖全球,时间范围从1981年至今,空间分辨率为0.05度。
www.chc.ucsb.edu 收录
FROM-GLC全球30米地表覆盖数据集(2017)
该数据集中的数据获取自清华大学宫鹏团队。全球土地覆盖数据是了解人类活动与全球变化之间复杂互动关系的关键信息来源。FROM-GLC(更精细的全球土地覆盖观测和监测)是利用大地卫星专题成像仪(TM)和增强型专题成像仪(ETM+)数据制作的第一个30米分辨率的全球土地覆盖图。
国家对地观测科学数据中心 收录
CIFAR-10
CIFAR-10 数据集由 10 个类别的 60000 个 32x32 彩色图像组成,每个类别包含 6000 个图像。有 50000 个训练图像和 10000 个测试图像。 数据集分为五个训练批次和一个测试批次,每个批次有 10000 张图像。测试批次恰好包含来自每个类别的 1000 个随机选择的图像。训练批次包含随机顺序的剩余图像,但一些训练批次可能包含来自一个类的图像多于另一个。在它们之间,训练批次恰好包含来自每个类别的 5000 张图像。
OpenDataLab 收录