pszemraj/summary-souffle
收藏Hugging Face2024-06-25 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/pszemraj/summary-souffle
下载链接
链接失效反馈官方服务:
资源简介:
该数据集主要用于摘要任务,包含两个配置:default和default-eduscore。每个配置都有train、validation和test三个分割。数据集的特征包括text、summary、subset等,default-eduscore配置还包含score和int_score特征。数据集包含多个子集如lay_plos、multi_news等,用于不同的摘要任务。
提供机构:
pszemraj
原始信息汇总
数据集概述
基本信息
- 语言: 英语
- 许可证: BSD-3-Clause
- 任务类别: 摘要生成
配置信息
-
默认配置
- 数据文件:
- 训练集:
data/train-* - 验证集:
data/validation-* - 测试集:
data/test-*
- 训练集:
- 特征:
text: 字符串summary: 字符串subset: 字符串
- 分割:
- 训练集: 1664038656 字节, 54087 样本
- 验证集: 127177446 字节, 4262 样本
- 测试集: 127393855 字节, 4202 样本
- 下载大小: 1013597564 字节
- 数据集大小: 1918609957 字节
- 数据文件:
-
default-eduscore 配置
- 数据文件:
- 训练集:
default-eduscore/train-* - 验证集:
default-eduscore/validation-* - 测试集:
default-eduscore/test-*
- 训练集:
- 特征:
text: 字符串summary: 字符串subset: 字符串score: 浮点数int_score: 整数
- 分割:
- 训练集: 1501305444 字节, 46816 样本
- 验证集: 110155189 字节, 3573 样本
- 测试集: 107312278 字节, 3424 样本
- 下载大小: 897338076 字节
- 数据集大小: 1718772911 字节
- 数据文件:
标签
sumstewswag
训练集 token 统计
- 总数: 402.69M tokens
- 统计信息:
- 样本数: 54087
- 平均长度: 7445.31 tokens
- 标准差: 3868.06 tokens
- 最小长度: 263 tokens
- 25% 分位数: 4180 tokens
- 50% 分位数: 6935 tokens
- 75% 分位数: 10327 tokens
- 最大长度: 23926 tokens
子集分布
lay_plos: 20789multi_news: 11708big_patent: 4164gov_report: 3514summ_screen_fd: 3449billsum: 2541lay_elife: 2528booksum: 2383cnn_dailymail: 1705stacksmol: 450qmsum: 396squality: 200xlsum_en: 118worldbank: 90narrativeqa: 49dialogsum: 3



