stacked-summaries/onlystacked-xsum-1024
收藏Hugging Face2023-10-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/stacked-summaries/onlystacked-xsum-1024
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个专门用于文本摘要和文本生成任务的资源,包含英语文本。数据集分为两个配置:deduped和default,每个配置都详细描述了训练、验证和测试集的文件路径和特征。数据集的特殊版本仅包含is_stacked=True的样本,适用于需要处理堆叠摘要的场景。
该数据集是一个专门用于文本摘要和文本生成任务的资源,包含英语文本。数据集分为两个配置:deduped和default,每个配置都详细描述了训练、验证和测试集的文件路径和特征。数据集的特殊版本仅包含is_stacked=True的样本,适用于需要处理堆叠摘要的场景。
提供机构:
stacked-summaries
原始信息汇总
数据集概述
基本信息
- 语言: 英语
- 许可证: Apache-2.0
- 大小范围: 100K<n<1M
- 源数据集: xsum
- 任务类别:
- 摘要生成
- 文本到文本生成
- 标签: 堆叠摘要
配置详情
-
配置名称: deduped
- 数据文件路径:
- 训练集: deduped/train-*
- 验证集: deduped/validation-*
- 测试集: deduped/test-*
- 特征:
- document: 字符串
- summary: 字符串
- id: int64
- chapter_length: int64
- summary_length: int64
- is_stacked: bool
- 分割详情:
- 训练集: 82575个样本, 307044969字节
- 验证集: 4674个样本, 17368941字节
- 测试集: 4593个样本, 17048516字节
- 下载大小: 219853891字节
- 数据集大小: 341462426字节
- 数据文件路径:
-
配置名称: default
- 数据文件路径:
- 训练集: data/train-*
- 验证集: data/validation-*
- 测试集: data/test-*
- 特征:
- document: 字符串
- summary: 字符串
- id: int64
- chapter_length: int64
- summary_length: int64
- is_stacked: bool
- 分割详情:
- 训练集: 116994个样本, 437045277字节
- 验证集: 6603个样本, 24723155字节
- 测试集: 6499个样本, 24228493字节
- 下载大小: 313190936字节
- 数据集大小: 485996925字节
- 数据文件路径:



