five

stacked-summaries/onlystacked-xsum-1024

收藏
Hugging Face2023-10-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/stacked-summaries/onlystacked-xsum-1024
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个专门用于文本摘要和文本生成任务的资源,包含英语文本。数据集分为两个配置:deduped和default,每个配置都详细描述了训练、验证和测试集的文件路径和特征。数据集的特殊版本仅包含is_stacked=True的样本,适用于需要处理堆叠摘要的场景。

该数据集是一个专门用于文本摘要和文本生成任务的资源,包含英语文本。数据集分为两个配置:deduped和default,每个配置都详细描述了训练、验证和测试集的文件路径和特征。数据集的特殊版本仅包含is_stacked=True的样本,适用于需要处理堆叠摘要的场景。
提供机构:
stacked-summaries
原始信息汇总

数据集概述

基本信息

  • 语言: 英语
  • 许可证: Apache-2.0
  • 大小范围: 100K<n<1M
  • 源数据集: xsum
  • 任务类别:
    • 摘要生成
    • 文本到文本生成
  • 标签: 堆叠摘要

配置详情

  • 配置名称: deduped

    • 数据文件路径:
      • 训练集: deduped/train-*
      • 验证集: deduped/validation-*
      • 测试集: deduped/test-*
    • 特征:
      • document: 字符串
      • summary: 字符串
      • id: int64
      • chapter_length: int64
      • summary_length: int64
      • is_stacked: bool
    • 分割详情:
      • 训练集: 82575个样本, 307044969字节
      • 验证集: 4674个样本, 17368941字节
      • 测试集: 4593个样本, 17048516字节
      • 下载大小: 219853891字节
      • 数据集大小: 341462426字节
  • 配置名称: default

    • 数据文件路径:
      • 训练集: data/train-*
      • 验证集: data/validation-*
      • 测试集: data/test-*
    • 特征:
      • document: 字符串
      • summary: 字符串
      • id: int64
      • chapter_length: int64
      • summary_length: int64
      • is_stacked: bool
    • 分割详情:
      • 训练集: 116994个样本, 437045277字节
      • 验证集: 6603个样本, 24723155字节
      • 测试集: 6499个样本, 24228493字节
      • 下载大小: 313190936字节
      • 数据集大小: 485996925字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作