five

stacked-summaries/stacked-samsum-1024

收藏
Hugging Face2023-05-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/stacked-summaries/stacked-samsum-1024
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Stacked Samsum - 1024,基于samsum数据集创建,主要用于摘要生成任务。数据集通过堆叠行处理,输入和输出序列的最大长度均为1024个标记,使用longt5模型的分词器。数据集中使用了`[NEXT_CONCEPT]`特殊标记来指示同一摘要中的新主题。数据集包含原始数据集的副本和经过堆叠处理的行,处理过程中最大输入和输出长度均为1024个标记。数据集的统计信息显示,默认版本有14732行,堆叠版本有29442行,提供了详细的字符和标记的平均长度等信息。
提供机构:
stacked-summaries
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache-2.0
  • 源数据集: Samsum
  • 任务类别: 摘要生成
  • 语言: 英语
  • 标签: 堆叠摘要
  • 美观名称: Stacked Samsum - 1024
  • 大小类别: 10K<n<100K

数据集内容

  • 创建版本: 使用 stacked-booksum 仓库的 v0.25 版本创建
  • 包含内容:
    1. 原始数据集: 基础数据集的副本
    2. 堆叠行: 原始数据集通过特定标准处理,包括:
      • 最大输入长度: 1024 个长t5模型标记
      • 最大输出长度: 1024 个长t5模型标记
    3. 特殊标记: 使用 [NEXT_CONCEPT] 标记来指示同一摘要内的新主题

数据集统计

  • 默认(训练集):

    • 行数: 14732
    • 目标唯一性: 14730
    • 文本唯一性: 14265
    • 摘要平均字符数: 110.13
    • 摘要平均标记数: 28.69
    • 文本输入平均字符数: 511.22
    • 文本输入平均标记数: 148.89
  • 堆叠(训练集):

    • 行数: 29442
    • 章节唯一性: 28975
    • 摘要唯一性: 29441
    • 摘要平均字符数: 452.8
    • 摘要平均标记数: 106.47
    • 文本输入平均字符数: 1814.09
    • 文本输入平均标记数: 528.67
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作