stacked-summaries/stacked-samsum-1024
收藏Hugging Face2023-05-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/stacked-summaries/stacked-samsum-1024
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Stacked Samsum - 1024,基于samsum数据集创建,主要用于摘要生成任务。数据集通过堆叠行处理,输入和输出序列的最大长度均为1024个标记,使用longt5模型的分词器。数据集中使用了`[NEXT_CONCEPT]`特殊标记来指示同一摘要中的新主题。数据集包含原始数据集的副本和经过堆叠处理的行,处理过程中最大输入和输出长度均为1024个标记。数据集的统计信息显示,默认版本有14732行,堆叠版本有29442行,提供了详细的字符和标记的平均长度等信息。
提供机构:
stacked-summaries
原始信息汇总
数据集概述
基本信息
- 许可证: Apache-2.0
- 源数据集: Samsum
- 任务类别: 摘要生成
- 语言: 英语
- 标签: 堆叠摘要
- 美观名称: Stacked Samsum - 1024
- 大小类别: 10K<n<100K
数据集内容
- 创建版本: 使用
stacked-booksum仓库的 v0.25 版本创建 - 包含内容:
- 原始数据集: 基础数据集的副本
- 堆叠行: 原始数据集通过特定标准处理,包括:
- 最大输入长度: 1024 个长t5模型标记
- 最大输出长度: 1024 个长t5模型标记
- 特殊标记: 使用
[NEXT_CONCEPT]标记来指示同一摘要内的新主题
数据集统计
-
默认(训练集):
- 行数: 14732
- 目标唯一性: 14730
- 文本唯一性: 14265
- 摘要平均字符数: 110.13
- 摘要平均标记数: 28.69
- 文本输入平均字符数: 511.22
- 文本输入平均标记数: 148.89
-
堆叠(训练集):
- 行数: 29442
- 章节唯一性: 28975
- 摘要唯一性: 29441
- 摘要平均字符数: 452.8
- 摘要平均标记数: 106.47
- 文本输入平均字符数: 1814.09
- 文本输入平均标记数: 528.67



