pszemraj/booksum-short

Name: pszemraj/booksum-short
Creator: pszemraj
Published: 2023-02-27 08:45:01
License: 暂无描述

Hugging Face2023-02-27 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/pszemraj/booksum-short

下载链接

链接失效反馈

官方服务：

资源简介：

--- source_datasets: kmfoda/booksum license: - bsd-3-clause train-eval-index: - config: pszemraj--booksum_short task: summarization task_id: summarization splits: eval_split: test col_mapping: chapter: text summary_text: target task_categories: - summarization - text2text-generation language: - en tags: - booksum - long-document size_categories: - 10K<n<100K --- --- # booksum short `BookSum` but all summaries with length greater than 512 `long-t5` tokens are filtered out. The columns `chapter_length` and `summary_length` **in this dataset** have been updated to reflect the total of Long-T5 tokens in the respective source text. ## Token Length Distribution for inputs ![distribution](https://i.imgur.com/Cv37odF.png)

提供机构：

pszemraj

原始信息汇总

数据集概述

基本信息

数据集名称: booksum short
来源数据集: kmfoda/booksum
许可证: BSD-3-clause
语言: 英语
标签: booksum, long-document
大小分类: 10K<n<100K

任务与配置

任务类型:
- 摘要生成
- 文本到文本生成
任务配置: pszemraj--booksum_short
训练与评估索引:
- 任务: 摘要生成
- 任务ID: summarization
- 评估分割: test
- 列映射:
  - chapter: text
  - summary_text: target

数据集特性

摘要长度过滤: 所有长度超过512个long-t5 tokens的摘要被过滤。
列更新: chapter_length 和 summary_length 列已更新，以反映各自源文本中的Long-T5 token总数。

输入Token长度分布

distribution

5,000+

优质数据集

54 个

任务类型

进入经典数据集