five

pszemraj/booksum-short

收藏
Hugging Face2023-02-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pszemraj/booksum-short
下载链接
链接失效反馈
官方服务:
资源简介:
--- source_datasets: kmfoda/booksum license: - bsd-3-clause train-eval-index: - config: pszemraj--booksum_short task: summarization task_id: summarization splits: eval_split: test col_mapping: chapter: text summary_text: target task_categories: - summarization - text2text-generation language: - en tags: - booksum - long-document size_categories: - 10K<n<100K --- --- # booksum short `BookSum` but all summaries with length greater than 512 `long-t5` tokens are filtered out. The columns `chapter_length` and `summary_length` **in this dataset** have been updated to reflect the total of Long-T5 tokens in the respective source text. ## Token Length Distribution for inputs ![distribution](https://i.imgur.com/Cv37odF.png)
提供机构:
pszemraj
原始信息汇总

数据集概述

基本信息

  • 数据集名称: booksum short
  • 来源数据集: kmfoda/booksum
  • 许可证: BSD-3-clause
  • 语言: 英语
  • 标签: booksum, long-document
  • 大小分类: 10K<n<100K

任务与配置

  • 任务类型:
    • 摘要生成
    • 文本到文本生成
  • 任务配置: pszemraj--booksum_short
  • 训练与评估索引:
    • 任务: 摘要生成
    • 任务ID: summarization
    • 评估分割: test
    • 列映射:
      • chapter: text
      • summary_text: target

数据集特性

  • 摘要长度过滤: 所有长度超过512个long-t5 tokens的摘要被过滤。
  • 列更新: chapter_lengthsummary_length 列已更新,以反映各自源文本中的Long-T5 token总数。

输入Token长度分布

distribution

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作