five

pszemraj/summary-souffle

收藏
Hugging Face2024-06-25 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/pszemraj/summary-souffle
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集主要用于摘要任务,包含两个配置:default和default-eduscore。每个配置都有train、validation和test三个分割。数据集的特征包括text、summary、subset等,default-eduscore配置还包含score和int_score特征。数据集包含多个子集如lay_plos、multi_news等,用于不同的摘要任务。
提供机构:
pszemraj
原始信息汇总

数据集概述

基本信息

  • 语言: 英语
  • 许可证: BSD-3-Clause
  • 任务类别: 摘要生成

配置信息

  • 默认配置

    • 数据文件:
      • 训练集: data/train-*
      • 验证集: data/validation-*
      • 测试集: data/test-*
    • 特征:
      • text: 字符串
      • summary: 字符串
      • subset: 字符串
    • 分割:
      • 训练集: 1664038656 字节, 54087 样本
      • 验证集: 127177446 字节, 4262 样本
      • 测试集: 127393855 字节, 4202 样本
    • 下载大小: 1013597564 字节
    • 数据集大小: 1918609957 字节
  • default-eduscore 配置

    • 数据文件:
      • 训练集: default-eduscore/train-*
      • 验证集: default-eduscore/validation-*
      • 测试集: default-eduscore/test-*
    • 特征:
      • text: 字符串
      • summary: 字符串
      • subset: 字符串
      • score: 浮点数
      • int_score: 整数
    • 分割:
      • 训练集: 1501305444 字节, 46816 样本
      • 验证集: 110155189 字节, 3573 样本
      • 测试集: 107312278 字节, 3424 样本
    • 下载大小: 897338076 字节
    • 数据集大小: 1718772911 字节

标签

  • sumstew
  • swag

训练集 token 统计

  • 总数: 402.69M tokens
  • 统计信息:
    • 样本数: 54087
    • 平均长度: 7445.31 tokens
    • 标准差: 3868.06 tokens
    • 最小长度: 263 tokens
    • 25% 分位数: 4180 tokens
    • 50% 分位数: 6935 tokens
    • 75% 分位数: 10327 tokens
    • 最大长度: 23926 tokens

子集分布

  • lay_plos: 20789
  • multi_news: 11708
  • big_patent: 4164
  • gov_report: 3514
  • summ_screen_fd: 3449
  • billsum: 2541
  • lay_elife: 2528
  • booksum: 2383
  • cnn_dailymail: 1705
  • stacksmol: 450
  • qmsum: 396
  • squality: 200
  • xlsum_en: 118
  • worldbank: 90
  • narrativeqa: 49
  • dialogsum: 3
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作