pszemraj/govreport-summarization-8192
收藏Hugging Face2023-04-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pszemraj/govreport-summarization-8192
下载链接
链接失效反馈官方服务:
资源简介:
GovReport Summarization - 8192 tokens数据集是一个用于摘要生成任务的英语数据集,包含8200条记录。每条记录包括报告、摘要、输入令牌长度和摘要令牌长度四个字段。数据集来源于ccdv/govreport-summarization,并进行了数据清理和令牌长度计算。数据集的大小类别为1K<n<10K,许可证为Apache-2.0,标签包括govreport和long document。
提供机构:
pszemraj
原始信息汇总
数据集概述
基本信息
- 任务类别:摘要生成
- 语言:英语
- 数据集名称:GovReport Summarization - 8192 tokens
- 大小类别:1K<n<10K
- 来源数据集:ccdv/govreport-summarization
- 许可证:Apache-2.0
- 标签:govreport, long document
数据处理
- 数据清洗使用clean-text python package进行。
- 根据
long-t5分词器,计算并添加了每个列的总令牌数,此操作在清洗后进行。
训练数据信息
- 条目数:8200
- 列信息:
- 报告(report):8200非空,类型为字符串
- 摘要(summary):8200非空,类型为字符串
- 输入令牌长度(input_token_len):8200非空,类型为Int64
- 摘要令牌长度(summary_token_len):8200非空,类型为Int64
- 数据类型:2个Int64类型,2个字符串类型
- 内存使用:272.4 KB



