GEM/wiki_cat_sum

Hugging Face2022-10-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/GEM/wiki_cat_sum

下载链接

链接失效反馈

官方服务：

资源简介：

WikiCatSum是一个用于摘要生成的英文数据集，涵盖了动物、公司和电影三个领域。数据集提供了多段文本及其对应的摘要。数据集的创建是自动化的，语言为英语，许可证为CC-BY-SA-3.0。数据集的主要任务是摘要生成，旨在研究多文档摘要生成的能力。数据集的结构包括ID、标题、段落和摘要等字段。数据集被分为训练集、验证集和测试集，分割标准是独立同分布（i.i.d.）。数据集的主要贡献是评估模型在噪声（文档，摘要）对和长输入上的性能，以及模型的泛化能力和偏差缓解能力。

提供机构：

GEM

原始信息汇总

数据集概述

数据集基本信息

名称: WikiCatSum
语言: 英语
许可证: cc-by-sa-3.0
任务类别: 摘要生成
数据来源: 原始数据
数据结构:
- id: 数据示例的ID
- title: Wikipedia文章的标题
- paragraphs: 从爬取文本集合中排序的段落列表
- summary: 由句子列表及其相应的主题标签组成

数据集详情

概述: WikiCatSum是一个英语摘要数据集，涵盖三个领域：动物、公司和电影。它提供与多个段落配对的文本摘要。
使用目的: 用于多文档抽象摘要的研究。
主要任务: 摘要生成
通信目标: 从一组相关文档中总结出电影、公司和动物领域中给定实体的最重要事实。
数据分割: 训练集、验证集和测试集的实例数分别为50,938、2,855和2,831。
分割标准: 数据均匀分割为训练、验证和测试集。

数据集维护与使用

维护计划: 无
技术限制: 未提及
版权限制: 数据集和语言数据均处于公共领域。

数据集的社会影响

社会偏见: 存在已记录的社会偏见
对未服务社区的影响: 未提及对未服务社区的影响
偏见分析: 基于Wikipedia的数据集可能存在偏见，相关分析可参考其他Wikipedia相关数据集的研究。

数据集的独特性和评估

独特性: 该数据集评估模型在噪声（文档，摘要）对和长输入上的性能，以及模型的一般化和偏差缓解能力。
评估指标: ROUGE, BERT-Score, MoverScore, 以及其他基于事实准确性的指标。
先前结果: 先前结果可用，主要评估模型的一般化能力、偏差缓解和事实准确性。

5,000+

优质数据集

54 个

任务类型

进入经典数据集