GEM/wiki_cat_sum
收藏Hugging Face2022-10-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/GEM/wiki_cat_sum
下载链接
链接失效反馈官方服务:
资源简介:
WikiCatSum是一个用于摘要生成的英文数据集,涵盖了动物、公司和电影三个领域。数据集提供了多段文本及其对应的摘要。数据集的创建是自动化的,语言为英语,许可证为CC-BY-SA-3.0。数据集的主要任务是摘要生成,旨在研究多文档摘要生成的能力。数据集的结构包括ID、标题、段落和摘要等字段。数据集被分为训练集、验证集和测试集,分割标准是独立同分布(i.i.d.)。数据集的主要贡献是评估模型在噪声(文档,摘要)对和长输入上的性能,以及模型的泛化能力和偏差缓解能力。
提供机构:
GEM
原始信息汇总
数据集概述
数据集基本信息
- 名称: WikiCatSum
- 语言: 英语
- 许可证: cc-by-sa-3.0
- 任务类别: 摘要生成
- 数据来源: 原始数据
- 数据结构:
id: 数据示例的IDtitle: Wikipedia文章的标题paragraphs: 从爬取文本集合中排序的段落列表summary: 由句子列表及其相应的主题标签组成
数据集详情
- 概述: WikiCatSum是一个英语摘要数据集,涵盖三个领域:动物、公司和电影。它提供与多个段落配对的文本摘要。
- 使用目的: 用于多文档抽象摘要的研究。
- 主要任务: 摘要生成
- 通信目标: 从一组相关文档中总结出电影、公司和动物领域中给定实体的最重要事实。
- 数据分割: 训练集、验证集和测试集的实例数分别为50,938、2,855和2,831。
- 分割标准: 数据均匀分割为训练、验证和测试集。
数据集维护与使用
- 维护计划: 无
- 技术限制: 未提及
- 版权限制: 数据集和语言数据均处于公共领域。
数据集的社会影响
- 社会偏见: 存在已记录的社会偏见
- 对未服务社区的影响: 未提及对未服务社区的影响
- 偏见分析: 基于Wikipedia的数据集可能存在偏见,相关分析可参考其他Wikipedia相关数据集的研究。
数据集的独特性和评估
- 独特性: 该数据集评估模型在噪声(文档,摘要)对和长输入上的性能,以及模型的一般化和偏差缓解能力。
- 评估指标: ROUGE, BERT-Score, MoverScore, 以及其他基于事实准确性的指标。
- 先前结果: 先前结果可用,主要评估模型的一般化能力、偏差缓解和事实准确性。



