five

GEM/wiki_cat_sum

收藏
Hugging Face2022-10-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/GEM/wiki_cat_sum
下载链接
链接失效反馈
官方服务:
资源简介:
WikiCatSum是一个用于摘要生成的英文数据集,涵盖了动物、公司和电影三个领域。数据集提供了多段文本及其对应的摘要。数据集的创建是自动化的,语言为英语,许可证为CC-BY-SA-3.0。数据集的主要任务是摘要生成,旨在研究多文档摘要生成的能力。数据集的结构包括ID、标题、段落和摘要等字段。数据集被分为训练集、验证集和测试集,分割标准是独立同分布(i.i.d.)。数据集的主要贡献是评估模型在噪声(文档,摘要)对和长输入上的性能,以及模型的泛化能力和偏差缓解能力。
提供机构:
GEM
原始信息汇总

数据集概述

数据集基本信息

  • 名称: WikiCatSum
  • 语言: 英语
  • 许可证: cc-by-sa-3.0
  • 任务类别: 摘要生成
  • 数据来源: 原始数据
  • 数据结构:
    • id: 数据示例的ID
    • title: Wikipedia文章的标题
    • paragraphs: 从爬取文本集合中排序的段落列表
    • summary: 由句子列表及其相应的主题标签组成

数据集详情

  • 概述: WikiCatSum是一个英语摘要数据集,涵盖三个领域:动物、公司和电影。它提供与多个段落配对的文本摘要。
  • 使用目的: 用于多文档抽象摘要的研究。
  • 主要任务: 摘要生成
  • 通信目标: 从一组相关文档中总结出电影、公司和动物领域中给定实体的最重要事实。
  • 数据分割: 训练集、验证集和测试集的实例数分别为50,938、2,855和2,831。
  • 分割标准: 数据均匀分割为训练、验证和测试集。

数据集维护与使用

  • 维护计划: 无
  • 技术限制: 未提及
  • 版权限制: 数据集和语言数据均处于公共领域。

数据集的社会影响

  • 社会偏见: 存在已记录的社会偏见
  • 对未服务社区的影响: 未提及对未服务社区的影响
  • 偏见分析: 基于Wikipedia的数据集可能存在偏见,相关分析可参考其他Wikipedia相关数据集的研究。

数据集的独特性和评估

  • 独特性: 该数据集评估模型在噪声(文档,摘要)对和长输入上的性能,以及模型的一般化和偏差缓解能力。
  • 评估指标: ROUGE, BERT-Score, MoverScore, 以及其他基于事实准确性的指标。
  • 先前结果: 先前结果可用,主要评估模型的一般化能力、偏差缓解和事实准确性。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作