five

allenai/multinews_dense_oracle

收藏
Hugging Face2022-11-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/allenai/multinews_dense_oracle
下载链接
链接失效反馈
官方服务:
资源简介:
Multi-News数据集是一个用于新闻文章摘要任务的单语(英语)数据集,由专家生成。该版本的输入源文档被替换为通过密集检索器获取的文档。检索过程使用了`facebook/contriever-msmarco`模型,并通过PyTerrier工具进行检索,采用了`oracle`策略来确定检索文档的数量。数据集包含训练、验证和测试三个部分,并提供了检索结果的相关指标,如Recall@100、Rprec、Precision@k和Recall@k。
提供机构:
allenai
原始信息汇总

数据集概述

名称: Multi-News

语言: 英语 (en)

许可证: 其他 (other)

多语言性: 单语 (monolingual)

大小: 10K<n<100K

来源: 原始 (original)

任务类别: 摘要 (summarization)

任务ID: news-articles-summarization

训练与评估配置:

  • 配置: 默认
  • 任务: 摘要
  • 任务ID: 摘要
  • 分割:
    • 训练分割: train
    • 评估分割: test
  • 列映射:
    • 文档: text
    • 摘要: target
  • 评估指标:
    • 类型: rouge
    • 名称: Rouge

数据集详细信息

  • 注释创建者: 专家生成
  • 语言创建者: 专家生成
  • 数据集处理:
    • 输入源文档已被替换为密集检索器。
    • 检索流程包括:
      • 查询: 每个示例的summary字段
      • 语料库: train, validationtest 分割中所有文档的联合
      • 检索器: facebook/contriever-msmarco 通过 PyTerrier 使用默认设置
      • 顶层策略: "oracle",检索的文档数量k设置为每个示例原始输入文档的数量
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作