five

allenai/cochrane_dense_max

收藏
Hugging Face2022-11-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/allenai/cochrane_dense_max
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是Cochrane数据集的副本,但其验证集的输入源文档已被替换为密集检索器。检索管道使用了目标字段作为查询,训练、验证和测试集中的所有文档作为语料库,并使用facebook/contriever-msmarco模型进行检索。数据集主要用于多文档摘要和文本生成任务,语言为英语,大小为10K到100K之间,许可证为Apache-2.0。

annotations_creators: - 专家生成 language_creators: - 专家生成 language: - 英语(en) license: - Apache-2.0 multilinguality: - 单语言 size_categories: - 10000 < n < 100000(1万至10万样本) source_datasets: - 扩展|other-MS^2 - 扩展|other-Cochrane task_categories: - 摘要生成 - 文本到文本生成 paperswithcode_id: multi-document-summarization pretty_name: MSLR共享任务 本数据集为 [Cochrane](https://huggingface.co/datasets/allenai/mslr2022) 数据集的复刻版本,仅将其 `validation` 划分的输入源文档替换为**密集型检索器(dense retriever)**。所采用的检索管道如下: - 查询(query):每个示例的 `target` 字段 - 语料库(corpus):`train`(训练)、`validation`(验证)与 `test`(测试)划分中所有文档的并集,单篇文档由 `title`(标题)与 `abstract`(摘要)拼接得到。 - 检索器(retriever):基于 [PyTerrier](https://pyterrier.readthedocs.io/en/latest/) 框架,使用默认参数配置的 [`facebook/contriever-msmarco`](https://huggingface.co/facebook/contriever-msmarco) - 前k(top-k)策略:采用 "max" 策略,即检索文档数 `k` 设置为该数据集中所有示例对应的最大文档数,本数据集下 `k=25`。 训练集检索结果: | 召回率@100(Recall@100) | R准确率(Rprec) | 精确率@k(Precision@k) | 召回率@k(Recall@k) | | ------------------------ | --------------- | ---------------------- | ------------------- | | 0.7790 | 0.4487 | 0.1959 | 0.6268 | 验证集检索结果: | 召回率@100(Recall@100) | R准确率(Rprec) | 精确率@k(Precision@k) | 召回率@k(Recall@k) | | ------------------------ | --------------- | ---------------------- | ------------------- | | 0.7856 | 0.4424 | 0.1995 | 0.6433 | 测试集检索结果: N/A。测试集为盲集,因此无可用查询。
提供机构:
allenai
原始信息汇总

数据集概述

基本信息

  • 语言: 英语 (en)
  • 许可证: Apache-2.0
  • 多语言性: 单语
  • 大小: 10K<n<100K
  • 来源数据集:
    • 扩展自 other-MS^2
    • 扩展自 other-Cochrane

创建者

  • 标注创建者: 专家生成
  • 语言创建者: 专家生成

任务类别

  • 摘要生成
  • 文本到文本生成

数据集别名

  • Papers with Code ID: multi-document-summarization
  • 美观名称: MSLR Shared Task
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作