allenai/cochrane_dense_max
收藏Hugging Face2022-11-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/allenai/cochrane_dense_max
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是Cochrane数据集的副本,但其验证集的输入源文档已被替换为密集检索器。检索管道使用了目标字段作为查询,训练、验证和测试集中的所有文档作为语料库,并使用facebook/contriever-msmarco模型进行检索。数据集主要用于多文档摘要和文本生成任务,语言为英语,大小为10K到100K之间,许可证为Apache-2.0。
annotations_creators:
- 专家生成
language_creators:
- 专家生成
language:
- 英语(en)
license:
- Apache-2.0
multilinguality:
- 单语言
size_categories:
- 10000 < n < 100000(1万至10万样本)
source_datasets:
- 扩展|other-MS^2
- 扩展|other-Cochrane
task_categories:
- 摘要生成
- 文本到文本生成
paperswithcode_id: multi-document-summarization
pretty_name: MSLR共享任务
本数据集为 [Cochrane](https://huggingface.co/datasets/allenai/mslr2022) 数据集的复刻版本,仅将其 `validation` 划分的输入源文档替换为**密集型检索器(dense retriever)**。所采用的检索管道如下:
- 查询(query):每个示例的 `target` 字段
- 语料库(corpus):`train`(训练)、`validation`(验证)与 `test`(测试)划分中所有文档的并集,单篇文档由 `title`(标题)与 `abstract`(摘要)拼接得到。
- 检索器(retriever):基于 [PyTerrier](https://pyterrier.readthedocs.io/en/latest/) 框架,使用默认参数配置的 [`facebook/contriever-msmarco`](https://huggingface.co/facebook/contriever-msmarco)
- 前k(top-k)策略:采用 "max" 策略,即检索文档数 `k` 设置为该数据集中所有示例对应的最大文档数,本数据集下 `k=25`。
训练集检索结果:
| 召回率@100(Recall@100) | R准确率(Rprec) | 精确率@k(Precision@k) | 召回率@k(Recall@k) |
| ------------------------ | --------------- | ---------------------- | ------------------- |
| 0.7790 | 0.4487 | 0.1959 | 0.6268 |
验证集检索结果:
| 召回率@100(Recall@100) | R准确率(Rprec) | 精确率@k(Precision@k) | 召回率@k(Recall@k) |
| ------------------------ | --------------- | ---------------------- | ------------------- |
| 0.7856 | 0.4424 | 0.1995 | 0.6433 |
测试集检索结果:
N/A。测试集为盲集,因此无可用查询。
提供机构:
allenai
原始信息汇总
数据集概述
基本信息
- 语言: 英语 (en)
- 许可证: Apache-2.0
- 多语言性: 单语
- 大小: 10K<n<100K
- 来源数据集:
- 扩展自
other-MS^2 - 扩展自
other-Cochrane
- 扩展自
创建者
- 标注创建者: 专家生成
- 语言创建者: 专家生成
任务类别
- 摘要生成
- 文本到文本生成
数据集别名
- Papers with Code ID: multi-document-summarization
- 美观名称: MSLR Shared Task



