allenai/multinews_dense_oracle
收藏Hugging Face2022-11-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/allenai/multinews_dense_oracle
下载链接
链接失效反馈官方服务:
资源简介:
Multi-News数据集是一个用于新闻文章摘要任务的单语(英语)数据集,由专家生成。该版本的输入源文档被替换为通过密集检索器获取的文档。检索过程使用了`facebook/contriever-msmarco`模型,并通过PyTerrier工具进行检索,采用了`oracle`策略来确定检索文档的数量。数据集包含训练、验证和测试三个部分,并提供了检索结果的相关指标,如Recall@100、Rprec、Precision@k和Recall@k。
提供机构:
allenai
原始信息汇总
数据集概述
名称: Multi-News
语言: 英语 (en)
许可证: 其他 (other)
多语言性: 单语 (monolingual)
大小: 10K<n<100K
来源: 原始 (original)
任务类别: 摘要 (summarization)
任务ID: news-articles-summarization
训练与评估配置:
- 配置: 默认
- 任务: 摘要
- 任务ID: 摘要
- 分割:
- 训练分割:
train - 评估分割:
test
- 训练分割:
- 列映射:
- 文档:
text - 摘要:
target
- 文档:
- 评估指标:
- 类型:
rouge - 名称:
Rouge
- 类型:
数据集详细信息
- 注释创建者: 专家生成
- 语言创建者: 专家生成
- 数据集处理:
- 输入源文档已被替换为密集检索器。
- 检索流程包括:
- 查询: 每个示例的
summary字段 - 语料库:
train,validation和test分割中所有文档的联合 - 检索器:
facebook/contriever-msmarco通过PyTerrier使用默认设置 - 顶层策略:
"oracle",检索的文档数量k设置为每个示例原始输入文档的数量
- 查询: 每个示例的



