din0s/msmarco-nlgen
收藏Hugging Face2022-10-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/din0s/msmarco-nlgen
下载链接
链接失效反馈官方服务:
资源简介:
MSMARCO数据集的原始目标是提供一个语料库,用于训练和测试系统,这些系统能够根据真实的领域用户查询提供最可能的候选答案,并以自然和对话的语言呈现。所有问题都来自真实的匿名Bing用户查询,这使得数据集基于现实世界的问题,并为研究人员提供了模型可能面临的真实约束。数据集中的上下文段落是从真实网页文档中提取的,答案由人工生成。数据集包含查询ID、查询内容、相关段落、查询类型和答案等字段,数据分为训练集和开发集。
提供机构:
din0s
原始信息汇总
数据集概述
数据集名称
- 名称: MSMARCO NLGEN
- 别名: MSMARCO - Natural Language Generation Task
数据集属性
- 语言: 英语
- 许可证: CC-BY-4.0
- 多语言性: 单语种
- 大小: 100K<n<1M
- 来源: 扩展自MSMARCO
- 标签: msmarco, 自然语言生成, 问答
- 任务类别: 问答
- 任务ID: open-domain-qa
数据集描述
- 摘要: MSMARCO NLGEN旨在提供一个用于训练和测试系统的语料库,该系统能够根据真实领域的用户查询提供最可能的候选答案,并以自然和对话的方式进行。所有问题均来自真实的匿名Bing用户查询,答案由人工生成。
- 支持任务: 问答与自然语言生成
- 语言: 英语
数据集结构
- 数据实例: 每个实例包含查询ID、查询、相关段落列表、查询类型和答案。
- 数据字段:
query_id: 唯一标识每个查询的ID。query: 基于Bing用户查询的独特查询。passages: 包含10个段落,每个段落有文本、URL和是否被选中用于回答的标记。query_type: 根据训练的分类器将查询分为不同类型。answers: 由人工注释者使用自然语言生成的“良好构成”的答案列表。
- 数据分割:
- 训练集: 153725个实例
- 开发集: 12467个实例
数据集创建
- 注释过程: 数据集通过优化的高质量示例生成管道创建,包括从Bing日志中采样和匿名化查询,生成相关段落,以及由高度训练的法官生成和验证答案。
附加信息
- 许可证信息: 数据集根据Creative Commons Attribution 4.0 International License授权。
- 引用信息: 请参考提供的引用格式。
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



