din0s/msmarco-nlgen

Name: din0s/msmarco-nlgen
Creator: din0s
Published: 2022-10-01 12:30:18
License: 暂无描述

Hugging Face2022-10-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/din0s/msmarco-nlgen

下载链接

链接失效反馈

官方服务：

资源简介：

MSMARCO数据集的原始目标是提供一个语料库，用于训练和测试系统，这些系统能够根据真实的领域用户查询提供最可能的候选答案，并以自然和对话的语言呈现。所有问题都来自真实的匿名Bing用户查询，这使得数据集基于现实世界的问题，并为研究人员提供了模型可能面临的真实约束。数据集中的上下文段落是从真实网页文档中提取的，答案由人工生成。数据集包含查询ID、查询内容、相关段落、查询类型和答案等字段，数据分为训练集和开发集。

提供机构：

din0s

原始信息汇总

数据集概述

数据集名称

名称: MSMARCO NLGEN
别名: MSMARCO - Natural Language Generation Task

数据集属性

语言: 英语
许可证: CC-BY-4.0
多语言性: 单语种
大小: 100K<n<1M
来源: 扩展自MSMARCO
标签: msmarco, 自然语言生成, 问答
任务类别: 问答
任务ID: open-domain-qa

数据集描述

摘要: MSMARCO NLGEN旨在提供一个用于训练和测试系统的语料库，该系统能够根据真实领域的用户查询提供最可能的候选答案，并以自然和对话的方式进行。所有问题均来自真实的匿名Bing用户查询，答案由人工生成。
支持任务: 问答与自然语言生成
语言: 英语

数据集结构

数据实例: 每个实例包含查询ID、查询、相关段落列表、查询类型和答案。
数据字段:
- query_id: 唯一标识每个查询的ID。
- query: 基于Bing用户查询的独特查询。
- passages: 包含10个段落，每个段落有文本、URL和是否被选中用于回答的标记。
- query_type: 根据训练的分类器将查询分为不同类型。
- answers: 由人工注释者使用自然语言生成的“良好构成”的答案列表。
数据分割:
- 训练集: 153725个实例
- 开发集: 12467个实例

数据集创建

注释过程: 数据集通过优化的高质量示例生成管道创建，包括从Bing日志中采样和匿名化查询，生成相关段落，以及由高度训练的法官生成和验证答案。

附加信息

许可证信息: 数据集根据Creative Commons Attribution 4.0 International License授权。
引用信息: 请参考提供的引用格式。

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集