five

din0s/msmarco-nlgen

收藏
Hugging Face2022-10-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/din0s/msmarco-nlgen
下载链接
链接失效反馈
官方服务:
资源简介:
MSMARCO数据集的原始目标是提供一个语料库,用于训练和测试系统,这些系统能够根据真实的领域用户查询提供最可能的候选答案,并以自然和对话的语言呈现。所有问题都来自真实的匿名Bing用户查询,这使得数据集基于现实世界的问题,并为研究人员提供了模型可能面临的真实约束。数据集中的上下文段落是从真实网页文档中提取的,答案由人工生成。数据集包含查询ID、查询内容、相关段落、查询类型和答案等字段,数据分为训练集和开发集。
提供机构:
din0s
原始信息汇总

数据集概述

数据集名称

  • 名称: MSMARCO NLGEN
  • 别名: MSMARCO - Natural Language Generation Task

数据集属性

  • 语言: 英语
  • 许可证: CC-BY-4.0
  • 多语言性: 单语种
  • 大小: 100K<n<1M
  • 来源: 扩展自MSMARCO
  • 标签: msmarco, 自然语言生成, 问答
  • 任务类别: 问答
  • 任务ID: open-domain-qa

数据集描述

  • 摘要: MSMARCO NLGEN旨在提供一个用于训练和测试系统的语料库,该系统能够根据真实领域的用户查询提供最可能的候选答案,并以自然和对话的方式进行。所有问题均来自真实的匿名Bing用户查询,答案由人工生成。
  • 支持任务: 问答与自然语言生成
  • 语言: 英语

数据集结构

  • 数据实例: 每个实例包含查询ID、查询、相关段落列表、查询类型和答案。
  • 数据字段:
    • query_id: 唯一标识每个查询的ID。
    • query: 基于Bing用户查询的独特查询。
    • passages: 包含10个段落,每个段落有文本、URL和是否被选中用于回答的标记。
    • query_type: 根据训练的分类器将查询分为不同类型。
    • answers: 由人工注释者使用自然语言生成的“良好构成”的答案列表。
  • 数据分割:
    • 训练集: 153725个实例
    • 开发集: 12467个实例

数据集创建

  • 注释过程: 数据集通过优化的高质量示例生成管道创建,包括从Bing日志中采样和匿名化查询,生成相关段落,以及由高度训练的法官生成和验证答案。

附加信息

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作