five

microsoft/ms_marco|机器阅读理解数据集|自然语言生成数据集

收藏
hugging_face2024-01-04 更新2024-06-15 收录
机器阅读理解
自然语言生成
下载链接:
https://hf-mirror.com/datasets/microsoft/ms_marco
下载链接
链接失效反馈
资源简介:
MS MARCO数据集是一个专注于深度学习在搜索领域应用的数据集集合。最初的数据集是一个包含100,000个真实Bing问题和人工生成答案的问答数据集。随后,数据集扩展到了包含1,000,000个问题的数据集,以及自然语言生成、段落排序、关键词提取、爬虫和对话搜索等多个数据集。数据集分为三个任务/形式:原始问答数据集(v1.1)、问答(v2.1)和自然语言生成(v2.1)。v1.1版本包含100,000个示例,而v2.1版本则包含超过1,000,000个查询,并且质量更高。自然语言生成数据集包含180,000个示例,旨在提供可以被智能音箱朗读的答案。
提供机构:
microsoft
原始信息汇总

Microsoft Machine Reading Comprehension Dataset (MS MARCO) 数据集概述

数据集配置

v1.1

  • 特征:
    • answers: 字符串序列
    • passages: 字典特征,包含:
      • is_selected: 32位整数
      • passage_text: 字符串
      • url: 字符串
    • query: 字符串
    • query_id: 32位整数
    • query_type: 字符串
    • wellFormedAnswers: 字符串序列
  • 数据分割:
    • validation: 42665198 字节, 10047 样本
    • train: 350516260 字节, 82326 样本
    • test: 40977580 字节, 9650 样本
  • 下载大小: 217328153 字节
  • 数据集大小: 434159038 字节

v2.1

  • 特征:
    • answers: 字符串序列
    • passages: 字典特征,包含:
      • is_selected: 32位整数
      • passage_text: 字符串
      • url: 字符串
    • query: 字符串
    • query_id: 32位整数
    • query_type: 字符串
    • wellFormedAnswers: 字符串序列
  • 数据分割:
    • validation: 413765365 字节, 101093 样本
    • train: 3462807709 字节, 808731 样本
    • test: 405691932 字节, 101092 样本
  • 下载大小: 2105722550 字节
  • 数据集大小: 4282265006 字节

数据集文件配置

v1.1

  • 验证集: v1.1/validation-*
  • 训练集: v1.1/train-*
  • 测试集: v1.1/test-*

v2.1

  • 验证集: v2.1/validation-*
  • 训练集: v2.1/train-*
  • 测试集: v2.1/test-*
AI搜集汇总
数据集介绍
main_image_url
构建方式
MS MARCO数据集的构建基于真实世界中的搜索查询,旨在为机器阅读理解任务提供高质量的数据资源。该数据集的构建过程涉及从Bing搜索引擎中收集真实的查询和对应的答案,然后通过人工标注的方式生成高质量的问答对。数据集包含了查询、答案、文档片段及其来源链接等信息,并分为训练集、验证集和测试集,以供模型训练和评估之用。
特点
MS MARCO数据集的特点在于其数据来源的真实性、多样性以及高质量的人工标注。数据集涵盖了大量的查询和答案,不仅包含文本信息,还包括是否被选中的标记和文档片段的来源链接。此外,数据集分为两个版本,v1.1和v2.1,后者在规模和质量上都有所提升,更适合用于竞争性的问答任务和自然语言生成任务。
使用方法
使用MS MARCO数据集时,用户可以根据自己的需求选择不同的版本和数据集分割。数据集以HuggingFace的格式存储,可以通过HuggingFace的datasets库轻松加载。用户可以针对问答和自然语言生成等任务进行模型的训练和评估,同时也可以利用数据集中的标注信息进行模型的 fine-tuning。
背景与挑战
背景概述
MS MARCO数据集,全名为Microsoft Machine Reading Comprehension Dataset,是由Microsoft Research团队于2016年在NIPS会议上推出的一组数据集。该数据集旨在推动机器阅读理解领域的研究,特别是针对搜索引擎的问答系统。它包含了真实世界中的Bing搜索查询、人类生成的回答以及相关网页段落,是目前自然语言处理领域内颇具影响力的资源之一。MS MARCO数据集的创建,填补了机器阅读理解领域高质量数据集的空白,为相关研究提供了宝贵的资源。
当前挑战
在构建MS MARCO数据集的过程中,研究人员面临了诸多挑战。首先,如何收集并处理大量的真实查询数据以保证数据的质量和多样性是一个挑战。其次,确保人类生成的回答准确且具有相关性,同时保护个人隐私和敏感信息也是数据集构建中的重要挑战。此外,数据集在应用中还面临如何公平地评估模型性能、避免偏见和确保社会影响力等挑战。
常用场景
经典使用场景
在自然语言处理领域,Microsoft Machine Reading Comprehension Dataset(MS MARCO)被广泛用于评估和提升机器阅读理解模型的能力。该数据集的核心应用场景在于构建和训练能够理解自然语言查询并从大量文本中提取相关答案的模型。
实际应用
在实际应用中,MS MARCO数据集可用于开发智能搜索系统,帮助提升搜索引擎对自然语言查询的理解能力,进而提高搜索质量和用户体验。此外,该数据集也为智能客服、语音助手等应用提供了基础数据支持,有助于实现更加自然和高效的人机交互。
衍生相关工作
基于MS MARCO数据集,学术界和工业界衍生出了许多相关工作,包括但不限于文本摘要、机器翻译、对话系统等领域的应用研究。这些工作不仅推动了机器阅读理解技术的发展,也为其他自然语言处理任务提供了新的视角和方法论。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

VoxBox

VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。

github 收录

中国裁判文书网

中国裁判文书网是中国最高人民法院设立的官方网站,旨在公开各级法院的裁判文书。该数据集包含了大量的法律文书,如判决书、裁定书、调解书等,涵盖了民事、刑事、行政、知识产权等多个法律领域。

wenshu.court.gov.cn 收录

OpenPose

OpenPose数据集包含人体姿态估计的相关数据,主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频,标注了人体关键点位置,适用于研究人体姿态识别和动作分析。

github.com 收录

AIS数据集

该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。

github 收录