five

nixiesearch/msmarco-10k

收藏
Hugging Face2023-09-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nixiesearch/msmarco-10k
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个从MS MARCO数据集中随机抽取的10K行样本数据集,用于Nixiesearch的快速入门指南,以减少索引完整MSMARCO数据集(包含8M文档)的时间。数据集采用JSONL格式,包含两个字段:`id`(文档标识符)和`text`(实际文本片段)。

这是一个从MS MARCO数据集中随机抽取的10K行样本数据集,用于Nixiesearch的快速入门指南,以减少索引完整MSMARCO数据集(包含8M文档)的时间。数据集采用JSONL格式,包含两个字段:`id`(文档标识符)和`text`(实际文本片段)。
提供机构:
nixiesearch
原始信息汇总

MS MARCO 10K文档样本

概述

这是一个从MS MARCO数据集中随机抽取的10,000行样本数据集。该数据集用于Nixiesearch的快速入门指南,以节省索引完整MS MARCO数据集(包含800万文档)的时间。

数据结构

该数据集采用JSONL格式,仅包含两个字段:

  • id:文档标识符
  • text:实际文本片段

示例数据: json { "id": "0", "text": "The presence of communication amid scientific minds was equally important to the success of the Manhattan Project as scientific intellect was. The only cloud hanging over the impressive achievement of the atomic researchers and engineers is what their success truly meant; hundreds of thousands of innocent lives obliterated." }

许可证

Apache 2.0

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作