nixiesearch/msmarco-10k
收藏Hugging Face2023-09-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nixiesearch/msmarco-10k
下载链接
链接失效反馈官方服务:
资源简介:
这是一个从MS MARCO数据集中随机抽取的10K行样本数据集,用于Nixiesearch的快速入门指南,以减少索引完整MSMARCO数据集(包含8M文档)的时间。数据集采用JSONL格式,包含两个字段:`id`(文档标识符)和`text`(实际文本片段)。
这是一个从MS MARCO数据集中随机抽取的10K行样本数据集,用于Nixiesearch的快速入门指南,以减少索引完整MSMARCO数据集(包含8M文档)的时间。数据集采用JSONL格式,包含两个字段:`id`(文档标识符)和`text`(实际文本片段)。
提供机构:
nixiesearch
原始信息汇总
MS MARCO 10K文档样本
概述
这是一个从MS MARCO数据集中随机抽取的10,000行样本数据集。该数据集用于Nixiesearch的快速入门指南,以节省索引完整MS MARCO数据集(包含800万文档)的时间。
数据结构
该数据集采用JSONL格式,仅包含两个字段:
id:文档标识符text:实际文本片段
示例数据: json { "id": "0", "text": "The presence of communication amid scientific minds was equally important to the success of the Manhattan Project as scientific intellect was. The only cloud hanging over the impressive achievement of the atomic researchers and engineers is what their success truly meant; hundreds of thousands of innocent lives obliterated." }
许可证
Apache 2.0



