Cohere/msmarco-v2.1-embed-english-v3

Name: Cohere/msmarco-v2.1-embed-english-v3
Creator: Cohere
Published: 2024-08-05 20:58:08
License: 暂无描述

Hugging Face2024-08-05 更新2024-12-14 收录

下载链接：

https://hf-mirror.com/datasets/Cohere/msmarco-v2.1-embed-english-v3

下载链接

链接失效反馈

官方服务：

资源简介：

TREC-RAG 2024 Corpus (MSMARCO 2.1)数据集包含了使用Cohere Embed V3 English模型生成的嵌入。数据集包括113,520,750个段落的嵌入，以及来自TREC-Deep Learning 2021-2023的1677个查询的嵌入。此外，还提供了所有查询的前1000个结果的嵌入。数据集还包含了一个预构建的索引，使得用户可以使用Cohere API密钥在113M段落中进行搜索。README文件详细介绍了如何加载和使用数据集中的段落和查询数据，包括Parquet、JSONL和Numpy格式的数据。

The TREC-RAG 2024 Corpus (MSMARCO 2.1) dataset contains embeddings for 113,520,750 passages and 1677 queries from TREC-Deep Learning 2021-2023, generated using the Cohere Embed V3 English model. It also includes top-1000 hits for all queries using a brute-force (flat) index. The dataset is divided into passages and queries, stored in parquet and jsonl files respectively. The passages section includes embedded passages, while the queries section includes query text, embeddings, and related top-1000 passage IDs and cosine similarities. Additionally, the dataset provides a pre-built index that allows for search with a memory requirement of only 300MB.

提供机构：

Cohere

搜集汇总

数据集介绍

构建方式

在信息检索领域，大规模文本嵌入数据集为模型评估与检索系统优化提供了关键资源。本数据集基于TREC-RAG 2024语料库（MSMARCO v2.1版本），采用Cohere Embed V3英文模型对1.135亿条文本段落进行向量化编码。同时，整合了TREC-Deep Learning 2021至2023年间的1677条查询语句及其对应嵌入，并通过暴力检索（flat index）为每条查询生成了前1000个相关段落结果，形成了结构化的向量检索基准数据。

特点

该数据集的核心特征在于其规模与实用性。嵌入向量覆盖了海量的多领域文本段落，为稠密检索研究提供了高维语义表示基础。查询部分不仅包含原始文本与嵌入，还提供了经过标注的215条查询的相关性评分（qrels），支持精确的召回率评估。此外，数据集配套发布了经过PQ压缩与内存映射优化的索引文件，仅需300MB内存即可实现高效检索，在保持97%搜索质量的同时大幅降低了计算资源需求。

使用方法

使用者可通过Hugging Face数据集库直接加载段落或查询的parquet格式文件，支持流式读取以处理海量数据。对于嵌入向量，既可通过numpy格式批量加载，也可利用预构建的压缩索引进行快速相似性搜索。在评估场景中，研究者可基于查询嵌入与top-k结果，结合qrels标注计算Recall@10等指标，以验证不同近似最近邻搜索算法的性能。数据集的模块化设计兼顾了灵活性与效率，适用于检索系统开发、嵌入模型对比及大规模语义匹配实验。

背景与挑战

背景概述

在信息检索与自然语言处理领域，大规模文本嵌入数据集已成为推动检索增强生成（RAG）技术发展的关键基础设施。Cohere/msmarco-v2.1-embed-english-v3数据集由Cohere团队于2024年构建，基于TREC-RAG 2024语料库（即MSMARCO 2.1版本），并采用先进的Cohere Embed V3英文模型进行向量化处理。该数据集涵盖了超过1.13亿个文本段落的嵌入向量，以及来自TREC-Deep Learning 2021至2023年度的1677条查询及其相关性标注，旨在为高精度语义检索与近似最近邻搜索提供标准化基准。其核心研究问题聚焦于如何通过预计算嵌入提升大规模文档检索的效率与准确性，对推动开放域问答、文档理解及RAG系统优化具有显著影响力。

当前挑战

该数据集所解决的领域问题在于大规模语义检索中的精度与效率平衡挑战，具体包括：高维嵌入向量下的近似最近邻搜索需在有限内存内维持97%以上的检索质量；异构查询与段落之间的语义对齐要求模型具备深层次上下文理解能力。在构建过程中，团队面临多重技术挑战：如何对1.13亿级文本段落进行高效向量化并保持嵌入空间的一致性；设计压缩索引策略以将原始250GB内存需求降至300MB，同时最小化信息损失；整合多年度TREC查询与标注时需处理数据格式异构性与评估标准统一性问题。

常用场景

经典使用场景

在信息检索与自然语言处理领域，Cohere/msmarco-v2.1-embed-english-v3数据集以其大规模预计算嵌入向量，为密集检索任务提供了经典范例。该数据集整合了MSMARCO v2.1语料库中的1.135亿条段落，并利用Cohere Embed V3模型生成高质量向量表示，使得研究人员能够直接进行高效的相似性匹配与排序实验，无需额外计算开销，极大地加速了检索系统的原型开发与性能评估。

实际应用

在实际应用中，该数据集支撑了搜索引擎、智能问答系统以及企业知识库的构建。借助其压缩索引技术，仅需300MB内存即可实现对1.135亿段落的快速搜索，显著降低了部署成本与响应延迟。这使得商业机构能够集成先进的语义检索能力，提升用户查询的准确性与体验，广泛应用于电子商务、客户支持及学术文献推荐等场景。

衍生相关工作

基于该数据集，学术界衍生了一系列经典研究工作，特别是在近似最近邻搜索与检索增强生成领域。例如，TREC-RAG 2024竞赛利用该语料库评估了多种检索模型的性能，推动了索引压缩与高效查询算法的创新。同时，该数据集为RAG系统的文档检索模块提供了标准测试平台，促进了预训练语言模型与检索技术的深度融合，催生了如Cohere自身嵌入模型的迭代优化及相关开源工具的广泛采用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集