msmarco-v2.1-embed-english-v3

Name: msmarco-v2.1-embed-english-v3
Creator: Cohere
Published: 2024-08-06 04:58:08
License: 暂无描述

Hugging Face2024-08-06 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Cohere/msmarco-v2.1-embed-english-v3

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含TREC-RAG 2024语料库的嵌入，使用Cohere Embed V3 English模型生成。数据集包括113,520,750个段落的嵌入，1677个来自TREC-Deep Learning 2021-2023的查询的嵌入，以及所有查询的top-1000结果。数据集提供了多种格式的文件，包括Parquet、JSONL和Numpy，便于不同场景下的使用。此外，还提供了一个预构建的索引，仅需300MB内存即可进行搜索，实现了高效的搜索体验。

提供机构：

Cohere

创建时间：

2024-08-05

原始信息汇总

TREC-RAG 2024 Corpus (MSMARCO 2.1) - Encoded with Cohere Embed English v3

数据集概述

该数据集包含使用Cohere Embed V3 English模型嵌入的TREC-RAG Corpus 2024的嵌入向量。数据集包括：

113,520,750个段落的嵌入向量
1677个来自TREC-Deep Learning 2021-2023的查询的嵌入向量
所有查询的top-1000命中结果，使用暴力搜索（平坦）索引

索引搜索

提供了一个预构建的索引，仅需300MB内存，可在TREC-RAG-2024-index获取。使用Cohere API密钥即可搜索1.13亿个段落。该索引使用PQ压缩和内存映射IVF，与需要250+GB内存的float32平坦索引相比，搜索质量达到97%，且速度更快。

段落

段落 - Parquet

113,520,750个段落的嵌入向量存储在passages_parquet文件夹中。每行代表一个段落，emb列包含相应的嵌入向量。可以使用以下代码流式加载数据集： python from datasets import load_dataset

dataset = load_dataset("Cohere/msmarco-v2.1-embed-english-v3", "passages", split="train", streaming=True)

for row in dataset: print(row) break

段落 - JSONL和Numpy

passages_jsonl文件夹包含由任务组织者分发的.json.gz格式的段落文件。
passages_npy文件夹包含相应.json.gz文件的所有嵌入向量的numpy矩阵。当服务器内存足够时，可以按以下方式加载所有文档嵌入： python import numpy as np import glob

emb_paths = sorted(glob.glob("passages_npy/*.npy"))

for e_path in emb_paths: doc_emb = np.load(e_path)

查询

对于1677个来自TREC-Deep Learning 2021、2022和2023的查询，计算了嵌入向量和相应的top-1k命中结果。这些查询可用于测试不同的近似最近邻（ANN）设置，例如在Recall@10场景中。

查询格式

"_id": 查询ID
"text": 查询文本
"trec-year": TREC-Deep Learning年份
"emb": Cohere Embed V3嵌入向量
"top1k_offsets": 加载顺序和垂直堆叠的numpy矩阵时的段落ID（整数）
"top1k_passage_ids": 数据集中出现的段落ID（字符串）
"top1k_cossim": 余弦相似度
"qrels": NIST对215个标注查询的相关性标注。提供文档相关性分数。可以通过row[_id].split("#")[0]获取文档ID

查询 - JSONL

queries_jsonl/文件夹包含.jsonl.gz格式的查询文件。注意：qrels在此处作为字典查找提供，而在parquet格式中作为列表提供，格式为[doc_id, score]。

查询 - Parquet

queries_parquet/文件夹包含相应的parquet文件。可以使用以下命令在HF数据集中加载查询： python from datasets import load_dataset

dataset = load_dataset("Cohere/msmarco-v2.1-embed-english-v3", "queries", split="test")

for row in dataset: print(row) break

许可证

嵌入向量以Apache 2.0许可证提供。文本数据、qrels等遵循MSMARCO v2.1的许可证。

搜集汇总

数据集介绍

构建方式

msmarco-v2.1-embed-english-v3数据集基于TREC-RAG 2024语料库构建，采用了Cohere Embed V3英文模型进行嵌入处理。该数据集包含113,520,750个段落的嵌入向量，以及来自TREC-Deep Learning 2021-2023的1677个查询的嵌入向量。此外，数据集还提供了所有查询的top-1000命中结果，这些结果通过暴力搜索（flat index）生成。数据集的构建过程确保了嵌入向量的高质量和一致性，为信息检索任务提供了坚实的基础。

特点

该数据集的特点在于其规模庞大且结构清晰。它不仅包含了海量段落的嵌入向量，还提供了查询的嵌入向量及其对应的top-1000命中结果。数据集中的查询部分还包含了NIST提供的215个查询的相关性标注，这些标注以qrels形式存在，为评估检索系统的性能提供了重要参考。此外，数据集支持多种格式（如Parquet、JSONL和Numpy），便于用户根据需求灵活选择数据处理方式。

使用方法

使用msmarco-v2.1-embed-english-v3数据集时，用户可以通过Hugging Face的`datasets`库加载数据。对于段落数据，用户可以选择流式加载或一次性加载所有嵌入向量；对于查询数据，用户可以直接加载Parquet文件或JSONL格式的查询信息。数据集还提供了预构建的索引文件，用户只需提供Cohere API密钥即可快速进行大规模段落搜索。此外，用户可以利用数据集中的top-1000命中结果和相关标注进行检索算法的性能评估和优化。

背景与挑战

背景概述

msmarco-v2.1-embed-english-v3数据集是基于TREC-RAG 2024语料库构建的，该语料库由Cohere Embed V3 English模型编码生成。该数据集包含了113,520,750段文本的嵌入表示，以及来自TREC-Deep Learning 2021-2023的1677个查询的嵌入表示。该数据集的创建旨在为信息检索和自然语言处理领域的研究提供高质量的嵌入数据，特别是在大规模文档检索和查询匹配任务中具有重要应用价值。通过使用Cohere Embed V3模型，该数据集在语义表示和检索效率方面表现出色，为相关领域的研究提供了强有力的支持。

当前挑战

msmarco-v2.1-embed-english-v3数据集在构建和应用过程中面临多重挑战。首先，数据集的规模庞大，包含超过1亿段文本的嵌入表示，这对存储和计算资源提出了极高的要求。其次，尽管使用了高效的压缩技术（如PQ压缩和内存映射IVF），如何在保持高检索质量的同时进一步降低内存占用和计算复杂度仍是一个亟待解决的问题。此外，查询与文档的匹配任务需要高精度的语义理解，如何在大规模数据集中实现高效的近似最近邻搜索（ANN）也是一个关键挑战。最后，数据集中部分查询的标注信息有限，如何利用有限的标注数据提升模型的泛化能力也是研究者需要面对的难题。

常用场景

经典使用场景

在信息检索领域，msmarco-v2.1-embed-english-v3数据集广泛应用于大规模文档检索任务。通过Cohere Embed V3模型生成的嵌入向量，研究者能够高效地进行语义搜索，尤其是在TREC-Deep Learning竞赛中，该数据集被用于评估不同近似最近邻（ANN）算法的性能。其经典使用场景包括在Recall@10等指标下测试检索系统的准确性和效率。

衍生相关工作

基于msmarco-v2.1-embed-english-v3数据集，许多经典的研究工作得以展开。例如，研究者利用该数据集开发了多种高效的近似最近邻搜索算法，显著提升了大规模文档检索的效率。此外，该数据集还被用于训练和评估深度学习模型，推动了信息检索领域的技术创新。这些相关工作不仅提升了检索系统的性能，还为未来的研究提供了宝贵的参考。

数据集最近研究