msmarco-v2.1-embed-english-v3
收藏TREC-RAG 2024 Corpus (MSMARCO 2.1) - Encoded with Cohere Embed English v3
数据集概述
该数据集包含使用Cohere Embed V3 English模型嵌入的TREC-RAG Corpus 2024的嵌入向量。数据集包括:
- 113,520,750个段落的嵌入向量
- 1677个来自TREC-Deep Learning 2021-2023的查询的嵌入向量
- 所有查询的top-1000命中结果,使用暴力搜索(平坦)索引
索引搜索
提供了一个预构建的索引,仅需300MB内存,可在TREC-RAG-2024-index获取。使用Cohere API密钥即可搜索1.13亿个段落。该索引使用PQ压缩和内存映射IVF,与需要250+GB内存的float32平坦索引相比,搜索质量达到97%,且速度更快。
段落
段落 - Parquet
113,520,750个段落的嵌入向量存储在passages_parquet文件夹中。每行代表一个段落,emb列包含相应的嵌入向量。可以使用以下代码流式加载数据集:
python
from datasets import load_dataset
dataset = load_dataset("Cohere/msmarco-v2.1-embed-english-v3", "passages", split="train", streaming=True)
for row in dataset: print(row) break
段落 - JSONL和Numpy
passages_jsonl文件夹包含由任务组织者分发的.json.gz格式的段落文件。passages_npy文件夹包含相应.json.gz文件的所有嵌入向量的numpy矩阵。当服务器内存足够时,可以按以下方式加载所有文档嵌入: python import numpy as np import glob
emb_paths = sorted(glob.glob("passages_npy/*.npy"))
for e_path in emb_paths: doc_emb = np.load(e_path)
查询
对于1677个来自TREC-Deep Learning 2021、2022和2023的查询,计算了嵌入向量和相应的top-1k命中结果。这些查询可用于测试不同的近似最近邻(ANN)设置,例如在Recall@10场景中。
查询格式
- "_id": 查询ID
- "text": 查询文本
- "trec-year": TREC-Deep Learning年份
- "emb": Cohere Embed V3嵌入向量
- "top1k_offsets": 加载顺序和垂直堆叠的numpy矩阵时的段落ID(整数)
- "top1k_passage_ids": 数据集中出现的段落ID(字符串)
- "top1k_cossim": 余弦相似度
- "qrels": NIST对215个标注查询的相关性标注。提供文档相关性分数。可以通过
row[_id].split("#")[0]获取文档ID
查询 - JSONL
queries_jsonl/文件夹包含.jsonl.gz格式的查询文件。注意:qrels在此处作为字典查找提供,而在parquet格式中作为列表提供,格式为[doc_id, score]。
查询 - Parquet
queries_parquet/文件夹包含相应的parquet文件。可以使用以下命令在HF数据集中加载查询:
python
from datasets import load_dataset
dataset = load_dataset("Cohere/msmarco-v2.1-embed-english-v3", "queries", split="test")
for row in dataset: print(row) break
许可证
嵌入向量以Apache 2.0许可证提供。文本数据、qrels等遵循MSMARCO v2.1的许可证。




