cohere_large_10m

Hugging Face2026-02-21 更新2026-02-22 收录

下载链接：

https://huggingface.co/datasets/makneeee/cohere_large_10m

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集为VectorDBBench中的Cohere Large 10M数据集预构建的DiskANN索引，专为分布式向量搜索设计。数据集包含10,000,000个768维的float32类型向量和10,000个查询向量，使用L2距离度量。数据集提供了多种分片配置（3、5、7、10分片）和不同的DiskANN参数（R=16,32,64；L=100；PQ bytes=192）。文件结构包括原始向量数据（fbin/）、原始Parquet格式数据（parquet/）以及分片后的DiskANN索引文件（diskann/）。数据集适用于向量搜索基准测试和最近邻搜索任务。

This dataset is a pre-built DiskANN index for the Cohere Large 10M dataset within VectorDBBench, tailored specifically for distributed vector search. It comprises 10,000,000 768-dimensional float32 vectors and 10,000 query vectors, utilizing the L2 distance metric. Multiple sharding configurations (3, 5, 7, 10 shards) and a range of DiskANN parameters (R=16, 32, 64; L=100; PQ bytes=192) are offered. The file structure encompasses raw vector data (fbin/), raw Parquet-formatted data (parquet/), and sharded DiskANN index files (diskann/). This dataset is applicable for vector search benchmarking and nearest neighbor search tasks.

创建时间：

2026-02-21

搜集汇总

数据集介绍

构建方式

在向量数据库性能评估领域，Cohere Large 10M数据集源自VectorDBBench基准测试，其构建过程严谨且系统化。该数据集的核心包含一千万条高维向量，每条向量具有768个维度，数据类型为浮点32位，并附带一万条独立的查询向量。为了优化大规模向量相似性搜索的效率，数据集进一步利用DiskANN算法预构建了索引，并依据不同的图度参数（R=16, 32, 64）生成了多种索引变体。尤为关键的是，为支持分布式检索场景，原始向量集合被精心划分为3、5、7、10等不同数量的分片，每个分片均配备了完整的DiskANN磁盘索引及相关辅助文件，从而形成了一个可直接用于高性能向量搜索的基准资源库。

特点

本数据集的核心特点在于其专为大规模向量相似性搜索基准测试而设计。数据集规模庞大，包含一千万条高维向量，为评估检索系统的精度与效率提供了充分的测试基础。其预构建的DiskANN索引是另一大亮点，提供了多种图度配置，允许研究者在召回率与搜索速度之间进行权衡研究。数据集采用分片化存储架构，支持3、5、7、10等多种分片配置，这为模拟分布式向量搜索环境、评测系统的可扩展性提供了直接便利。此外，数据集不仅包含基础向量和查询向量，还提供了精确的最近邻地面真值，确保了评估结果的可靠性与可重复性。

使用方法

使用该数据集进行向量搜索研究或系统评测时，研究者可通过Hugging Face Hub的Python客户端便捷地下载特定分片或索引文件。数据集文件结构清晰，主要分为存储原始向量的`fbin`目录、包含原始格式数据的`parquet`目录，以及核心的`diskann`索引目录。用户可根据需要选择不同分片配置下的DiskANN索引文件进行加载与查询。对于超过5GB的大文件，数据集已将其分割为多个部分，用户需使用简单的命令行操作进行合并。通过加载这些预构建索引，研究者可以立即开展高效的近似最近邻搜索实验，或将其作为基准来对比不同向量检索算法的性能表现。

背景与挑战

背景概述

随着大规模向量检索技术在人工智能领域的广泛应用，高效处理高维向量数据成为提升检索系统性能的关键。Cohere Large 10M数据集由VectorDBBench项目构建，专注于为向量数据库基准测试提供大规模、高维度的真实数据支撑。该数据集包含一千万条768维的浮点型向量，并附带一万条查询向量，旨在评估和优化近似最近邻搜索算法的效率与精度。其创建反映了当前向量化表示学习与分布式检索系统的发展趋势，为学术界与工业界提供了标准化的性能评测平台，推动了向量索引技术、分布式计算与存储优化等相关研究的深入。

当前挑战

该数据集致力于解决高维向量近似最近邻搜索的挑战，核心问题在于如何在大规模数据下平衡检索精度与计算效率。具体挑战包括：在十亿级向量规模中实现低延迟、高召回率的检索；处理768维浮点向量带来的“维度灾难”问题；以及在不同距离度量（如L2距离）下保持算法的鲁棒性。构建过程中的挑战则体现为数据分片与索引优化的复杂性，例如设计多分片配置（如3、5、7、10分片）以支持分布式搜索；优化DiskANN索引参数（如图度数R、构建束宽L和乘积量化字节数），确保索引构建与查询的高效性；同时需管理大规模文件存储与传输，如处理超过5GB的文件分块，保障数据完整性与可用性。

常用场景

经典使用场景

在向量检索与近似最近邻搜索领域，Cohere Large 10M数据集以其千万级高维向量规模，成为评估分布式索引算法性能的基准平台。该数据集通过预构建的DiskANN分片索引，支持多配置参数下的高效相似性搜索实验，广泛应用于大规模向量数据库的检索精度与吞吐量测试，为优化图索引结构与量化压缩技术提供了标准化的评估环境。

实际应用

在实际应用中，Cohere Large 10M数据集支撑了商业级向量数据库系统的性能基准测试，如VectorDBBench等工具利用其进行产品对比与调优。其分片索引设计可直接服务于云原生环境下的分布式检索服务，赋能推荐系统、语义搜索与内容去重等场景，实现海量嵌入向量的实时相似性匹配，提升人工智能应用的响应效率与准确性。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在向量检索算法的优化与评估框架构建。例如，基于DiskANN索引的分布式查询调度策略研究、多分片配置下的负载均衡算法改进，以及结合乘积量化的压缩检索技术探索。这些工作进一步推动了向量检索基准测试的标准化，并为开源社区提供了可复现的性能比较方案，加速了相关技术的迭代演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集