VIBE
收藏github2025-05-16 更新2025-05-28 收录
下载链接:
https://github.com/vector-index-bench/vibe
下载链接
链接失效反馈官方服务:
资源简介:
VIBE(Vector Index Benchmark for Embeddings)是一个用于近似最近邻搜索方法或向量索引的可扩展基准测试,使用现代嵌入数据集。它包括用于分布内和分布外设置的数据集,支持8位整数和二进制精度的量化数据集,支持GPU算法和Slurm的HPC环境。
VIBE (Vector Index Benchmark for Embeddings) is a scalable benchmark for approximate nearest neighbor search methods or vector indexes, leveraging modern embedding datasets. It includes datasets for both in-distribution and out-of-distribution settings, supports quantized datasets with 8-bit integer and binary precision, and is compatible with GPU-based algorithms as well as Slurm-managed HPC environments.
创建时间:
2025-05-14
原始信息汇总
VIBE 数据集概述
数据集简介
- 名称:VIBE (Vector Index Benchmark for Embeddings)
- 类型:现代嵌入数据集的近似最近邻搜索方法基准
- 特点:
- 包含分布内和分布外设置的数据集
- 支持8位整数和二进制精度的量化数据集
- 支持GPU算法
- 支持Slurm的高性能计算环境
数据集列表
| 名称 | 类型 | 样本数 (n) | 维度 (d) | 距离度量 |
|---|---|---|---|---|
| agnews-mxbai-1024-euclidean | 文本 | 769,382 | 1024 | euclidean |
| arxiv-nomic-768-normalized | 文本 | 1,344,643 | 768 | any |
| gooaq-distilroberta-768-normalized | 文本 | 1,475,024 | 768 | any |
| imagenet-clip-512-normalized | 图像 | 1,281,167 | 512 | any |
| landmark-nomic-768-normalized | 图像 | 760,757 | 768 | any |
| yahoo-minilm-384-normalized | 文本 | 677,305 | 384 | any |
| celeba-resnet-2048-cosine | 图像 | 201,599 | 2048 | cosine |
| ccnews-nomic-768-normalized | 文本 | 495,328 | 768 | any |
| codesearchnet-jina-768-cosine | 代码 | 1,374,067 | 768 | cosine |
| glove-200-cosine | 单词 | 1,192,514 | 200 | cosine |
| landmark-dino-768-cosine | 图像 | 760,757 | 768 | cosine |
| simplewiki-openai-3072-normalized | 文本 | 260,372 | 3072 | any |
| coco-nomic-768-normalized | 文本到图像 | 282,360 | 768 | any |
| imagenet-align-640-normalized | 文本到图像 | 1,281,167 | 640 | any |
| laion-clip-512-normalized | 文本到图像 | 1,000,448 | 512 | any |
| yandex-200-cosine | 文本到图像 | 1,000,000 | 200 | cosine |
| yi-128-ip | 注意力 | 187,843 | 128 | IP |
| llama-128-ip | 注意力 | 256,921 | 128 | IP |
算法列表
| 方法 | 版本 |
|---|---|
| ANNOY | 1.17.3 |
| FALCONN++ | git+5fd3f17 |
| FlatNav | 0.1.2 |
| CAGRA | 25.4.0 |
| GGNN | 0.9 |
| GLASS | 1.0.5 |
| HNSW | 0.8.0 |
| IVF (Faiss) | 1.11.0 |
| IVF-PQ (Faiss) | 1.11.0 |
| LVQ (SVS) | 0.0.7 |
| LeanVec (SVS) | 0.0.7 |
| LoRANN | 0.2 |
| MLANN | git+40848e7 |
| MRPT | 2.0.1 |
| NGT-ONNG | git+83d5896 |
| NGT-QG | git+83d5896 |
| NSG | 1.11.0 |
| PUFFINN | git+fd86b0d |
| PyNNDescent | 0.5.13 |
| RoarGraph | git+f2b49b6 |
| ScaNN | 1.4.0 |
| SymphonyQG | git+32a0019 |
| Vamana (DiskANN) | 0.7.0 |
结果查看
当前VIBE结果可在以下网站查看: https://vector-index-bench.github.io
许可证
VIBE在MIT许可证下可用。
搜集汇总
数据集介绍

构建方式
在向量检索领域,VIBE数据集通过整合多模态嵌入数据构建了一个全面的基准测试平台。该数据集采用现代嵌入技术,涵盖了文本、图像、代码等多种数据类型,并通过HDF5格式高效存储。构建过程中特别考虑了分布内和分布外场景,支持8位整数和二值量化精度,同时兼容GPU算法和高性能计算环境。数据集生成流程包含从原始数据到嵌入向量的完整转换链,并提供了Slurm集群支持的大规模数据处理能力。
特点
作为向量索引领域的标杆性资源,VIBE最显著的特点是涵盖18种跨模态数据集,包括AGNews新闻文本、ImageNet视觉内容及CodeSearchNet代码片段等。其维度特征从128维到3072维不等,支持欧氏距离、余弦相似度等多种相似性度量。特别值得关注的是数据集提供的标准化处理,使得不同算法能在统一标准下进行公平比较。该平台还集成了24种前沿向量检索算法,形成目前最全面的近似最近邻搜索方法评估体系。
使用方法
使用VIBE数据集需要配置Apptainer容器环境和Python 3.6+运行时。通过install.sh脚本可构建算法库镜像,run.py脚本则支持单数据集基准测试,允许指定并行进程数和近邻数量。对于大规模评估,项目提供了Slurm集群任务模板。结果可视化需先构建plot.sif镜像,而数据集重构功能通过create_dataset.sh实现,需配置200GB缓存空间。整个工作流支持GPU加速,并包含详细的性能监控和资源管理机制。
背景与挑战
背景概述
VIBE(Vector Index Benchmark for Embeddings)是由vector-index-bench团队开发的现代向量索引基准测试框架,专注于评估近似最近邻搜索方法在现代嵌入数据集上的性能。该数据集整合了多种文本、图像、代码等领域的嵌入表示,旨在为研究者和工程师提供一个全面、可扩展的基准测试平台。VIBE不仅支持传统的欧氏距离和余弦相似度计算,还涵盖了量化数据集(8位整数和二进制精度)以及GPU算法和高性能计算(HPC)环境的适配。其核心研究问题在于如何高效、准确地在大规模高维向量空间中实现近似最近邻搜索,为信息检索、推荐系统、计算机视觉等领域的算法优化提供了重要参考。
当前挑战
VIBE数据集面临的挑战主要体现在两个方面:领域问题的挑战和构建过程的挑战。在领域问题方面,高维向量空间的近似最近邻搜索需要平衡精度与效率,尤其是在处理大规模数据集时,如何减少计算复杂度并保持较高的召回率成为关键难题。此外,不同嵌入表示(如文本、图像、代码)的异构性进一步增加了算法的通用性要求。在构建过程中,数据集的多样性和规模对存储和计算资源提出了极高需求,尤其是在生成和标准化嵌入向量时,需处理原始数据的噪声和分布差异。同时,支持多种距离度量和硬件环境(如GPU和HPC)的适配也增加了系统的复杂性。
常用场景
经典使用场景
在信息检索与机器学习领域,VIBE数据集作为现代嵌入向量的基准测试平台,广泛应用于近似最近邻搜索算法的性能评估。该数据集通过整合多模态嵌入数据(包括文本、图像和代码等),为研究者提供了统一的评估框架,特别是在高维向量空间中的检索效率与准确性测试方面展现出独特价值。其标准化设计支持从欧氏距离到余弦相似度等多种度量方式,成为比较不同向量索引算法性能的黄金标准。
解决学术问题
VIBE数据集有效解决了高维嵌入向量检索中的核心学术挑战,包括算法在分布外数据泛化性、量化精度损失与计算效率的平衡等问题。通过提供包含128维至3072维的多样化嵌入样本,该数据集帮助验证了近似最近邻搜索算法在十亿级数据规模下的理论边界,推动了基于GPU加速、分层可导航小世界图等新型索引结构的创新研究,填补了传统基准测试在现代化嵌入模型评估中的空白。
衍生相关工作
围绕VIBE数据集已衍生出多项重要研究,包括微软DiskANN团队提出的基于SSD的Vamana索引优化、Google Research开发的ScaNN量化算法等突破性工作。该数据集还促进了FAISS库中IVF-PQ等经典方法的性能迭代,并启发了CAGRA等面向GPU的混合索引结构创新。相关成果在SIGIR、NeurIPS等顶会形成专门研讨方向,持续推动向量检索领域的算法演进。
以上内容由遇见数据集搜集并总结生成



