Iceberg-dataset
收藏Iceberg 数据集概述
数据集基本信息
- 数据集名称: Iceberg
- 发布平台: Hugging Face
- 平台访问地址: https://huggingface.co/datasets/PIIR/Iceberg-dataset
- 许可协议: MIT
- 相关论文: ARXIV-2512.12980
数据集目的与范围
Iceberg 是一个用于在现实应用场景中对向量相似性搜索方法进行端到端评估的综合基准测试套件。它涵盖了图像分类、人脸识别、文本检索和推荐系统等关键领域的7个不同数据集。每个数据集包含100万到1亿个向量,并丰富了任务特定的标签和指标,使得能够在完整的应用流程中评估检索算法,而不仅仅是在孤立的召回率-速度场景中。该基准测试评估了13种最先进的VSS算法,并使用以任务为中心的性能指标对它们进行重新排名,揭示了与传统基于召回率/速度的排名之间的显著偏差。此外,Iceberg 提出了一种可解释的决策树,以指导从业者为特定工作负载选择和调整VSS方法。
包含的数据集详情
总览
| 数据集名称 | 基础数据量 | 向量维度 | 查询集大小 | 领域 | 原始数据源 |
|---|---|---|---|---|---|
| ImageNet-DINOv2 | 1,281,167 | 768 | 50,000 | 图像分类 | https://image-net.org/index.php |
| ImageNet-EVA02 | 1,281,167 | 1024 | 50,000 | 图像分类 | https://image-net.org/index.php |
| ImageNet-ConvNeXt | 1,281,167 | 1536 | 50,000 | 图像分类 | https://image-net.org/index.php |
| Glink360K-IR101 | 17,091,649 | 512 | 20,000 | 人脸识别 | https://github.com/deepinsight/insightface/tree/master/recognition/partial_fc#glint360k |
| Glink360K-ViT | 17,091,649 | 512 | 20,000 | 人脸识别 | https://github.com/deepinsight/insightface/tree/master/recognition/partial_fc#glint360k |
| BookCorpus | 9,250,529 | 1024 | 10,000 | 文本检索 | https://huggingface.co/datasets/bookcorpus/bookcorpus |
| Commerce | 99,085,171 | 48 | 64,111 | 推荐系统 |
数据集详细描述
D1: ImageNet
ImageNet 是一个大规模数据集,包含数百万张高分辨率图像,涵盖数千个对象类别。每张图像都通过手动或半自动方式标注了真实标签。该数据集在计算机视觉社区被广泛用于模型训练和基准测试,特别是图像分类任务。
使用的嵌入模型:
- DINOv2: https://huggingface.co/facebook/dinov2-base
- EVA02: https://huggingface.co/timm/eva02_large_patch14_448.mim_m38m_ft_in22k_in1k
- ConvNeXt: https://huggingface.co/timm/convnext_large_mlp.clip_laion2b_soup_ft_in12k_in1k_384
评估的终端任务指标:
- Label Recall@K:衡量在检索到的前K个结果中出现了多少个正确的任务特定标签。
D2: Glink360K
Glint360K 是一个大规模人脸数据集,通过合并和清理多个公共人脸数据集创建,显著扩展了身份和面部图像的数量。
使用的嵌入模型:
- Resnet-IR101: https://huggingface.co/minchul/cvlface_arcface_ir101_webface4m
- ViT: https://huggingface.co/gaunernst/vit_tiny_patch8_112.arcface_ms1mv3
评估的终端任务指标:
- Label Recall@K:衡量在检索到的前K个结果中出现了多少个正确的任务特定标签。
D3: BookCorpus
BookCorpus 包含从大约19,000本涵盖不同领域的书籍中提取的文本,并已整理成高质量语料库。文本在段落级别进行分割,每个段落被连接成包含八个句子的块。这种预处理产生了包含9,250,529个段落的基础数据集。从该语料库中,随机抽取10,000个段落构建查询集。每个段落的唯一ID被用作其对应嵌入向量的标签。
使用的嵌入模型:
- Stella: https://huggingface.co/NovaSearch/stella_en_1.5B_v5
评估的终端任务指标:
- Hit@K:衡量语义最相关的段落是否包含在检索到的前K个结果中。
D4: Commerce
Commerce 数据集源自一个主要电子商务平台的匿名流量日志,可作为大规模电子商务系统的代表性基准。该数据集收集了数月时间,包含99,085,171条频繁购买的杂货商品记录。此外,构建了一个包含64,111个条目的查询集,用于表示用户画像和相关的搜索关键词。每个查询都链接到一个高流行度商品序列,从而能够对下游推荐任务进行评估。整个数据集中使用商品ID作为标签。
使用的嵌入模型:
- ResFlow: https://github.com/FuCongResearchSquad/ResFlow
评估的终端任务指标:
- Matching Score@K:衡量查询检索到的向量是否既相关又受欢迎,以及这些商品的累积受欢迎程度。
支持的评估算法
Iceberg 基准测试套件支持评估以下13种向量相似性搜索算法:
| 算法名称 | 使用度量标准 | 算法类型 | 原始代码链接 |
|---|---|---|---|
| Fargo | 内积 | 基于分区 | https://github.com/Jacyhust/FARGO_VLDB23 |
| ScaNN | 内积 | 基于分区 | https://github.com/google-research/google-research/tree/master/scann |
| ip-NSW | 内积 | 基于图 | https://github.com/stanis-morozov/ip-nsw |
| ip-NSW+ | 内积 | 基于图 | https://github.com/jerry-liujie/ip-nsw/tree/GraphMIPS |
| Mobius | 内积 | 基于图 | 自行实现 |
| NAPG | 内积 | 基于图 | 自行实现 |
| MAG | 内积 | 基于图 | https://github.com/ZJU-DAILY/MAG |
| RaBitQ | 欧氏距离 | 基于分区 | https://github.com/VectorDB-NTU/RaBitQ-Library |
| IVFPQ | 欧氏距离 | 基于分区 | https://github.com/facebookresearch/faiss |
| DB-LSH | 欧氏距离 | 基于分区 | https://github.com/Jacyhust/DB-LSH |
| HNSW | 欧氏距离 | 基于图 | https://github.com/nmslib/hnswlib |
| NSG | 欧氏距离 | 基于图 | https://github.com/ZJULearning/nsg |
| Vamana | 欧氏距离 | 基于图 | https://github.com/microsoft/DiskANN |
基准测试流程
基准测试遵循“数据集选择 -> 嵌入生成 -> 基准评估”的流程。




