Iceberg-dataset

github2025-12-16 更新2025-12-19 收录

下载链接：

https://github.com/ZJU-DAILY/Iceberg

下载链接

链接失效反馈

官方服务：

资源简介：

Iceberg是一个全面的基准测试套件，用于在现实应用设置中对向量相似性搜索（VSS）方法进行端到端评估。它涵盖了7个不同的数据集，包括图像分类、人脸识别、文本检索和推荐系统等关键领域。每个数据集包含1M到100M的向量，并附有任务特定的标签和指标，使得能够在完整的应用流程中评估检索算法，而不仅仅是在孤立的召回速度场景中。

Iceberg is a comprehensive benchmark suite for end-to-end evaluation of Vector Similarity Search (VSS) methods under real-world application settings. It covers seven distinct datasets spanning key domains including image classification, face recognition, text retrieval, and recommendation systems. Each dataset contains 1 million to 100 million vectors, accompanied by task-specific labels and metrics, enabling the evaluation of retrieval algorithms across a full application pipeline rather than just isolated recall speed scenarios.

创建时间：

2025-11-27

原始信息汇总

Iceberg 数据集概述

数据集基本信息

数据集名称： Iceberg
发布平台： Hugging Face
平台访问地址： https://huggingface.co/datasets/PIIR/Iceberg-dataset
许可协议： MIT
相关论文： ARXIV-2512.12980

数据集目的与范围

Iceberg 是一个用于在现实应用场景中对向量相似性搜索方法进行端到端评估的综合基准测试套件。它涵盖了图像分类、人脸识别、文本检索和推荐系统等关键领域的7个不同数据集。每个数据集包含100万到1亿个向量，并丰富了任务特定的标签和指标，使得能够在完整的应用流程中评估检索算法，而不仅仅是在孤立的召回率-速度场景中。该基准测试评估了13种最先进的VSS算法，并使用以任务为中心的性能指标对它们进行重新排名，揭示了与传统基于召回率/速度的排名之间的显著偏差。此外，Iceberg 提出了一种可解释的决策树，以指导从业者为特定工作负载选择和调整VSS方法。

包含的数据集详情

总览

数据集名称	基础数据量	向量维度	查询集大小	领域	原始数据源
ImageNet-DINOv2	1,281,167	768	50,000	图像分类	https://image-net.org/index.php
ImageNet-EVA02	1,281,167	1024	50,000	图像分类	https://image-net.org/index.php
ImageNet-ConvNeXt	1,281,167	1536	50,000	图像分类	https://image-net.org/index.php
Glink360K-IR101	17,091,649	512	20,000	人脸识别	https://github.com/deepinsight/insightface/tree/master/recognition/partial_fc#glint360k
Glink360K-ViT	17,091,649	512	20,000	人脸识别	https://github.com/deepinsight/insightface/tree/master/recognition/partial_fc#glint360k
BookCorpus	9,250,529	1024	10,000	文本检索	https://huggingface.co/datasets/bookcorpus/bookcorpus
Commerce	99,085,171	48	64,111	推荐系统

数据集详细描述

D1: ImageNet

ImageNet 是一个大规模数据集，包含数百万张高分辨率图像，涵盖数千个对象类别。每张图像都通过手动或半自动方式标注了真实标签。该数据集在计算机视觉社区被广泛用于模型训练和基准测试，特别是图像分类任务。

使用的嵌入模型：

DINOv2: https://huggingface.co/facebook/dinov2-base
EVA02: https://huggingface.co/timm/eva02_large_patch14_448.mim_m38m_ft_in22k_in1k
ConvNeXt: https://huggingface.co/timm/convnext_large_mlp.clip_laion2b_soup_ft_in12k_in1k_384

评估的终端任务指标：

Label Recall@K：衡量在检索到的前K个结果中出现了多少个正确的任务特定标签。

D2: Glink360K

Glint360K 是一个大规模人脸数据集，通过合并和清理多个公共人脸数据集创建，显著扩展了身份和面部图像的数量。

使用的嵌入模型：

Resnet-IR101: https://huggingface.co/minchul/cvlface_arcface_ir101_webface4m
ViT: https://huggingface.co/gaunernst/vit_tiny_patch8_112.arcface_ms1mv3

评估的终端任务指标：

Label Recall@K：衡量在检索到的前K个结果中出现了多少个正确的任务特定标签。

D3: BookCorpus

BookCorpus 包含从大约19,000本涵盖不同领域的书籍中提取的文本，并已整理成高质量语料库。文本在段落级别进行分割，每个段落被连接成包含八个句子的块。这种预处理产生了包含9,250,529个段落的基础数据集。从该语料库中，随机抽取10,000个段落构建查询集。每个段落的唯一ID被用作其对应嵌入向量的标签。

使用的嵌入模型：

Stella: https://huggingface.co/NovaSearch/stella_en_1.5B_v5

评估的终端任务指标：

Hit@K：衡量语义最相关的段落是否包含在检索到的前K个结果中。

D4: Commerce

Commerce 数据集源自一个主要电子商务平台的匿名流量日志，可作为大规模电子商务系统的代表性基准。该数据集收集了数月时间，包含99,085,171条频繁购买的杂货商品记录。此外，构建了一个包含64,111个条目的查询集，用于表示用户画像和相关的搜索关键词。每个查询都链接到一个高流行度商品序列，从而能够对下游推荐任务进行评估。整个数据集中使用商品ID作为标签。

使用的嵌入模型：

ResFlow: https://github.com/FuCongResearchSquad/ResFlow

评估的终端任务指标：

Matching Score@K：衡量查询检索到的向量是否既相关又受欢迎，以及这些商品的累积受欢迎程度。

支持的评估算法

Iceberg 基准测试套件支持评估以下13种向量相似性搜索算法：

算法名称	使用度量标准	算法类型	原始代码链接
Fargo	内积	基于分区	https://github.com/Jacyhust/FARGO_VLDB23
ScaNN	内积	基于分区	https://github.com/google-research/google-research/tree/master/scann
ip-NSW	内积	基于图	https://github.com/stanis-morozov/ip-nsw
ip-NSW+	内积	基于图	https://github.com/jerry-liujie/ip-nsw/tree/GraphMIPS
Mobius	内积	基于图	自行实现
NAPG	内积	基于图	自行实现
MAG	内积	基于图	https://github.com/ZJU-DAILY/MAG
RaBitQ	欧氏距离	基于分区	https://github.com/VectorDB-NTU/RaBitQ-Library
IVFPQ	欧氏距离	基于分区	https://github.com/facebookresearch/faiss
DB-LSH	欧氏距离	基于分区	https://github.com/Jacyhust/DB-LSH
HNSW	欧氏距离	基于图	https://github.com/nmslib/hnswlib
NSG	欧氏距离	基于图	https://github.com/ZJULearning/nsg
Vamana	欧氏距离	基于图	https://github.com/microsoft/DiskANN

基准测试流程

基准测试遵循“数据集选择 -> 嵌入生成 -> 基准评估”的流程。

搜集汇总

数据集介绍

构建方式

在向量相似性搜索领域，Iceberg数据集通过整合多个核心应用场景构建而成。其构建过程首先选取了图像分类、人脸识别、文本检索和推荐系统等关键领域的七个代表性数据集，包括ImageNet、Glink360K、BookCorpus和Commerce。每个数据集均经过精心处理，基础向量规模从一百万至近一亿不等，并利用先进的嵌入模型如DINOv2、EVA02、ConvNeXt、Stella和ResFlow生成高维特征表示。查询集则通过随机采样或基于实际应用日志的方式构建，确保了评估的广泛性和真实性。整个流程强调端到端的应用管道评估，而非孤立的召回率与速度测试。

特点

Iceberg数据集展现出多维度、任务驱动的鲜明特点。它覆盖了图像、人脸、文本和电商推荐四大领域，每个数据集不仅提供海量向量，还附带了任务特定的标签与评估指标，如标签召回率、命中率和匹配分数。这种设计使得研究者能够超越传统的相似性度量，直接衡量检索算法在真实下游任务中的性能。数据集规模差异显著，从百万级的图像向量到近亿级的商品记录，为不同计算环境下的算法测试提供了灵活空间。其核心创新在于引入了任务中心的性能度量，揭示了基于应用效果的排名与常规召回速度排名之间的显著差异。

使用方法

使用Iceberg数据集进行基准测试遵循一套清晰且可复现的流程。用户首先克隆项目仓库并配置Python环境，随后通过编辑YAML配置文件来指定目标数据集和待评估的算法参数。例如，针对ImageNet数据集运行HNSW算法时，需在数据集配置中设定向量维度、数据路径及查询数量，并在算法配置中调整图索引的构建与搜索参数。运行脚本支持构建和搜索两种模式，能够自动化完成索引创建、相似性搜索及任务性能评估。整个框架封装在Docker环境中，确保了实验的一致性与可移植性，便于研究者在统一平台上对比多种向量检索算法的实际应用效能。

背景与挑战

背景概述

在人工智能与信息检索领域，向量相似性搜索作为支撑大规模语义理解应用的核心技术，其性能评估长期依赖于孤立的召回率与速度指标。Iceberg数据集由PIIR团队于近期构建并公开，旨在通过涵盖图像分类、人脸识别、文本检索及推荐系统等关键领域的七个子数据集，构建一个面向真实应用场景的端到端评估基准。该数据集整合了百万至亿级规模的向量数据，并赋予任务特定的标签与评估指标，从而将检索算法置于完整应用流程中进行考量，突破了传统评估框架的局限。Iceberg不仅系统性地评测了十三种前沿向量搜索算法，更通过任务中心化的性能度量重新排序，揭示了算法在应用层面与基础度量之间的显著差异，为从业者提供了基于可解释决策树的方法选择与调优指南。

当前挑战

向量相似性搜索领域长期面临的挑战在于，现有评估体系往往脱离实际任务需求，仅关注检索速度与基础召回率，导致算法在真实场景中的表现出现偏差。Iceberg数据集致力于解决的正是这一评估鸿沟，其核心挑战在于如何设计能够全面反映下游任务性能的度量标准，例如在图像分类中准确衡量标签召回率，或在电商推荐中量化商品流行度与相关性的综合匹配分数。在构建过程中，挑战同样显著：需整合多源异构数据，确保从ImageNet、Glink360K等权威数据集提取的向量表征具备一致性与可比性；同时，处理亿级规模的高维向量并维护其与任务标签的精确关联，对数据工程与存储管理提出了极高要求。

常用场景

经典使用场景

在向量相似性搜索领域，Iceberg数据集作为一套综合性基准测试套件，其经典使用场景在于对各类向量检索算法进行端到端的性能评估。该数据集跨越图像分类、人脸识别、文本检索和推荐系统等多个关键领域，通过集成包含任务特定标签和度量的百万至亿级向量，使研究者能够在完整的应用流程中，而非孤立的召回-速度场景下，系统性地衡量不同算法的实际效能。

实际应用

在实际应用层面，Iceberg数据集为工业界选择与调优向量检索系统提供了可靠的决策依据。例如，在电子商务平台的商品推荐场景中，利用Commerce子数据集可以评估算法在匹配相关性与商品流行度方面的综合表现；在安防领域的人脸识别系统中，Glink360K子数据集则有助于筛选出在高精度身份检索任务中表现稳健的算法。该数据集附带的解释性决策树，进一步指导工程师根据特定工作负载特征，高效地配置和部署最适宜的检索方案。

衍生相关工作

围绕Iceberg数据集，已衍生出一系列对现有向量检索算法的系统性重评估与比较研究。该基准对包括Fargo、ScaNN、HNSW、Vamana在内的13种前沿算法进行了统一评测，并基于任务中心化指标重新排序，其发现挑战了仅依赖内积或欧氏距离等相似性度量的传统认知。这些工作促使研究社区更加关注算法在具体领域任务（如图像分类的标签召回、文本检索的语义命中）中的泛化能力与鲁棒性，为下一代向量搜索技术的设计指明了方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集