FANNS 数据集
收藏arXiv2025-09-09 更新2025-09-11 收录
下载链接:
https://github.com/sjyouuuuug/filterbenchmark
下载链接
链接失效反馈官方服务:
资源简介:
本文介绍了一个名为FANNS的数据集,该数据集由复旦大学的研究人员创建,旨在为Filtered Approximate Nearest Neighbor Search (FANNS)算法提供一个统一的基准和系统性的实验研究。数据集包含6个不同规模和特性的真实世界数据集,用于评估FANNS算法的性能。这些数据集在维度、数据量和Tokens数上有所不同,来自不同的领域,如文本、图像和视频。数据集的创建过程涉及了参数调整、标准化过滤和索引构建等步骤。FANNS数据集的应用领域包括推荐系统、搜索引擎和AI系统等,旨在解决大规模、多模态非结构化数据的检索和处理问题。
This paper introduces the FANNS dataset, created by researchers from Fudan University, which aims to provide a unified benchmark and systematic experimental research for the Filtered Approximate Nearest Neighbor Search (FANNS) algorithm. The dataset comprises six real-world datasets with distinct scales and characteristics, which are used to evaluate the performance of the FANNS algorithm. These datasets differ in dimensionality, data volume, and number of Tokens, and originate from diverse domains including text, images, and video. The creation process of the FANNS dataset involves steps such as parameter tuning, standardization filtering, and index construction. The application fields of the FANNS dataset cover recommendation systems, search engines, AI systems, and more, aiming to address the retrieval and processing issues of large-scale, multimodal unstructured data.
提供机构:
复旦大学
创建时间:
2025-09-09
原始信息汇总
数据集概述
数据集名称
Filtered Approximate Nearest Neighbor Search: A Unified Benchmark and Systematic Experimental Study
数据格式
- 提供两种原始数据格式:
dataset_name.fvecs和dataset_name.bin - 包含基础数据文件和查询数据文件
- 提供标签文件(
label_base.txt)
数据集用途
用于近似最近邻搜索的基准测试和实验研究,支持两种场景:
- 包含场景(containment scenario)
- 重叠场景(overlap scenario)
工具和脚本
UNG-dev 工具集
- 计算真实值工具:
compute_groundtruth - 支持多线程处理(
--num_threads参数) - 支持不同距离函数(如 L2 距离)
参数调优工作流
- 参数空间探索:
traverse_param_space.py - 子空间搜索:
search_in_subspace.py - 结果聚合:
combine_search_result.py - 代表性样本选择:
select_representative.py - 构建代表性图:
build_representative_graphs.py
评估脚本
search_basic_exp.pysearch_base_exp.pysearch_NHQ_exp.pysearch_selectivity_exp.py
算法支持
- UNG(Unified Navigating Graph)
- 后过滤 HNSW
- 后过滤 IVFPQ
- CAPS(需要生成
libfaiss.a和OpenBLAS/libopenblas.a)
构建要求
- CMake 构建系统
- OpenMP 支持
- 需要编译生成索引和查询工具
数据文件示例
- 基础数据:
words_base.bin - 查询数据:
words_query_and.bin、words_query_or.bin - 真实值文件:
words_gt_and.bin、words_gt_or.bin - 标签文件:
label_base.txt
搜集汇总
数据集介绍

构建方式
FANNS 数据集通过整合六个大规模真实世界数据集构建而成,涵盖文本、图像和音频多模态数据,包括 arXiv 学术论文、TripClick 医疗搜索日志、LAION1M 图像-文本对、YFCC 多媒体内容及 YouTube 音视频数据。每个数据点均包含高维向量嵌入和结构化标签,标签类型涵盖分类属性、时间戳和多值组合等。构建过程采用统一的参数调优框架,对 41,000 种参数组合进行系统评估,最终筛选出 1,300 组代表性参数配置,确保算法比较的公平性和可复现性。
特点
该数据集的核心特征体现在多模态数据的全面覆盖与复杂标签体系的深度融合。向量维度从 128 维至 1,024 维不等,标签系统支持包含、重叠、相等和定长相等四种约束场景,能够模拟电子商务、学术检索等真实应用的混合查询需求。数据分布呈现长尾特性,标签频率和组大小均遵循偏态分布,且查询难度通过标签长度和选择度进行分层设计,为评估算法在不同压力场景下的鲁棒性提供了丰富维度。
使用方法
数据集的使用需遵循标准化评估框架,首先根据查询场景(包含/重叠/相等/定长相等)加载对应的标签约束逻辑,随后通过统一参数化接口调用各算法实现。评估时需计算 Recall@k 和 QPS 双指标,并分析算法在变长标签、不同选择度百分位及多样化 top-k 要求下的性能变化。实验应覆盖全部六类数据集以验证跨域泛化能力,同时需记录索引构建时间和内存占用以全面衡量系统开销。
背景与挑战
背景概述
FANNS数据集由复旦大学研究团队于2025年提出,专注于解决带过滤条件的近似最近邻搜索问题。该数据集针对多模态数据检索场景,将高维向量相似性搜索与结构化属性过滤相结合,广泛应用于推荐系统、搜索引擎和人工智能领域。其核心研究在于优化语义检索与元数据约束的混合查询处理,通过系统化基准测试框架推动高维数据检索技术的发展。
当前挑战
FANNS需解决高维向量相似性搜索与多标签过滤的联合优化问题,面临查询精度与响应速度的权衡挑战。构建过程中需克服参数组合爆炸、标签空间与向量空间异构性,以及真实场景下过滤选择性动态变化带来的算法适配难题。多模态数据分布不均和长尾标签效应进一步增加了索引构建与查询处理的复杂性。
常用场景
经典使用场景
在推荐系统和搜索引擎领域,FANNS数据集为融合语义相似性与元数据过滤的混合查询提供了标准化评估框架。该数据集通过统一参数调优和标准化过滤流程,支持对多种算法在包含、相等和重叠等复杂约束场景下的性能比较,成为评估过滤近似最近邻搜索算法召回率与查询吞吐量的基准平台。
实际应用
在电子商务和学术检索平台中,FANNS数据集支持实际应用如价格区间约束的商品相似性检索、出版日期过滤的文献推荐等场景。其提供的YFCC和YouTube等多模态数据集能够模拟真实环境中的标签分布与查询模式,为工业级向量数据库的过滤查询优化提供了性能验证基准和部署参考。
衍生相关工作
该数据集衍生出ACORN系列的谓词无关搜索算法、UNG的标签导航图结构以及DiskANN的混合搜索改进等经典工作。基于其基准测试框架,后续研究进一步探索了范围过滤扩展算法(如SeRF和UNIFY),并推动了向量量化技术与图索引在约束检索场景中的深度融合与优化。
以上内容由遇见数据集搜集并总结生成



