arXiv-for-fanns

Name: arXiv-for-fanns
Creator: 瑞士苏黎世联邦理工学院
Published: 2025-07-30 00:39:54
License: 暂无描述

arXiv2025-07-30 更新2025-07-31 收录

下载链接：

https://huggingface.co/datasets/SPCL/arxiv-for-fanns-small https://huggingface.co/datasets/SPCL/arxiv-for-fanns-medium https://huggingface.co/datasets/SPCL/arxiv-for-fanns-large

下载链接

链接失效反馈

官方服务：

资源简介：

arXiv-for-fanns数据集包含来自arXiv存储库的超过270万篇研究文章的摘要的嵌入向量，并附有11个真实世界的属性，如作者和类别。数据集的创建使用了基于transformer的模型stella_en_400M_v5来嵌入文章摘要。该数据集用于评估过滤近似最近邻搜索（FANNS）方法，旨在解决在文本、图像、音频和视频嵌入模型中检索满足特定属性条件的项的问题。

The arXiv-for-fanns dataset contains embeddings of abstracts from over 2.7 million research articles in the arXiv repository, along with 11 real-world attributes such as authors and categories. The dataset was created using the transformer-based model stella_en_400M_v5 to embed article abstracts. This dataset is used to evaluate Filtered Approximate Nearest Neighbor Search (FANNS) methods, aiming to address the problem of retrieving items that meet specific attribute conditions across text, image, audio, and video embedding models.

提供机构：

瑞士苏黎世联邦理工学院

创建时间：

2025-07-30

原始信息汇总

arXiv Dataset for (Filtered) Approximate Nearest Neighbor Search

数据集概述

用途：用于评估近似最近邻搜索（ANNS）和过滤近似最近邻搜索（FANNS）算法的基准测试。
数据来源：基于arXiv Dataset的论文摘要，使用stella_en_400M_v5嵌入模型生成嵌入向量。
查询生成：10,000个独特的arXiv搜索词由GPT-4生成，并使用相同的Stella模型嵌入。
规模：
- arxiv-for-fanns-small：1,000个数据库项（用于调试）。
- arxiv-for-fanns-medium：100,000个数据库项（用于小规模实验）。
- arxiv-for-fanns-large：2,735,264个数据库项（用于大规模实验）。

文件与描述

文件	描述
`database_vectors.fvecs`	每个论文摘要的4096维嵌入向量。
`database_attributes.jsonl`	每个论文的11个属性的JSON对象。
`query_vectors.fvecs`	每个查询的4096维嵌入向量。
`ground_truth.ivecs`	未过滤最近邻搜索的基准真值。
`em_query_attributes.jsonl`	精确匹配（EM）过滤的查询属性。
`ground_truth_em.ivecs`	EM过滤最近邻搜索的基准真值。
`r_query_attributes.jsonl`	范围（R）过滤的查询属性。
`ground_truth_r.ivecs`	R过滤最近邻搜索的基准真值。
`emis_query_attributes.jsonl`	集合中精确匹配（EMIS）过滤的查询属性。
`ground_truth_emis.ivecs`	EMIS过滤最近邻搜索的基准真值。

文件格式

.fvecs：32位浮点数的二进制格式（用于嵌入向量）。
.ivecs：32位有符号整数的二进制格式（用于基准真值）。
.jsonl：每行包含一个JSON对象（用于属性）。

下载方法

python from huggingface_hub import hf_hub_download

all_files = [ "database_vectors.fvecs", "query_vectors.fvecs", "database_attributes.jsonl", "em_query_attributes.jsonl", "r_query_attributes.jsonl", "emis_query_attributes.jsonl", "ground_truth_em.ivecs", "ground_truth_r.ivecs", "ground_truth_emis.ivecs" ]

mapping_of_filenames_to_paths = {}

for file in all_files: path = hf_hub_download( "SPCL/arxiv-for-fanns-large", filename=file, repo_type="dataset", ) mapping_of_filenames_to_paths[file] = path

引用

bibtex @misc{iff2025fannsbenchmark, title={Benchmarking Filtered Approximate Nearest Neighbor Search Algorithms on Transformer-based Embedding Vectors}, author={Patrick Iff and Paul Bruegger and Marcin Chrapek and Maciej Besta and Torsten Hoefler}, year={2025}, eprint={2507.21989}, archivePrefix={arXiv}, primaryClass={cs.DB}, url={https://arxiv.org/abs/2507.21989}, }

搜集汇总

数据集介绍

构建方式

arXiv-for-fanns数据集是通过从arXiv知识库中提取超过270万篇研究论文的摘要，利用基于Transformer的文本嵌入模型stella_en_400M_v5生成4096维的归一化嵌入向量构建而成。每个数据项包含11种真实世界属性，如作者、类别等，覆盖了无序属性、有序属性和集合属性三种类型。数据集的构建过程还包括生成三组各1万条查询（精确匹配、范围和集合内精确匹配过滤条件）及其预先计算的真实结果，以支持全面的过滤近似最近邻搜索（FANNS）评估。

特点

该数据集的主要特点在于其高维度的Transformer-based嵌入向量和丰富的真实世界属性。嵌入向量维度高达4096，远超过传统数据集的维度，反映了现代嵌入模型的实际应用需求。数据集提供了三种规模版本（小型1k项、中型100k项和大型2.7M项），并包含11种属性类型，支持全面的FANNS方法评估。特别值得注意的是，数据集中的属性分布多样，包括无序属性（如提交者）、有序属性（如更新日期）和集合属性（如作者列表），为研究不同过滤条件下的近似最近邻搜索提供了丰富的测试场景。

使用方法

arXiv-for-fanns数据集的使用方法包括加载数据集、执行查询和评估FANNS算法性能。用户可以从Hugging Face平台获取数据集的三个规模版本。数据集提供了三种类型的查询集合（EM、R和EMIS），每个集合包含1万条查询及其真实结果，可用于评估算法在不同过滤条件下的表现。评估时，建议使用标准的召回率@k与每秒查询数（QPS）曲线来衡量算法性能，同时考虑索引构建时间、内存使用和索引大小等指标。对于高维向量处理，需特别注意算法参数调优，以获得最佳性能。

背景与挑战

背景概述

arXiv-for-fanns数据集由苏黎世联邦理工学院的研究团队于2025年创建，旨在解决过滤近似最近邻搜索（FANNS）领域中缺乏多样化且真实数据集的问题。该数据集包含超过270万篇arXiv研究论文摘要的4096维嵌入向量，这些向量由基于Transformer的文本嵌入模型stella_en_400M_v5生成，并附带了11种真实世界属性，如作者和类别。该数据集的推出填补了高维嵌入向量在FANNS基准测试中的空白，为相关领域的研究提供了重要的数据支持。

当前挑战

arXiv-for-fanns数据集面临的挑战主要包括两个方面：首先，高维嵌入向量的处理增加了计算复杂度，使得传统的近似最近邻搜索方法在效率和准确性上难以平衡；其次，构建过程中需要处理大规模数据的存储和索引问题，尤其是在保持查询效率的同时确保数据的多样性和真实性。此外，数据集中嵌入向量的高维度特性对现有FANNS方法的扩展性提出了更高要求，部分方法在中等规模数据集上表现良好，但在大规模数据集上性能显著下降。

常用场景

经典使用场景

在信息检索与推荐系统领域，arXiv-for-fanns数据集为基于Transformer的嵌入向量提供了过滤近似最近邻搜索（FANNS）的基准测试平台。该数据集包含270万篇arXiv论文摘要的4096维嵌入向量及11种真实属性（如作者、类别），支持精确匹配、范围过滤和集合匹配等多种查询场景。其典型应用包括学术文献的语义检索系统，用户可通过嵌入向量相似度匹配相关论文，同时结合属性过滤（如特定作者或发表年份）精确定位目标文献。

实际应用

在实际应用中，该数据集可直接赋能学术搜索引擎的智能推荐模块。例如构建支持多条件约束的文献发现系统：用户输入自然语言查询（如"量子计算综述"）时，系统先将查询转换为嵌入向量，再结合过滤器（如"2020年后发表的VLDB会议论文"）快速返回符合条件的高相关性结果。此外，其多属性结构也适用于个性化推荐、专利检索等需要细粒度权限控制的商业场景。

衍生相关工作

围绕该数据集衍生的经典工作包括ACORN（支持混合属性过滤的图索引）、SeRF（针对有序属性的分段图优化）和Filtered-DiskANN（集合属性专用算法）。这些方法在arXiv-for-fanns上的对比实验揭示了算法设计的权衡：通用型方案（如ACORN）在跨属性查询中表现稳健，而专用算法（如SeRF）在特定过滤类型下效率提升显著。相关成果已推动Pinecone等商业数据库集成多属性检索能力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集