arXiv-for-fanns
收藏arXiv Dataset for (Filtered) Approximate Nearest Neighbor Search
数据集概述
- 用途:用于评估近似最近邻搜索(ANNS)和过滤近似最近邻搜索(FANNS)算法的基准测试。
- 数据来源:基于arXiv Dataset的论文摘要,使用stella_en_400M_v5嵌入模型生成嵌入向量。
- 查询生成:10,000个独特的arXiv搜索词由GPT-4生成,并使用相同的Stella模型嵌入。
- 规模:
arxiv-for-fanns-small:1,000个数据库项(用于调试)。arxiv-for-fanns-medium:100,000个数据库项(用于小规模实验)。arxiv-for-fanns-large:2,735,264个数据库项(用于大规模实验)。
文件与描述
| 文件 | 描述 |
|---|---|
database_vectors.fvecs |
每个论文摘要的4096维嵌入向量。 |
database_attributes.jsonl |
每个论文的11个属性的JSON对象。 |
query_vectors.fvecs |
每个查询的4096维嵌入向量。 |
ground_truth.ivecs |
未过滤最近邻搜索的基准真值。 |
em_query_attributes.jsonl |
精确匹配(EM)过滤的查询属性。 |
ground_truth_em.ivecs |
EM过滤最近邻搜索的基准真值。 |
r_query_attributes.jsonl |
范围(R)过滤的查询属性。 |
ground_truth_r.ivecs |
R过滤最近邻搜索的基准真值。 |
emis_query_attributes.jsonl |
集合中精确匹配(EMIS)过滤的查询属性。 |
ground_truth_emis.ivecs |
EMIS过滤最近邻搜索的基准真值。 |
文件格式
.fvecs:32位浮点数的二进制格式(用于嵌入向量)。.ivecs:32位有符号整数的二进制格式(用于基准真值)。.jsonl:每行包含一个JSON对象(用于属性)。
下载方法
python from huggingface_hub import hf_hub_download
all_files = [ "database_vectors.fvecs", "query_vectors.fvecs", "database_attributes.jsonl", "em_query_attributes.jsonl", "r_query_attributes.jsonl", "emis_query_attributes.jsonl", "ground_truth_em.ivecs", "ground_truth_r.ivecs", "ground_truth_emis.ivecs" ]
mapping_of_filenames_to_paths = {}
for file in all_files: path = hf_hub_download( "SPCL/arxiv-for-fanns-large", filename=file, repo_type="dataset", ) mapping_of_filenames_to_paths[file] = path
引用
bibtex @misc{iff2025fannsbenchmark, title={Benchmarking Filtered Approximate Nearest Neighbor Search Algorithms on Transformer-based Embedding Vectors}, author={Patrick Iff and Paul Bruegger and Marcin Chrapek and Maciej Besta and Torsten Hoefler}, year={2025}, eprint={2507.21989}, archivePrefix={arXiv}, primaryClass={cs.DB}, url={https://arxiv.org/abs/2507.21989}, }




