ANN DreaMS benchmark
收藏github2025-03-13 更新2025-03-14 收录
下载链接:
https://github.com/roman-bushuiev/ANN_DreaMS_benchmark
下载链接
链接失效反馈官方服务:
资源简介:
该仓库包含用于大规模DreaMS嵌入的近似最近邻搜索基准测试的数据集,包括1k、50k、500k和5M的DreaMS嵌入数据集。
This repository contains datasets for benchmarking approximate nearest neighbor (ANN) search on large-scale DreaMS embeddings, including DreaMS embedding datasets of sizes 1k, 50k, 500k, and 5M.
创建时间:
2025-03-12
原始信息汇总
ANN DreaMS benchmark 数据集概述
数据集简介
- 用于大规模DreaMS嵌入中的近似最近邻搜索的基准测试。
- 使用
matchms嵌入相似性后端。
数据准备
- 环境要求:安装
matchms的特定分支以及其他库,如tqdm和h5py。
数据下载
- 1k 查询 DreaMS 嵌入
- 50k 参考DreaMS嵌入
- 500k 参考DreaMS嵌入
- 5M 参考DreaMS嵌入
基准测试运行
- 运行基准测试时需指定一个近似最近邻后端和基准测试数据集。
实现和基准测试新的 matchms 近似最近邻后端
- 需要在
BaseEmbeddingSimilarity类中实现新的后端。
待办事项
- 评估其他后端,如 FAISS、annoy、Voyager 等。
搜集汇总
数据集介绍

构建方式
ANN DreaMS benchmark数据集的构建依托于大规模的DreaMS嵌入,通过使用`matchms`库中的embedding similarity backends,实现了近似最近邻搜索的基准测试。该数据集包含了不同规模(1k、50k、500k、5M)的查询和参考DreaMS嵌入,这些嵌入是从Hugging Face数据库下载的npy格式文件,并进行了相应的预处理以满足环境需求。
使用方法
使用该数据集进行基准测试时,用户需要指定一个近似最近邻搜索的后端(如pynndescent)以及一个特定的数据集(如GeMS_A1_DreaMS_rand50k)。通过执行提供的`benchmark.py`脚本,用户可以获取包括索引构建时间和内存消耗、查询时间、以及不同召回率下的性能指标在内的详细信息。此外,若要评估新的`matchms`近似最近邻搜索后端,用户需要在`BaseEmbeddingSimilarity`类中实现新的后端,并在脚本中进行相应的调用和测试。
背景与挑战
背景概述
ANN DreaMS benchmark数据集,旨在为大规模DreaMS嵌入中近似最近邻搜索提供基准测试。该数据集由研究人员Roman Bushuiev创建,依托于`matchms`库的嵌入相似度后端。其研究背景涉及质谱数据的高效处理与相似性搜索,是质谱分析领域的重要研究工具,对于推动该领域的发展具有重要的科学价值和实际应用意义。
当前挑战
该数据集在构建和应用过程中面临多重挑战,主要包括:1) 如何在大规模数据集上实现高效准确的近似最近邻搜索;2) 需要评估和实现多种不同的嵌入相似度后端,例如FAISS、annoy、Voyager等,以比较其在近似最近邻搜索中的性能;3) 数据集构建过程中的数据下载、处理和索引构建等步骤均需要优化,以保证数据集的质量和可用性。
常用场景
经典使用场景
在近似最近邻搜索领域,ANN DreaMS benchmark数据集被广泛用于评估大规模DreaMS嵌入中相似性度量的性能。其核心在于利用`matchms`工具包中的嵌入相似性后端,对查询和参考DreaMS嵌入进行匹配。
解决学术问题
该数据集解决了在化学信息学中,如何高效地在大规模数据集上进行相似性搜索的问题。它为研究者提供了一种评估近似最近邻搜索算法性能的标准方法,对于提高算法的准确性和效率具有重要意义。
实际应用
在药物发现、生物标志物识别以及代谢组学研究中,该数据集的应用有助于加速数据分析和挖掘过程,从而推动科学研究的进展。
数据集最近研究
最新研究方向
ANN DreaMS benchmark数据集作为近似最近邻搜索的评估基准,近期研究聚焦于大规模DreaMS嵌入中的高效搜索算法。该数据集采用matchms工具箱的嵌入相似度后端,推动了对近似最近邻搜索算法性能的深入探讨,特别是在索引构建的内存和时间效率、查询时间以及召回率等方面的研究。目前,研究者正在评估和实现新的匹配ms近似最近邻后端,例如FAISS、annoy和Voyager等,以探索其在处理大规模数据时的性能优势,这对提升质谱数据分析的效率具有重要意义。
以上内容由遇见数据集搜集并总结生成



