all-MiniLM-L6-v2 ArXiv titles

github2024-04-03 更新2024-05-31 收录

下载链接：

https://github.com/qdrant/ann-filtering-benchmark-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

包含2,138,591个向量，维度为384，使用余弦距离，过滤条件为匹配关键词或范围。

This dataset comprises 2,138,591 vectors, each with a dimensionality of 384. The vectors are evaluated using cosine distance, with filtering criteria based on matching keywords or ranges.

创建时间：

2022-05-23

原始信息汇总

数据集概述

本数据集包含多个用于近似最近邻（ANN）搜索的过滤检索数据集，旨在通过添加过滤条件来搜索相似向量。

数据集列表

描述	向量数量	维度	距离度量	过滤条件	链接
all-MiniLM-L6-v2 ArXiv titles	2,138,591	384	余弦相似度	匹配关键词/范围	链接
Efficientnet encoded H&M Clothes	105,100	2048	余弦相似度	匹配关键词	链接
LAION Sample encoded with CLIP	100,000	512	余弦相似度	范围	链接
Random vectors random payload	1,000,000	100	余弦相似度	匹配关键词	链接
Random vectors random payload	1,000,000	100	余弦相似度	匹配整数	链接
Random vectors random payload	1,000,000	100	余弦相似度	范围	链接
Random vectors random payload	1,000,000	100	余弦相似度	地理半径	链接
Random vectors random payload	100,000	2048	余弦相似度	匹配关键词	链接
Random vectors random payload	100,000	2048	余弦相似度	匹配整数	链接
Random vectors random payload	100,000	2048	余弦相似度	范围	链接
Random vectors random payload	100,000	2048	余弦相似度	地理半径	链接

数据格式

每个数据集包含以下文件：

vectors.npy：Numpy矩阵，形状为num_vectors x dim。
payloads.jsonl：与向量关联的负载值，行数等于num_vectors。
tests.jsonl：包含查询、过滤条件和预期结果的集合。包含字段：
- query：用于相似性搜索的向量。
- conditions：过滤条件，可能类型为match、range和geo。
- closest_ids：预期与给定查询匹配的记录ID。
- closest_scores：关联ID的相似性分数。

示例查询

json { "query": [-0.034, -0.185, -0.21, ...], "conditions": { "and": [ { "department_name": { "match": { "value": "Divided Shoes" } } } ] }, "closest_ids": [565, 15631, 100747, ....], "closest_scores": [0.734, 0.698, 0.697, 0.689, ...] }

搜集汇总

数据集介绍

构建方式

all-MiniLM-L6-v2 ArXiv titles数据集是通过对ArXiv论文标题进行向量化处理构建而成。具体而言，该数据集使用了MiniLM-L6-v2模型对2,138,591篇ArXiv论文标题进行编码，生成了384维的向量表示。这些向量以Numpy矩阵的形式存储，并与相应的元数据（如关键词匹配和范围过滤条件）关联。数据集的构建旨在支持近似最近邻搜索（ANN）任务，并结合业务逻辑进行过滤，以满足实际应用中的复杂需求。

特点

该数据集的特点在于其规模庞大且维度适中，包含超过200万条向量数据，每一条向量均为384维。数据集的向量表示基于MiniLM-L6-v2模型，能够有效捕捉文本语义信息。此外，数据集提供了丰富的过滤条件，包括关键词匹配和范围过滤，使得用户能够在相似性搜索的基础上进一步细化结果。这种结合向量搜索与业务逻辑的设计，使得该数据集在推荐系统、信息检索等领域具有广泛的应用潜力。

使用方法

使用该数据集时，用户首先需要加载`vectors.npy`文件以获取向量矩阵，并通过`payloads.jsonl`文件读取与向量关联的元数据。数据集还提供了`tests.jsonl`文件，其中包含一系列查询示例及其预期结果。用户可以根据查询向量和过滤条件（如关键词匹配或范围过滤）进行相似性搜索，并通过`closest_ids`和`closest_scores`字段验证搜索结果。该数据集适用于评估和优化近似最近邻搜索算法，尤其是在需要结合业务逻辑进行过滤的场景中。

背景与挑战

背景概述

all-MiniLM-L6-v2 ArXiv titles数据集是近年来随着向量相似性搜索在应用中的普及而诞生的一个重要资源。该数据集由多个研究机构共同构建，旨在解决近似最近邻搜索（ANN）在实际应用中的局限性。传统ANN方法通常仅关注搜索速度，而忽略了实际业务逻辑中的复杂需求，如基于元数据的过滤和动态更新。该数据集通过引入关键词匹配和范围过滤等条件，扩展了ANN的应用场景，使其能够更好地服务于个性化推荐、信息检索等领域。其核心研究问题在于如何在保证搜索效率的同时，灵活地结合业务逻辑进行多维度的数据筛选。

当前挑战

all-MiniLM-L6-v2 ArXiv titles数据集在构建和应用中面临多重挑战。首先，如何在保持高维向量搜索效率的同时，实现复杂的过滤条件，是一个技术难点。传统ANN算法通常未考虑动态更新和元数据过滤，这导致在实际应用中难以满足实时性和灵活性的需求。其次，数据集的构建需要处理大规模高维数据，如何高效地存储和检索这些数据，同时确保查询结果的准确性，是一个亟待解决的问题。此外，数据集的应用场景多样化，如何设计通用的查询接口以支持不同业务需求，也是一个重要的挑战。

常用场景

经典使用场景

在学术研究领域，all-MiniLM-L6-v2 ArXiv titles数据集被广泛应用于文本相似性搜索任务。通过将ArXiv论文标题转化为高维向量，研究者可以利用该数据集进行高效的近似最近邻搜索（ANN），从而快速找到与特定主题或关键词相关的论文。这种应用不仅提升了文献检索的效率，还为跨学科研究提供了新的可能性。

衍生相关工作

基于all-MiniLM-L6-v2 ArXiv titles数据集，研究者们开发了多种先进的文本检索和推荐算法。例如，一些工作通过结合深度学习模型和向量相似性搜索，进一步提升了文本检索的精度和效率。此外，该数据集还催生了一系列关于多模态检索和跨领域知识融合的研究，为自然语言处理和信息检索领域的发展提供了新的思路和方法。

数据集最近研究