all-MiniLM-L6-v2 ArXiv titles|文本分析数据集|信息检索数据集

github2024-04-03 更新2024-05-31 收录

文本分析

信息检索

下载链接：

https://github.com/qdrant/ann-filtering-benchmark-datasets

下载链接

链接失效反馈

资源简介：

包含2,138,591个向量，维度为384，使用余弦距离，过滤条件为匹配关键词或范围。

This dataset comprises 2,138,591 vectors, each with a dimensionality of 384. The vectors are evaluated using cosine distance, with filtering criteria based on matching keywords or ranges.

创建时间：

2022-05-23

原始信息汇总

数据集概述

本数据集包含多个用于近似最近邻（ANN）搜索的过滤检索数据集，旨在通过添加过滤条件来搜索相似向量。

数据集列表

描述	向量数量	维度	距离度量	过滤条件	链接
all-MiniLM-L6-v2 ArXiv titles	2,138,591	384	余弦相似度	匹配关键词/范围	链接
Efficientnet encoded H&M Clothes	105,100	2048	余弦相似度	匹配关键词	链接
LAION Sample encoded with CLIP	100,000	512	余弦相似度	范围	链接
Random vectors random payload	1,000,000	100	余弦相似度	匹配关键词	链接
Random vectors random payload	1,000,000	100	余弦相似度	匹配整数	链接
Random vectors random payload	1,000,000	100	余弦相似度	范围	链接
Random vectors random payload	1,000,000	100	余弦相似度	地理半径	链接
Random vectors random payload	100,000	2048	余弦相似度	匹配关键词	链接
Random vectors random payload	100,000	2048	余弦相似度	匹配整数	链接
Random vectors random payload	100,000	2048	余弦相似度	范围	链接
Random vectors random payload	100,000	2048	余弦相似度	地理半径	链接

数据格式

每个数据集包含以下文件：

vectors.npy：Numpy矩阵，形状为num_vectors x dim。
payloads.jsonl：与向量关联的负载值，行数等于num_vectors。
tests.jsonl：包含查询、过滤条件和预期结果的集合。包含字段：
- query：用于相似性搜索的向量。
- conditions：过滤条件，可能类型为match、range和geo。
- closest_ids：预期与给定查询匹配的记录ID。
- closest_scores：关联ID的相似性分数。

示例查询

json { "query": [-0.034, -0.185, -0.21, ...], "conditions": { "and": [ { "department_name": { "match": { "value": "Divided Shoes" } } } ] }, "closest_ids": [565, 15631, 100747, ....], "closest_scores": [0.734, 0.698, 0.697, 0.689, ...] }

AI搜集汇总

数据集介绍

构建方式

all-MiniLM-L6-v2 ArXiv titles数据集是通过对ArXiv论文标题进行向量化处理构建而成。具体而言，该数据集使用了MiniLM-L6-v2模型对2,138,591篇ArXiv论文标题进行编码，生成了384维的向量表示。这些向量以Numpy矩阵的形式存储，并与相应的元数据（如关键词匹配和范围过滤条件）关联。数据集的构建旨在支持近似最近邻搜索（ANN）任务，并结合业务逻辑进行过滤，以满足实际应用中的复杂需求。

特点

该数据集的特点在于其规模庞大且维度适中，包含超过200万条向量数据，每一条向量均为384维。数据集的向量表示基于MiniLM-L6-v2模型，能够有效捕捉文本语义信息。此外，数据集提供了丰富的过滤条件，包括关键词匹配和范围过滤，使得用户能够在相似性搜索的基础上进一步细化结果。这种结合向量搜索与业务逻辑的设计，使得该数据集在推荐系统、信息检索等领域具有广泛的应用潜力。

使用方法

使用该数据集时，用户首先需要加载`vectors.npy`文件以获取向量矩阵，并通过`payloads.jsonl`文件读取与向量关联的元数据。数据集还提供了`tests.jsonl`文件，其中包含一系列查询示例及其预期结果。用户可以根据查询向量和过滤条件（如关键词匹配或范围过滤）进行相似性搜索，并通过`closest_ids`和`closest_scores`字段验证搜索结果。该数据集适用于评估和优化近似最近邻搜索算法，尤其是在需要结合业务逻辑进行过滤的场景中。

背景与挑战

背景概述

all-MiniLM-L6-v2 ArXiv titles数据集是近年来随着向量相似性搜索在应用中的普及而诞生的一个重要资源。该数据集由多个研究机构共同构建，旨在解决近似最近邻搜索（ANN）在实际应用中的局限性。传统ANN方法通常仅关注搜索速度，而忽略了实际业务逻辑中的复杂需求，如基于元数据的过滤和动态更新。该数据集通过引入关键词匹配和范围过滤等条件，扩展了ANN的应用场景，使其能够更好地服务于个性化推荐、信息检索等领域。其核心研究问题在于如何在保证搜索效率的同时，灵活地结合业务逻辑进行多维度的数据筛选。

当前挑战

all-MiniLM-L6-v2 ArXiv titles数据集在构建和应用中面临多重挑战。首先，如何在保持高维向量搜索效率的同时，实现复杂的过滤条件，是一个技术难点。传统ANN算法通常未考虑动态更新和元数据过滤，这导致在实际应用中难以满足实时性和灵活性的需求。其次，数据集的构建需要处理大规模高维数据，如何高效地存储和检索这些数据，同时确保查询结果的准确性，是一个亟待解决的问题。此外，数据集的应用场景多样化，如何设计通用的查询接口以支持不同业务需求，也是一个重要的挑战。

常用场景

经典使用场景

在学术研究领域，all-MiniLM-L6-v2 ArXiv titles数据集被广泛应用于文本相似性搜索任务。通过将ArXiv论文标题转化为高维向量，研究者可以利用该数据集进行高效的近似最近邻搜索（ANN），从而快速找到与特定主题或关键词相关的论文。这种应用不仅提升了文献检索的效率，还为跨学科研究提供了新的可能性。

衍生相关工作

基于all-MiniLM-L6-v2 ArXiv titles数据集，研究者们开发了多种先进的文本检索和推荐算法。例如，一些工作通过结合深度学习模型和向量相似性搜索，进一步提升了文本检索的精度和效率。此外，该数据集还催生了一系列关于多模态检索和跨领域知识融合的研究，为自然语言处理和信息检索领域的发展提供了新的思路和方法。

数据集最近研究

最新研究方向

在向量相似性搜索领域，all-MiniLM-L6-v2 ArXiv titles数据集的研究方向正逐渐从传统的近似最近邻（ANN）搜索转向结合业务逻辑的过滤搜索。随着应用场景的多样化，单纯基于向量相似性的搜索已无法满足实际需求。例如，在电商推荐系统中，用户不仅需要相似商品，还需考虑价格区间、库存状态等过滤条件。该数据集通过提供包含关键词匹配和范围过滤的查询测试，为研究者探索如何在保持搜索效率的同时，融入复杂的业务逻辑提供了重要支持。这一研究方向不仅推动了向量搜索技术的实际应用，也为跨领域的数据融合与智能决策提供了新的可能性。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像，每张图像均给出对应的人名，共有5749人，且绝大部分人仅有一张图片。每张图片的尺寸为250X250，绝大部分为彩色图像，但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

农业农作物生长全周期数据集

农业农作物生长全周期数据集通过整合农作物、农场面积、刺激类型、肥料用量、杀虫剂使用量、产量、土壤类型、季节和用水量等多维度数据，实现农业生产的精准化管理和可持续发展。

浙江大数据交易服务平台收录

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

TCIA

TCIA（The Cancer Imaging Archive）是一个公开的癌症影像数据集，包含多种癌症类型的医学影像数据，如CT、MRI、PET等。这些数据通常与临床和病理信息相结合，用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

Awesome JSON Datasets

一个精选的无需认证的JSON数据集列表。

github 收录