Public VSS Datasets

github2026-01-30 更新2026-02-05 收录

下载链接：

https://github.com/hkbudb/disk-vss-survey

下载链接

链接失效反馈

官方服务：

资源简介：

该部分列出了在VSS研究中常用的公开数据集，包括MovieLens-10M、Kosarak、OpenAI-3072、WIT-ResNet50、OpenAI-1536、Enron、Wiki和MSMACRO等。每个数据集都提供了维度、数量、来源、距离度量等详细信息。

This section lists the public datasets commonly used in VSS research, including MovieLens-10M, Kosarak, OpenAI-3072, WIT-ResNet50, OpenAI-1536, Enron, Wiki, MSMACRO, and others. Detailed information such as dimensionality, quantity, source, and distance metric is provided for each dataset.

创建时间：

2026-01-02

原始信息汇总

数据集概述

数据集来源

本仓库汇总了用于向量相似性搜索（VSS）研究的公共数据集，这些数据集是《Disk-Resident Vector Similarity Search: A Survey》论文和《Vector Search for the Future: From Memory-Resident, Static Heterogeneous Storage, to Cloud-Native Architectures》教程中用于可复现基准测试的常用数据集。

数据集列表与关键信息

以下表格列出了公共数据集的名称、维度、数据量、来源、距离度量、查询集大小及是否包含元数据特征。

数据集	维度	数据量	来源	距离度量	查询集大小	包含元数据
MovieLens-10M	65,134	69K	集合（电影推荐）	Jaccard	N/A	是
Kosarak	27,983	74K	集合（点击流）	Jaccard	N/A	否
OpenAI-3072	3,072	1M	文本	欧几里得	N/A	是
WIT-ResNet50	2,048	45K	图像	欧几里得	N/A	否
OpenAI-1536	1,536	1M	文本	欧几里得	N/A	是
Enron	1,369	94K	文本	Angular	200	是
Wiki	1,024	247.2M	文本	Angular	N/A	是
MSMACRO	1,024	53.2M	文本	Angular	1,677	是
GIST	960	1M	图像	欧几里得	1,000	否
MNIST	784	60K	图像	欧几里得	10,000	是
LAION-5B	768	5B	图像	Angular	N/A	是
COCO-I2I	512	113K	图像	Angular	10,000	否
MSong	420	1M	音频	欧几里得	200	否
Tiny	384	5M	图像	欧几里得	10,000	否
GloVe-300	300	2.2M	文本	Angular	10,000	否
Crawl	300	2M	文本	Angular	10,000	否
Facebook SimSearchNet++	256	1B	图像	欧几里得	100,000	否
UQvideo	256	1M	视频	欧几里得	10,000	否
NYTimes	256	290K	文本	Angular	10,000	否
Yandex Text-to-Image	200	1B	文本与图像	内积	100,000	否
GloVe-200	200	1.2M	文本	Angular	10,000	否
Audio	192	53K	音频	欧几里得	200	否
SIFT	128	1B	图像	欧几里得	10,000	否
SPACEV	100	1.4B	文本	欧几里得	29,316	否
Turing	100	1B	文本	欧几里得	100,000	否
GloVe-100	100	1.2M	文本	Angular	10,000	否
DEEP	96	1B	图像	欧几里得	10,000	否

数据集详细描述

MovieLens-10M：电影推荐数据集，包含1000万用户-电影评分和标签应用，通常被转换为高维稀疏集/向量用于集合相似性搜索。
Kosarak：来自匈牙利在线新闻门户的匿名点击流交易日志，每条记录都是项目/页面ID的稀疏集。
OpenAI-3072 与 OpenAI-1536：文本嵌入数据集，源自DBpedia实体的前100万条条目，使用OpenAI text-embedding-3-large模型编码，包含id、title和text等元数据。
WIT-ResNet50：维基百科图像-标题匹配竞赛发布的辅助向量数据集，由ImageNet预训练模型ResNet-50提取的2048维特征表示。
Enron：大型电子邮件语料库，通常通过文本表示进行向量化，包含可作为过滤属性的文件夹结构/元数据。
Wiki：多语言维基百科段落语料库，使用Cohere Embed v3模型编码为1024维向量，保留url、title和text等元数据字段。
MSMARCO：大规模网络搜索语料库，使用Cohere Embed English v3模型将每个片段和查询编码为1024维密集向量，支持基于元数据的过滤。
GIST：图像数据集，每个项目由960维向量表示。
MNIST：手写数字图像数据集，通常被展平为784维向量。
LAION-5B：大规模图像-文本语料库，使用CLIP ViT-L/14生成768维向量用于搜索。
COCO-I2I：带有丰富标注的图像集合，通常通过图像编码器转换为512维图像嵌入用于图像到图像检索。
MSong：音乐数据集，提供音频特征和曲目元数据，每首曲目表示为420维音频特征向量。
Tiny：网络爬取的32×32彩色图像集合，广泛使用的Tiny5M基准采样500万张图像，每张图像表示为384维向量。
GloVe：从大型文本语料库学习的预训练词嵌入，发布为密集向量，维度通常为50、100、200或300。
Crawl：源自文本的向量数据集，包含从Common Crawl语料库学习的预训练词嵌入，广泛使用的版本通常为300维。
Facebook SimSearchNet++：Facebook发布的图像描述符数据集，原始向量经PCA压缩至256维。
UQvideo：近重复视频数据集，视频使用多个视觉特征嵌入表示。
NYTimes：新闻文章语料库，表示为词袋计数向量。
Yandex Text-to-Image：十亿规模跨模态检索数据集，数据库包含10亿个由SE-ResNeXt-101模型生成的图像嵌入，查询是由DSSM模型变体生成的文本嵌入，两者均映射到通过三元组损失变体学习的共享200维空间。
Audio：公共音频特征数据集，表示为192维密集向量。
SIFT：图像描述符数据集，每个项目对应一个128维局部特征向量。
SPACEV：网络搜索数据集，文档和查询使用Microsoft SpaceV Superior模型编码为密集向量。
Turing：网络查询相似性数据集，包含10亿个查询嵌入，网络搜索查询由基于Turing-NLG架构构建的通用语言AGI/SpaceV5模型编码。
DEEP：十亿规模图像嵌入数据集，向量从GoogLeNet特征提取，随后经PCA压缩（例如至96维）并进行L2归一化。

数据用途

这些数据集主要用于向量相似性搜索算法的基准测试、性能评估和可复现研究，覆盖文本、图像、音频、视频等多种模态。

搜集汇总

数据集介绍

构建方式

在向量相似性搜索领域，高质量的数据集是评估算法性能的基石。Public VSS Datasets的构建并非通过单一来源生成，而是系统性地汇集了学术界与工业界广泛采用的基准数据集。这些数据集源自多样化的模态，包括文本、图像、音频和视频，其向量表示通过预训练模型（如OpenAI的text-embedding-3-large、Cohere Embed v3、ResNet-50、CLIP等）或经典特征提取方法（如SIFT、GIST）生成。每个数据集的元数据，如ID、标题、文本或标签，均被保留以支持带属性的过滤搜索，确保了数据在真实场景下的实用性与可复现性。

使用方法

研究人员与工程师可将该数据集集合用于向量相似性搜索算法的基准测试与性能评估。典型的使用流程包括：根据研究目标（如内存-磁盘混合架构优化、十亿级规模检索）选择合适的数据集，下载其预生成的向量文件及查询集；随后，利用这些数据构建索引并执行近邻搜索，以衡量算法的查询精度、吞吐量及延迟等关键指标。数据集附带的元数据可用于实现过滤检索，模拟真实应用中的复杂查询条件。这些标准化的数据为不同VSS方法提供了公平、可比较的实验基础。

背景与挑战

背景概述

Public VSS Datasets 是由香港浸会大学数据库研究团队在2026年系统整理并公开的向量相似性搜索基准数据集集合，其核心研究问题聚焦于为大规模、高维向量检索提供标准化评估基准。该数据集整合了涵盖文本、图像、音频及视频等多模态领域的数十个经典公开数据集，如SIFT、GloVe、LAION-5B等，旨在支持对磁盘驻留向量搜索算法的系统性评测与比较。通过提供统一的维度、规模及距离度量信息，该集合显著促进了向量检索领域在异构存储与云原生架构下的方法创新与性能验证，成为相关学术研究与工程实践的重要基础设施。

当前挑战

该数据集集合所应对的核心挑战在于解决高维向量相似性搜索中的可扩展性与效率瓶颈，特别是在数据规模达到十亿级别、维度跨越数百至数千时，如何在海量数据中实现低延迟、高精度的近似最近邻检索。构建过程中的挑战则体现为多源异构数据的集成与标准化：需从分散的公开数据源中收集原始向量，并统一其格式、距离度量与元数据标注；同时，需确保数据集的代表性与多样性，以覆盖不同模态、分布与查询负载，从而为算法评估提供全面且可靠的基准环境。

常用场景

经典使用场景

在向量相似性搜索领域，Public VSS Datasets作为基准测试的核心资源，为各类索引算法与查询策略提供了标准化的评估平台。这些数据集覆盖了文本、图像、音频等多种模态，其高维向量表示能够模拟真实世界中的复杂数据分布。研究人员通常利用这些数据集进行大规模近似最近邻搜索实验，以验证算法在精度、召回率及查询延迟等方面的性能表现，从而推动向量检索技术的迭代与优化。

解决学术问题

该数据集集合有效解决了向量相似性搜索研究中数据稀缺与评估标准不统一的关键问题。通过提供多维度、多规模且来源公开的向量数据，它使得不同算法能够在相同条件下进行公平比较，促进了可复现研究的开展。此外，这些数据集涵盖了从内存驻留到磁盘驻留架构的过渡场景，为探索I/O瓶颈优化、异构存储适配等前沿课题提供了实证基础，加速了向量检索理论向实用系统的转化。

实际应用

在实际应用中，Public VSS Datasets支撑了众多商业与开源向量数据库系统的性能调优与基准测试。例如，在推荐系统中，MovieLens-10M数据集被用于评估用户兴趣向量的快速匹配；在跨模态检索场景下，LAION-5B等大规模图像-文本对数据集助力训练与验证多模态嵌入模型。这些数据集还广泛应用于版权检测、内容审核、智能问答等现实任务，为构建高效、可扩展的相似性搜索服务提供了关键数据支撑。

数据集最近研究