MNIST, DBpedia100K, DBpedia1M, Music100, Text2Image1M, Text2Image10M, Laion10M, Commerce100M

github2025-03-05 更新2025-03-17 收录

下载链接：

https://github.com/ZJU-DAILY/PSP

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库包含多个数据集，包括MNIST（手写数字图像数据集）、DBpedia100K（文本数据集）、DBpedia1M（文本数据集）、Music100（音频数据集）、Text2Image1M（多模态数据集）、Text2Image10M（多模态数据集）、Laion10M（多模态数据集）和Commerce100M（电子商务数据集）。这些数据集用于最大内积搜索（MIPS）的研究和实验。

This repository contains multiple datasets, including MNIST (handwritten digit image dataset), DBpedia100K (text dataset), DBpedia1M (text dataset), Music100 (audio dataset), Text2Image1M (multimodal dataset), Text2Image10M (multimodal dataset), Laion10M (multimodal dataset), and Commerce100M (e-commerce dataset). These datasets are used for research and experiments on maximum inner product search (MIPS).

创建时间：

2025-03-05

原始信息汇总

PSP 数据集概述

数据集简介

PSP（Proximity Graph with Spherical Pathway for MIPS）是一个用于最大内积搜索（MIPS）任务的数据集，包含了多种不同类型的数据，用于评估和比较MIPS和最近邻搜索（NNS）算法的性能。

数据集组成

数据集包含以下几种类型的数据：

MNIST：60,000个样本，784维，图像数据。
DBpedia100K：100,000个样本，3072维，文本数据。
DBpedia1M：1,000,000个样本，1536维，文本数据。
Music100：1,000,000个样本，100维，音频数据。
Text2Image1M：1,000,000个样本，200维，多模态数据。
Text2Image10M：10,000,000个样本，200维，多模态数据。
Laion10M：12,244,692个样本，512维，多模态数据。
Commerce100M：100,279,529个样本，48维，电子商务数据。

数据集来源

数据来源将在论文发表后释放。

使用说明

数据格式：数据格式为Number of vector (n) * Dimension (d)。
编译指南：需要在Linux环境下使用GCC 4.9+、CMake 2.8+、Boost 1.55+进行编译，Faiss为可选依赖。
使用步骤：包括构建kNN图、创建PSP索引、进行PSP搜索等。

性能评估

评估指标：QPS（每秒查询数），距离计算（针对图基方法）。

evaluation

搜集汇总

数据集介绍

构建方式

本数据集构建过程涉及多个领域，包括图像、文本、音频等多模态数据。数据集通过收集和预处理各领域的代表性数据，如MNIST手写数字数据集、DBpedia知识库实体数据集、Music音频数据集等，进而形成具有特定维度特征向量的数据集。每个数据集均按照其领域特点进行向量化处理，以适应不同的相似性搜索需求。

特点

该数据集集合了多种类型的数据，涵盖了从小规模到大规模的不同量级，如DBpedia100K与DBpedia1M的文本数据集，以及MNIST的图像数据集等。各数据集在维度和模态上具有多样性，能够满足不同场景下的相似性搜索和索引构建需求。此外，数据集经过精心设计，确保了索引构建和搜索的高效性。

使用方法

使用本数据集，用户首先需要根据数据集的特点和需求，构建kNN图，可以使用Faiss等库来实现。随后，利用提供的代码和脚本，用户可以构建PSP索引，并进行搜索。具体步骤包括准备数据、构建kNN图、生成PSP索引、执行搜索，并获取结果。用户需要根据数据集的维度和其他参数来调整命令行参数，以获得最佳的搜索性能。

背景与挑战

背景概述

MNIST等数据集均是在机器学习和深度学习领域中具有重要影响力的数据集。MNIST数据集，创建于1998年，由Yann LeCun等研究人员提出，是手写数字识别的经典数据集，其核心研究问题为如何通过机器学习模型准确识别手写数字，对图像识别领域产生了深远的影响。DBpedia100K和DBpedia1M是基于DBpedia的知识图谱数据集，用于文本嵌入的学习和评估，由不同的研究人员和机构共同构建。Music100是用于音频处理的数据集，Text2Image1M和Text2Image10M则是多模态数据集，涵盖了文本和图像信息。Laion10M和Commerce100M分别提供了大规模的多模态数据和电子商务数据，用于支撑复杂的数据分析和模型训练任务。这些数据集为相关领域的研究提供了宝贵的资源。

当前挑战

这些数据集在构建和应用过程中面临的挑战包括：如何有效地索引和搜索大规模高维数据（如MNIST和DBpedia数据集），如何在多模态数据中实现有效的信息融合和检索（如Text2Image数据集），以及如何在保持精确度的同时处理海量数据（如Commerce100M）。此外，构建过程中遇到的挑战还包括数据清洗、标注、存储和传输等方面的问题。对于MNIST等图像数据集，图像的噪声和变形是影响识别准确率的因素之一；而对于文本数据集，如何处理语言的多样性和复杂性是提高模型性能的关键。

常用场景

经典使用场景

MNIST等数据集在近似最近邻搜索（ANN）领域中被广泛使用，其经典应用场景在于图像识别、文本相似度计算以及音频处理等任务中，通过对高维数据进行有效的索引和检索，实现快速的查询响应。

解决学术问题

该数据集解决了高维空间中相似度搜索的计算效率问题，通过图索引结构如ip-NSW和其变种，减少了不必要的计算，提升了搜索性能，对于学术研究中关于大数据的相似性查询具有重要意义。

衍生相关工作

基于这些数据集，研究者们衍生出了多种图索引结构和优化算法，如Möbius-Graph、NAPG等，进一步推动了相似度搜索技术在理论和方法上的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集