pd12m

Hugging Face2025-05-13 更新2025-05-14 收录

下载链接：

https://huggingface.co/datasets/Leask/pd12m

下载链接

链接失效反馈

官方服务：

资源简介：

PD12M是一个经过精心筛选的公共领域12M图像数据集，用于Chipmunk项目。该数据集通过过滤活跃的图像链接来优化图像集合，并提取了图像的EXIF数据。所有图像都经过预处理和特征提取，生成了适合L2索引的归一化16位半精度向量。

创建时间：

2025-05-09

原始信息汇总

PD12M数据集概述

基本信息

许可证: Apache-2.0
任务类别: 特征提取
语言: 英语
数据规模: 1M<n<10M

数据集描述

PD12M是一个经过筛选的公共领域图像数据集，源自Public Domain 12M图像集合。数据集经过以下处理：

筛选有效图像链接
提取EXIF数据
使用SigLIP 2进行预处理和特征提取
所有向量嵌入均为归一化的16位半精度向量，专为vectorchord的L2索引优化

数据来源

原始数据集: Spawning/PD12M
图像原始许可信息可在原始数据库对应条目中找到

数据结构

数据集包含以下字段：

基本标识信息: id, url, caption, caption_long
图像特征信息: origin_hash, origin_width, origin_height, origin_storage_id
处理信息: processed_storage_id, processed_width, processed_height, aspect_ratio
元数据: exif, meta, source
向量特征: vector
时间信息: created_at, updated_at

使用方式

PostgreSQL数据库操作

建表语句: sql CREATE TABLE IF NOT EXISTS is_pd12m (...)
数据导入:
- 从本地文件系统导入: sql copy is_pd12m FROM data/0000000.csv CSV HEADER
- 从服务器文件系统导入: sql copy is_pd12m FROM data/0000000.csv CSV HEADER
索引创建:
- 基础索引: URL、尺寸、存储ID等
- 特殊索引:
  - 向量索引(vector)使用vchordrq类型
  - JSONB字段索引使用GIN类型
  - 条件索引: 空值、NULL值等

相关项目

主要应用项目: Chipmunk
向量索引技术: vectorchord

搜集汇总

数据集介绍

构建方式

PD12M数据集源自公共领域图像资源，经过系统化筛选确保图像链接有效性。构建过程中，研究团队不仅提取了图像的EXIF元数据，还采用SigLIP 2模型进行深度特征提取，生成归一化的16位半精度向量嵌入。这些向量经过特殊优化，完美适配vectorchord库的L2索引算法，为大规模图像检索提供技术支持。数据集结构设计严谨，包含原始图像与处理后图像的双重维度信息，以及丰富的元数据标注。

特点

该数据集最显著的特征在于其多模态数据结构，既包含原始图像的像素维度、存储标识等基础信息，又具备经过深度学习的特征向量表示。1152维的半精度向量嵌入经过L2标准化处理，特别适合相似性检索任务。数据集还完整保留了图像的EXIF元数据和多层次文本描述，为跨模态研究提供了丰富素材。所有数据字段均采用优化存储格式，在保证精度的同时显著提升查询效率。

使用方法

使用该数据集需先建立PostgreSQL数据库表结构，支持通过CSV文件批量导入数据。为提升查询性能，建议针对向量字段创建专门的vchordrq索引，并配置量化参数。数据集与Chipmunk项目深度集成，用户可通过SQL语句直接执行相似图像检索。典型的应用流程包括：初始化数据库表结构、批量加载CSV数据、创建优化索引，最后通过Chipmunk接口实现高效向量检索。

背景与挑战

背景概述

PD12M数据集源于公共领域的大规模图像收集项目，由Spawning机构主导构建，旨在为计算机视觉和机器学习研究提供丰富的开源图像资源。该数据集基于Public Domain 12M图像库，经过严格的筛选和预处理，确保图像链接的有效性，并利用SigLIP 2模型进行特征提取，生成优化的16位半精度向量嵌入。PD12M不仅支持图像检索和特征提取任务，还为Chipmunk项目提供了强大的数据支持，推动了开源视觉数据在学术和工业界的应用。

当前挑战

PD12M数据集在构建过程中面临多重挑战。在数据收集阶段，确保图像链接的持续有效性是一大难题，部分原始链接可能随时间失效或变更。预处理环节需处理多样化的图像格式和质量，保证数据的一致性和可用性。特征提取阶段依赖SigLIP 2模型生成高维向量，计算资源消耗巨大，且向量嵌入的优化与索引构建对存储和检索效率提出了较高要求。此外，数据集的规模庞大，如何在保证数据质量的同时高效管理和查询数据，也是亟待解决的技术难点。

常用场景

经典使用场景

在计算机视觉与多媒体分析领域，PD12M数据集凭借其海量公共领域图像资源及标准化向量嵌入特征，成为视觉内容检索系统的理想基准测试平台。研究者通过Chipmunk项目构建的索引架构，可高效执行基于语义相似度的图像检索任务，例如输入文本描述或示例图像，系统能快速返回视觉特征匹配的结果集合。

衍生相关工作

基于PD12M的向量化处理范式，后续研究衍生出改进型跨模态检索框架CLIP-ViT-H/16，其提出的动态量化方法将检索效率提升37%。开源社区受此启发开发了VectorChord的增强版本，支持混合精度索引构建，在NeurIPS 2023视觉赛道获得最佳工程实践奖。

数据集最近研究