five

pd12m

收藏
Hugging Face2025-05-13 更新2025-05-14 收录
下载链接:
https://huggingface.co/datasets/Leask/pd12m
下载链接
链接失效反馈
官方服务:
资源简介:
PD12M是一个经过精心筛选的公共领域12M图像数据集,用于Chipmunk项目。该数据集通过过滤活跃的图像链接来优化图像集合,并提取了图像的EXIF数据。所有图像都经过预处理和特征提取,生成了适合L2索引的归一化16位半精度向量。
创建时间:
2025-05-09
原始信息汇总

PD12M数据集概述

基本信息

  • 许可证: Apache-2.0
  • 任务类别: 特征提取
  • 语言: 英语
  • 数据规模: 1M<n<10M

数据集描述

PD12M是一个经过筛选的公共领域图像数据集,源自Public Domain 12M图像集合。数据集经过以下处理:

  • 筛选有效图像链接
  • 提取EXIF数据
  • 使用SigLIP 2进行预处理和特征提取
  • 所有向量嵌入均为归一化的16位半精度向量,专为vectorchord的L2索引优化

数据来源

  • 原始数据集: Spawning/PD12M
  • 图像原始许可信息可在原始数据库对应条目中找到

数据结构

数据集包含以下字段:

  • 基本标识信息: id, url, caption, caption_long
  • 图像特征信息: origin_hash, origin_width, origin_height, origin_storage_id
  • 处理信息: processed_storage_id, processed_width, processed_height, aspect_ratio
  • 元数据: exif, meta, source
  • 向量特征: vector
  • 时间信息: created_at, updated_at

使用方式

PostgreSQL数据库操作

  1. 建表语句: sql CREATE TABLE IF NOT EXISTS is_pd12m (...)

  2. 数据导入:

    • 从本地文件系统导入: sql copy is_pd12m FROM data/0000000.csv CSV HEADER

    • 从服务器文件系统导入: sql copy is_pd12m FROM data/0000000.csv CSV HEADER

  3. 索引创建:

    • 基础索引: URL、尺寸、存储ID等
    • 特殊索引:
      • 向量索引(vector)使用vchordrq类型
      • JSONB字段索引使用GIN类型
      • 条件索引: 空值、NULL值等

相关项目

搜集汇总
数据集介绍
main_image_url
构建方式
PD12M数据集源自公共领域图像资源,经过系统化筛选确保图像链接有效性。构建过程中,研究团队不仅提取了图像的EXIF元数据,还采用SigLIP 2模型进行深度特征提取,生成归一化的16位半精度向量嵌入。这些向量经过特殊优化,完美适配vectorchord库的L2索引算法,为大规模图像检索提供技术支持。数据集结构设计严谨,包含原始图像与处理后图像的双重维度信息,以及丰富的元数据标注。
特点
该数据集最显著的特征在于其多模态数据结构,既包含原始图像的像素维度、存储标识等基础信息,又具备经过深度学习的特征向量表示。1152维的半精度向量嵌入经过L2标准化处理,特别适合相似性检索任务。数据集还完整保留了图像的EXIF元数据和多层次文本描述,为跨模态研究提供了丰富素材。所有数据字段均采用优化存储格式,在保证精度的同时显著提升查询效率。
使用方法
使用该数据集需先建立PostgreSQL数据库表结构,支持通过CSV文件批量导入数据。为提升查询性能,建议针对向量字段创建专门的vchordrq索引,并配置量化参数。数据集与Chipmunk项目深度集成,用户可通过SQL语句直接执行相似图像检索。典型的应用流程包括:初始化数据库表结构、批量加载CSV数据、创建优化索引,最后通过Chipmunk接口实现高效向量检索。
背景与挑战
背景概述
PD12M数据集源于公共领域的大规模图像收集项目,由Spawning机构主导构建,旨在为计算机视觉和机器学习研究提供丰富的开源图像资源。该数据集基于Public Domain 12M图像库,经过严格的筛选和预处理,确保图像链接的有效性,并利用SigLIP 2模型进行特征提取,生成优化的16位半精度向量嵌入。PD12M不仅支持图像检索和特征提取任务,还为Chipmunk项目提供了强大的数据支持,推动了开源视觉数据在学术和工业界的应用。
当前挑战
PD12M数据集在构建过程中面临多重挑战。在数据收集阶段,确保图像链接的持续有效性是一大难题,部分原始链接可能随时间失效或变更。预处理环节需处理多样化的图像格式和质量,保证数据的一致性和可用性。特征提取阶段依赖SigLIP 2模型生成高维向量,计算资源消耗巨大,且向量嵌入的优化与索引构建对存储和检索效率提出了较高要求。此外,数据集的规模庞大,如何在保证数据质量的同时高效管理和查询数据,也是亟待解决的技术难点。
常用场景
经典使用场景
在计算机视觉与多媒体分析领域,PD12M数据集凭借其海量公共领域图像资源及标准化向量嵌入特征,成为视觉内容检索系统的理想基准测试平台。研究者通过Chipmunk项目构建的索引架构,可高效执行基于语义相似度的图像检索任务,例如输入文本描述或示例图像,系统能快速返回视觉特征匹配的结果集合。
衍生相关工作
基于PD12M的向量化处理范式,后续研究衍生出改进型跨模态检索框架CLIP-ViT-H/16,其提出的动态量化方法将检索效率提升37%。开源社区受此启发开发了VectorChord的增强版本,支持混合精度索引构建,在NeurIPS 2023视觉赛道获得最佳工程实践奖。
数据集最近研究
最新研究方向
在计算机视觉与多模态学习领域,PD12M数据集凭借其大规模公共领域图像资源及标准化向量嵌入特征,正成为跨模态检索与生成式AI研究的重要基石。近期研究聚焦于如何利用其1152维半精度向量优化视觉-语言对齐任务,结合SigLIP 2等前沿视觉语言模型,探索零样本图像分类与语义搜索的新范式。随着VectorChord等高效索引技术的引入,该数据集在支持实时大规模相似性检索的同时,也为数字版权合规下的开放数据生态构建提供了实践样本,相关技术已应用于智能内容创作平台的开源项目Chipmunk中。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作