five

PD3M

收藏
Hugging Face2024-10-31 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/Spawning/PD3M
下载链接
链接失效反馈
官方服务:
资源简介:
PD3M数据集是一个包含1240万对图像-标题对的大型公开数据集,旨在训练基础模型,同时最小化版权问题。数据集包括元数据和图像两部分,元数据包含图像的URL、标题、尺寸、嵌入等信息,图像文件存储在AWS S3桶中。数据集通过Source.Plus平台引入社区驱动的数据治理机制,以减少伤害并支持长期的可重复性。
创建时间:
2024-10-21
原始信息汇总

PD3M 数据集概述

基本信息

  • 语言: 英语
  • 名称: PD3M
  • 许可证: CDLA-Permissive-2.0
  • 标签: 图像

数据集概述

PD3M 是一个包含 1240 万对图像-文本的数据集,是目前最大的公共领域图像-文本数据集。该数据集旨在训练基础模型,同时最小化版权问题。通过 Source.Plus 平台,引入了社区驱动的数据集治理机制,以减少潜在危害并支持长期的可重复性。

数据集组成

数据集包含两个主要部分:

  1. 元数据: 包含图像的 URL、描述、尺寸、嵌入等信息。
  2. 图像: 所有图像文件托管在 AWS S3 存储桶 pd12m 中。

元数据结构

  • id: 图像的唯一标识符。
  • url: 图像的 URL。
  • caption: 图像的描述。
  • width: 图像的宽度(像素)。
  • height: 图像的高度(像素)。
  • mime_type: 图像文件的 MIME 类型。
  • hash: 图像文件的 MD5 哈希值。
  • license: 图像许可证的 URL。
  • source: 图像的来源组织。

此外,embeddings 目录中提供了 CLIP Vit-L/14 嵌入。

图像

图像文件的 URL 保存在元数据文件中。

教程

许可证

数据集采用 CDLA-Permissive-2.0 许可证。

问题报告

如果发现任何问题或有任何担忧,请在 Source.Plus 中标记该项目,审核流程将移除侵权材料并找到合适的替代品。

搜集汇总
数据集介绍
main_image_url
构建方式
PD3M数据集作为PD12M的子集,包含了330万张图像-文本对,这些图像均选自PD12M中美学评分最高的部分。PD12M是目前最大的公共领域图像-文本数据集,其规模足以支持基础模型的训练,同时最大限度地减少版权问题。通过Source.Plus平台,该数据集引入了社区驱动的治理机制,旨在减少潜在危害并支持长期可重复性。数据集的构建过程包括从PD12M中筛选高质量图像,并为其生成相应的元数据和CLIP Vit-L/14嵌入。
特点
PD3M数据集的核心特点在于其高质量图像与文本对的组合,所有图像均经过美学评分筛选,确保了数据集的视觉质量。元数据部分包含了图像的URL、标题、尺寸、MIME类型、哈希值、许可证信息以及来源组织,同时还提供了CLIP Vit-L/14嵌入,便于进一步的分析与应用。图像文件则托管于AWS S3存储桶中,通过元数据中的URL进行访问。这种结构化的数据组织方式为研究人员和开发者提供了极大的便利。
使用方法
使用PD3M数据集时,用户可以通过元数据文件中的URL访问图像,并利用提供的CLIP嵌入进行图像与文本的关联分析。数据集的使用教程详细介绍了如何操作元数据以及如何下载图像文件。此外,用户可以通过Source.Plus平台报告数据集中的问题,确保数据集的持续优化与更新。PD3M数据集在CDLA-Permissive-2.0许可证下发布,用户可自由使用并在此基础上进行二次开发,为图像-文本任务的研究与应用提供了丰富的资源支持。
背景与挑战
背景概述
PD3M数据集作为PD12M的子集,专注于提供具有最高美学评分的图像-文本对,其规模达到330万对。该数据集由Jordan Meyer、Nicholas Padgett、Cullen Miller和Laura Exline等研究人员于2024年创建,旨在为训练基础模型提供大规模且版权风险较低的公共领域资源。PD12M是目前最大的公共领域图像-文本数据集,通过Source.Plus平台引入了社区驱动的数据集治理机制,以减少潜在危害并支持长期可重复性。这一数据集在计算机视觉和自然语言处理领域具有重要影响力,特别是在多模态学习任务中,为研究人员提供了丰富的实验素材。
当前挑战
PD3M数据集在构建过程中面临多重挑战。首先,如何从海量公共领域资源中筛选出具有高美学价值的图像,并确保其与文本描述的匹配度,是一个复杂且耗时的过程。其次,数据集治理机制的引入虽然有助于减少有害内容,但也增加了数据管理和维护的复杂性。此外,确保数据集的版权合规性,避免潜在的侵权问题,是构建过程中不可忽视的难点。在应用层面,如何有效利用大规模图像-文本对进行多模态模型的训练与优化,仍是研究人员需要深入探索的课题。
常用场景
经典使用场景
PD3M数据集作为PD12M的子集,包含了美学评分最高的330万张图像-文本对,广泛应用于图像生成、文本到图像转换以及多模态学习任务中。其高质量的数据为训练基础模型提供了丰富的素材,尤其在需要高美学标准的视觉任务中表现出色。
解决学术问题
PD3M数据集解决了多模态学习中高质量数据稀缺的问题,特别是在图像与文本对齐任务中,提供了大量经过筛选的高美学图像及其对应描述。这不仅提升了模型的生成质量,还为研究图像美学与文本关联的学术问题提供了可靠的数据支持。
衍生相关工作
基于PD3M数据集,许多经典工作得以衍生,例如多模态生成模型的研究、图像美学评分系统的开发以及文本到图像生成技术的优化。这些工作不仅推动了多模态学习领域的发展,还为图像生成技术的实际应用提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作