Public Domain 12M (PD12M)

Name: Public Domain 12M (PD12M)
Creator: Spawning
Published: 2024-10-30 23:59:05
License: 暂无描述

arXiv2024-10-30 更新2024-11-05 收录

下载链接：

https://source.plus/pd12m

下载链接

链接失效反馈

官方服务：

资源简介：

Public Domain 12M (PD12M) 是由Spawning创建的一个大规模图像-文本数据集，包含1240万条高质量的公共领域和CC0许可的图像及其合成标题。该数据集旨在用于训练文本到图像的模型，是目前最大的公共领域图像-文本数据集。数据集的内容主要来源于画廊、图书馆、档案馆和博物馆（GLAM）以及Wikimedia Commons等来源，经过严格的筛选和美学评分，确保了数据集的高质量和版权合规性。数据集的创建过程包括图像收集、筛选、去重和美学评分等多个步骤，旨在解决现有数据集在版权、隐私和内容质量方面的问题。PD12M的应用领域广泛，主要用于训练和评估文本到图像生成模型，旨在推动计算机视觉和自然语言处理领域的发展。

Public Domain 12M (PD12M) is a large-scale image-text dataset created by Spawning, containing 12.4 million high-quality public domain and CC0-licensed images alongside their synthetic captions. This dataset is designed for training text-to-image models, and it is currently the largest public domain image-text dataset. Its contents mainly originate from sources such as galleries, libraries, archives, and museums (GLAM) as well as Wikimedia Commons, and it has undergone rigorous filtering and aesthetic scoring to ensure high data quality and copyright compliance. The dataset creation process includes multiple steps such as image collection, filtering, deduplication, and aesthetic scoring, aiming to address the copyright, privacy and content quality issues existing in prior datasets. PD12M has a wide range of application scenarios, and is primarily used for training and evaluating text-to-image generation models, with the goal of promoting the development of the fields of computer vision and natural language processing.

提供机构：

Spawning

创建时间：

2024-10-30

搜集汇总

数据集介绍

构建方式

Public Domain 12M (PD12M) 数据集的构建过程严格遵循了高质量和版权合规的原则。首先，数据集从画廊、图书馆、档案馆和博物馆（GLAM）以及其内容聚合器中直接收集了2310万张图像。这些GLAM机构提供了额外的质量、安全性和版权审查层，确保了图像的来源和真实性。此外，从Wikimedia Commons和iNaturalist收集的图像也经过了严格的预过滤和社区审核。所有收集的图像都经过验证，确保其版权状态为公共领域或CC0许可。最终，通过自动化和手动筛选，数据集被精简至1240万张图像，确保了数据集的高质量和美学价值。

特点

PD12M 数据集的主要特点在于其规模和版权清晰性。作为迄今为止最大的公共领域图像-文本数据集，PD12M 包含了1240万张高质量的图像及其合成标题，适用于训练文本到图像的模型。数据集的图像来源广泛，包括GLAM机构、Wikimedia Commons和iNaturalist，确保了内容的多样性和高质量。此外，通过Source.Plus平台，PD12M 引入了社区驱动的数据集治理机制，确保了数据集的持续维护和更新，减少了潜在的危害，并支持了数据集的可重复性。

使用方法

PD12M 数据集主要用于训练文本到图像的生成模型，适用于各种计算机视觉和自然语言处理任务。研究人员和开发者可以通过访问Source.Plus平台获取数据集，并利用其提供的图像和合成标题进行模型训练。数据集的治理机制允许用户通过平台的反馈机制报告问题图像，确保数据集的持续改进。此外，数据集的透明性和详细的元数据记录使得研究人员能够更好地理解数据集的构成和潜在偏见，从而做出更明智的研究决策。

背景与挑战

背景概述

Public Domain 12M (PD12M) 数据集由 Jordan Meyer、Nick Padgett、Cullen Miller 和 Laura Exline 于2024年10月31日创建，旨在为文本到图像模型的训练提供一个高质量、无版权争议的图像-文本数据集。PD12M 包含1240万张高美学质量的公共领域和CC0许可图像，并配有合成标题，是目前最大的公共领域图像-文本数据集。该数据集通过 Source.Plus 平台引入了创新的社区驱动数据集治理机制，旨在减少潜在危害并支持长期的可重复性。PD12M 的创建不仅解决了大规模数据集在版权、隐私和偏见等方面的常见问题，还为计算机视觉和自然语言处理领域的研究提供了新的资源。

当前挑战

PD12M 数据集在构建过程中面临多项挑战。首先，确保所有图像的版权状态清晰无误是一个重大挑战，尽管数据集仅包含公共领域和CC0许可的图像，但仍需持续监控和验证。其次，数据集的规模和多样性带来了内容过滤和质量控制的难题，特别是在排除不适当内容和有害偏见方面。此外，数据集的长期维护和更新也是一个重要挑战，需要不断适应新的法律和技术环境，确保数据集的可持续性和透明度。最后，如何在全球范围内平衡地理、文化和历史偏见，确保数据集的广泛适用性，也是PD12M 需要持续关注和解决的问题。

常用场景

经典使用场景

PD12M数据集的经典使用场景主要集中在文本到图像生成模型的训练上。由于其包含12.4百万对高质量的公共领域和CC0许可的图像及其合成标题，PD12M为训练基础模型提供了充足的资源，同时减少了版权问题的担忧。通过Source.Plus平台，该数据集还引入了社区驱动的数据治理机制，进一步支持了模型的训练和维护。

衍生相关工作

PD12M数据集的发布和应用催生了一系列相关研究和工作。例如，基于PD12M的文本到图像生成模型在多个领域展示了其强大的应用潜力，推动了相关技术的进一步发展。此外，PD12M的治理机制也为其他数据集的维护和更新提供了参考，促进了数据集透明度和可持续性的研究。通过这些衍生工作，PD12M不仅提升了自身的影响力，也为整个AI社区的发展做出了贡献。

数据集最近研究