pd12m-full

Hugging Face2024-11-26 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Spawning/pd12m-full

下载链接

链接失效反馈

官方服务：

资源简介：

PD12M数据集是Spawning/PD12M数据集的一个下载变体，特别兼容于`webdataset`格式。该数据集在获得原始作者的许可后公开。它包含图像、JSON和文本数据，并提供了使用`webdataset`探索数据集的代码示例和参考数据加载器实现。数据集通过`img2dataset`工具下载，并将`webdataset`分片序列化到S3存储桶中。

创建时间：

2024-11-14

原始信息汇总

PD12M 数据集

基本信息

语言: 英语 (en)
名称: PD12M
许可证: CDLA-Permissive-2.0
标签: 图像 (image)

描述

该数据集是 Spawning/PD12M 的下载变体，特别兼容 webdataset。
数据集在获得原始作者的许可后公开发布。

使用示例

python import webdataset as wds

dataset_path = "pipe:curl -s -f -L https://huggingface.co/datasets/sayakpaul/pd12m-full/resolve/main/{00155..02480}.tar"

dataset = ( wds.WebDataset(dataset_path, handler=wds.warn_and_continue) .shuffle(690, handler=wds.warn_and_continue) .decode("pil", handler=wds.warn_and_continue) )

for sample in dataset: print(sample.keys()) print(sample["jpg"].size) print(sample["json"]) print(sample["txt"]) break

数据加载

提供了参考数据加载器实现，详见 dataloader.py。

数据下载

使用 img2dataset 工具进行下载。
下载命令如下： bash img2dataset --url_list pd12m_full.parquet --input_format "parquet" --url_col "url" --caption_col "caption" --output_format webdataset --number_sample_per_shard=5000 --skip_reencode=True --output_folder s3://diffusion-datasets/pd12m --processes_count 16 --thread_count 64 --resize_mode no --enable_wandb True
下载的 webdataset 分片被序列化到 S3 存储桶。
pd12m_full.parquet 是通过合并 metadata 中的所有 parquet 文件到一个 pandas 数据框中生成的，文件位于 original_parquet/pd12m_full.parquet。

文件复制

使用以下脚本将文件从 S3 存储桶复制到当前仓库： python from huggingface_hub import create_repo, upload_file, dataset_info import ray import os

Change `_temp_dir` path accordingly.

ray.init(num_cpus=16, _temp_dir="/scratch")

def main(): s3_fs = s3fs.S3FileSystem()

bucket_path = "s3://diffusion-datasets/pd12m"
files = s3_fs.ls(bucket_path, detail=True)
files = sorted([f["name"] for f in files if f["name"].endswith(".tar") and f["size"] > 0.0])

@ray.remote
def fn(tar_file):
    # Change the paths accordingly.
    full_s3_tar_file = f"s3://{tar_file}"
    local_path = f"/scratch/{tar_file}"

    s3_fs.download(full_s3_tar_file, local_path)

# Adjust according to what your local storage allows for.
batch_size = 20
for i in range(0, len(files), batch_size):
    batch = files[i : i + batch_size]
    futures = [fn.remote(tar_file) for tar_file in batch]
    ray.get(futures)
    os.system(
        "huggingface-cli upload-large-folder sayakpaul/pd12m-full --repo-type=dataset /scratch/diffusion-datasets/pd12m --num-workers=16"
    )
    os.system(f"rm -rf /scratch/diffusion-datasets/pd12m/*.tar")
print("All shards have been downloaded successfully.")

if name == "main": create_repo(repo_id="sayakpaul/pd12m-full", repo_type="dataset", private=True, exist_ok=True) main()

搜集汇总

数据集介绍

构建方式

pd12m-full数据集的构建过程基于Spawning/PD12M数据集，通过使用`img2dataset`工具进行下载和转换。具体而言，数据集从原始Parquet文件中提取URL和标题信息，并以WebDataset格式进行序列化，存储于S3存储桶中。下载过程中，采用了多进程和多线程技术，确保高效处理大规模数据。最终，数据集通过脚本从S3存储桶迁移至Hugging Face平台，供用户访问和使用。

使用方法

用户可通过`webdataset`库加载pd12m-full数据集，并利用提供的代码示例进行数据探索。数据集支持随机打乱和解码操作，便于用户快速获取图像及其元数据。此外，Hugging Face平台提供了参考数据加载器脚本，帮助用户更高效地集成数据集至机器学习工作流中。通过简单的命令行操作，用户即可将数据集下载至本地，并开始实验和分析。

背景与挑战

背景概述

PD12M数据集是一个基于图像处理领域的重要资源，由Spawning团队开发并公开发布。该数据集的主要目的是为图像生成和图像处理任务提供高质量的训练数据。数据集的核心研究问题在于如何通过大规模图像数据集的构建，提升深度学习模型在图像生成、分类和识别等任务中的表现。PD12M的发布标志着图像数据处理领域的一个重要里程碑，其影响力不仅体现在学术研究中，还广泛应用于工业界的图像处理技术开发。

当前挑战

PD12M数据集在构建过程中面临了多重挑战。首先，数据集的规模庞大，如何高效地下载、存储和处理这些数据成为了一个技术难题。其次，数据集的构建需要确保图像的质量和多样性，这对数据采集和预处理提出了高要求。此外，数据集的发布和使用需要遵循严格的版权和许可协议，确保数据的合法性和合规性。这些挑战不仅考验了数据集构建者的技术能力，也对后续使用者的数据处理能力提出了更高的要求。

常用场景

经典使用场景

在计算机视觉领域，PD12M数据集广泛应用于图像生成和图像理解任务。其丰富的图像资源和对应的文本描述为研究人员提供了多样化的数据支持，尤其是在训练大规模生成模型时，PD12M数据集能够显著提升模型的泛化能力和生成质量。通过使用`webdataset`工具，研究人员可以高效地加载和处理这些数据，从而加速实验进程。

解决学术问题

PD12M数据集解决了大规模图像数据集获取和处理的难题，尤其是在生成模型训练中，数据多样性和质量对模型性能至关重要。该数据集通过提供高质量的图像和文本对，帮助研究人员更好地理解和生成复杂的视觉内容，推动了图像生成、图像标注和跨模态学习等领域的研究进展。

实际应用

在实际应用中，PD12M数据集被广泛用于图像生成、图像检索和视觉问答等任务。例如，在广告设计和内容创作中，基于该数据集训练的生成模型能够自动生成符合特定主题的图像，极大地提高了创作效率。此外，该数据集还可用于开发智能图像检索系统，帮助用户快速找到所需的视觉内容。

数据集最近研究