five

pd12m-full

收藏
Hugging Face2024-11-26 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/Spawning/pd12m-full
下载链接
链接失效反馈
官方服务:
资源简介:
PD12M数据集是Spawning/PD12M数据集的一个下载变体,特别兼容于`webdataset`格式。该数据集在获得原始作者的许可后公开。它包含图像、JSON和文本数据,并提供了使用`webdataset`探索数据集的代码示例和参考数据加载器实现。数据集通过`img2dataset`工具下载,并将`webdataset`分片序列化到S3存储桶中。
创建时间:
2024-11-14
原始信息汇总

PD12M 数据集

基本信息

  • 语言: 英语 (en)
  • 名称: PD12M
  • 许可证: CDLA-Permissive-2.0
  • 标签: 图像 (image)

描述

  • 该数据集是 Spawning/PD12M 的下载变体,特别兼容 webdataset
  • 数据集在获得原始作者的许可后公开发布。

使用示例

python import webdataset as wds

dataset_path = "pipe:curl -s -f -L https://huggingface.co/datasets/sayakpaul/pd12m-full/resolve/main/{00155..02480}.tar"

dataset = ( wds.WebDataset(dataset_path, handler=wds.warn_and_continue) .shuffle(690, handler=wds.warn_and_continue) .decode("pil", handler=wds.warn_and_continue) )

for sample in dataset: print(sample.keys()) print(sample["jpg"].size) print(sample["json"]) print(sample["txt"]) break

数据加载

数据下载

  • 使用 img2dataset 工具进行下载。

  • 下载命令如下: bash img2dataset --url_list pd12m_full.parquet --input_format "parquet" --url_col "url" --caption_col "caption" --output_format webdataset --number_sample_per_shard=5000 --skip_reencode=True --output_folder s3://diffusion-datasets/pd12m --processes_count 16 --thread_count 64 --resize_mode no --enable_wandb True

  • 下载的 webdataset 分片被序列化到 S3 存储桶。

  • pd12m_full.parquet 是通过合并 metadata 中的所有 parquet 文件到一个 pandas 数据框中生成的,文件位于 original_parquet/pd12m_full.parquet

文件复制

  • 使用以下脚本将文件从 S3 存储桶复制到当前仓库: python from huggingface_hub import create_repo, upload_file, dataset_info import ray import os

    Change _temp_dir path accordingly.

    ray.init(num_cpus=16, _temp_dir="/scratch")

    def main(): s3_fs = s3fs.S3FileSystem()

    bucket_path = "s3://diffusion-datasets/pd12m"
    files = s3_fs.ls(bucket_path, detail=True)
    files = sorted([f["name"] for f in files if f["name"].endswith(".tar") and f["size"] > 0.0])
    
    @ray.remote
    def fn(tar_file):
        # Change the paths accordingly.
        full_s3_tar_file = f"s3://{tar_file}"
        local_path = f"/scratch/{tar_file}"
    
        s3_fs.download(full_s3_tar_file, local_path)
    
    # Adjust according to what your local storage allows for.
    batch_size = 20
    for i in range(0, len(files), batch_size):
        batch = files[i : i + batch_size]
        futures = [fn.remote(tar_file) for tar_file in batch]
        ray.get(futures)
        os.system(
            "huggingface-cli upload-large-folder sayakpaul/pd12m-full --repo-type=dataset /scratch/diffusion-datasets/pd12m --num-workers=16"
        )
        os.system(f"rm -rf /scratch/diffusion-datasets/pd12m/*.tar")
    print("All shards have been downloaded successfully.")
    

    if name == "main": create_repo(repo_id="sayakpaul/pd12m-full", repo_type="dataset", private=True, exist_ok=True) main()

搜集汇总
数据集介绍
main_image_url
构建方式
pd12m-full数据集的构建过程基于Spawning/PD12M数据集,通过使用`img2dataset`工具进行下载和转换。具体而言,数据集从原始Parquet文件中提取URL和标题信息,并以WebDataset格式进行序列化,存储于S3存储桶中。下载过程中,采用了多进程和多线程技术,确保高效处理大规模数据。最终,数据集通过脚本从S3存储桶迁移至Hugging Face平台,供用户访问和使用。
使用方法
用户可通过`webdataset`库加载pd12m-full数据集,并利用提供的代码示例进行数据探索。数据集支持随机打乱和解码操作,便于用户快速获取图像及其元数据。此外,Hugging Face平台提供了参考数据加载器脚本,帮助用户更高效地集成数据集至机器学习工作流中。通过简单的命令行操作,用户即可将数据集下载至本地,并开始实验和分析。
背景与挑战
背景概述
PD12M数据集是一个基于图像处理领域的重要资源,由Spawning团队开发并公开发布。该数据集的主要目的是为图像生成和图像处理任务提供高质量的训练数据。数据集的核心研究问题在于如何通过大规模图像数据集的构建,提升深度学习模型在图像生成、分类和识别等任务中的表现。PD12M的发布标志着图像数据处理领域的一个重要里程碑,其影响力不仅体现在学术研究中,还广泛应用于工业界的图像处理技术开发。
当前挑战
PD12M数据集在构建过程中面临了多重挑战。首先,数据集的规模庞大,如何高效地下载、存储和处理这些数据成为了一个技术难题。其次,数据集的构建需要确保图像的质量和多样性,这对数据采集和预处理提出了高要求。此外,数据集的发布和使用需要遵循严格的版权和许可协议,确保数据的合法性和合规性。这些挑战不仅考验了数据集构建者的技术能力,也对后续使用者的数据处理能力提出了更高的要求。
常用场景
经典使用场景
在计算机视觉领域,PD12M数据集广泛应用于图像生成和图像理解任务。其丰富的图像资源和对应的文本描述为研究人员提供了多样化的数据支持,尤其是在训练大规模生成模型时,PD12M数据集能够显著提升模型的泛化能力和生成质量。通过使用`webdataset`工具,研究人员可以高效地加载和处理这些数据,从而加速实验进程。
解决学术问题
PD12M数据集解决了大规模图像数据集获取和处理的难题,尤其是在生成模型训练中,数据多样性和质量对模型性能至关重要。该数据集通过提供高质量的图像和文本对,帮助研究人员更好地理解和生成复杂的视觉内容,推动了图像生成、图像标注和跨模态学习等领域的研究进展。
实际应用
在实际应用中,PD12M数据集被广泛用于图像生成、图像检索和视觉问答等任务。例如,在广告设计和内容创作中,基于该数据集训练的生成模型能够自动生成符合特定主题的图像,极大地提高了创作效率。此外,该数据集还可用于开发智能图像检索系统,帮助用户快速找到所需的视觉内容。
数据集最近研究
最新研究方向
在计算机视觉领域,PD12M数据集因其大规模图像数据集的特性,成为研究图像生成、图像分类和图像检索等任务的重要资源。近期,研究者们利用该数据集探索了基于深度学习的图像生成模型,尤其是扩散模型(Diffusion Models)的训练与优化。扩散模型作为一种新兴的生成模型,通过逐步去噪的方式生成高质量图像,PD12M数据集为其提供了丰富的训练样本。此外,该数据集还被用于研究多模态学习,结合图像与文本信息,推动图像描述生成和跨模态检索技术的发展。这些研究不仅提升了模型的性能,也为实际应用场景如智能推荐系统和内容创作工具提供了技术支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作