Ejafa/ye-pop

Name: Ejafa/ye-pop
Creator: Ejafa
Published: 2024-01-25 23:41:11
License: 暂无描述

Hugging Face2024-01-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Ejafa/ye-pop

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 language: - en tags: - art pretty_name: ye-pop size_categories: - 100K<n<1M --- # YE-POP (a derived dataset of Laion POP) YE-POP is a derived dataset from Laion-POP, meticulously curated and filtered to enhance the quality and utility of the original dataset. The dataset comprises 11 chunks, each containing 50,000 image URLs from Laion-POP. NSFW sorting has been used as a baseline, and human verification has been conducted to ensure the dataset's reliability. For the initial comparison, Chunk 1 has been curated with Gemini-Pro and released as part of a research work to the community. For access to other chunks generated by gemini-pro, interested parties are encouraged to contact us. The primary goal of YE-POP is to provide a dataset with improved art image descriptions while retaining the essence of Laion-POP for baseline comparisons in diffusion models and image captioning tasks. We anticipate that training multimodal models on this dataset will lead to enhanced generation capabilities. ## Dataset Details Each zip file contains predownloaded images, and the JSON file includes dictionaries of image features with the following fields: - `filename` - `url` - `cogvlm_caption` - `llava_caption` - `nsfw_prediction` - `alt_txt` - `alt_txt_similarity` - `width` - `height` - `original_width` - `original_height` - `exif` For more [detailed information](https://laion.ai/blog/laion-pop/#dataset-and-methodology) on the fields, refer to the JSON file. ## Dataset Card Authors [Yaroslav Ponomarenko]() [Ejafa Bassam]() ## Dataset Card Contact @[Peking University](https://cs.pku.edu.cn/English/Home.htm) ## Acknowledgments [Laion (Christoph Schuhmann, Peter Bevan)]() [Google Gemini-Pro](https://doi.org/10.48550/arXiv.2312.11805)

--- 许可证：Apache-2.0 语言：英语标签：艺术展示名称：YE-POP 规模类别：10万至100万条数据 --- # YE-POP（Laion POP衍生数据集） YE-POP 是 Laion-POP 的衍生数据集，经精心整理与筛选，旨在提升原始数据集的质量与应用价值。本数据集共包含11个数据块，每个数据块均包含来自Laion-POP的50000条图片URL。已以NSFW分类作为基准筛选流程，并通过人工核验保障数据集的可靠性。首个用于对比测试的数据块（Chunk 1）已通过Gemini-Pro完成整理，并作为一项研究工作的组成部分向社区公开。若需获取由Gemini-Pro生成的其余数据块，请联系我们。YE-POP的核心目标是提供具备更优质艺术图像描述的数据集，同时保留Laion-POP的核心特性，以供扩散模型与图像字幕任务中的基准对比研究使用。我们预期，在该数据集上训练多模态模型将有效提升模型的生成能力。 ## 数据集详情每个压缩包均包含预下载的图片，JSON文件则包含图像特征字典，其字段如下： - `filename`：文件名 - `url`：图片URL - `cogvlm_caption`：CogVLM图像描述 - `llava_caption`：LLaVA图像描述 - `nsfw_prediction`：NSFW预测结果 - `alt_txt`：替代文本 - `alt_txt_similarity`：替代文本相似度 - `width`：图片宽度 - `height`：图片高度 - `original_width`：原始图片宽度 - `original_height`：原始图片高度 - `exif`：EXIF信息如需了解各字段的详细说明，请参阅JSON文件或访问[官方说明](https://laion.ai/blog/laion-pop/#dataset-and-methodology)。 ## 数据集卡片作者 [雅罗斯拉夫·波诺马连科（Yaroslav Ponomarenko）]() [埃贾法·巴萨姆（Ejafa Bassam）]() ## 数据集卡片联系方式 @[北京大学](https://cs.pku.edu.cn/English/Home.htm) ## 致谢 [Laion团队（克里斯托夫·舒曼、彼得·贝万）]() [Google Gemini-Pro](https://doi.org/10.48550/arXiv.2312.11805)

提供机构：

Ejafa

原始信息汇总

YE-POP 数据集概述

基本信息

许可证: Apache-2.0
语言: 英语
标签: 艺术
美观名称: ye-pop
大小分类: 100K<n<1M

数据集描述

YE-POP 是从 Laion-POP 派生的数据集，经过精心筛选和优化，以提高原始数据集的质量和实用性。该数据集包含11个部分，每个部分包含来自 Laion-POP 的50,000个图像URL。使用了NSFW分类作为基准，并通过人工验证确保数据集的可靠性。

数据集内容

每个zip文件包含预下载的图像，JSON文件包含图像特征的字典，具有以下字段：

filename
url
cogvlm_caption
llava_caption
nsfw_prediction
alt_txt
alt_txt_similarity
width
height
original_width
original_height
exif

数据集用途

YE-POP 的主要目标是提供一个改进的艺术图像描述数据集，同时保留 Laion-POP 的本质，用于扩散模型和图像字幕任务的基准比较。预计在此数据集上训练的多模态模型将提高生成能力。

搜集汇总

数据集介绍

构建方式

在计算机视觉与多模态学习领域，高质量的艺术图像数据集对于模型训练至关重要。YE-POP数据集源自Laion-POP，通过精心筛选与人工验证构建而成。其构建过程首先从原始数据集中抽取11个数据块，每个块包含5万张图像URL，并采用NSFW分类作为初步过滤基准。随后，研究团队引入人工审核环节，确保图像内容的可靠性与适用性。尤为重要的是，首个数据块已利用Gemini-Pro模型进行了深度优化与标注，旨在提升艺术图像描述的质量，为后续数据块的处理树立了标准。

特点

YE-POP数据集在艺术图像处理领域展现出独特优势。该数据集不仅保留了Laion-POP的原始架构，还通过增强的元数据标注丰富了图像特征。每张图像均附带多种描述信息，包括CogVLM与LLaVA生成的图像标题、NSFW预测评分、替代文本及其相似度，以及图像尺寸与EXIF数据等。这些多维特征为研究者提供了全面的分析视角，尤其适用于扩散模型与图像描述任务的基准比较。数据集的精心过滤机制确保了艺术图像的纯净度，为多模态模型的训练奠定了坚实基础。

使用方法

对于希望利用YE-POP数据集的研究者而言，其使用方式灵活且高效。数据集以压缩文件形式提供，内含预下载的图像文件及对应的JSON元数据文件。用户可直接加载JSON文件，访问其中结构化的图像特征字典，从而快速获取文件名、URL、多种图像描述及技术参数等信息。该数据集特别适用于训练或评估多模态模型，尤其是在艺术图像生成与描述任务中，能够作为高质量的基准数据源。研究者可通过对比不同数据块的标注差异，深入探究模型性能的提升路径。

背景与挑战

背景概述

在人工智能与艺术交叉领域，高质量图像描述数据对于推动多模态模型发展至关重要。YE-POP数据集于2023年由Ejafa Bassam、Yaroslav Ponomarenko及张商行教授指导的北京大学计算机视觉课程团队共同创建，其核心研究问题聚焦于提升艺术图像的描述质量，以优化扩散模型与图像字幕生成任务的性能基准。该数据集源自Laion-POP，通过精细化筛选与人工验证，旨在为艺术图像生成与理解提供更可靠的训练资源，对计算机视觉与生成式人工智能领域产生积极影响。

当前挑战

YE-POP数据集致力于应对艺术图像描述生成中的挑战，包括描述准确性、语义丰富性以及与视觉内容的深度对齐问题，这些挑战直接关系到多模态模型在创意任务中的表现。在构建过程中，团队面临数据质量控制的复杂性，需基于NSFW排序基准并结合人工验证以确保可靠性，同时处理大规模图像URL的整理与特征提取，涉及跨模型标注整合与元数据标准化等技术难点。

常用场景

经典使用场景

在计算机视觉与多模态学习领域，YE-POP数据集作为Laion-POP的衍生版本，其经典使用场景聚焦于艺术图像的描述生成与扩散模型的基准比较。该数据集通过精心筛选与人工验证，提供了高质量的艺术图像及其对应的文本描述，使得研究人员能够在图像字幕生成任务中，评估模型对艺术风格、构图细节的捕捉能力。其丰富的元数据字段，如cogvlm_caption和llava_caption，为多模态模型的训练与微调提供了结构化支持，促进了艺术内容理解的技术进步。

衍生相关工作

YE-POP数据集衍生了多项经典研究工作，特别是在多模态模型优化与艺术内容生成领域。基于该数据集，研究人员开发了改进的图像字幕模型，如结合Gemini-Pro的生成技术，提升了艺术描述的准确性与丰富度。此外，它还被用于扩散模型的基准测试，促进了如Stable Diffusion等模型在艺术风格迁移任务中的性能评估。这些工作不仅扩展了数据集的应用范围，还推动了艺术智能研究的前沿进展，为后续多模态学习提供了重要参考。

数据集最近研究