Ejafa/ye-pop
收藏Hugging Face2024-01-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Ejafa/ye-pop
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
language:
- en
tags:
- art
pretty_name: ye-pop
size_categories:
- 100K<n<1M
---
# YE-POP (a derived dataset of Laion POP)
YE-POP is a derived dataset from Laion-POP, meticulously curated and filtered to enhance the quality and utility of the original dataset. The dataset comprises 11 chunks, each containing 50,000 image URLs from Laion-POP. NSFW sorting has been used as a baseline, and human verification has been conducted to ensure the dataset's reliability.
For the initial comparison, Chunk 1 has been curated with Gemini-Pro and released as part of a research work to the community. For access to other chunks generated by gemini-pro, interested parties are encouraged to contact us. The primary goal of YE-POP is to provide a dataset with improved art image descriptions while retaining the essence of Laion-POP for baseline comparisons in diffusion models and image captioning tasks. We anticipate that training multimodal models on this dataset will lead to enhanced generation capabilities.
## Dataset Details
Each zip file contains predownloaded images, and the JSON file includes dictionaries of image features with the following fields:
- `filename`
- `url`
- `cogvlm_caption`
- `llava_caption`
- `nsfw_prediction`
- `alt_txt`
- `alt_txt_similarity`
- `width`
- `height`
- `original_width`
- `original_height`
- `exif`
For more [detailed information](https://laion.ai/blog/laion-pop/#dataset-and-methodology) on the fields, refer to the JSON file.
## Dataset Card Authors
[Yaroslav Ponomarenko]()
[Ejafa Bassam]()
## Dataset Card Contact
@[Peking University](https://cs.pku.edu.cn/English/Home.htm)
## Acknowledgments
[Laion (Christoph Schuhmann, Peter Bevan)]()
[Google Gemini-Pro](https://doi.org/10.48550/arXiv.2312.11805)
---
许可证:Apache-2.0
语言:英语
标签:艺术
展示名称:YE-POP
规模类别:10万至100万条数据
---
# YE-POP(Laion POP衍生数据集)
YE-POP 是 Laion-POP 的衍生数据集,经精心整理与筛选,旨在提升原始数据集的质量与应用价值。本数据集共包含11个数据块,每个数据块均包含来自Laion-POP的50000条图片URL。已以NSFW分类作为基准筛选流程,并通过人工核验保障数据集的可靠性。
首个用于对比测试的数据块(Chunk 1)已通过Gemini-Pro完成整理,并作为一项研究工作的组成部分向社区公开。若需获取由Gemini-Pro生成的其余数据块,请联系我们。YE-POP的核心目标是提供具备更优质艺术图像描述的数据集,同时保留Laion-POP的核心特性,以供扩散模型与图像字幕任务中的基准对比研究使用。我们预期,在该数据集上训练多模态模型将有效提升模型的生成能力。
## 数据集详情
每个压缩包均包含预下载的图片,JSON文件则包含图像特征字典,其字段如下:
- `filename`:文件名
- `url`:图片URL
- `cogvlm_caption`:CogVLM图像描述
- `llava_caption`:LLaVA图像描述
- `nsfw_prediction`:NSFW预测结果
- `alt_txt`:替代文本
- `alt_txt_similarity`:替代文本相似度
- `width`:图片宽度
- `height`:图片高度
- `original_width`:原始图片宽度
- `original_height`:原始图片高度
- `exif`:EXIF信息
如需了解各字段的详细说明,请参阅JSON文件或访问[官方说明](https://laion.ai/blog/laion-pop/#dataset-and-methodology)。
## 数据集卡片作者
[雅罗斯拉夫·波诺马连科(Yaroslav Ponomarenko)]()
[埃贾法·巴萨姆(Ejafa Bassam)]()
## 数据集卡片联系方式
@[北京大学](https://cs.pku.edu.cn/English/Home.htm)
## 致谢
[Laion团队(克里斯托夫·舒曼、彼得·贝万)]()
[Google Gemini-Pro](https://doi.org/10.48550/arXiv.2312.11805)
提供机构:
Ejafa
原始信息汇总
YE-POP 数据集概述
基本信息
- 许可证: Apache-2.0
- 语言: 英语
- 标签: 艺术
- 美观名称: ye-pop
- 大小分类: 100K<n<1M
数据集描述
YE-POP 是从 Laion-POP 派生的数据集,经过精心筛选和优化,以提高原始数据集的质量和实用性。该数据集包含11个部分,每个部分包含来自 Laion-POP 的50,000个图像URL。使用了NSFW分类作为基准,并通过人工验证确保数据集的可靠性。
数据集内容
每个zip文件包含预下载的图像,JSON文件包含图像特征的字典,具有以下字段:
filenameurlcogvlm_captionllava_captionnsfw_predictionalt_txtalt_txt_similaritywidthheightoriginal_widthoriginal_heightexif
数据集用途
YE-POP 的主要目标是提供一个改进的艺术图像描述数据集,同时保留 Laion-POP 的本质,用于扩散模型和图像字幕任务的基准比较。预计在此数据集上训练的多模态模型将提高生成能力。
搜集汇总
数据集介绍

构建方式
在计算机视觉与多模态学习领域,高质量的艺术图像数据集对于模型训练至关重要。YE-POP数据集源自Laion-POP,通过精心筛选与人工验证构建而成。其构建过程首先从原始数据集中抽取11个数据块,每个块包含5万张图像URL,并采用NSFW分类作为初步过滤基准。随后,研究团队引入人工审核环节,确保图像内容的可靠性与适用性。尤为重要的是,首个数据块已利用Gemini-Pro模型进行了深度优化与标注,旨在提升艺术图像描述的质量,为后续数据块的处理树立了标准。
特点
YE-POP数据集在艺术图像处理领域展现出独特优势。该数据集不仅保留了Laion-POP的原始架构,还通过增强的元数据标注丰富了图像特征。每张图像均附带多种描述信息,包括CogVLM与LLaVA生成的图像标题、NSFW预测评分、替代文本及其相似度,以及图像尺寸与EXIF数据等。这些多维特征为研究者提供了全面的分析视角,尤其适用于扩散模型与图像描述任务的基准比较。数据集的精心过滤机制确保了艺术图像的纯净度,为多模态模型的训练奠定了坚实基础。
使用方法
对于希望利用YE-POP数据集的研究者而言,其使用方式灵活且高效。数据集以压缩文件形式提供,内含预下载的图像文件及对应的JSON元数据文件。用户可直接加载JSON文件,访问其中结构化的图像特征字典,从而快速获取文件名、URL、多种图像描述及技术参数等信息。该数据集特别适用于训练或评估多模态模型,尤其是在艺术图像生成与描述任务中,能够作为高质量的基准数据源。研究者可通过对比不同数据块的标注差异,深入探究模型性能的提升路径。
背景与挑战
背景概述
在人工智能与艺术交叉领域,高质量图像描述数据对于推动多模态模型发展至关重要。YE-POP数据集于2023年由Ejafa Bassam、Yaroslav Ponomarenko及张商行教授指导的北京大学计算机视觉课程团队共同创建,其核心研究问题聚焦于提升艺术图像的描述质量,以优化扩散模型与图像字幕生成任务的性能基准。该数据集源自Laion-POP,通过精细化筛选与人工验证,旨在为艺术图像生成与理解提供更可靠的训练资源,对计算机视觉与生成式人工智能领域产生积极影响。
当前挑战
YE-POP数据集致力于应对艺术图像描述生成中的挑战,包括描述准确性、语义丰富性以及与视觉内容的深度对齐问题,这些挑战直接关系到多模态模型在创意任务中的表现。在构建过程中,团队面临数据质量控制的复杂性,需基于NSFW排序基准并结合人工验证以确保可靠性,同时处理大规模图像URL的整理与特征提取,涉及跨模型标注整合与元数据标准化等技术难点。
常用场景
经典使用场景
在计算机视觉与多模态学习领域,YE-POP数据集作为Laion-POP的衍生版本,其经典使用场景聚焦于艺术图像的描述生成与扩散模型的基准比较。该数据集通过精心筛选与人工验证,提供了高质量的艺术图像及其对应的文本描述,使得研究人员能够在图像字幕生成任务中,评估模型对艺术风格、构图细节的捕捉能力。其丰富的元数据字段,如cogvlm_caption和llava_caption,为多模态模型的训练与微调提供了结构化支持,促进了艺术内容理解的技术进步。
衍生相关工作
YE-POP数据集衍生了多项经典研究工作,特别是在多模态模型优化与艺术内容生成领域。基于该数据集,研究人员开发了改进的图像字幕模型,如结合Gemini-Pro的生成技术,提升了艺术描述的准确性与丰富度。此外,它还被用于扩散模型的基准测试,促进了如Stable Diffusion等模型在艺术风格迁移任务中的性能评估。这些工作不仅扩展了数据集的应用范围,还推动了艺术智能研究的前沿进展,为后续多模态学习提供了重要参考。
数据集最近研究
最新研究方向
在生成式人工智能与多模态学习领域,YE-POP数据集凭借其源自Laion-POP的精细筛选与增强标注,正成为艺术图像生成与描述研究的关键资源。该数据集通过集成Gemini-Pro等先进模型生成的图像描述,并结合人工验证机制,显著提升了艺术图像数据的质量与可靠性,为扩散模型和图像字幕任务提供了更优质的训练基准。当前研究热点聚焦于利用此类高质量艺术数据集优化多模态模型的跨模态对齐能力,以推动更具创意与精准度的视觉内容生成。这一进展不仅深化了艺术与人工智能的交叉探索,也为个性化艺术创作和文化遗产数字化注入了新的技术动力,在创意产业与学术研究中均展现出深远影响。
以上内容由遇见数据集搜集并总结生成



