coyo-hd-11m-llavanext

Hugging Face2024-06-25 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/CaptionEmporium/coyo-hd-11m-llavanext

下载链接

链接失效反馈

官方服务：

资源简介：

coyo-hd-11m-llavanext数据集包含11,397,144张高分辨率图像及其对应的22,794,288条合成英文描述。该数据集源自coyo-700m，特别强调图像的高密度和高清晰度，通过预过滤和多标签分类器筛选以提高图像质量。描述文本由先进的模型生成，经过处理以确保内容的准确性和相关性，特别注重移除重复或不相关的内容。该数据集适用于文本到图像和图像到文本等任务，并根据CC BY-SA 4.0许可提供。

创建时间：

2024-06-24

原始信息汇总

数据集概述

数据集描述

数据集摘要

名称: coyo-hd-11m-llavanext
类型: 合成图像文本数据集
语言: 英语
大小: 11,397,144 张图像，22,794,288 条合成描述
分辨率: 图像经过预过滤，最短边为 512 像素
来源: 从 coyo-700m 数据集中筛选

数据实例

示例: json { "url": "https://images.nintendolife.com/cd4b7518ec8c2/large.jpg", "caption_llava": "A figurine of a character with green hair, wearing a white shirt, a black vest, and a gray cap, sitting with one hand on their knee and the other hand making a peace sign. The character is wearing a blue pendant and has a gold bracelet. In the background, there are green plants and a tree branch.", "caption_llava_short": "A green-haired character sits with a peace sign, wearing a blue pendant and gold bracelet, surrounded by green plants and a tree branch.", "caption": "Pokémon Center Reveals Official N And Zorua Figure, Pre-Orders Have Gone Live", "tags_open_images": "["Black", "Green", "White", "Animation"]", "tags_booru": "["bangs", "long_hair", "solo", "hat", "sitting", "jewelry", "necklace", "smile", "green_hair", "1boy", "tree", "pants", "shirt", "male_focus", "white_shirt", "bracelet", "ponytail", "baseball_cap", "black_shirt", "bangle", "branch", "index_finger_raised", "closed_mouth", "blurry", "blurry_background"]", "key": 25, "clip_similarity_vitb32": 0.1964111328125, "clip_similarity_vitl14": 0.259033203125, "nsfw_score_opennsfw2": 0.0290679931640625, "nsfw_score_gantman": 0.036349426954984665, "watermark_score": 0.0038619472179561853, "aesthetic_score_laion_v2": 5.079052925109863, "num_faces": 0, "width": 1280, "height": 789, "exif": "{}", "sha256": "dbec63de854341a189ba87d27dc04945e3d4fef0b0275f496ae16c79b723a157", }

数据分割

训练集: 11,397,144 张图像

数据集创建

高概念过滤

过滤器: 使用两个多标签分类器 ML_Decoder TResNet-M Open Images 和 mldanbooru 进行过滤
过滤标准: py def image_excluded(oi_tags, booru_tags): if (Product in oi_tags and no_humans in booru_tags) or (Text in oi_tags and no_humans in booru_tags and text_focus in booru_tags) or len(oi_tags) < 2 or len(booru_tags) < 3 or text-only_page in booru_tags: return True return False

描述生成

生成模型: llama3-llava-next-8b
提示: py prompt_gen = lambda txt :f""" Please make a detailed but succinct caption of this image. If you see text or objects, be sure to describe them in detail along with any other aspects of the foreground and background. As a hint, here is the alt-text attribute of the image, which may or may not have to do with the image:

Hint:
```
{txt}
```
"""
失败定义:
1. 包含重复文本片段
2. 包含重复序列
修正模型: Meta-Llama-3-8B

短描述生成

提示: py prompt = lambda img_prompt: f""" Please take the following image caption and attempt to distill it into a single sentence. Remove any redundant lines or descriptions and make it a maximum of 30 words in length.
```
{img_prompt}
```
Please only write the caption and no other text. """

数据集限制

偏差: 偏向于多标签分类器识别的概念
已知限制:
- 可能存在少量错误描述
- 未评估安全性，依赖于 Kakao Brain 的 NSFW 过滤方案
- 未过滤 blurry 和 watermark 标签

附加信息

数据集管理者

管理者: Caption Emporium

许可信息

许可: Creative Commons ShareAlike (CC BY-SA 4.0)

引用信息

@misc{coyo-hd-11m-llavanext, author = { Caption Emporium }, title = { coyo-hd-11m-llavanext }, year = { 2024 }, publisher = { Huggingface }, journal = { Huggingface repository }, howpublished = {url{https://huggingface.co/datasets/CaptionEmporium/coyo-hd-11m-llavanext}}, }

搜集汇总

数据集介绍

构建方式

coyo-hd-11m-llavanext数据集的构建基于coyo-700m数据集，通过多标签分类器对图像进行筛选，确保图像的高分辨率和概念密度。具体而言，首先从coyo-700m中筛选出最短边大于512像素的图像，随后使用ML_Decoder TResNet-M Open Images和mldanbooru两个多标签分类器对图像进行标注，进一步过滤掉低质量图像。最终，使用llama3-llava-next-8b模型生成详细的图像描述，并通过Meta-Llama-3-8B模型进行清理和缩短，确保描述的质量和简洁性。

特点

该数据集包含11,397,144张高分辨率图像及其对应的22,794,288条合成描述，涵盖了丰富的视觉概念。图像经过严格筛选，确保其具有高概念密度和高清晰度，避免了低质量图像（如纯文本或单一产品图像）的干扰。每条描述由llama3-llava-next-8b模型生成，并通过Meta-Llama-3-8B模型进行优化，提供了详细且简洁的文本描述。此外，数据集还包含多标签分类器的输出结果，便于用户进行特定类别的下游任务。

使用方法

coyo-hd-11m-llavanext数据集适用于多种任务，包括文本到图像生成、图像到文本生成以及其他相关任务。用户可以通过HuggingFace平台加载数据集，并使用提供的图像和描述进行模型训练或评估。数据集中的多标签分类器输出（如tags_open_images和tags_booru）可用于特定类别的任务，例如针对特定标签（如“baseball_cap”）的模型微调。此外，数据集还提供了短描述版本，便于用户在不同场景下灵活使用。

背景与挑战

背景概述

coyo-hd-11m-llavanext数据集由Caption Emporium于2024年发布，旨在解决图像-文本对数据集中低分辨率、低概念密度图像的问题。该数据集基于coyo-700m数据集，通过多标签分类器筛选出高分辨率和高概念密度的图像，并利用llama3-llava-next-8b模型生成高质量的合成描述。这一数据集在图像生成、文本生成以及多模态学习领域具有重要影响力，为研究人员提供了丰富的图像-文本对资源，推动了相关领域的技术进步。

当前挑战

coyo-hd-11m-llavanext数据集在构建过程中面临多重挑战。首先，图像筛选过程中需要克服低质量图像（如纯文本或单一产品图像）的干扰，确保数据集中图像的高概念密度和高分辨率。其次，生成合成描述时，模型可能产生重复或冗余的文本，需通过后处理步骤进行修正。此外，数据集可能包含少量错误描述，且未经过全面的安全性评估，依赖于Kakao Brain的NSFW过滤机制。这些挑战要求研究人员在使用数据集时进行额外的数据清洗和验证，以确保模型的训练效果和安全性。

常用场景

经典使用场景

在图像与文本的多模态学习领域，coyo-hd-11m-llavanext数据集被广泛用于训练和评估图像生成与文本描述模型。其高分辨率和高概念密度的特性，使得该数据集特别适合用于生成式模型的研究，尤其是在图像到文本和文本到图像的转换任务中。通过使用LLaVA-NeXt和Llama3等先进模型生成的合成描述，研究人员能够更精确地探索图像与文本之间的复杂关系。

解决学术问题

coyo-hd-11m-llavanext数据集有效解决了多模态学习中低分辨率图像和低概念密度图像带来的挑战。通过预过滤和多重标签分类器的应用，该数据集显著提升了图像质量，确保了图像内容的丰富性和多样性。此外，其合成描述生成过程减少了传统数据集中常见的描述偏差，为图像生成和文本描述任务提供了更加可靠的数据支持。

衍生相关工作

基于coyo-hd-11m-llavanext数据集，许多经典的多模态学习模型得以开发和优化。例如，研究人员利用该数据集训练了更高效的图像生成模型，如基于扩散模型的文本到图像生成器。此外，该数据集还催生了一系列关于图像描述生成和图像检索的研究，推动了多模态学习领域的技术进步。

以上内容由遇见数据集搜集并总结生成