CaptionEmporium/furry-e621-sfw-7m-hq

Name: CaptionEmporium/furry-e621-sfw-7m-hq
Creator: CaptionEmporium
Published: 2024-03-21 01:26:16
License: 暂无描述

Hugging Face2024-03-21 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/CaptionEmporium/furry-e621-sfw-7m-hq

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为furry-e621-sfw-7m-hq，包含692万条来自e621（也称为e926）的适合工作场所（SFW）图片的标注。这些标注由LLM（mistralai/Mistral-7B-v0.1）和CogVLM（THUDM/CogVLM）生成，每张图片有8个LLM生成的标注和1个CogVLM生成的标注。标注语言为英语，且大多数标注长度超过77个token，不适合使用当前的CLIP方法进行区分。数据集还包括通过DINOv2 giant模型训练的多标签分类器生成的标签，这些标签被手动分类为12个类别。数据集的创建过程、已知的偏见和限制也在README中进行了讨论。

提供机构：

CaptionEmporium

原始信息汇总

数据集概述

基本信息

数据集名称： furry-e621-sfw-7m-hq
许可证： CC-BY-SA-4.0
语言： 英语
任务类别： image-to-text
数据集大小： 6.92 M captions

数据集描述

联系人： Caption Emporium
数据集内容： 包含6.92 M张安全内容（SFW）的图像描述，这些描述由LLMs和CogVLM生成，每张图像有8个LLM描述和1个CogVLM描述。
语言： 所有描述均为英语。

数据实例

示例结构： 每个实例包含图像ID、MD5哈希值以及多个描述文本，包括CogVLM和LLM生成的描述。

数据标签

标签分类： 标签被手动分类为多个类别，如动物与拟人特征、服装与配饰、角色与性别等。
标签处理： 使用DINOv2 giant模型进行多标签分类，训练使用APL损失，最佳模型达到AP 0.342和F1 0.5576。

数据生成

LLM描述生成： 使用mistralai/Mistral-7B-v0.1权重，根据分类标签生成描述，每张图像生成8个描述，交替使用合成标签和真实标签。
CogVLM描述生成： 使用THUDM/CogVLM权重，根据真实分类标签生成描述，可能包含重复前缀，可通过特定脚本去除。

数据分割

训练集大小： 768,859个实例

数据集创建

源数据： 从e621收集，遵循其内容存档的速率限制。
已知限制： LLM和CogVLM描述可能包含幻觉文本或重复标签，部分图像可能未计算LLM描述。

附加信息

数据集维护者： Caption Emporium
许可证： 遵循Creative Commons ShareAlike (CC BY-SA 4.0)

搜集汇总

数据集介绍

构建方式

该数据集‘furry-e621-sfw-7m-hq’由Caption Emporium构建，包含从e621网站的‘e926’安全内容中提取的6.92百万条图像描述。数据集的构建结合了大型语言模型（LLMs）和CogVLM模型生成的描述，每张图像对应8条LLM描述和1条CogVLM描述。描述内容通过多标签分类器进行筛选，该分类器基于DINOv2 giant模型，经过1000个epoch的训练，使用APL损失函数，最终达到0.342的AP和0.5576的F1分数。标签被手动分类为12个类别，包括动物与拟人化特征、服装与配饰等，确保描述内容的安全性和多样性。

特点

该数据集的主要特点在于其大规模和多样性，每张图像包含9条详细描述，涵盖了从动物特征到背景设置的多个方面。描述长度通常超过77个token，不适合当前基于CLIP的分类方法。此外，数据集中的描述通过LLM和CogVLM生成，结合了人工分类标签，确保了描述的准确性和丰富性。尽管数据集标记为‘安全’，但未对所有图像进行安全性检查，可能包含不适当内容。

使用方法

该数据集适用于图像到文本的任务，如图像描述生成和图像理解。用户可以通过访问HuggingFace平台下载数据集，并使用提供的描述进行模型训练和评估。数据集中的描述可以通过特定的提示词生成，用户可以根据需要调整提示词以生成不同的描述。此外，数据集提供了处理重复前缀的脚本，便于用户进行后处理。在使用过程中，用户应注意数据集可能存在的偏见和局限性，特别是在描述的准确性和内容安全性方面。

背景与挑战

背景概述

furry-e621-sfw-7m-hq数据集由Caption Emporium创建，涵盖了从e621网站的‘安全内容’（SFW）分割中提取的6.92百万张图像的描述。该数据集的构建时间延伸至2023年1月，旨在捕捉机器学习图像广泛应用之前的图像描述。数据集中的描述由大型语言模型（LLMs）和自定义多标签分类器生成，每张图像包含8个LLM（基于mistralai/Mistral-7B-v0.1）和1个CogVLM（THUDM/CogVLM）生成的描述。这些描述不仅长度超过77个词元，且不适合当前基于CLIP的方法进行分类。数据集的标签经过精心筛选，保留了约7000个与安全内容相关的标签，并通过DINOv2巨型视觉编码器进行多标签分类器的训练，以确保描述的准确性和多样性。

当前挑战

furry-e621-sfw-7m-hq数据集在构建过程中面临多项挑战。首先，描述的长度超过77个词元，使得现有基于CLIP的分类方法难以有效处理。其次，LLM生成的描述中存在文本幻觉现象，部分描述可能包含重复词元或标签列表，影响数据质量。此外，CogVLM生成的描述虽然具有较高的OCR准确性，但仍可能偶尔出现文本幻觉或细节错误。数据集的标签分类过程也面临挑战，需确保标签的准确性和覆盖范围，同时避免偏见。最后，尽管数据集被标记为‘安全’，但并未对所有图像进行安全性检查，可能存在不适当的内容。

常用场景

经典使用场景

furry-e621-sfw-7m-hq数据集主要用于图像描述生成任务，特别是在图像到文本的转换领域。该数据集包含了6.92百万条高质量的英文描述，这些描述由大型语言模型（LLM）和CogVLM生成，适用于训练和评估图像描述生成模型。由于每张图像都有多个描述，研究人员可以利用这些多样化的描述来提升模型的鲁棒性和多样性。

衍生相关工作

基于furry-e621-sfw-7m-hq数据集，研究者们已经开展了多项相关工作，包括改进图像描述生成模型的架构、优化多标签分类器的性能，以及探索如何减少生成描述中的偏见和错误。此外，该数据集还激发了对多模态学习、跨模态检索等领域的深入研究，推动了图像与文本结合的技术发展。

数据集最近研究