gemmabooru
收藏Hugging Face2026-05-18 更新2026-05-21 收录
下载链接:
https://huggingface.co/datasets/Rigdenn/gemmabooru
下载链接
链接失效反馈官方服务:
资源简介:
GemmaBooru 是一个正在进行中的、个人/公共的衍生图像-描述存档数据集,旨在构建一个便于训练的图像-描述对集合。该数据集源自在 Hugging Face 上的 `deepghs/danbooru2024` 数据集,包含了从 Danbooru 社区精选的帖子。每个数据样本包含一个全尺寸的源图像,并配有两个文本文件:一个是由 Gemma 大语言模型(通过 LM Studio 使用特定提示词生成)的自然语言描述文件(`.txt`),另一个是包含原始 Danbooru 标签的侧文件(`_booru.txt`)。此外,部分样本可能包含用于元数据/调试的 `.json` 文件。数据以分片(shard)形式组织,存储为 `.tar` 文件,并通过 Parquet 格式的元数据文件进行管理。一个全局的 `metadata.parquet` 文件提供了跨所有分片的可搜索索引,包含的关键字段有:Danbooru 帖子 ID (`post_id`)、内容分级 (`rating`, 通常为 s/q/e)、社区评分 (`score`)、收藏数 (`fav_count`)、图像尺寸 (`width`, `height`)、文件扩展名 (`file_ext`)、原始标签文本 (`booru_tags`)、Gemma 生成的描述 (`caption`) 以及文件在分片内的路径信息。数据集规模较小(标签显示少于1万个样本),主要面向研究人员和开发者,适用于图像描述生成、图像生成模型训练、描述实验以及从标签到自然语言描述的转换工作流。数据集提供了专门的 Python 工具(如 `download_from_hf.py`),支持用户根据 Danbooru 标签、内容分级、社区评分等元数据灵活地过滤和下载所需子集。重要注意事项:1. 数据集内容可能包含成人、露骨或不适合所有受众的材料,用户需自行负责内容过滤。2. 描述由模型生成,可能存在遗漏或事实错误(幻觉)。3. 原始 Danbooru 标签可能存在噪声和不一致性。4. 这是一个衍生数据集,用户在使用或再分发时应遵守上游数据源(Danbooru)的相关政策与许可要求,并注明出处。
创建时间:
2026-05-15
搜集汇总
数据集介绍

构建方式
在图像标注数据集构建领域,GemmaBooru作为基于Danbooru2024源图像与元数据的衍生档案,采用了增量式构建方案。该数据集从deepghs/danbooru2024中精选每张Danbooru帖子,以原始尺寸保存图像,并为每个帖子配备两种文本侧车文件:一是源自Danbooru标签的_booru.txt文件,二是通过Gemma模型在本地生成的自然语言描述caption文件。数据以tar分片形式存储于data/目录,每片包含以Danbooru帖子ID命名的图像及其侧车文件,同时每个分片附带对应的parquet元数据文件,便于检索与提取。
特点
GemmaBooru数据集的核心特色在于其训练友好的灵活架构与元数据驱动的筛选能力。数据集包含评分、收藏数、尺寸、标签等丰富元数据字段,用户可通过全局metadata.parquet索引按标签、评级、分数等多维度精确过滤所需子集。其双文本侧车设计既保留了Booru标签的原始信息,又提供了Gemma生成的自然语言描述,兼顾了标签驱动与语义理解两种应用场景。值得注意的是,数据集内容可能包含成人向素材,用户需自行负责在训练或分发前进行过滤。
使用方法
数据集的使用围绕下载工具download_from_hf.py展开,该工具支持通过命令行参数实现灵活的数据提取。用户可指定--tag参数进行标签过滤,结合--rating参数筛选安全等级,通过--min-score设定最低分数门槛,并使用--limit控制输出数量。支持多标签AND匹配及--any-tag参数实现的OR匹配模式。下载过程自动获取全局元数据,本地过滤后仅下载包含匹配帖子的分片压缩包,最终在输出目录解压出图像与对应的两种文本文件。此外,用户可通过build_global_metadata.py工具在本地重建或上传全局元数据索引。
背景与挑战
背景概述
GemmaBooru数据集由研究者Rigdenn于近期创建,源自deepghs/danbooru2024源图像与元数据,旨在为动漫图像描述、生成模型训练及标签到自然语言描述转换等研究提供可灵活筛选的训练档案。该数据集以Danbooru社区标注的高质量动漫图像为基础,通过Gemma模型生成自然语言描述,形成每张图像配对标签文件与生成式描述文件的独特结构,在二次元内容分析与生成领域开辟了新的数据资源路径。其开放式的元数据过滤机制支持用户按标签、评分、收藏数等维度定制子集,显著提升了数据集在细粒度研究场景中的适用性,有望推动动漫图像理解与合成任务的进一步发展。
当前挑战
GemmaBooru面临的核心挑战包括:领域问题层面,动漫图像的标签噪声、主观性及不一致性严重干扰模型训练质量,而生成式描述可能遗漏关键细节或产生幻觉,威胁描述准确性;同时,数据集内含的成人内容要求用户承担繁重的过滤责任,亟需开发兼顾隐私与效率的过滤策略。构建过程中,数据集处于持续增量更新状态,分片数量、元数据覆盖范围及过滤规则频繁变动,导致全局元数据在不同上传周期间存在滞后,给早期用户带来数据完整性风险。此外,从上游Danbooru2024衍生而来的版权与合规问题,要求使用者在再分发或训练前审慎核查许可条款,增加了数据应用的复杂性。
常用场景
经典使用场景
GemmaBooru数据集专为动漫图像描述生成任务而设计,其最经典的使用场景是基于Danbooru标签体系与Gemma模型生成的自然语言描述,构建高质量的图像-文本对。研究者可利用该数据集训练图像描述生成模型,实现从Booru标签到流畅英文描述的自动转换,或将动漫图像与细粒度标签、自然语言描述关联,用于多模态理解与生成任务的预训练与微调。
实际应用
在实际应用中,GemmaBooru可服务于动漫图像生成模型的训练,如基于文本提示的Stable Diffusion或DALL·E类模型的微调,通过其丰富的标签与描述增强模型对角色特征、场景细节的生成一致性。此外,该数据集也可用于构建动漫图像检索系统,用户可通过自然语言查询而非复杂标签快速定位图像;同时支持内容审核工具的开发,利用元数据进行安全过滤,适应不同应用场景的合规需求。
衍生相关工作
GemmaBooru的发布催生了多项相关衍生工作,包括基于其元数据过滤机制开发的定制化子数据集抽取工具,以及针对动漫图像描述生成任务的模型迁移与基准测试。研究者常在此基础上探索标签到描述的跨模态转换架构,如改进的Transformer或视觉-语言预训练模型。同时,该数据集促进了Danbooru标签系统的标准化利用,推动了动漫领域数据集的构建方法论创新,为后续类似合成数据生成与开源档案管理提供了可复现的参考范本。
以上内容由遇见数据集搜集并总结生成



