booru-quality-80-union-db

Hugging Face2026-05-09 更新2026-05-10 收录

下载链接：

https://huggingface.co/datasets/LeeMirror013/booru-quality-80-union-db

下载链接

链接失效反馈

官方服务：

资源简介：

Booru Quality 80 Union SQLite DB 是一个高质量的 Danbooru/Gelbooru 元数据联合数据库，仅包含元数据而不包含实际图像文件。数据集主要包含 SQLite 格式的元数据数据库和可复现的脚本。主数据库文件 quality_80_union.db 包含 2,988,704 条图像记录，每条记录有 35 个字段，其中质量分数≥0.8 的记录有 2,973,255 条。该数据库是 Gelbooru 和 Danbooru 两个来源在 80% 质量阈值下的去重合并结果。数据集提供了详细的数据库架构、质量评分计算方法（基于百分位排名）、URL字段说明（包括统一的和来源特定的URL）以及维护脚本。数据来源于 trojblue/danbooru2025-metadata 和 AngelBottomless/Booru-Parquets 两个上游项目。需要注意的是，这些元数据可能包含明确/有争议的内容评级，使用者需自行过滤并遵守来源网站条款和当地法规。

Booru Quality 80 Union SQLite DB is a high-quality Danbooru/Gelbooru metadata union database, containing only metadata without actual image files. The dataset mainly includes metadata databases in SQLite format and reproducible scripts. The main database file quality_80_union.db contains 2,988,704 image records, each with 35 fields, of which 2,973,255 records have a quality score ≥0.8. This database is the deduplicated and merged result of Gelbooru and Danbooru sources under an 80% quality threshold. The dataset provides detailed database schema, quality scoring method (based on percentile ranking), URL field descriptions (including unified and source-specific URLs), and maintenance scripts. The data comes from two upstream projects: trojblue/danbooru2025-metadata and AngelBottomless/Booru-Parquets. It should be noted that these metadata may contain explicit/controversial content ratings, and users need to filter them by themselves and comply with the source website terms and local regulations.

创建时间：

2026-05-07

原始信息汇总

Booru Quality 80 Union SQLite DB 数据集概述

数据集简介

该数据集提供高质量的 Danbooru/Gelbooru 元数据联合的 SQLite 元数据库及可复现脚本。不包含图像文件，图像位置仅包含 URL 元数据。

主要文件

入口文件：data/quality_80_union.db（主 SQLite 数据库）

文件内容清单

路径	用途
`data/quality_80_union.db`	MD5 去重后的质量联合数据库
`data/gelbooru.db`	标准化的 Gelbooru 源元数据库
`data/danbooru2025_candidate.db`	包含 MD5 的 Danbooru 源元数据库
`data/danbooru.db`	旧版 Danbooru 数据库（兼容保留）
`scripts/convert_danbooru.py`	Danbooru 转换脚本
`scripts/convert_gelbooru.py`	Gelbooru 转换脚本
`scripts/build_quality_union_db.py`	联合数据库构建脚本
`scripts/maintenance/repair_quality_percentiles.py`	百分位修复/溯源脚本
`docs/database.md`	详细的数据库模式和使用说明
`dataset_manifest.json`	文件大小、校验和及数据库统计信息

quality_80_union.db 关键统计

指标	数值
`images` 表中行数	2,988,704
`images` 表列数	35
`quality_score >= 0.8` 的行数	2,973,255
`quality_score < 0.8` 的行数	15,449
通过 Gelbooru 80 阈值筛选的行数	2,034,916
通过 Danbooru 80 阈值筛选的行数	1,850,329
同时通过两者筛选的行数	896,541
两者均未通过的行数	0

images 表是 Gelbooru 80 百分位阈值选择与 Danbooru 80 百分位阈值选择的 MD5 去重联合结果。

质量评分机制

评分算法：rating_bucket_cume_dist_v1
计算公式：quality_score = max(gelbooru_score_pct, danbooru_score_pct)
- pct(score, rating) = count(score <= current_score within rating) / count(rating)
评分范围：0 到 1
image_parquet_file 字段为未来本地图像 parquet 分片文件名预留，当前数据库中可为空

URL 字段说明

canonical_file_url：统一的原始文件 URL
同时保留各源特定 URL：gelbooru_file_url 和 danbooru_file_url

上游数据来源

trojblue/danbooru2025-metadata
AngelBottomless/Booru-Parquets（gelbooru.parquet）

安全与使用注意事项

本数据集包含 booru 内容的元数据，可能包含露骨/有争议的评级行。用户需自行负责过滤评级并遵守源网站条款及当地法规。此上传不授予下载或重用第三方图像的权利。

搜集汇总

数据集介绍

构建方式

该数据集基于Danbooru与Gelbooru两大图像元数据源，通过质量评分阈值筛选与MD5去重技术构建而成。具体而言，从`trojblue/danbooru2025-metadata`与`AngelBottomless/Booru-Parquets`两个上游来源获取原始元数据，分别经`convert_danbooru.py`和`convert_gelbooru.py`脚本规范化处理后，利用`build_quality_union_db.py`脚本将两个源中质量分数处于第80百分位以上的条目进行联合，并基于MD5哈希值剔除重复记录，最终产出包含约300万条高质量元数据的SQLite数据库。

使用方法

用户可直接加载`data/quality_80_union.db`文件进行查询与分析。该数据库为SQLite格式，支持标准SQL操作，例如通过`SELECT`语句按质量分数排序筛选图像元数据。用户可结合`md5`字段进行图像去重，利用`canonical_file_url`获取统一格式的图像链接。此外，数据集提供了`dataset_manifest.json`文件，包含文件的校验和与统计信息，便于验证完整性。建议用户在使用时根据需求过滤`canonical_rating`字段以遵守内容规范，并参考`docs/database.md`文档了解详细的模式定义与使用说明。

背景与挑战

背景概述

Booru-quality-80-union-db数据集诞生于图像元数据质量筛选的前沿需求，由研究社群针对Danbooru与Gelbooru两大动漫风格图片仓库的元数据异构问题构建。该数据集创建于2025年前后，核心研究人员来自trojblue与AngelBottomless等开源贡献团队，旨在通过联合质量评分机制（quality_score）提取两个来源中质量排名前80%的高质量图像元数据，形成统一、去重的元数据索引库。该成果解决了跨平台元数据整合中评分标准不一与重复记录的关键障碍，为图像生成模型的训练数据筛选提供了可靠的质量标尺，深刻影响了基于动漫图像的AI美学质量判定与大规模元数据治理领域。

当前挑战

数据集面临的核心挑战来自领域问题与构建过程两方面。领域层面，Danbooru与Gelbooru的图像质量评估依赖用户评分与标签派生，评分标准主观且存在平台偏差，需要设计鲁棒的跨平台百分位质量分数（cume_dist）以达成统一筛选，避免低质图像混入。构建过程中，面临数千万条元数据的去重与范式转换难题——两平台字段结构迥异，需分别开发转换脚本（convert_danbooru.py与convert_gelbooru.py）并解决md5哈希冲突，同时处理超过15万条低质量记录与近百万条被双方同时选择图像的容错合并。最终形成的2,973,255条高质量元数据索引，是克服异构数据清洗与质量阈值调优双重挑战的成果。

常用场景

经典使用场景

booru-quality-80-union-db 数据集的核心应用场景，在于为图像生成与多模态模型提供高质量、经过严格筛选的视觉概念训练元数据支撑。通过整合 Danbooru 与 Gelbooru 两大主流动漫图像社区的评分机制，该数据集筛选出质量分数不低于 0.8 的近三百万条图像记录，并剔除了低分噪声与重复项。研究者可借助其统一的 MD5 去重结构和标准化的元数据字段，快速构建起用于风格迁移、文本到图像生成或视觉特征学习的纯净训练集合。数据集不包含原始图像文件，仅提供规范化 URL 引用，这一设计使其更适用于分布式或私有化数据管道的构建流程。

解决学术问题

该数据集精准回应了跨平台异构图像元数据整合过程中的学术挑战，尤其是质量一致性评估与数据去重问题。传统研究常因 Booru 社区间评分标准不一、数据结构混杂而难以复用大规模元数据资源。booru-quality-80-union-db 通过引入基于分位数归一的联合质量评分机制，将不同平台的打分映射到统一的 0 至 1 区间，有效降低了评分偏差带来的系统性误差。这一机制不仅为图像质量预筛选提供了可复现的统计方案，也为后续的图像生成质量评估、分布外检测等研究奠定了数据基础，推动了在弱监督与跨域学习场景下的方法论革新。

实际应用

在实际工程环境中，booru-quality-80-union-db 可被高效嵌入到图像内容审核、动漫风格搜索及数字资产管理等系统中。例如，运维人员可利用其中的质量评分与标签信息，优先索引或缓存高分图像，以优化内容分发网络的响应速度与存储成本。对于创意工具开发者而言，该数据集能够作为精细化图像筛选的后端索引，辅助实现基于质量阈值的自动素材归类。此外，由于数据集仅保留元数据与 URL，用户可在遵守源网站条款的前提下，灵活对接自有图像存储或处理管线，显著降低元数据治理与数据合规管理的复杂度。

数据集最近研究