Name: SAkizuki/DanbooruSearchOnlineDB
Creator: SAkizuki
Published: 2026-04-02 10:46:45
License: 暂无描述

下载链接：

https://hf-mirror.com/datasets/SAkizuki/DanbooruSearchOnlineDB

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: mit language: - en - zh tags: - anime - danbooru - search --- ## DanbooruSearchOnlineDB 是生成本人的HF Space [DanbooruSearchOnline](https://huggingface.co/spaces/SAkizuki/DanbooruSearch) 使用的原始数据库时所用的文件。此数据库内含Danbooru中所有General、Copyright和Character，且图片数大于100的标签的信息，包括原始标签名、中文名、中文扩展名、Wiki释义、NSFW标记。此外，此数据库内含上述标签的共现数据，即一对标签有多大可能在一张图上出现。此数据库是由Github上的开源项目[SuzumiyaAkizuki/danbooru-tag-pipeline](https://github.com/SuzumiyaAkizuki/danbooru-tag-pipeline) 所生成的，也可以直接用于此开源项目的增量更新。文件结构如下： ``` └── data/ ├── raw/ │ ├── tag.sqlite # 原始标签数据库 │ └── cooccurrence_matrix.csv # 原始共现矩阵 ├── checkpoint/ # 断点续传缓存文件 │ ├── llm_history.json │ ├── llm_temp.jsonl │ ├── wiki_progress.txt │ ├── cooc_progress.txt │ └── cooc_history.json └── processed/ ├── tags_enhanced.csv # 增强后的标签主表 ├── wiki_pages.parquet # Wiki 数据库 └── cooccurrence_clean.parquet # 清洗后的共现图 ``` 其中： ### tag.sqlite 上游数据库，由外部工具维护，本项目只读不写。本项目中此文件的来源是[ffdkj/ffdkj-Danbooru_Tag-Chinese-English-Translation-Table](https://github.com/ffdkj/ffdkj-Danbooru_Tag-Chinese-English-Translation-Table?tab=readme-ov-file)。管线依赖其中的 `tags` 表： | 字段 | 类型 | 说明 | | ------------ | ------- | ------------------------------------------------------------ | | `name` | TEXT | 标签英文名（主键，唯一） | | `category` | INTEGER | 标签分类：`0` 通用、`3` 版权/作品、`4` 角色（其余类型不纳入处理） | | `post_count` | INTEGER | 该标签在 Danbooru 上的帖子数量 | | `cn_name` | TEXT | 预置中文名（可为空，LLM 步骤会进一步修正和扩展 | ### cooccurrence_matrix.csv Danbooru标签原始共现矩阵。 | 字段 | 类型 | 说明 | | ------------------- | ------- | ------------------------------------------------------------ | | `tag_a` | TEXT | 共现对中字典序较小的标签名 | | `tag_b` | TEXT | 共现对中字典序较大的标签名 | | `raw_count` | INTEGER | 估算的绝对共现次数（由 `frequency × post_count` 还原） | | `cosine_similarity` | FLOAT | Danbooru API 返回的余弦相似度（仅在字典格式响应中存在，列表格式下为 `0.0`） | 每对 `(tag_a, tag_b)` 保证 `tag_a < tag_b`（字典序），全表无重复配对。其中，`tag_a` 和 `tag_b` 必须同时满足以下条件，才会在此表中显示： - `category` = `0` , '3' or '4' - `post_count` >= `100` ### tags_enhanced.csv 核心数据库。 | 字段 | 类型 | 说明 | | ------------ | --------------- | ------------------------------------------------------------ | | `name` | TEXT | 标签英文名，全表唯一主键 | | `category` | INTEGER | 标签分类（同 SQLite，随每次同步刷新） | | `post_count` | INTEGER | 帖子数量（随每次同步刷新） | | `cn_name` | TEXT | 中文名。初始值继承自 SQLite；Step 3 执行后格式为「基础中文名,同义词1,别名2」的逗号拼接串 | | `wiki` | TEXT | LLM 生成的中文视觉描述，约 50 字。初始为空 | | `nsfw` | BOOL | NSFW 标记：`0` 安全、`1` 不安全。初始为 `0` | ### wiki_pages.parquet Danbooru Wiki 全量数据库。 | 字段 | 类型 | 说明 | | ------------- | ------- | ------------------------------------------------------------ | | `id` | INTEGER | Wiki 页面 ID（主键） | | `title` | TEXT | 页面标题，通常与标签英文名一致 | | `body` | TEXT | Wiki 正文（Danbooru 自有标记语法，`llm_processor` 读取时会自动清洗） | | `updated_at` | TEXT | 最后更新时间（ISO 8601），用于增量检测的时间基准 | | `other_names` | TEXT | 别名列表（原为 JSON 数组，存储时序列化为字符串） | ### cooccurrence_clean.parquet 管线最终产物，经 PMI 过滤和 Top-K 截断后的高质量稀疏共现图，以 Snappy 压缩存储： | 字段 | 类型 | 说明 | | ------- | ------- | ----------------------------------------------- | | `tag_a` | TEXT | 共现对中字典序较小的标签名 | | `tag_b` | TEXT | 共现对中字典序较大的标签名 | | `count` | INTEGER | 共现次数（与原始矩阵中的 `raw_count` 含义相同） | 相比原始矩阵，此文件剔除了低 PMI 的弱关联对，并保证每个标签的邻居数不超过 `top_k`。`cosine_similarity` 列在此阶段已丢弃，不出现在最终文件中。

应用场景：