SAkizuki/DanbooruSearchOnlineDB
收藏Hugging Face2026-04-02 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/SAkizuki/DanbooruSearchOnlineDB
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
language:
- en
- zh
tags:
- anime
- danbooru
- search
---
## DanbooruSearchOnlineDB
是生成本人的HF Space [DanbooruSearchOnline](https://huggingface.co/spaces/SAkizuki/DanbooruSearch) 使用的原始数据库时所用的文件。
此数据库内含Danbooru中所有General、Copyright和Character,且图片数大于100的标签的信息,包括原始标签名、中文名、中文扩展名、Wiki释义、NSFW标记。
此外,此数据库内含上述标签的共现数据,即一对标签有多大可能在一张图上出现。
此数据库是由Github上的开源项目[SuzumiyaAkizuki/danbooru-tag-pipeline](https://github.com/SuzumiyaAkizuki/danbooru-tag-pipeline) 所生成的,也可以直接用于此开源项目的增量更新。
文件结构如下:
```
└── data/
├── raw/
│ ├── tag.sqlite # 原始标签数据库
│ └── cooccurrence_matrix.csv # 原始共现矩阵
├── checkpoint/ # 断点续传缓存文件
│ ├── llm_history.json
│ ├── llm_temp.jsonl
│ ├── wiki_progress.txt
│ ├── cooc_progress.txt
│ └── cooc_history.json
└── processed/
├── tags_enhanced.csv # 增强后的标签主表
├── wiki_pages.parquet # Wiki 数据库
└── cooccurrence_clean.parquet # 清洗后的共现图
```
其中:
### tag.sqlite
上游数据库,由外部工具维护,本项目只读不写。本项目中此文件的来源是[ffdkj/ffdkj-Danbooru_Tag-Chinese-English-Translation-Table](https://github.com/ffdkj/ffdkj-Danbooru_Tag-Chinese-English-Translation-Table?tab=readme-ov-file)。管线依赖其中的 `tags` 表:
| 字段 | 类型 | 说明 |
| ------------ | ------- | ------------------------------------------------------------ |
| `name` | TEXT | 标签英文名(主键,唯一) |
| `category` | INTEGER | 标签分类:`0` 通用、`3` 版权/作品、`4` 角色(其余类型不纳入处理) |
| `post_count` | INTEGER | 该标签在 Danbooru 上的帖子数量 |
| `cn_name` | TEXT | 预置中文名(可为空,LLM 步骤会进一步修正和扩展 |
### cooccurrence_matrix.csv
Danbooru标签原始共现矩阵。
| 字段 | 类型 | 说明 |
| ------------------- | ------- | ------------------------------------------------------------ |
| `tag_a` | TEXT | 共现对中字典序较小的标签名 |
| `tag_b` | TEXT | 共现对中字典序较大的标签名 |
| `raw_count` | INTEGER | 估算的绝对共现次数(由 `frequency × post_count` 还原) |
| `cosine_similarity` | FLOAT | Danbooru API 返回的余弦相似度(仅在字典格式响应中存在,列表格式下为 `0.0`) |
每对 `(tag_a, tag_b)` 保证 `tag_a < tag_b`(字典序),全表无重复配对。其中,`tag_a` 和 `tag_b` 必须同时满足以下条件,才会在此表中显示:
- `category` = `0` , '3' or '4'
- `post_count` >= `100`
### tags_enhanced.csv
核心数据库。
| 字段 | 类型 | 说明 |
| ------------ | --------------- | ------------------------------------------------------------ |
| `name` | TEXT | 标签英文名,全表唯一主键 |
| `category` | INTEGER | 标签分类(同 SQLite,随每次同步刷新) |
| `post_count` | INTEGER | 帖子数量(随每次同步刷新) |
| `cn_name` | TEXT | 中文名。初始值继承自 SQLite;Step 3 执行后格式为「基础中文名,同义词1,别名2」的逗号拼接串 |
| `wiki` | TEXT | LLM 生成的中文视觉描述,约 50 字。初始为空 |
| `nsfw` | BOOL | NSFW 标记:`0` 安全、`1` 不安全。初始为 `0` |
### wiki_pages.parquet
Danbooru Wiki 全量数据库。
| 字段 | 类型 | 说明 |
| ------------- | ------- | ------------------------------------------------------------ |
| `id` | INTEGER | Wiki 页面 ID(主键) |
| `title` | TEXT | 页面标题,通常与标签英文名一致 |
| `body` | TEXT | Wiki 正文(Danbooru 自有标记语法,`llm_processor` 读取时会自动清洗) |
| `updated_at` | TEXT | 最后更新时间(ISO 8601),用于增量检测的时间基准 |
| `other_names` | TEXT | 别名列表(原为 JSON 数组,存储时序列化为字符串) |
### cooccurrence_clean.parquet
管线最终产物,经 PMI 过滤和 Top-K 截断后的高质量稀疏共现图,以 Snappy 压缩存储:
| 字段 | 类型 | 说明 |
| ------- | ------- | ----------------------------------------------- |
| `tag_a` | TEXT | 共现对中字典序较小的标签名 |
| `tag_b` | TEXT | 共现对中字典序较大的标签名 |
| `count` | INTEGER | 共现次数(与原始矩阵中的 `raw_count` 含义相同) |
相比原始矩阵,此文件剔除了低 PMI 的弱关联对,并保证每个标签的邻居数不超过 `top_k`。`cosine_similarity` 列在此阶段已丢弃,不出现在最终文件中。
提供机构:
SAkizuki



