five

SAkizuki/DanbooruSearchOnlineDB

收藏
Hugging Face2026-04-02 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/SAkizuki/DanbooruSearchOnlineDB
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: mit language: - en - zh tags: - anime - danbooru - search --- ## DanbooruSearchOnlineDB 是生成本人的HF Space [DanbooruSearchOnline](https://huggingface.co/spaces/SAkizuki/DanbooruSearch) 使用的原始数据库时所用的文件。 此数据库内含Danbooru中所有General、Copyright和Character,且图片数大于100的标签的信息,包括原始标签名、中文名、中文扩展名、Wiki释义、NSFW标记。 此外,此数据库内含上述标签的共现数据,即一对标签有多大可能在一张图上出现。 此数据库是由Github上的开源项目[SuzumiyaAkizuki/danbooru-tag-pipeline](https://github.com/SuzumiyaAkizuki/danbooru-tag-pipeline) 所生成的,也可以直接用于此开源项目的增量更新。 文件结构如下: ``` └── data/ ├── raw/ │ ├── tag.sqlite # 原始标签数据库 │ └── cooccurrence_matrix.csv # 原始共现矩阵 ├── checkpoint/ # 断点续传缓存文件 │ ├── llm_history.json │ ├── llm_temp.jsonl │ ├── wiki_progress.txt │ ├── cooc_progress.txt │ └── cooc_history.json └── processed/ ├── tags_enhanced.csv # 增强后的标签主表 ├── wiki_pages.parquet # Wiki 数据库 └── cooccurrence_clean.parquet # 清洗后的共现图 ``` 其中: ### tag.sqlite 上游数据库,由外部工具维护,本项目只读不写。本项目中此文件的来源是[ffdkj/ffdkj-Danbooru_Tag-Chinese-English-Translation-Table](https://github.com/ffdkj/ffdkj-Danbooru_Tag-Chinese-English-Translation-Table?tab=readme-ov-file)。管线依赖其中的 `tags` 表: | 字段 | 类型 | 说明 | | ------------ | ------- | ------------------------------------------------------------ | | `name` | TEXT | 标签英文名(主键,唯一) | | `category` | INTEGER | 标签分类:`0` 通用、`3` 版权/作品、`4` 角色(其余类型不纳入处理) | | `post_count` | INTEGER | 该标签在 Danbooru 上的帖子数量 | | `cn_name` | TEXT | 预置中文名(可为空,LLM 步骤会进一步修正和扩展 | ### cooccurrence_matrix.csv Danbooru标签原始共现矩阵。 | 字段 | 类型 | 说明 | | ------------------- | ------- | ------------------------------------------------------------ | | `tag_a` | TEXT | 共现对中字典序较小的标签名 | | `tag_b` | TEXT | 共现对中字典序较大的标签名 | | `raw_count` | INTEGER | 估算的绝对共现次数(由 `frequency × post_count` 还原) | | `cosine_similarity` | FLOAT | Danbooru API 返回的余弦相似度(仅在字典格式响应中存在,列表格式下为 `0.0`) | 每对 `(tag_a, tag_b)` 保证 `tag_a < tag_b`(字典序),全表无重复配对。其中,`tag_a` 和 `tag_b` 必须同时满足以下条件,才会在此表中显示: - `category` = `0` , '3' or '4' - `post_count` >= `100` ### tags_enhanced.csv 核心数据库。 | 字段 | 类型 | 说明 | | ------------ | --------------- | ------------------------------------------------------------ | | `name` | TEXT | 标签英文名,全表唯一主键 | | `category` | INTEGER | 标签分类(同 SQLite,随每次同步刷新) | | `post_count` | INTEGER | 帖子数量(随每次同步刷新) | | `cn_name` | TEXT | 中文名。初始值继承自 SQLite;Step 3 执行后格式为「基础中文名,同义词1,别名2」的逗号拼接串 | | `wiki` | TEXT | LLM 生成的中文视觉描述,约 50 字。初始为空 | | `nsfw` | BOOL | NSFW 标记:`0` 安全、`1` 不安全。初始为 `0` | ### wiki_pages.parquet Danbooru Wiki 全量数据库。 | 字段 | 类型 | 说明 | | ------------- | ------- | ------------------------------------------------------------ | | `id` | INTEGER | Wiki 页面 ID(主键) | | `title` | TEXT | 页面标题,通常与标签英文名一致 | | `body` | TEXT | Wiki 正文(Danbooru 自有标记语法,`llm_processor` 读取时会自动清洗) | | `updated_at` | TEXT | 最后更新时间(ISO 8601),用于增量检测的时间基准 | | `other_names` | TEXT | 别名列表(原为 JSON 数组,存储时序列化为字符串) | ### cooccurrence_clean.parquet 管线最终产物,经 PMI 过滤和 Top-K 截断后的高质量稀疏共现图,以 Snappy 压缩存储: | 字段 | 类型 | 说明 | | ------- | ------- | ----------------------------------------------- | | `tag_a` | TEXT | 共现对中字典序较小的标签名 | | `tag_b` | TEXT | 共现对中字典序较大的标签名 | | `count` | INTEGER | 共现次数(与原始矩阵中的 `raw_count` 含义相同) | 相比原始矩阵,此文件剔除了低 PMI 的弱关联对,并保证每个标签的邻居数不超过 `top_k`。`cosine_similarity` 列在此阶段已丢弃,不出现在最终文件中。
提供机构:
SAkizuki
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作