five

KBlueLeaf/danbooru2023-metadata-database

收藏
Hugging Face2024-07-18 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/KBlueLeaf/danbooru2023-metadata-database
下载链接
链接失效反馈
官方服务:
资源简介:
Danbooru 2023数据集包含一个SQLite数据库文件,其中包含所有标签和帖子的元数据。数据集提供了三种格式:SQLite(有/无索引)、Parquet和DuckDB(有/无索引),这些格式存储相同的内容。Parquet文件的名称指示了SQLite/DuckDB表的名称,推荐使用post.parquet文件来导出大量内容。此外,数据集还包含一些预导出的文件,如每个帖子的标签。数据集还提供了Peewee ORM配置文件,详细说明了如何将帖子和标签链接在一起。数据集的自定义枚举字段用于存储帖子/标签的类型/类别,标签列表通过Peewee的ManyToManyField实现,以提高查询速度。数据集还提供了db_utils.py和write_csv.py等工具,以便于使用和导出数据。

The Danbooru2023 dataset contains a SQLite database file with metadata for all tags and posts. It offers three formats: SQLite, Parquet, and Duckdb, each with indexed and non-indexed versions. The dataset also includes pre-exported files, such as tags for each post. Some fields in the dataset use custom enum fields to store type or category information, such as Post.rating and Tag.type. The design of the dataset allows for faster query speeds but increases the size of the database file. Tools and scripts, such as db_utils.py and write_csv.py, are provided to help users utilize the database.
提供机构:
KBlueLeaf
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Danbooru2023
  • 许可证: MIT
  • 任务类别:
    • 图像分类
    • 文本到图像
    • 图像到文本
    • 图像到图像
    • 文本检索
    • 文本生成
    • 文本分类
  • 语言:
    • 英语
    • 日语
  • 标签:
    • 艺术
    • 动漫
  • 数据集大小: 1M<n<10M

配置

  • 默认配置:
    • 数据文件:
      • 分割: 训练
      • 路径: "parquet/post.parquet"

数据格式

  • SQLite (.db):
    • 包含两个版本: 带索引和不带索引
  • Parquet:
    • Parquet文件名指示sqlite/duckdb表名
    • 推荐使用post.parquet以导出大量内容
  • Duckdb (.duckdb):
    • 包含两个版本: 带索引和不带索引

详细信息

  • 自定义枚举字段:
    • Post.rating:
      • 0: 一般
      • 1: 敏感
      • 2: 有疑问
      • 3: 显式
    • Tag.type:
      • 0: 一般
      • 1: 艺术家
      • 2: 角色
      • 3: 版权
      • 4: 元数据
  • 标签列表:
    • 使用Peewee的ManyToManyField实现标签列表
    • 数据库文件大小增加1.5倍,但查询速度提高2~3倍

其他工具

  • db_utils.py: 用于简化数据库操作
  • write_csv.py: 用于将整个数据集导出为CSV文件
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是Danbooru2023的元数据库,包含所有帖子和标签的元数据,提供多种格式(SQLite、Parquet、DuckDB),并优化了查询性能。数据来源于官方转储,适用于图像分类、文本到图像等任务。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作