openbrush-anonymous-masters

Hugging Face2026-05-09 更新2026-05-10 收录

下载链接：

https://huggingface.co/datasets/jaddai/openbrush-anonymous-masters

下载链接

链接失效反馈

官方服务：

资源简介：

OpenBrush Anonymous Masters 是一个精选的艺术作品数据集，包含来自 OpenBrush-75K 数据集的未署名作品，涵盖了多个世纪和艺术风格。该数据集旨在提供广泛的绘画风格覆盖，避免因特定艺术家风格带来的偏见。数据集包含 41,914 幅图像，每幅图像配有结构化标注，包括标签、主题、动作、场景、情绪、风格、光线、色彩和构图等详细描述。所有作品均为公共领域，标注采用 MIT 许可证发布。该数据集适用于图像到文本、文本到图像、图像分类等任务，特别适合需要广泛艺术风格覆盖的研究和应用。

OpenBrush Anonymous Masters is a curated dataset of artworks containing unsigned works from the OpenBrush-75K dataset, spanning multiple centuries and artistic styles. The dataset aims to provide broad coverage of painting styles while avoiding biases from specific artist styles. It contains 41,914 images, each with structured annotations including detailed descriptions of labels, subjects, actions, scenes, emotions, styles, lighting, colors, and compositions. All works are in the public domain, and the annotations are released under the MIT license. The dataset is suitable for tasks such as image-to-text, text-to-image, and image classification, particularly for research and applications requiring extensive coverage of artistic styles.

创建时间：

2026-04-28

原始信息汇总

数据集概述：OpenBrush Anonymous Masters

本数据集是 jaddai/openbrush-75k 的一个经过筛选的子集，专门收录了其中所有归属不明的（匿名大师）画作，旨在提供无艺术家特定偏见的广泛风格训练数据。

1. 基本信息

许可证：MIT
语言：英语 (en)
任务类别：图像到文本、文本到图像、图像分类
数据集大小：10,000 < n < 100,000
数据集配置：默认配置下包含一个 train 分片（数据文件：data/train-*.parquet）

2. 数据集规模与来源

属性	数值
总图片数	41,914 张
数据来源	jaddai/openbrush-75k v1.1 版本中 `artist == "Unknown Artist"` 的过滤结果

母数据集 openbrush-75k 包含 75,313 张画作，其中 37%（即本数据集）为无归属作品。

3. 数据内容与用途

内容：跨越多个世纪和艺术风格的无归属（匿名）西洋古典大师画作。
用途：适用于广泛风格的训练，可避免训练有艺术家署名的画作时引入特定艺术家的偏见。

4. 数据模式 (Schema)

每条记录包含以下字段：

字段名	类型	描述
`id`	string	唯一标识符
`image`	Image	画作图像（PNG 字节）
`width`	int	图像宽度（像素）
`height`	int	图像高度（像素）
`artist`	string	艺术家姓名（此处均为 `Unknown Artist`）
`style`	string	艺术运动/风格
`genre`	string	流派
`tags`	list[string]	标准化描述标签
`subject`	string	主体描述
`action`	string	动作/姿态描述
`setting`	string	环境与背景
`mood`	string	情感基调与氛围
`style_description`	string	艺术技法与风格分析
`lighting`	string	光线方向、质量、色温
`color`	string	调色板与色彩关系
`composition`	string	构图、平衡、焦点
`caption_full`	string	完整结构化描述
`source_file`	string	原始文件名

结构化描述模板 (v2)：

TAGS: 逗号分隔的标准化描述标签 SUBJECT: 主要主体描述 ACTION: 动作与姿态 SETTING: 环境与背景 MOOD: 情感氛围 STYLE: 艺术技法分析 LIGHTING: 光线信息 COLOR: 色彩信息 COMPOSITION: 构图信息

5. 加载方式

python from datasets import load_dataset

dataset = load_dataset("jaddai/openbrush-anonymous-masters") print(len(dataset["train"])) # 输出: 41914

example = dataset["train"][0] print(example["caption_full"])

6. 与母数据集的关系

本数据集是母数据集 jaddai/openbrush-75k v1.1 的一个过滤切片。所有图像、描述和元数据均与母数据集一致，未进行任何重新描述或修改。

7. 同行子集

8. 许可与致谢

许可：MIT。底稿画作属于公共领域（所有艺术家死于 1954 年之前）；结构化描述为原创工作，以 MIT 协议发布。
描述生成：使用 Qwen3-VL-30B-A3B 模型生成。
标签标准化：借助基于 LLM 的语义映射完成。

搜集汇总

数据集介绍

构建方式

OpenBrush Anonymous Masters数据集源自OpenBrush-75K v1.1，通过筛选其中作者字段为"Unknown Artist"的匿名作品构建而成。原始数据集中约37%的图像归属不明，共计41,914幅，涵盖从古典到现代的各类艺术流派与风格。所有图像、标注和元数据均与父数据集完全一致，未经任何重新标注或修改，确保了数据源的纯净性与可追溯性。

特点

该数据集的核心价值在于去除了特定艺术家的创作偏差，为追求广泛绘画风格覆盖的模型训练提供了理想素材。每幅图像均附带经过VLM（Qwen3-VL-30B-A3B）生成的结构化标注，包含TAGS、SUBJECT、ACTION、SETTING、MOOD、STYLE、LIGHTING、COLOR、COMPOSITION九个维度，形成多层次语义描述。数据集采用MIT许可协议，原始艺术品均属公有领域。

使用方法

用户可通过Hugging Face Datasets库便捷加载该数据集，调用load_dataset("jaddai/openbrush-anonymous-masters")即获取包含41,914个训练样本的Dataset对象。每个样本提供图像字节数据、尺寸信息及完整的结构化文本标注，可直接用于图像描述生成、文本到图像合成、图像分类等多模态任务。相较于完整父数据集，此子集显著降低了存储与带宽开销。

背景与挑战

背景概述

OpenBrush Anonymous Masters数据集是2026年由研究者jaddai从OpenBrush-75K v1.1母集（包含75,313幅画作）中精心筛选的子集，专注于那些创作者身份不可考的匿名杰作。该数据集包含41,914张公共领域的绘画图像，跨越数个世纪的多种艺术运动与风格，并附带由Qwen3-VL-30B-A3B视觉语言模型生成的结构化描述（涵盖标签、主体、动作、场景、情绪、技法、光线、色彩与构图九大维度）。在计算机视觉与生成式人工智能领域，针对艺术图像的模型训练长期面临“名画家偏见”问题——即模型过度拟合于少数大师的风格，而忽视了艺术史中大量无署名作品所承载的集体美学智慧。此数据集旨在通过剥离艺术家身份标签，为多模态模型（如文本到图像生成、图像描述与分类）提供去偏见的、广泛覆盖绘画技法的训练资源，从而促进对艺术风格本质的更普适性理解。

当前挑战

该数据集所应对的领域核心挑战在于艺术图像模型训练中的“署名偏差”——当语料库过度依赖如梵高、莫奈等知名艺术家时，模型学会的往往是特定创作者的特征，而非绘画语言本身。匿名大师作品虽占艺术史存世量的巨大比例，却常因缺乏身份归属而被边缘化，导致模型在泛化至非主流风格时表现脆弱。构建过程中的挑战则体现在双重层面：其一，需从OpenBrush-75K的75,313幅图像中，通过严谨的元数据过滤（artist字段等于Unknown Artist）精准提取37%的不署名作品，确保子集在风格、流派和体裁上的代表性不因筛选而失真；其二，为这些缺乏文本注释的历史画作生成高质量的结构化描述，依赖先进VLM（如Qwen3-VL-30B-A3B）进行标注，同时需平衡自动生成的效率与艺术史语境的准确性，避免引入机器幻觉或现代视觉偏见。

常用场景

经典使用场景

OpenBrush Anonymous Masters数据集汇聚了跨越数个世纪与多种艺术流派的匿名大师作品，共计41,914幅图像，每幅图像均配有由VLM生成的结构化标注，涵盖主题、动作、氛围、风格、光线、色彩与构图等维度。该数据集最经典的使用场景在于训练无艺术家偏见的通用绘画风格模型，适用于图像描述生成、风格迁移、扩散模型以及视觉语言模型的学习任务。研究者无需从包含75,313幅图像的完整数据集中筛选，即可直接获取匿名作品子集，大幅降低数据加载与存储成本，为跨流派、无特定艺术家干扰的绘画理解与生成研究提供了高效且精准的数据支撑。

实际应用

实际应用中，该数据集可服务于多个创意与文化产业场景。数字艺术平台可利用其训练无偏见风格推荐系统，帮助用户发现跨越时代的匿名杰作；文化遗产机构可借助模型实现对无署名画作的自动断代、流派分类及主题描述，助力数字化典藏与知识普及。在广告设计、影视美术与游戏原画等创作领域，基于该数据集的生成模型能够融合多元历史风格，生成新颖的视觉元素，而无需担忧侵犯特定艺术家的署名权或版权，体现了其在开放版权环境下的实用性与合规优势。

衍生相关工作

作为OpenBrush-75K的精选子集，该数据集衍生了一系列针对特定艺术家、流派或题材的专注性子集，涵盖梵高、莫奈、伦勃朗、雷诺阿等名家以及印象派、文艺复兴、浮世绘、巴洛克、宗教艺术等方向。这些子集共同构建了一个层次分明、兼容并蓄的艺术研究生态，支持从个体风格微调到跨流派对比分析的多样化实验路径。此外，数据集中结构化标注的标准化工作，带动了基于LLM的语义映射和VLM图像标注方法在艺术领域的应用，推动了可解释、可复用的视觉描述管线的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集