openbrush-portraits

Hugging Face2026-05-09 更新2026-05-10 收录

下载链接：

https://huggingface.co/datasets/jaddai/openbrush-portraits

下载链接

链接失效反馈

官方服务：

资源简介：

OpenBrush Portraits 是一个精选的子集，源自 OpenBrush-75K 数据集，专注于肖像画。该数据集包含 13,059 幅跨越不同艺术家、流派和世纪的肖像画，适用于多样化的历史绘画风格肖像训练数据。数据集采用 MIT 许可证，所有艺术品均为公共领域（艺术家均于 1954 年前去世）。每幅画作配有详细的结构化标注，包括 9 个独立字段：TAGS（标签）、SUBJECT（主题）、ACTION（动作）、SETTING（场景）、MOOD（情绪）、STYLE（风格）、LIGHTING（光线）、COLOR（色彩）和 COMPOSITION（构图）。此外，还提供完整的结构化标注（caption_full）。数据集字段包括唯一标识符（id）、图像（image）、宽度（width）、高度（height）、艺术家（artist）、风格（style）、流派（genre）、标签列表（tags）以及各标注字段。数据集适用于图像到文本、文本到图像、图像分类等任务。

创建时间：

2026-04-27

原始信息汇总

OpenBrush Portraits 数据集详情

数据集概述

OpenBrush Portraits 是从 jaddai/openbrush-75k 数据集中筛选出的肖像画子集，包含跨越所有艺术家、艺术运动和世纪的历史肖像画作。该子集专为需要多样化历史绘画风格肖像训练数据的用户设计。

核心统计

图片总数： 13,059 张
数据来源： OpenBrush-75K v1.1（筛选子集）
许可证： MIT
标注模式： v2 结构化标注

筛选条件

从父数据集中按 genre == "portrait" 筛选得到。覆盖广泛历史时期，包括文艺复兴半身肖像、巴洛克明暗对比、洛可可社交、浪漫主义、现实主义、印象派、后印象派、表现主义等。

数据模式 (Schema)

字段	类型	描述
`id`	string	唯一标识符
`image`	Image	艺术品图像（PNG 格式）
`width`	int	图像宽度（像素）
`height`	int	图像高度（像素）
`artist`	string	艺术家姓名
`style`	string	艺术运动/风格
`genre`	string	体裁
`tags`	list[string]	标准化描述标签
`subject`	string	主体描述
`action`	string	动作、姿态
`setting`	string	环境和背景
`mood`	string	情感基调和氛围
`style_description`	string	艺术技巧和风格分析
`lighting`	string	光线方向、质量、色温
`color`	string	调色板和色彩关系
`composition`	string	构图、平衡、焦点
`caption_full`	string	完整结构化标注
`source_file`	string	原始文件名

标注结构

每条数据包含 caption_full 及 9 个独立字段：

TAGS： 逗号分隔的标准化描述标签
SUBJECT： 主要主体描述
ACTION： 运动、姿态、发生的事件
SETTING： 环境和背景
MOOD： 情感基调和氛围
STYLE： 艺术技巧和风格分析
LIGHTING： 光线方向、质量、色温
COLOR： 调色板和色彩关系
COMPOSITION： 构图、平衡、焦点

与父数据集的关系

本数据集是 jaddai/openbrush-75k v1.1 的一个筛选切片。所有图像、标注和元数据与父数据集中完全一致，未进行任何重新标注或修改。若需要完整的 75,313 幅画作，请使用父数据集。

使用示例

python from datasets import load_dataset

dataset = load_dataset("jaddai/openbrush-portraits") print(len(dataset["train"])) # 13,059

example = dataset["train"][0] print(example["caption_full"])

引用信息

bibtex @dataset{openbrush_openbrush_portraits, title={OpenBrush Portraits}, author={jaddai}, year={2026}, publisher={Hugging Face}, url={https://huggingface.co/datasets/jaddai/openbrush-portraits}, note={Curated subset of openbrush-75k} }

搜集汇总

数据集介绍

构建方式

OpenBrush Portraits是从大规模绘画数据集OpenBrush-75K中精心筛选出的肖像画子集，共计13,059幅图像。该子集严格沿用父数据集的MIT许可协议、标注模式与视觉语言模型（Qwen3-VL-30B-A3B）生成的描述体系，未对图像或标注信息进行任何二次修改。构建过程依据父数据集中'genre'字段条件（genre == 'portrait'）进行过滤，从而在保留艺术家、流派、年代等多维元数据的同时，实现数据量的精确压缩与聚焦。

特点

该数据集横跨文艺复兴、巴洛克、洛可可、浪漫主义、现实主义、印象派、后印象派及表现主义等众多艺术运动，涵盖半身肖像、戏剧性明暗对比、社会群像等丰富画种。每条样本不仅包含图像本身，还提供9个结构化的标注字段（TAGS / SUBJECT / ACTION / SETTING / MOOD / STYLE / LIGHTING / COLOR / COMPOSITION）以及完整的组合描述文本'caption_full'，形成了高度系统化的绘画语义层次，便于多模态模型进行细粒度理解与生成。

使用方法

用户可通过Hugging Face Datasets库直接加载，仅需调用load_dataset('jaddai/openbrush-portraits')即可获取包含13,059个样本的训练集。每个样本以parquet格式存储，包含图像二进制数据、尺寸、艺术家、风格、流派等元信息，以及结构化描述字段。该子集特别适用于肖像画风格迁移、受限图像生成、图像描述（captioning）以及视觉语言模型的微调任务，亦可作为历史绘画风格多样性研究的数据底座。

背景与挑战

背景概述

OpenBrush Portraits数据集由研究者jaddai于2026年创建，源自OpenBrush-75K v1.1版本，专注于从横跨文艺复兴、巴洛克、洛可可、浪漫主义、现实主义、印象派及表现主义等众多艺术运动的13,059幅肖像画作中提炼高质量数据。该数据集以MIT许可协议发布，采用结构化的VLM（Qwen3-VL-30B-A3B）生成标题，包含TAGS、SUBJECT、ACTION等九维度注释体系，旨在为图像描述、文本到图像生成、图像分类及视觉语言模型提供精细化的艺术肖像数据基础。作为开原艺术数据领域的重要分支，它有效缓解了现有数据集在历史绘画风格多样性上的不足，助力细粒度艺术分析与生成任务的发展。

当前挑战

该数据集面临的核心挑战包括：其一，肖像画跨风格识别难题——从文艺复兴细腻写实到表现主义抽象变形，模型需理解不同时代、画派在构图、光线、情感表达上的根本差异，现有通用图像分类器在此类历史跨度内容上常出现风格混淆。其二，结构化描述构建的复杂性——利用大语言模型生成九维标签需保证术语一致性（如“明暗对比法”在巴洛克与浪漫主义中的不同定义），父数据集75,313幅的体量对标注质量控制与语义映射算法提出了严苛要求，过滤出的肖像子集需额外处理帽子、珠宝等常见配饰导致的主题歧义问题。

常用场景

经典使用场景

在计算机视觉与多模态生成领域，openbrush-portraits数据集汇聚了横跨文艺复兴、巴洛克、洛可可、浪漫主义、现实主义、印象派及表现主义等艺术流派的13,059幅肖像画作，为研究者提供了一座跨越数百年的视觉艺术宝库。其经典使用场景集中于图像描述生成，尤其是针对历史绘画风格肖像的精细化结构化描述——每幅图像均附有TAGS、SUBJECT、ACTION、SETTING、MOOD、STYLE、LIGHTING、COLOR、COMPOSITION九大维度的标注，支持从主体、动作到光影、色彩的全方位解析，成为训练视觉语言模型进行艺术领域多模态理解与文本生成任务的理想基石。

衍生相关工作

基于该数据集，学术界已衍生出一系列经典工作，包括面向艺术图像的结构化描述生成模型、跨风格肖像画检索系统以及基于VLM的艺术批评辅助工具。Hugging Face社区围绕其父数据集openbrush-75K构建了多个专业化子集，如聚焦单一艺术家的openbrush-van-gogh与openbrush-rembrandt，以及按流派划分的openbrush-impressionism与openbrush-baroque，形成了从整体到局部的分层研究体系。这些派生数据集使研究者能够针对特定艺术运动或大师风格开展精准的对比实验，进一步催生了风格可控的图像生成、艺术史时间轴的可视化分析等前沿探索。

数据集最近研究

最新研究方向

该数据集聚焦于跨越文艺复兴至表现主义等多元历史时期的肖像画作，为视觉语言模型与图像生成领域提供了高度结构化的标注资源。近期前沿研究方向集中于利用其精细的语义标签体系（如主体、动作、情绪、光线等九维度描述）训练扩散模型及多模态理解系统，以提升对艺术风格、历史语境及情感氛围的精准捕捉与再创造能力。关联热点事件包括AIGC在文化遗产数字化中的广泛应用，以及视觉模型对艺术史知识嵌入的探索，该数据集作为连接古典艺术与当代生成技术的桥梁，对推动艺术风格迁移、文化传播与智能创作的教育意义深远。

以上内容由遇见数据集搜集并总结生成

jaddai/openbrush-portraits

OpenBrush Portraits是从OpenBrush-75K数据集中精选出的肖像画子集，包含13,059张跨越不同艺术家、艺术运动和世纪的肖像画。这些画作涵盖了从文艺复兴到印象派、后印象派、表现主义等多种历史绘画风格，适用于多样化的历史绘画风格肖像训练数据。数据集遵循MIT许可证，每幅画作都有详细的标注信息，包括标签、主题、动作、场景、情绪、风格、光线、色彩和构图等。数据集还提供了每幅画作

Hugging Face2026-04-27 更新10

openbrush-monet

OpenBrush Monet是一个专注于克劳德·莫奈作品的精选数据集，源自OpenBrush-75K数据集。包含1,334幅莫奈绘画作品，每幅都配有由Qwen3-VL-30B-A3B模型生成的结构化描述，详细涵盖主题、动作、场景、情绪、风格、光线、色彩和构图等方面。适用于图像到文本、文本到图像和图像分类等任务，特别适合研究印象派艺术。采用MIT许可证，所有艺术作品均属公共领域（艺术家均于1954

Hugging Face2026-05-08 更新00

openbrush-renoir

OpenBrush Renoir 是一个精选的子数据集，源自 OpenBrush-75K，专注于印象派画家 Pierre-Auguste Renoir 的艺术作品。该数据集包含 1,400 幅画作，每幅作品都配有结构化的视觉语言模型（Qwen3-VL-30B-A3B）生成的详细描述。描述内容包括多个方面：主题、动作、场景、情绪、风格、光线、色彩和构图。数据集适用于图像到文本、文本到图像和图像分类等

Hugging Face2026-05-08 更新00

openbrush-rembrandt

OpenBrush Rembrandt 是一个精选的子数据集，源自 OpenBrush-75K，专门收录了伦勃朗的绘画、蚀刻和素描作品。该数据集包含 776 幅图像，每幅图像都配有详细的结构化描述，涵盖主题、动作、场景、情绪、风格、光线、色彩和构图等多个方面。数据集适用于图像到文本、文本到图像和图像分类等任务，特别适合需要学习伦勃朗独特艺术风格（如单光源定向照明、深阴影和暖色调）的模型。所有图像均

Hugging Face2026-05-08 更新00

openbrush-impressionism

OpenBrush Impressionism 是一个专注于印象派艺术作品的精选数据集，源自 OpenBrush-75K 数据集的最大流派子集。该数据集包含 12,798 幅印象派艺术作品，每幅作品均配有详细的标注和元数据。标注采用结构化格式，包含九个独立字段（如主题、动作、场景、情绪、风格描述、光照、色彩、构图等）以及完整的结构化标注文本。数据集适用于图像到文本、文本到图像、图像分类等任务，特别

Hugging Face2026-05-08 更新50