openbrush-impressionism

Hugging Face2026-05-08 更新2026-05-09 收录

下载链接：

https://huggingface.co/datasets/jaddai/openbrush-impressionism

下载链接

链接失效反馈

官方服务：

资源简介：

OpenBrush Impressionism 是一个专注于印象派艺术作品的精选数据集，源自 OpenBrush-75K 数据集的最大流派子集。该数据集包含 12,798 幅印象派艺术作品，每幅作品均配有详细的标注和元数据。标注采用结构化格式，包含九个独立字段（如主题、动作、场景、情绪、风格描述、光照、色彩、构图等）以及完整的结构化标注文本。数据集适用于图像到文本、文本到图像、图像分类等任务，特别适合训练和理解印象派视觉语言（如破碎的笔触、色彩光理论、户外场景等）。所有图像均为公共领域作品，标注内容采用 MIT 许可证发布。数据集加载方便，支持通过 Hugging Face 的 `load_dataset` 函数直接使用。

创建时间：

2026-04-27

原始信息汇总

OpenBrush Impressionism 数据集概述

基本信息

数据集名称: OpenBrush Impressionism
许可证: MIT
语言: 英语
任务类型: 图像到文本、文本到图像、图像分类
数据集大小: 12,798 张图像（10K < n < 100K）
数据格式: Parquet 文件（包含图像 PNG 字节）

数据集来源与背景

这是 OpenBrush-75K 数据集的子集，专注于印象派（Impressionism）艺术运动
父数据集: jaddai/openbrush-75k
所有图像、标注和元数据与父数据集完全一致，未经任何修改或重新标注
底层艺术品均为公共领域作品（所有艺术家于 1954 年前去世）

数据集特点

最大单一艺术运动子集: 印象派视觉语言训练的理想数据源
覆盖印象派核心特征: 破碎笔触、光线-色彩理论、户外写生（plein-air）、大气透视
筛选条件: 从父数据集中过滤 style == "Impressionism" 得到

标注方案

每条数据记录包含一个完整的结构化描述（caption_full）及 9 个独立字段：

字段	描述
TAGS	逗号分隔的标准描述性标签
SUBJECT	主要主题描述
ACTION	动作、姿态、发生的事件
SETTING	环境和上下文
MOOD	情感基调和氛围
STYLE	艺术技巧和风格分析
LIGHTING	光线方向、质量、色温
COLOR	调色板及色彩关系
COMPOSITION	构图、平衡、焦点

数据模式（Schema）

字段	类型	描述
`id`	string	唯一标识符
`image`	Image	艺术品图像（PNG 字节）
`width`	int	图像宽度（像素）
`height`	int	图像高度（像素）
`artist`	string	艺术家姓名
`style`	string	艺术运动/风格
`genre`	string	艺术类型
`tags`	list[string]	标准描述性标签
`subject`, `action`, `setting`, `mood`, `style_description`, `lighting`, `color`, `composition`	string	各维度标注字段
`caption_full`	string	完整结构化标注
`source_file`	string	原始文件名

加载方式

python from datasets import load_dataset

dataset = load_dataset("jaddai/openbrush-impressionism") print(len(dataset["train"])) # 输出: 12,798

相关子集

搜集汇总

数据集介绍

构建方式

OpenBrush Impressionism数据集源自更大规模的OpenBrush-75K语料库，是其中唯一聚焦于印象派艺术运动的数据子集。通过精确的过滤条件“style == 'Impressionism'”，从总计75,313幅绘画作品中精选出12,798幅印象派杰作。每一幅图像均保持原始尺寸与无损PNG格式，并附带由Qwen3-VL-30B-A3B视觉语言模型生成的、遵循v2结构化标注模式的详细描述文字，涵盖标签、主体、动作、场景、情绪、风格、光照、色彩与构图九个独立维度。

特点

该数据集的核心价值在于其高度专业化的艺术运动聚焦性，是当前公开可用的、单一绘画风格规模最大的印象派图像集合。所有艺术品均来自公有领域，来源可靠且无版权争议。描述文字采用结构化多字段解析设计，不仅提供完整的长文本描述，还将视觉分析拆解为九个可独立查询的子字段，极大便利了细粒度的视觉语言理解与生成任务。数据集遵循MIT许可协议，便于学术与商业应用。

使用方法

用户可通过HuggingFace Datasets库快速加载该数据集，使用一行Python命令即可获取12,798条训练数据：`load_dataset('jaddai/openbrush-impressionism')`。每条记录包含图像、艺术家信息、风格流派、完整描述及九个结构化解剖字段，可直接用于图像描述生成、文生图扩散模型训练、图像分类及视觉语言模型微调等任务。对于仅需印象派风格数据的用户，此子集避免了下载完整75K数据集的带宽与存储开销，是实现高效针对训练的理想选择。

背景与挑战

背景概述

OpenBrush Impressionism数据集源于2026年由研究人员jaddai从OpenBrush-75K语料库中精心筛选而成，专注于印象派绘画这一艺术运动。作为目前规模最大的单运动风格子集，其收录了12,798幅公共领域绘画作品，旨在为计算机视觉与多模态学习领域提供高质量的印象派视觉语言训练资源。该数据集通过结构化标注框架（涵盖标签、主体、动作、场景、氛围等九个维度）和基于Qwen3-VL-30B-A3B模型生成的精细描述，为图像理解、文本生成图像及视觉语言模型等任务提供了专业化的数据支撑，推动了艺术计算与AI创造性表达的交汇发展。

当前挑战

该数据集所解决的领域挑战在于弥合艺术图像语义深层理解与通用视觉模型之间的鸿沟——印象派绘画以其破碎笔触、光线色彩理论和外光场景为核心，传统数据集往往难以捕捉此类抽象艺术风格的内在规则与情感表达。在构建过程中，研究人员面临如何从75,313幅母集图像中精准过滤出12,798幅印象派作品的艰巨任务，同时需确保标注信息的一致性与结构化完整性，避免因自动生成描述带来的语义偏差，以及平衡艺术属性间复杂关联的标注质量与数据集规模之间的关系。

常用场景

经典使用场景

在计算机视觉与艺术史计算分析的交叉领域，OpenBrush Impressionism数据集凭借其聚焦单一画派的专业特性，成为训练和评估视觉语言模型（VLM）及扩散模型对印象派绘画风格理解能力的经典资源。数据集中12,798幅高分辨率画作均源自公共领域，并附有结构化文本描述，涵盖主体、动作、环境、情绪、光线、色彩与构图等维度。研究者可将其用于图像描述生成、风格迁移、基于文本的艺术品检索等任务，尤其是在需要模型精准捕捉印象派标志性手法——如破碎笔触、光色理论与大气透视——的场景中，该数据集提供了稀缺的高质量训练样本。

衍生相关工作

该数据集的发布催生了一系列开创性研究工作，最直接的是围绕OpenBrush-75K母集展开的图像描述精细化研究，其中利用其结构化标注训练了更适应艺术领域的视觉问答（VQA）模型。此外，衍生出的单艺术家子集（如openbrush-monet、openbrush-van-gogh）被广泛用于艺术家风格迁移与个性化生成领域，推动了可控图像生成中风格解耦与组合技术的前沿进展。学术界还基于此数据集进行了跨数据集迁移学习的系统评估，验证了在印象派数据上预训练的特征提取器对于通用艺术图像理解任务的有效性。这些工作共同奠定了AI理解艺术运动视觉语言的研究范式基础。

数据集最近研究